支付业务数据涉及面广,包含PASA、PISAS、信用卡、农村支付、银行卡收单、支付机构等业务数据,同时数据量较大,需按月、季度、年度等不同频度进行报表统计,工作繁重,人工统计与数据分析存在准确率低的弊端。
为了更好地适应支付业务的大规模增长,满足业务数据分析需要,本文设计开发了一套支付业务数据统计分析系统,以业内前沿的设计思想为参考,结合实际发展需要,夯实大数据应用的技术基础,实现对支付行业数据的挖掘和使用,掌握地区的资金流量流向情况,为支付业务的属地监管提供可靠的数据来源,进一步提升了履职水平。
一、系统业务框架
(一)建设目标
系统采取总量分析、地区分析、行业分析、机构分析等功能,通过地图、折线图、柱状图、饼图、雷达图等可视化工具,多维度展示支付交易资金流动状态,通过分析统计地区支付体系的总体概要情况,提高统计分析质量,便于地方支付管理部门掌握整个地区的支付现状,为优化金融服务环境、维护支付结算秩序、支持地方经济发展提供有效支持。
系统每月向各金融机构提供支付月度数据,便于金融机构掌握支付市场情况,确保统计信息的完整性和权威性,对特约商户、支付机构的各项业务进行有效监管,统筹好监管与服务的关系,激发金融创新活力。
(二)业务架构
支付业务数据统计分析系统主要通过对支付业务数据(PSAS系统数据、PISAS系统数据、特约商户、银行卡收单等)、清算数据、工商数据、税务数据的采集和加工利用,形成报表中心、自由查询、景气分析、驾驶舱等业务功能。系统业务架构如图1所示。
图1 系统业务架构
数据采集模块包含数据申请、批量上报和DIS上报。其中,数据申请主要应用于清算数据使用过程中的申请流程;批量上报主要上报大额、小额、网银、银行卡、清算等数据;DIS上报主要采集PSAS系统数据、PISAS系统数据、清算数据、工商数据、税务数据。
统计分析模块包括报表中心、自由查询和景气分析。其中,报表中心主要包括PSAS数据、清算数据、特约商户、支付业务等24张数据报表;自由查询实现对农村支付指标、清算数据指标、支付机构指标的多维度自由组合查询;景气分析提供对自定义集群和行业的相关景气指标的分析。
驾驶舱模块主要提供银行结算账户、支付系统、地区间流量流向、行业间流量流向、非现金支付工具和集群景气分析的专题页面。
二、系统技术框架
支付业务数据统计分析系统遵循B/S架构,按照数据从采集、存储、加工、计算到业务应用展现等过程,采取多层技术体系架构。系统技术架构如图2所示。
图2 系统技术架构
数据采集层复用DIS系统数据统一采集平台,通过DIS系统进行数据报送,包括清算数据、支付业务数据、工商数据、税务数据和农村支付数据。
数据存储/加工/计算层,分租户存储不同来源数据,在大数据平台中进行数据清洗、加工,通过ETL调度,实现数据分层利用。
业务应用展现层以HTML、CSS为基础,采用Easy UI、Jquery等框架,通过浏览器进行解析并展示给用户。采用Ajax技术为用户提供前端和服务层各类服务的交互,用户可以通过Post请求进行数据提交,也可以通过Get请求进行数据查询。模版引擎渲染将服务层获取的数据进行渲染后提交给前端UI进行展现。
三、数据治理
为了持续提高数据质量、保证数据的安全性,实现数据资源在各部门的共享,推进信息资源的整合和对接,系统在设计之初借鉴业内先进的数据治理思想,加强系统的数据治理能力。数据治理内容主要包括数据安全、数据架构、数据质量、主数据、元数据、数据生命周期管理、数据模型、数据标准等方面。
(一)数据安全
数据在传输和存储过程中,对敏感数据进行全流程加密和权限控制,主要内容如下。
数据存储加密。
根据总体架构设计和数据架构设计,采用分布式存储,原则上相对独立,并设置配套的安全访问权限,同时对关键数据进行加密存储,避免明文带来的数据泄露等安全风险。
在系统数据使用和传输过程中,采用SM2软加密的方式对敏感字段进行加密,密钥长度和分组长度均为128位,系统生成的公钥和私钥直接存储在SM2文件内,保证数据安全。当数据需要解密使用时,可通过SM2生成的密钥进行解密,密钥也可通过appplication.yml文件进行配置。
数据访问控制。
对所有数据对象设定相应的权限。大数据安全管控平台对访问大数据平台的人员和程序的账号进行管理,明确定义组织角色。大数据安全管控平台提供从4A、AD、LDAP等用户管理系统中同步用户账号的能力,并且将账号变化及时同步到星环大数据平台Kerberos中,从而实现大数据平台的用户管理。
(二)数据架构
支付业务数据统计分析系统整体数据架构规划,从下到上分别是数据源层、数据仓库层、数据共享层,如图3所示。
图3 系统数据架构
数据源层用于对接各类不同通道来源的源数据,主要包括清算明细数据、支付业务数据、工商数据、税务数据、农村支付数据等。数据仓库层是系统的核心,数据仓库内部分为贴源层、基础数据层、数据汇总层、数据集市层,以及其他业务相关数据库。贴源层用于存储入库的原始数据;
基础数据层承担了原始数据从文件加载入库后的数据存储;数据缓冲层的数据结构设计将与数据接口的定义一致;数据汇总层将按照主题的方式进行模型设计,并从不同粒度进行数据汇总;根据应用的要求,应用集市层形成一个个应用主题的集市,采用星型、雪花型等多维结构进行数据模型的设计。数据共享层即应用层,用以支撑业务数据的调用和展现。
(三)数据质量
系统将从数据的真实性、准确性、唯一性、完整性、关联性等方面出发,对数据存储和传输的全过程进行把控,强化数据质量管理的理念,并把这一思想运用到数据生命周期管理的全过程。
(四)主数据
支付部门上传的各类业务数据是系统主数据,也是对今后跨系统、跨部门数据分析应用建设进行共享的核心业务实体数据。
(五)元数据
对系统主要数据进行支持的数据,包括指示数据存储位置、历史数据、资源查找、文件记录等内容。
(六)数据生命周期管理
系统将自动对重要数据进行每周一次的增量备份措施,保证特殊情况发生后数据的一致性。经过与业务部门的研究讨论,笔者将系统涉及的支付业务备份数据存储时间规定为10年。
(七)数据模型
数据模型主要用于向业务展现层提供数据支持,分为多维模型和报表数据模型。多维模型指以多维度数据集的形式查看数据,把数据看成立方体形式,围绕中心业务主题,创建不同的维度或数据子集来查看或显示数据。
报表数据模型指将离散结构的业务数据集按照主从关系组织成一种树状结构,整合关联数据集,以固定形式的数据列进行组合展示,数据可以在多个报表解析任务中共享。
(八)数据标准
对支付业务部门上报的数据进行统一要求,形成数据上报规范。
四、应用成果
系统对PISAS超过900个指标进行数据分析,使工作人员能够直观地掌握每个月PISAS的指标趋势,形成本期数据与上期数据、上一年同期数据的对比报表,了解各商业银行的业务发展情况。
系统录入近7亿条清算明细数据,通过清算与工商、税务、收单等数据关联,自动生成23张固定报表,对全省资金省内省外流动情况、行业发展情况进行分析,全面呈现全省经济发展状况,使支付管理部门的业务人员能够通过系统掌握整个地区的资金流量流向情况,为地市中支支付业务的属地监管提供可靠的数据来源。
同时,系统也与税务部门进行合作,通过集群景气分析,导入重点关注企业集群,自动生成该企业的所有汇总信息报表,减轻了支付部门和税务部门繁重的数据查询工作,提高了数据准确性,提升了支付部门的工作效率及履职水平。