郎丰利于2023年8月整理制作,碳排放数字化建设及数字化驾驶舱建设综合解决方案
整理制作:郎丰利1519 制作时间:2023年 睿利而行
整理制作:郎丰利1519 制作时间:2023年 睿利而行
整理制作:郎丰利1519 制作时间:2023年 睿利而行
郎丰利于2023年8月整理制作,碳排放数字化建设及数字化驾驶舱建设综合解决方案
整理制作:郎丰利1519 制作时间:2023年 睿利而行
整理制作:郎丰利1519 制作时间:2023年 睿利而行
整理制作:郎丰利1519 制作时间:2023年 睿利而行
企业数字化底座与数字化转型
解决方案
Page 2
议程
企业数字化底座与数字化综述1
企业数字化底座与数字化总体架构22
企业数字化底座与数字化规划设计33
企业数字化底座与数字化建设运营44
企业数字化底座与数字化未来展望55
整理制作:郎丰利1519 制作时间:2023年 睿利而行
整理制作:郎丰利1519 制作时间:2023年 睿利而行
整理制作:郎丰利1519 制作时间:2023年 睿利而行
Page 3
集团管理分析类应用建设现状基本分析
关注的内容关注的内容存在的问题存在的问题基本的现状基本的现状
集团数据仓库累积数据没有充分利用
缺乏面向整个集团的统一、完整的数
据视图;
缺乏支撑集团日常业务运转的风险评
估体系;
缺乏集团客户360度视图,客户行为
分析和预测无法实现;
缺乏面向金融业务运营管理的关键绩
效指标体系;
……
集团已建立面向整个扶贫的数据仓库,
整合了前台业务运营数据和后台管理
数据,建立了面向扶贫的管理分析应
用;
集团已开展供应链金融、人人贷和保
理等多种业务,积累了一定量的业务
数据,同时业务人员也从客户管理、
风险评级和经营规模预测等方面,提
出了大量分析预测需求;
……
数据平台、数据应用、数据管控数据平台、数据应用、数据管控…………
基础数据平台和基础数据平台和BIBI应用建设是未来一段时间的重点!应用建设是未来一段时间的重点!
数据平台整体架构;
数据平台各层建设的标准;
较成熟的金融业数据模型;
数据质量治理;
元数据管理;
数据标准建设
数据整合;
数据应用建设;
数据平台的软硬环境
……
Page 4
企业数字化底座与数字化建设目标
外部非结构化数据
统一制定目标和分
析模型
统一划分分析主题
统一设计数据模式
统一规划分析方法
统一部署技术基础
统一定义BI 应用
自定义报表工具自定义报表工具
行+列的简单定义方式行+列的简单定义方式
多种格式报表多种格式报表
集团决策层集团决策层
集团职能管控层集团职能管控层
各级业务操作层各级业务操作层
关注集
团主
关注集
团主
要经营
指标
要经营
指标
业
务
人
员
使
用
业
务
人
员
使
用BIBI应
用
实
应
用
实
现
业
务
协
作
和
创
新
现
业
务
协
作
和
创
新
BI BI 分析工具分析工具
供应链金融系统
POP系统 其他业务系统
云数据推送平台已实现了
主要扶贫及金融业务系统
数据清洗、整合,为未来
集团数据平台提供了丰富
的数据源。
通过数据平台和BI应用建设,集团将搭建统一的大数据共享和分析平台,对各类业务进行前瞻
性预测及分析,为集团各层次用户提供统一的决策分析支持,提升数据共享与流转能力
采购管理系统
查看职能部门的
查看职能部门的业务经营情况
业务经营情况
Page 5
企业数字化底座与数字化建设预期收益
2.加强业务协作
实现分散在供应链金融、人人贷、保理等各个业务系统中的数据在数据平台中的集
中和整合,建立单一的产品、客户等数据的集团级视图,有效促进业务的集成和协
作,并为集团级分析、交叉销售提供基础
3.促进业务创新 集团业务人员可以基于明细、可信的数据,进行多维分析和数据挖掘,为金融业务
创新(客户服务创新、产品创新等)创造了有利条件
4.提升建设效率
通过数据平台对数据进行集中,为管理分析、挖掘预测类等系统提供一致的数据基
础,改变现有系统数据来源多、数据处理复杂的现状,实现应用系统建设模式的转
变,提升相关IT系统的建设和运行效率
5.改善数据质量 从中长期看,数据仓库对集团分散在各个业务系统中的数据整合、清洗,有助于集
团整体数据质量的改善,提高的数据的实用性
通过数据平台实现数据集中,确保集团各级部门均可在保证数据隐私和安全的前提
下使用数据,充分发挥数据作为集团重要资产的业务价值
1.实现数据共享
Page 6
议程
企业数字化底座与数字化综述11
企业数字化底座与数字化总体架构2
企业数字化底座与数字化规划设计33
企业数字化底座与数字化建设运营44
企业数字化底座与数字化未来展望55
整理制作:郎丰利1519 制作时间:2023年 睿利而行
整理制作:郎丰利1519 制作时间:2023年 睿利而行
整理制作:郎丰利1519 制作时间:2023年 睿利而行
Page 7
企业数字化底座与数字化总体架构
历史数
据查询
数据交换平台
某省市数据区
集团扶贫 供应链金融 人人贷系统 基金系统 ……系统集团内外部半结构化、非结构化数据
大数据交换组件 数据库数据交换组件 数据区数据交换组件
数据计
算层
大数据区
沙盘演练数据区
数据应
用层
实
时
数
据
区 客户主题 协议主题 产品主题
业务沙盘演练
数据增
值产品
扶贫数据 供应链数据
增值产
品数据区
主
题
数
据
区
… …
用户访
问层
客户汇总 账户汇总 机构汇总 … …
社交媒体
某著名企业互联
用户评价
访问日志
处
理
后
大
数
据
待
处
理
大
数
据
流
程
调
度
监
控
告
警
数
据
标
准
数
据
质
量
元
数
据
数
据
安
全
流程
调度
平台
…
…
数据
管控
平台
流
程
调
度
层
数
据
管
控
层
数据
产生层
数据交
换层
实时数
据查询
客户管理 财务管理 ……
外部用户
贴源数据区……
管理分析
用户
历
史
归
档
数
据
区
IT人员
风险管理
Page 8
企业数字化底座与数字化总体架构——数据产生层
业务系统产生的结构化数据
集团日常扶贫处理过程中产生的结构化数据,存储在关系型数据库中,如:供应商信息、采购信息、商品信息、销售流水……
集团日常业务处理过程中产生的结构化数据,存储在关系型数据库中,如:客户信息、账户信息、金融产品信息、交……
集团非结构化数据
日常业务处理过程中产生的非结构化数据,存储形式多样,主要包括用户访问日志、用户投诉、用户点评……
集团外部数据
集团外部数据以非结构化为主,主要包括国家政策法规、信息、地理位置等某著名企业信息、微博等社交媒体信息……
源数据内容
在本次项目实施中将采用以增量为主、全量为辅结合的方式获取源数据
集团和集团业务系统的数据
增量数据识别、获取由云数据推送平台负责,云数据推送平台采用分析、对比源系统日志方式实现
对于无法通过上述方式获取增量的源系统数据,则采用某一个时间范围内的全部数据作为增量
初始数据加载均采用全量模式
源数据增量
Page 9
企业数字化底座与数字化总体架构——数据交换层
数据交换层设计目标
传输组件是根据数据源存储的不同分类而设计的,本质是通过分析数据存储结构和数据存储
库的特点来针对性的设计工具,以追求卓越的性能
保证数据在平台内高速流转
保证数据交换过程中不失真
保证数据交换过程中不丢失
保证数据交换过程安全可靠
数据区数据交
换组件
数据库数据交
换组件
大数据交换组
件
集团系统
数据服务层
外部
大数
据集团系统
Hadoop
元数据
云数据推送平台
数据平台导入
临时区
数据平台导出
临时区
NAS 存储
ETL
程序
区
Page 10
企业数字化底座与数字化总体架构——数据交换层NAS存储
HadoopHadoop集群元数集群元数
据区据区
数据平台数据平台ETLETL数数
据处理程序区据处理程序区
数据平台临时数数据平台临时数
据区据区
存储数据平台各个Hadoop集群的元数据信息,如:HDFS文件系
统元数据
集团数据交换平台每日获取运输局推送平台提供的业务系统变
化数据,暂存在NAS临时数据区
金融数据平台加工计算结果返回给业务系统,暂存在NAS临时
数据区
数据平台ETL加工处理程序(数据压缩、数据加载、各数据数据
处理等)统一存储在NAS集群指定目录,各接口服务器通过文件
系统Link建立映射
Page 11
企业数字化底座与数字化总体架构——数据交换层大数据交换组件
集团非结构化、半
结构化数据,如:
音频、视频、邮件、
Office文档、抵押品
扫描件等
集团外部非结构化、
半结构化数据,如:
微博、贴吧、击流、
用户某著名企业位
置等
批量采集:大数据
源以SFTP协议批量
传输数据文件
在线访问:开发
Java或C应用,调
用大据源API,或以
网络平台爬虫方式
抓取源系统非结构
化、半结构化数据
组件以实时和批量
两种模式实现下列
功能:
数据采集
数据传输到数据交换
平台(接口服务器)
NAS指定目录
存储数据到数据平台
大数据区指定HDFS
目录
定时抽取用户访问
日志,加载到数据
平台大数据区HDFS
指定目录,MR程序
加工处理
开发网络爬虫程序,
扫描用户微博,抓
取用户微博内容,
社交圈信息,存入
大数据区
处理对象 实现技术实现功能 应用场景
Page 12
企业数字化底座与数字化总体架构——数据交换层数据库数据交换组件
集团业务系统产生的
结构化数据,包括两
大来源:
集团扶贫数据,数据存
储在Oracle、
SQLServer、MySQL
和MongoDB四类数据
库
集团互联网金融业务数
据,数据存储在
MySQL数据库
Perl程序
数据采集,调用
Perl文件模块相关函
数,轮询指定目录,
获取数据文件
数据核查,Perl执行
文件级数据质量检查
数据加载,调用
Hive Load数据命令,
加载到数据平台临时
数据区的Hive Table
组件以实时和批量模
式实现下列功能:
数据采集,轮询NAS集
群指定目录,获取数据
文件(LZO压缩)
数据核查,对数据文件
进行质量校验
数据加载,加载数据到
临时数据区
云数据推送平台连接
供应链金融系统数据
库,分析供应链金融
MySQL数据库日志,
识别增量数据,存储
到金融平台NAS存储
的指定目录,金融平
台加载数据文件到数
据平台临时区Hive表
处理对象 实现技术实现功能 应用场景
Page 13
企业数字化底座与数字化总体架构——数据交换层数据区数据交换组件
数据平台计算层各
数据区
贴源数据区
主题数据区
集市数据区
沙盘数据区
大数据区
归档数据区
Sqoop某省市数据
区与数据平台其他
Hadoop数据区的数
据交换
Hadoop 命令、
Hive外部表、MR程
序实现数据平台
Hadoop数据区间的
数据交换
组件以批量方式实现
下列数据交换功能:
贴源数据区和主题数
据某省市数据区
大数据区到主题数据
某省市数据区
主题数据区、贴源数
据某省市数据区到沙
盘数据区
各个数据区数据归档
某省市的数据按照
据生命划,统一将
过期数据归档到历
史数据归档区
处理对象 实现技术实现功能 应用场景
Page 14
企业数字化底座与数字化总体架构——流程调度层批量处理流程
批量数据处理由流程调度层部署的
自定义开发WorkFlow组件调度运行
整个流程主要完成如下工作:
1. 获取业务系统结构化数据,存
入临时数据区
2. 获取集团内外部非结构化数据,
并进行结构化处理,存入主某
省市数据区
3. 按照贴源数据模型整合数据
(标准化、数据更新/追加)
4. 按照主题数据模型整合数据并
生成汇总
5. 数据加工计算后,结果交付到
某省市,支持分析类应用
Page 15
企业数字化底座与数字化总体架构——流程调度层实时数据处理流程
实时数据处理强调的是实时或准实时获
取并处理数据,通常采取消息队列等技
术构建“数据流”
整个处理流程由流程调度层部署的自定
义开发WorkFlow组件调度运行
整个流程主要完成如下工作:
1. 通过数据库数据交换组件获取增量
数据,加载到实时数据区
2. 通过大数据交换组件获取非结构化
数据,并利用Storm处理数据,加
载到实时数据区
3. 针对实时数据区数据执行标准化处
理和贴源整合
Page 16
企业数字化底座与数字化总体架构——流程调度层归档数据处理流程
数据归档的对象包括业务系统数据文件、贴源数
据区数据、主题数据区数据、大数据区数某省市
数据区数据
数据按照生命划存储到归档区Hadoop集群,归
档后原数据区删除此数据
整个处理流程由流程调度层部署的自定义开发
WorkFlow组件调度运行
整个流程主要完成如下工作:
1. 数据文件通过HDFS命令行copyfromlocal
进行归档
2. 贴源、主题和大数据区通过HDFS命令行
distcp或自定义开发的MR程序执行归档
3. 集市数据区通过Sqoop或数据库提供的
Hadoop集成技术(如:外部表)执行归档
Page 17
企业数字化底座与数字化总体架构——数据存储层
业务系统前日增量数据
缓存数据,支持后续ELT数据处理
数据内容
主要用途
数据模型
保留
用户
访问模式
工作负载
平台要求
贴源数据模型
保存最近7天数据
贴源数据区和主题数据区批量作业访问
无最终用户访问
I/O敏感,连续小批量的数据抽取和加载
少量量数据使用Hive的Load命令,大量数据使用MR程序
与主题区/贴源某省市区构成一个Hadoop集群(Hive)
无单点故障,7×24小时+非工作日有限停机
主题数据某省市数据区和沙盘演练数据区批量作业访问
无最终用户访问
I/O敏感,日终批量ETL
以ELT形式通过Hive SQL执行
与主题区/贴源某省市区构成一个Hadoop集群(Hive)
无单点故障,7×24小时+非工作日有限停机
贴源数据模型
不保存历史
业务系统前日快照数据和一段时间的流水数据
数据标准化,为后续主题模某省市和沙盘演练提供数据
临时数据区 贴源数据区
Page 18
企业数字化底座与数字化总体架构——数据存储层(续)
集团内外部非结构化、半结构化数据
采集并存储数据,进行结构化处理,最终得到结构化数据
数据内容
主要用途
数据模型
保留
用户
访问模式
工作负载
平台要求
数据按照HDFS文件存储
建议保留1年
集市区/沙盘区/增值产品区/主题区/归档区批量作业访问
少量高级业务人员进行大数据分析
MapReduce 分布式计算,半/非结构化数据的结构化处理
(包括文本检索、语义分词、图像识别、音频识别等)
与主题区/贴源区构成一个Hadoop集群(HDFS)
无单点故障,7×24小时+非工作日有限停机
集市区/沙盘区/增值产品区/主题区/高时效区批量作业访问
业务人员执行历史数据查询
MapReduce分布式计算,HDFS命令实现Hadoop集群内归
档,Sqoop实现数据库归档,通过Hive提供历史查询
独立的Hadoop集群(HDFS+Hive)
无单点故障,7×24小时+非工作日有限停机
数据按照HDFS文件存储
数据文件按照数据区划分目录,建议保留7年
其他各数据区历史数据
按数据生命划归档平台过期数据,支撑历史数据查询
大数据区 历史归档数据区
Page 19
企业数字化底座与数字化总体架构——数据存储层(续)
业务系统历史明细数据
打破业务条线整合数据
数据内容
主要用途
数据模型
保留
用户
访问模式
工作负载
可用性要求
第三范式模型
保留长期历史,需要根据主题细化
主题某省市区/沙盘区/增值产品区/归档区批量作业访问
少量高级业务人员进行灵活查询、挖掘预测
I/O敏感,日终批量ETL (合并、拉链、关联、汇总等等)
以ELT形式通过Hive SQL执行,复杂处理使用MR定制UDF
与大数据区/贴源区构成一个Hadoop集群(Hive)
无单点故障, 7×24小时+非工作日有限停机
集市区/沙盘区/增值产品区/归档区批量作业访问
少量高级业务人员进行灵活查询、挖掘预测
I/O敏感,日终批量ETL (连接、聚合、汇总等等)
以ELT形式通过Hive SQL执行,复杂处理使用MR定制UDF
与大数据区/贴源区构成一个Hadoop集群(Hive)
无单点故障,7×24小时+非工作日有限停机
逆范式宽表
依某省市数据需求
对主题数据预加工后的结果数据
针对应用需求进行数据预连接、预汇总某省市提供数据
主题数据区—明细 主题数据区—汇总
Page 20
企业数字化底座与数字化总体架构——数据存储层(续)
按沙盘演练需求,准备的明细或汇总业务数据
为数据科学家的挖掘预测操作提供数据服务
数据内容
主要用途
数据模型
保留
用户
访问模式
工作负载
可用性要求
模型依赖于沙盘演练需求
在整个沙盘演练保留
集市区/沙盘区/归档区批量作业访问
少量高级业务人员进行灵活查询、挖掘预测
I/O敏感,终批量ETL (合并、拉链、关联、汇总等等)
以ELT形式通过Hive SQL执行,复杂处理使用MR定制UDF
独立的Hadoop集群(HDFS)
无单点故障,7×24小时+非工作日有限停机
沙盘区/归档区批量作业访问
决策人员、管理人员、业务人员访问
I/O敏感型,BI工具提交的报表、查询、分析SQL命令和日终
批量ETL(汇总、聚集等操作,以ELT形式通过SQL执行)
基于开放平台的完全无共享 MPP 数据库集群+内存数据库
无单点故障,7×24小时+非工作日有限停机
维度数据模型
依赖业务需求
面向集团管理分析类应用需求的汇总数据
为客户、运营等管理分析主题和数据增值产品提供数据服务
沙盘演练数据区 某省市数据区
Page 21
企业数字化底座与数字化总体架构——数据存储层(续)
根据外部用户的数据使用需求数据平台加工计算的结果数据
为部署在数据平台上的集团内外部增值产品提供数据支持
数据内容
主要用途
数据模型
保留
用户
访问模式
工作负载
可用性要求
应用模型,依赖于用户业务需求
依赖于用户业务需求
集团外部人员,如:客户
通过自己部署在Paas平台上的应用访问
I/O敏感型,BI工具提交的报表、查询、分析SQL命令和日终
批量ETL(汇总、聚集等操作,以ELT形式通过SQL执行)
独立的Paas平台,部署Hadoop集群
无单点故障,7×24小时+非工作日有限停机
集团业务人员
高时效、高并发、高可靠性的联机交询
CPU敏感,BI工具或业务系统高并发、高时效查询,以及准
实时连续ETL处理+SQL批量处理
独立的内存数据库集群
无单点故障,365×24小时不停机
贴源数据模型
依赖用户业务需求
面向应用的业务系统快照数据和一段时间的交
为实时获准实时分析应用提供数据服务
增值产品数据区 实时数据区
Page 22
企业数字化底座与数字化总体架构——数据存储层数据流
数据集成层
操作型聚合数据
临
时
数
据
区
实时数据区
公
共
汇
总
数
据
主
题
明
细
数
据
结构化数据 非结构化&半结构化数据
沙盘演练数据区 实验室数据
集市数据区 POP自营数据
贴源数据区
金融业务数据
主题数据区
客户某省市
财务某省市
运营某省市
风险某省市
某省市
大物流系统数据
供应链系统数据
财务审计数据
财务研发数据
操作型明细据归档数据区
大数据区
源系统
数据文件
贴源数据
主题数据
集市数据
高时效
数据
大数据
增值产品数据区
Page 23
企业数字化底座与数字化总体架构——数据应用层
大数据大数据
平台应用平台应用
针对公检法查询需求、内外部审
计需求和最终用户的历史交需求,
以贴源存储的归档数据为基础,
实现的查询类应用
历史查询类应用通常使用BI 工具
或自主开发实现
客户经理等最终业务人员针对当
前业务的发生(如:用户交易、
用户访问日志),进行实时查询、
分析的应用
管理分析类应用主要实现了集团
客户管理、运营管理、财务管理、
风险管理、监管信息披露五大分
析体系功能
管理分析类应用通常采用套装软
件和BI工具(MicroStrategy等)
实现
业务人员根据业务需求或自己对
业务的理解,设计计算模型,准
备各类明细或汇总数据,导入模
型运算,验证业务结果
沙盘演练类应用通常使用R语言
在Hadoop分布式体系下实现
集团数据科学家根据自己对业务
需求的理解某省市场的判断,设
计并运行模型,发掘数据价值,
并封装成商业产品
数据增值产品通常采用R语言和
BI工具实现,面向集团内外部用
户
管理分析类应用1
沙盘演练类应用3
历史查询类应用4
高时效类分析应用5
数据增值类产品2
实时分析类应用通常使用CEP
、ESB等技术实现
Page 24
企业数字化底座与数字化总体架构——平台发展不同阶段对应应用
工
作
负
载
复
杂
度
大数据平台发展阶段划分
操作为主阶段
什么正在发生?
动态数据仓库阶段
让正确的事情发生!
分析为主阶段
为什么会发生
报表为主阶段
发生了什么
预测为主阶段
将会发生什么?
批量
随机查询
数据分析
持续更新加载/短查询
基于事件的动态触发
数据量增长
用户数增长
查询复杂度增长
ETL处理复杂度增长
管
理
分
析
类
应
用
管
理
分
析
类
应
用
历
史
查
询
类
应
用
历
史
查
询
类
应
用
实
时
分
析
类
应
用
实
时
分
析
类
应
用
沙
盘
演
练
类
应
用
沙
盘
演
练
类
应
用
数
据
增
值
类
产
品
数
据
增
值
类
产
品
Page 25
企业数字化底座与数字化总体架构——管理分析类应用
总账分析
资产负债表分析
损益表分析
现金流量表分析
财务指标分析
盈利分析
机构贡献度
产品贡献度
客户细分贡献度
渠道绩效
资产负债分析
主要指标报告,如:
净利息收入、净收入、
净某省市场价值等
头寸报告
现金流报告
风险价值(VaR)计算
财务预算与计划
财务预算
财务计划执行监控
执行过程分析
年末财务计划执行分
析
预测与场景分析
业务规模预测
收益预测
……
领导管理驾驶舱
机构绩效考核
客户经理考核
客户经理工作量评估
客户经理服务客户收
益评估
产品绩效考核
业务量考核
供应链金融业务
人人贷业务
保理业务
基金业务
其它中间业务
……
渠道成本与收益
……
风险监控报表/信息披露
流动性报表
利率敏感性报表
资本充足率报表
……
市场风险
市场风险暴露值
流动性管理、利率管
理
信用风险
信用风险暴露值计算
信用风险控制
(贷前控制、贷中监控、
贷后分析)
操作风险
异常交
后督差错检查
……
防欺诈/反洗钱
定义欺诈交
可能性欺诈交
欺诈交分析
全面风险管理
……
目前监管机构没有明确要
求
客户单一视图
公司客户信息管理
个人客户信息管理
同业客户信息管理
目标客户搜索
重点客户
关怀客户
风险客户
异动客户
客户细分
个人客户细分
公司客户细分
客户行为分析
客户轮廓分析
产品交叉销售分析
百分比分析
渠道偏好分析
营销活动管理
营销活动规划
营销活动定义
营销活动执行
营销活动苹果
营销活动自动化
渠道接口与集成
流程自动化
……
客户管理 运营管理 财务管理风险管理监管披露
示例
Page 26
企业数字化底座与数字化总体架构——数据访问层
即席查询:通过即席查询工具或手工书写SQL语句,完成业务信息的即席查看
多维分析:从多个维度灵活组合对目标值进行分析,常见功能包括上下钻取、透明钻取、
旋转、分页、层钻、跨维钻取等
主动问题发现:通过事件触发、规则匹配等方式发现集团运营中的问题,通过手机、邮
件等方式报警
决策层
管理层
业务人员
即席查询 静态报表 多维分析 仪表盘 挖掘预测
仪表盘:通过仪表盘及其它展现方式对集团关键绩效指标进行展示,为领导层决策提供
直观的数据支持
静态报表:按照预先定义格式,批处理报表,在线查询报表等
Office集成:将分析应用嵌入到Office界面中,利用Office的方便、性,降低用户使用难
度
问题发现 Office 集成 Web服务
挖掘预测:使用专业的软件工具,通过数理统计等高级统计分析算法,分析结构化、非
结构化数据,通过数据模型去挖掘隐藏在数据中的价值
数据科学
家
业务系统 Web 服务:将分析应用的功能发布为Web服务,注册在集团服务总线上,供其它业务
系统或分析应用调用,获取分析结果
多种展现形式满足各层级用户及应用系统使用需求
Page 27
企业数字化底座与数字化总体架构——数据管控层
金融数据管控体系涵盖组织架构、评价与考核、管控流程、管控平台四个域。
数据标准管理 数据质量管理 元数据管理 工作流管理 ……
组织
数据与信息标准化委员会
数据管理人 数据所有人 数据生产人 数据使用人 IT 支持团队
考核指标 责任评价 标准执行评价 政策执行评价
评价标准
数据类型
数据格式
业务分类
真实性定义
及时性定义
完整性定义
技术元数据
流程
评价与考核流程
考核指标
建立/维护流程
标准建立/维护流
程
组织建立/维护流
程
评价
与
考核
业务含义 一致性定义
数据认责
平台
安全等级
权限定义
数据停用数据共享数据某著名企业数据存储数据创建
业务元数据
管理元数据
数据全生命
数据安全管理
数据标准 数据质量 元数据 数据安全
…… ……
审计定义
保留策略
……
Page 28
企业数字化底座与数字化总体架构——数据管控体系运转机制
管控组织
数据管控委员会
数据所有人
数据认责人
IT支持
……
管控流程
数据接入流程
数据变更流程
数据授权流程
数据退役流程
标准/政策制定流程
评价考核流程
……
评价与考核
标准(数据标准、质量要求、安全要求)
遵守标准所需要的政策
政策与标准遵从考评定义
……
数据产生
者
数据使用
者
………
流程支撑
流程支撑
制
定
管控平台
工具
支撑
明确了数据
管控过程中的组
织结构、角色、
职责等。管控组
织除了要负责制
定数据标准、质
量、安全等要求
外,还需要负责
制定管控的相关
流程和评价考核
指标等内容。
考
评
制定
通过建立一
些定性或定量的
数据管控评价考
核指标,去评估
及考核数据相关
责任人职责履行
情况、数据管控
标准及数据政策
的执行情况等。
规范了数据
管控过程中,
各个环节日常
任务处理的运
作模式,例如
数据定义如何
变更、数据冲
突如何协调等。
采用专门的
技术平台支撑
管控流程的自
动化,发布管
控组织制定的
一些相关标准
和规范,及时
反映管控过程
中存在的一些
问题等。
管控综合管理
标准/规范管理
流程管理
考核仪表盘
……
元数据管理
业务元数据管理
技术元数据管理
管理元数据分析
……
数据质量管理
稽核规则管理
数据稽核
质量报告
……
工具
支撑
组织架构、评价与考核、管控流程、管控工具这四个域相互作用、相互支撑,提供对各信息系
统数据的管控。
Page 29
企业数字化底座与数字化总体架构——数据管控组织
数据管控组织是数据管控体系中最重要的因素,它负责定义和管理业务数据相关标准,制定遵
寻标准所必须的政策,监测正在进行的数据管控行动。
数据管控组织是否有完整与合理的角色定义、是否有高层领导的参与,是整个数据管控的成败
的关键。
典型的数据管控组织如下所示:
数据管控负责部门
岗位 角色
数据管控主导方
信息管理委员会
数据
标准
管理
员
数据
质量
管理
员
数据产生部门
数据管控参与方
业务
协调
人
数据
分析
员
数据主管
数据使用部门
业务
协调
人
数据
分析
员
数据主管
数据拥有部门
业务
协调
人
数据
分析
员
数据主管
数据管理部门
运维组织
实施项目组
数据
安全
管理
员
数据管控经理
元数
据管
理员
Page 30
企业数字化底座与数字化总体架构——数据标准管理
消除一数多义,提升数据的唯一性、一致性,将逐步形成的数据标准纳入一个规范的管
理流程中,进行数据标准的更新、发布、使用监督等工作。
数据标准管理工作可以分为以下几个部分:数据标准建立和维护、数据标准执行、数据
标准管理的考评。
数据标准建立和维护
数据分类
数据结构
关键业务对象
关键代码
数据维度
代码映射
客户类
数据标准
产品类
数据标准
。。。类
数据标准
数据标准执行
数据标准管理的考评
定性考评
定量考评
数据标准
分析报告
数据标准理念推广
归档系统 ……ODS
Page 31
企业数字化底座与数字化总体架构——数据质量管理
数据质量管理框架蓝图如下,其中数据质量提升是改进数据质量的手段和质量考评的目的:
数据质量要求确认,根据业务要求制定和明确数据质量要求,同时也需要符合数据标准的要求;
数据质量考评,对数据质量的量化评价
制定数据质量问题解决方案,根据数据质量考评和日常工作中发现的数据质量问题,实施相应的措施,
提升数据质量
数据质量要求
业务规则
数据一致性要求
数据完整性要求
数据唯一性要求
数据准确性要求
数据及时性要求
数据质量
标准
数据质量
验证规则
数据质量
考核指标
数据质量提升
数据补录 手工修正 自动修正
数据质量考评
数据质量监控
不定期数据质量检查
数据质量
分析报告
Page 32
企业数字化底座与数字化总体架构——元数据管理
业务元数据:面向业务人员,从业务术语、业务描述、业务指标和业务规则等几个方面对
数据进行描述
管理元数据:面向数据管理人员,从运维管理的角度描述数据处理、数据质量和数据安全
的状态信息
技术元数据:面向技术人员,从数据结构和数据处理细节方面对数据进行技术化描述
Page 33
企业数字化底座与数字化总体架构——数据安全管理
数据安全管理可分为数据安全分级管理和数据访问授权管理两个部分:
数据安全分级:根据业务要求,制定一系列的数据安全分级标准和政策,为数据应用以及数据管理中
实施数据安全保护和访问提供数据安全控制的基础。
数据访问授权:数据访问授权的主要工作是根据数据安全分级标准,定义数据访问的授权方法及流程,
建立基于数据安全分级的数据使用授权机制,实现数据访问和信息披露的安全。
数据安全分级
数据敏感度
数据安全
等级定义
数据访问授权
数据重要性
数据使用需求
数据使用者权责
数据访问
授权规则
安全技术
Page 34
企业数字化底座与数字化总体架构——高阶工作流程
业务数据规划管理高阶流程
数据认责流程
数据治理考核体系
数据治理考核流程
数据治理考核指标体系
数据标准管理管理高阶流程
数据标准建立流程
数据标准维护流程
数据质量管理管理高阶流程
– 数据质量要求确定流程
元数据管理高阶流程
元数据变更流程
数据安全管理管理高阶流程
数据安全审批流程
数据认责流程
数据标准、质量、元数据、安全管理流程
协调会议
考核流程
Page 35
企业数字化底座与数字化总体架构——数据管控平台
数据管控平台从总体上来说分为数据层、应用层、展现层三个主要层面,以数据层的数据
库及相关基础系统为主要信息来源,通过应用层的运算处理,以不同的形式,不同的功能
在展现层提供用户接口
首页 标准管理
主
菜
单
指
标
速
递
待
办
事
项
信
息
地
图
标
准
浏
览
标
准
维
护
工作管理
流
程
管
理
绩
效
指
标
系统管理
用
户
管
理
权
限
管
理
规
范
管
理
数据管控平台统一用户集成界面
数据标准知识库数据管控平台知识库
…
…
元数据管理
元
数
据
采
集
…
…
元数据知识库
质量管理
规
则
配
置
…
…
质量稽核库
数据
层
应用
层
展现
层
Page 36
企业数字化底座与数字化总体产品框架
非结构化/半结构化数据
管理分析平台
(X86 MPP 集群)
业务系统结构化数据
基础计算平台(贴源数据区+主题数据区+大数据区)
(Hadoop集群+Hive)
数据交换平台
(自主开发交换组件+NAS存储)
实
时
分
析
平
台
(
内
存
数
据
库)
沙盘演练平台
(Hadoop集群)
数
据
管
控
平
台
FTPSFTP/HTTP/API
Copyfromloal Queue
云数据推送平台
增值产品平台
( Hadoop集群)
历
史
归
档
查
询
平
台
(
H
adoop
集
群
+H
ive
)
Load(Hive)
Distcp
HQL+Load
Distcp
Distcp
HQL+LoadD
istcp
H
Q
L+Load
Sqoop
Sqoop
Sqoop
MR
流
程
调
度
平
台
Page 37
议程
企业数字化底座与数字化综述11
企业数字化底座与数字化总体架构22
企业数字化底座与数字化规划设计3
企业数字化底座与数字化建设运营44
企业数字化底座与数字化未来展望55
Page 38
企业数字化底座与数字化规划设计
以基础平台搭建为主,配合集团
初期业务开展,应用建设从客户
信息管理、风险管理和运营管理
三方面开展
搭建大数据处理平台和实时分析平
台,应用方面开展实时分析和数据
产品封装
开展客户信息管理、信用风险评
级和业务统计分析三类应用建设
开展贴源数据整合,初步建立集
团级数据视图,实现对管理分析
类应用和实时分析类应用的支撑
规划数据管控蓝图,初步实施数
据质量和技术元数据管理
20XX年 20XX年——20XX年 20XX年以后
对
集
团
价
值
的
创
造
应
管
技
业务分析框架
基础数据平台
数据管控体系
应
技
管
全面开展管理分析、实时分析和
沙盘演练应用建设,初步展开增
值数据产品开发工作
全面开展企业数字化底座与数字
化建设,引入更多数据源,丰富
并完善平台数据区建设
随着应用体系的搭建,完善数据
质量和元数据建设,开展数据标
准化工作
应
技
管
深化分析体系,形成
深度智能化业务分析
性能持续优化、数据
平台持续完善、
持续深化数据管控体
系,形成集团集团级
的数据管控体系
应
技
管
一期
当前位置
未来
持续优化提升阶段
第一阶段 第二阶段 第三阶段
Page 39
企业数字化底座与数字化演进说明——基础数据平台
阶段划分 建设内容 预期效果
第一阶段
搭建数据交换平台,部署NAS存储集群,设计并实施数据库交换
组件和数据区交换组件
搭建基础计算平台,设计并实施贴源数据区,以T+1频率整合集
团和金融业务数据
搭建历史归档查询平台,归档集团和金融业务数据文件
搭建管理分析应用平台,部署MPP集群和BI分析应用环境
搭建实时分析平台,部署内存数据库和实时BI分析环境
实现了数据平台个数据区之间、数
据平台与外部系统间的双向数据传
输
实现了业务数据按照贴源数据模整
合
实现了数据按照生命归档管理
实现了管理分析环境搭建
实现实时分析环境搭建
第二阶段
数据交换平台增强和优化,包括:大数据交换组件设计实施
基础计算平台增强,包括:引入更多的数据源,增强贴源数据区;
设计并实施主题数据区,打破业务条线整合数据;设计并实施大
数据区,实现集团内外部非结构化、半结构化数据加工、处理
搭建沙盘演练平台
实时分析平台增强和优化,包括:引入更多应用及相关数据源
实现了基础数据一次存储、一次计
算、多次使用
建立了数据分析人员的实验环境,
实现了用户自主用数
为实时、准实时类分析用提供平台
为封装、销售数据类产品提供了平
台
第三阶段
基础计算平台持续增强和优化,引入更多的数据源、优化模型和
ETL处理
搭建增值产品平台,设计并实施增值产品数据区
数据交换平台、沙盘演练平台、实时分析平台进一步增强和优化
数据平台纳入尽可能多的集团内外
部数据
数据平台以最优的性能支持各类数
据应用
Page 40
企业数字化底座与数字化演进说明——数据管控
阶段划分 建设内容 预期效果
第一阶段
分析和梳理当前数据管理方面的成果和现状,数据管控蓝图和路线图设计,
数据管控工作的组织、技术和流程高阶设计
梳理集团大数据平台ETL流程各环节的数据质量要求,指定数据质量检查规
则、评价指标、管控流程,并落地实施数据质量管理系统
梳理集团大数据平台包含的技术元数据,如:数据字典、ETL任务、ETL流
程、BI语义层等,制定相应的管控流程并落地实施元数据管理系统
同步企业数字化底座与数字化
ETL建设,实现了数据质量管
理系统
收集并整合了集团所有技术元
数据,实现了数据生命、血缘
分析和影响分析等功能
第二阶段
随着更多数据源的引入,进一步增强数据质量管理系统
随着更多数据源的引入、更多平台的建立,梳理并整合更多技术元数据
梳理集团大数据平台包含的业务和管理类元数据,如业务术语、业务指标、
业务定义等,制定相应的管控流程并落地实施元数据管理系统
开展基础类数据标准建设,基础数据标准、管控流程、评价指标、落地策略
完善了数据质量管理体系,实
现了问题及时发现、及时解决
实现了集团全方位的元数据管
理,打通了业务和技术元数据
关联关系
为集团数据平台建设提供了基
础类数据标准
第三阶段
数据质量管理持续优化并增强
元数据管理持续优化并增强
基础类数据标准逐步落地实施
开展指标类数据标准建设基础数据标准、管控流程、评价指标、落地策略
通过完善的数据管控体系,提
升数据质量、避免数据二义性、
建立数据间的血缘关系,使得
业务人员可以方便、有效的使
用数据,提高数据实用性
Page 41
企业数字化底座与数字化演进说明——应用体系
阶段划分 建设内容 预期效果
第一阶段
开展客户信息管理建设,设计并实施个人客户和供应商360°视
图、客户目标搜索、客户细分等功能
开展风险管理建设,设计并实施供应商和个人客户风险评级模
型
开展运营管理建设,设计并实施供应链金融、人人贷等业务条
线业务量统计分析
初步梳理实时、准实时分析需求,进行高时效分析应用试点
可以方便的对个人客户和供应商进行分
群,以及全方位信息查询和展示
供应商和个人客户风险等级评定
针对目前开展的业务进行经营情况统计
分析
搭建并验证高时效应用体系
第二阶段
随着集团业务的展开,逐步开展管理分析体系的建设,本阶段
重点为客户关系管理、运营管理等
高级业务人员利用沙盘演练平台进行数据挖掘、预测和科学试
验
进一步树立实时、准实时分析需求,深化开展高时效分析应用
开某省市场上的数据应用需求,尝试封装增值数据产品
通过管理分析体系的建设、满足了集团
日常经营管理、决策分析和进一步提高
价值创造力的需要
实现了业务人员自主用数
实现了高时效分析,与业务流程的整合
实现了数据产品的封装,提升了数据价
值
第三阶段
随着集团业务的展开,进一步完善管理分析体系的建设,某省
市场风险管理、操作风险管理、财务管理等
收集实时分析需求,进一步增强并优化实时分析应用体系
增值数据产品设计逐渐成为重点,数据分析师收集集团内外部
数据需求,设计更完善的增值数据产品
通过管理分析应用体系建设进一步实现
数据共享、业务协作与创新
通过实时分析应用体系建设,实现大数
据平台业务系统的交互,与业务流程的
融合
增值数据产品的开发进一步发挥的数据
平台的数据价值
Page 42
议程
企业数字化底座与数字化综述11
企业数字化底座与数字化总体架构22
企业数字化底座与数字化规划设计33
企业数字化底座与数字化建设运营4
企业数字化底座与数字化未来展望55
Page 43
金融企业数字化底座与数字化一期架构
基础计算平台:基于Hadoop集群构建,按照业务条线、以贴源数据模型存储了业务系统明细数据
数据交换平台:NAS集群实现了进出数据平台数据的暂存,业务数据交换组件实现了业务系统每日增量数据加载,数据区数据交换组件实
现了基础计算平台与管理分析平台间的数据交换
流程调度平台:自主开发的流程调度引擎实现整个数据平台的数据处理任务调度和运行
管理分析平台:由X86 分析型数据库集群、BI软件1J2EE应用构成,实现了面向应用的数据加工、管理、分析服务
实时分析平台:由高档X86服务器组成的集群,实现高时效、高并发的实时、准实时类管理分析需求
Page 44
数据交换平台 — 平台逻辑架构
云数据推送平台实现源系统数据一次获取
获、按需分发。
平台采用GoldenGate、JBUS、Flume等
技术获取增量数据,存储在MySQL集群
平台按照接口规范生成文件,LZO压缩后,
通过FTP传输到NAS指定目录
POP
金融企业数字化底座与数字化
NAS 集群
物流 财务 供应链 人人贷 ……
云数据推送平台
数据交换平台由FTP服务器、加载服务器
和NAS存储组成,完成业务系统数据的获
取、加载和归档
FTP服务器:利用LVS构成的FTP集群,
接收云数据推送平台处理后的数据,存储
在NAS集群的指定目录
加载服务器:部署ETL任务,实现指定目
录的文件到达监控、文件级检核、数据加
载(Hive Load)到临时数据区,同时归档
(copyfromlocal)历史数据区
NAS集群:按照日期和源系统划分目录,
缓存数据,支持日常数据交换和ETL
……
…… LVS 集群: FTP 服务器#3
加
载
服
务
器 #1
文件加载文件归档
文件到达事件监控
文件级检核
加
载
服
务
器 #4
文件加载文件归档
文件到达事件监控
文件级检核
LVS 集群: FTP 服务器#1
LVS 集群:负载均衡服务器
…… ……
Page 45
数据交换平台 — 参与方责任划分
1. 设计并实施云数据推送平台;
2. 按照集团接口定义,抽取业务系统数据;
3. 按照集团接口规范要求,按时生成数据文件、控制文件
和DDL文件,并通过FTP传输到NAS指定目录;
4. 若源系统有变更,则要求在变更前提供变更内容说明,
升级平台版本,根据集团更新接口规范提供数据;
5. 应及时解决接口数据提供过程中出现的问题;
6. 对于未尽事宜,应同集团协商解决。
云计算
1. 安装部署集团企业数字化底座与数字化物理环境、应用
软件,并进行基础设施运维;
2. 在业务系统数据库服务器安装并部署云数据推送平台客
户端,并提供数据库访问。
运维部门
1. 制定接口规范,并提交给云数据推送项目组;
2. 梳理业务系统数据字典,制定接口定义,并提交
给云数据推送项目组;
3. 开发数据交换组件,从NAS获取数据并处理;
4. 对接收的数据提供验证功能,并返回验证结果到
云数据推送平台;
5. 根据云数据推送平台提交的变更通知修改接口定
义和数据交换组件;
6. 对于未尽事宜,应同云计算方协商解决。
集团
1. 针对集团需求,指定接口人、提供文档;
2. 业务系统因版本升级等原因导致数据模型发生变
化,及时通知云数据推送平台接口责任人。
研发部门
Page 46
数据交换平台 — 业务系统数据抽取实现方式
每统表都对应一个独立的数据接口
数据接口由数据文件和控制文件构成(文件命名和具体内容参见接口规范)
文件统一采用UTF-8编码,统一存在在JSS指定目录(参见接口规范)
如果在抽取没有数据变更,云数据推送平台应该生成空的数据接口
传输方式
FTP传输,利用LVS技术构建FTP集群,接收数据
传输频率
云数据推送平台通常按照T+1频率为集团提供数据,具体频率要求参见接口定义
接口处理模式
1. 云数据推送平台根据不同接口单元定义,准备数据、生成接口数据文件;
2. 云数据推送平台根据接口规范生成相应的接口控制文件;
3. 云数据推送平台压缩数据(LZO),并通过FTP将数据接口存入NAS指定目录;
4. 金融企业数字化底座与数字化部署在不同加载服务器上的数据交换组件完成:
a) 定时轮询NAS指定目录,获取接口(包括数据文件、控制文件和DDL文件);
b) 执行文件级检核;
c) 通过检核后, 将数据文件和控制文件某著名企业到NAS集群指定目录,触发后续ETL处理;
5. 在Task Automation调度下执行数据加载和数据归档任务。
Page 47
数据交换平台 — 平台部署架构
数据交换平台由8台X86服务器和一个NAS集群构成
X86 服务器按照功能分为2组,一组实现数据获取,一组实现数据加载和归档
NAS集群作为公共数据区,由8台服务器共享访问(读写)
Python runtime
Python JSS Module
FTP
Redhat Linux
LVS服务器4
HDFS Client
Hive
加载任务 归档任务
Redhat Linux
加载服务器1
HDFS Client
Hive
加载任务 归档任务
Redhat Linux
加载服务器4
LAN
Python runtime
Python JSS Module
LVS
Redhat Linux
LVS服务器1
…… ……
NAS 集群
负责源系统数
据文件加载和
归档
每台服务器负
责多个源系统
支持按需扩展/
减少服务器
LVS1负载均衡
其它LVS服务
器负责接收接
口文件,写入
NAS集群目录
支持按需扩展/
减少服务器
部署数据交换
平台和流程调
度平台程序,
各服务器通过
文件链接使用
按日期和源系
统建立数据
目录,缓存
每日接口文
件,供交换
平台访问
Page 48
流程调度平台 — 平台逻辑架构
Task Automation驱动各
个平台、实现从数据存入
NAS平台到某省市生成整
个处理过程的工作流管理
数据交换平台负责数据
抽取、文件级质量检核、
调用Hive Load加载数据
基础计算平台使用Hive
SQL实现贴源数据整合、
公共汇总数据处理
管理分析平台使用关系
型数据库的SQL某省市
数据的处理
历史归档查询平台负责
数据文件和Hadoop集群
数据归档
Page 49
流程调度平台 — 流程调度元数据
Task Automation的元数据统一存储在MySQL数据库中
任务定义,包括任务名称、描述、运行服务器、运行状态、运行时间、相关数据源等属性
任务依赖,任务的执行依赖与其他上游任务
任务触发,任务成功执行后触发的下游任务
任务组,一组有相互关系的任务,全部完成后会触发头任务运行
……
元数据由所有流程调度服务器共享
Page 50
流程调度平台 — 任务调度引擎
通过侦测器侦测事件,按照任务定义和任务依赖关系触发任务运行,触发方式把主要包括
自动触发
定时触发,按照预先定义的时间,如每日、每周、每月,或任何有规律的时间间隔执行任务。目前可明确的任务主要是每月执行的基础计算平台、
管理分析平台数据归档。
事件触发,按照特定的事件触发、执行任务。如:数据文件到达指定目录,会触发数据加载任务。同样,流程失败也会触发新的 job,如错误处理、
例外处理等。
手动触发
系统管理员可以使用Task Automation提供的界面或命令接口执行一些job。这些job的功能通常包括对特定范围的数据进行审计与验证、对特定范围
的数据进行针对性很强的数据清洗、或者是对某流程失败后的修复。
每个要执行的任务均由任务执行代理启动运行
Page 51
流程调度平台 — 集群可靠性和可扩展性
高可用性
流程调度所需的元数据信息统一保存在
MySQL数据库中,集群中任何服务器发
生故障不会破坏元数据完整性。服务器
故障时,只需要修改ETL任务属性,指
定其他服务器执行任务即可,故障不会
影响任务依赖关系、任务组关系。
扩展能力
流程调度集群由多台服务器构成,按工
作负载划分不同角色,分别实现ETL处
理过程中不同类型任务的调度。当某类
调度工作负载较大时,可通过增加服务
器的方式,实现集群的横向扩展
Page 52
流程调度平台 — 平台部署架构
流程调度平台由八台X86 服务器构成,服务器按照功能分为两类
两台X86 服务器部署MySQL数据库集群,存储流程调度元数据
六台X86 服务器部署流程调度引擎,负责各数据区数据处理流程调度与运行
Task Automation
Perl Runtime
Hadoop Hive
Redhat Linux
MySQL Client
临时/归档区调度服务器1
Task Automation
Perl Runtime
Hadoop Hive
Redhat Linux
MySQL Client
贴源区调度服务器
Task Automation
Perl Runtime
Hadoop Hive
Redhat Linux
MySQL Client
汇总区调度服务器
Task Automation
Perl Runtime
Hadoop Hive
Redhat Linux
MySQL Client
临时/归档区调度服务器4
Master Node
MySQL 主服务器
Master Node
MySQL 从服务器
……
LAN
MySQL主-从集
群,存储临时
区、归档区、
贴源区和汇总
区数据处理任
务定义,任务
依赖关系
按数据区划分工作流,
工作流不跨数据区
临时区数据处理的工作
流部署在数据交换换
平台的加载服务器
贴园区和汇总区工作流
分别部署独立的服务
器
Page 53
基础计算平台 — 平台逻辑架构
基础计算平台基于Hadoop 集群搭建
集群采用标准的X86 服务器
集群弹性架构,按需分配计算资源,支
持添加X86服务器的方式实现横向扩展
集群中的数据保留三份,保证任何节点
故障,不影响集群对外提供服务
基础计算平台有三个数据区构成
临时数据区,缓存当日源系统变化(新
增、修改、删除)数据,支持后续ELT
数据处理
贴源数据区,按照源系统数据模型整合
的明细历史数据,作为基础数据层实现
数据一次整合、多次使用
汇总数据区,根据应用需求,对贴源数
据区明细数据进行预连接、预聚合、预
汇总处理的数据,实现了数据的一次计
算、多次使用
VM VM VM VM VM
VM VM VM VM VM
VM VM VM VM VM 节点
VM VM VM VM VM 节点
VM VM VM VM VM
节点 节点 节点 节点 节点 节点
Hadoop
Page 54
基础计算平台 — 临时数据区
包含内容
主要用途
企业数字化底座与数字化要整
合的源系统,包括:POP、财
务审计、财务研发、大物流、
供应链、金融、网站交易、数
据部和某著名企业客户端等研
发体系的各业务系统。
建立数据缓冲区,临时存放从
源系统抽取过来的增量/全量
数据,支撑后续ELT处理。
设计
原则
数据库设计原则
临时数据区对应独立的Hive数据库
不对外提供访问,ETL用户对数据库有增、删、
查、改权限
模型设计原则
逻辑模型参考源系统和接口规范定义,为每
个接口单元设计实体、属性
物理模型与逻辑模型保持一致,每个实体对
应一张Hive表,表采用LZO压缩存储
物理模型设计不建议考虑索引、物化视图等
技术特性
以天为单位,按业务日期建立分区
历史保留原则
缓存当日业务数据、为数据重跑方便可保留7
天历史
过期数据直接删除对应分区,不需要归档
Page 55
基础计算平台 — 贴源数据区
包含内容
主要用途
与缓冲层相对应,贴源整合层
主要包括:POP、财务审计、
财务研发、大物流、供应链、
金融、网站交易、数据部和某
著名企业客户端等研发体系的
各业务系统,所有数据保留历
史。
作为整个数据平台的基础数据
层,累计历史,为主题某省市
层等数据区提供数据支撑。
设计
原则
数据库设计原则
贴源数据区对应独立的Hive数据库
不对外提供访问,ETL用户对数据库有增、删、
查、改权限
模型设计原则
针对不需要记录变化的实体,其逻辑模型参
考缓冲层,按照贴源设计
针对需要记录变化的数据,需要增加时间字
段,设计拉链数据模型,记录历史
物理模型考虑分区,流水表按业务日期建立
分区,拉链表按终止日期建立分区
历史保留原则
拉链表数据保留最近37个月的历史
快照表数据永久保留
交表数据保留最近25个月的历史
过期数据归档到历史归档区,需要时回迁
Page 56
基础计算平台 — 汇总数据区
包含内容
主要用途
针对客户管理、风险评级和业
务量统计设计明细数据进行预
汇总、预连接和预加工后的结
果数据。
对明细数据进行预汇总、预连
接和预加工,为应用某省市准
备数据。
设计
原则
数据库设计原则
汇总数据区对应独立的Hive数据库
不对外提供访问,ETL用户对数据库有增、删、
查、改权限
模型设计原则
汇总层采用了逆范式宽表设计,某种程度上
采用维度建模的方法
模型设计首先需要根据业务和应用的需要尽
量包含更多的属性和指标,同时兼顾空间
汇总层需要针对维度数据执行标准化处理
汇总层模型增加数据日期记录历史,建议根
据数据日期建立分区
历史保留原则
不同实体采取不同的历史保留策略
建议以支持应用为输入,避免永久保留
过期数据归档到历史归档区,需要时回迁
Page 57
基础计算平台 —平台部署架构
基础计算平台由73台X86
服务器构成,3台服务器
作为Name Node和
JobTracker Node,70台
服务器作为Data Node和
TaskTracker Node
…
…
Data Node
TaskTracker Node
服务器1
Data Node
TaskTracker Node
服务器70
Name & JobTracker
Node (Secondary )
Name Node JobTracker Node
互联
70台服务器是
HDFS数据节点,
临时数据区和贴
源整合区作为独
立的数据库部署
在此服务器上,
并按照3份冗余
存储
NN负责HDFS元数据管理,元数
据信息存储在NAS集群指定目录
通过硬件冗余、RAID0+1、Slave
NN等技术实现高可用性
70台服务器是
MR计算节点,
Hive提交的SQL
语句,转化成
MR任务,由
JobTracker分配
到每台服务器上
执行
Secondary NN负责HDFS元数据
备份管理,
Secondary JobTracker 负责MR
计算集群JobTracker高可用性
JobTracker Node负责MR任务分
配
通过心跳信号检测TaskTracker活
动状态,排除失效节点
Page 58
基础计算平台 —平台网络拓扑
Node
Node
Node
Node
Node
20 Nodes RACK 1
…
…
Node
Node
Node
Node
Node
20 Nodes RACK 2
…
…
Node
Node
Node
Node
Node
20 Nodes RACK 3
…
…
Node
Node
Node
Node
Node
20 Nodes RACK 3
…
…
Page 59
管理分析平台 — 平台逻辑架构
客户信息管理,采用J2EE框架自主开发,某省市构建于分析型数据库集群
运营绩效管理,采用MicroStrategy开发,某省市构建于分析型数据库集群
扶贫灵活分析,采用MicroStrategy开发,某省市构建于内存数据库集群HANA
Page 60
管理分析平台 — 安全管理
个人客户信
息管理
集团客户信
息管理
金融业务经
营分析
金融业务规
模预测
认证管理
用户 BI 应用门户
审
计
管
理
授
权
管
理
身份管理
授权管理
认证管理
审计管理
安全管理员
安全管理员
安全管理员
账
户
管
理
平台安全管理信息库
LDAP
账户信息
权限信息
日志信息
Page 61
企业数字化底座与数字化物理架构
说明
平台所有服务器均采用标准
X86 PC 服务器
系统划分为三个子网
WEB 服务子网,两台服
务器构成的Tomcat集群
应用服务子网,两台服务
器构成的MicroStrategy
集群
数据服务子网
基础计算平台,73台服务
器构成的Hadoop集群
某省市平台,30台服务器
构成的?集群
流程调度平台,7台服务器
构成的Task Automation集
群
数据交换平台,5台服务器
与云数据推送平台接口,
分别实现不同业务系统的
数据获取
Page 62
企业数字化底座与数字化一期硬件配置
所有服务器均采用开放的X86 架构,单台服务器建议配置如下:
服务器类型 服务器功能 数量 CPU 内存 网口 操作系统 内置盘
基础计算平台
(Hadoop 集群)
Data Node &
TaskTracker 服务器 70 32 128G 2*1Gb Centos
12*2TB 7200 RPM
SATA disks
Name Node &
JobTracker 服务器 3 32 128G 2*1Gb Centos
4*600GB 15K SAS
disks RAID 0+1
历史归档查询
平台(Hadoop
集群)
Data Node &
TaskTracker 服务器 30 12 24G 2*1Gb Centos
16*3TB 7200 RPM
SATA disks
Name Node &
JobTracker 服务器 3 12 24G 2*1Gb Centos
4*600GB 15K SAS
disks RAID 0+1
沙盘演练平台
(Hadoop 集群)
Data Node &
TaskTracker 服务器 30 32 128G 2*1Gb Centos
12*2TB 7200 RPM
SATA disks
Name Node &
JobTracker 服务器 3 32 128G 2*1Gb Centos
4*600GB 15K SAS
disks RAID 0+1
Page 63
企业数字化底座与数字化一期硬件配置(续)
所有服务器均采用开放的X86 架构,单台服务器建议配置如下:
服务器类型 服务器功能 数量 CPU 内存 网口 操作系统 内置盘
数据交换平台 数据接口服务器 5 16 64G 2*10Gb Centos
2*600GB 15K SAS
disks RAID 0+1
流程调度
&ETL平台
流程调度&ETL
服务器
7 16 64G 2*10Gb Centos
2*600GB 15K SAS
disks RAID 0+1
元数据服务
器
Hive 元数据库
服务器
2 16 64G 2*10Gb Centos
4*600GB 15K SAS
disks RAID 0+1
管理分析平
台
某省市服务器
4 32 128G 4*10Gb Centos
2*300GB 15K SAS
disks RAID 0+1
16 32 128G 2*10Gb Centos
14*300GB 15K SAS
disks RAID 0+1
内存数据库服务
器
4 20 256G 2*10Gb
SLES for SAP
applications 11 SP2
8* 600GB 10k SAS
disks RAID 5
BI 应用服务器 2 16 64G 2*10Gb Centos
2*600GB 15K SAS
disks RAID 0+1
WEB 服务器 2 16 64G 2*10Gb Centos
2*600GB 15K SAS
disks RAID 0+1
Page 64
企业数字化底座与数字化一期硬件配置(续)
光前交换机配置要求
千兆端口:278
万兆端口:100
带宽:8GB
NAS集群配置如下:
总存储容量:40TB
磁盘:15000 RPM SAS Disks
网络接口:万兆
网络传输协议:TCP/IP
网络文件协议:CIFS、NFS
单台Cache:8GB
Page 65
企业数字化底座与数字化一期软件清单
类型 软件清单
基础计算平台
Hadoop
Centos
历史归档查询平台
Hadoop
Centos
沙盘演练平台
Hadoop
Centos
数据交换平台
Hadoop Client&Hive
Centos
流程调度&ETL 平台
TaskAutomation
MySQL Client
Perl Runtime & MySQL DBD
Centos
类型 软件清单
管理分析平台某省
市服务器
?
Centos
实时分析平台内存
数据库服务器
SAP Hana Enterprise
Centos
管理分析&实时分析
平台BI 应用服务器
MicroStrategy
Hana Client
DB Client
Centos
管理分析&实时分析
平台WEB 服务器
Tomcat
Centos
Page 66
议程
企业数字化底座与数字化综述11
企业数字化底座与数字化总体架构22
企业数字化底座与数字化规划设计33
企业数字化底座与数字化建设运营44
企业数字化底座与数字化未来展望5
Page 67
数据质量管理平台技术架构
数据质量检查规则执行模块作为多个ETL任
务部署在金融数据平台ETL服务器上,由
Automation工作流调度服务统一调度运行,
实现各个数据区技术和业务数据质量检查
数据质量管理系统元模型包含检查规则、
检查执行结果、分析报告,模型作为一个
独立的Schema部署在决策分析报表平台的
数据库
数据质量检查规则配置模块作为Java
Web应用部署在金融数据平台Tomcat
集群上,数据质量管理员通过统一的
Web服务访问,实现检查规则的维护
数据质量分析报告展现模块作为Java
Web应用部署在金融数据平台Tomcat
集群上,用户通过统一的Web服务访问,
实现日报、月报的浏览、下载等功能
数据质量分析报告生成模块作为一个ETL任
务部署在决策分析报表平台ETL服务器上,
由Automation工作流调度服务统一调度运
行,按照每日、每月生成各数据区数据质
量检查报告
数据质量管理平
台以元信息模型
为核心,由规则
配置管理模块、
检查执行模块、
分析报告生成模
块和分析报告展
现模块四部分构
成。
整个数据质量检
查过程以ETL任
务的形式统一调
度执行。
Page 68
数据质量检查执行服务
数据质量管理
的规则执行服
务作为ETL任
务部署在ETL
服务器上
在整个数据处
理过程中,设
置4类检查点
在不同的检查
点由Task
Automation
工作流统一调
度执行
检查结果统一
存入数据质量
管理
1 2 3 4
Page 69
检查规则执行服务检查点1
云数据推送平台接口文件级规范性检查任务说明
任务类型 ETL 任务 —— 技术型检查
ETL阶段 云数据推送平台->金融数据交换平台NAS存储指定目录
执行频率 每日执行
执行方式 由Task Automation工作流引擎根据工作流定义统一调度,在ETL 服务器上执行
检查对象 云数据推送平台按照接口规范导出的业务系统每日增量数据文件和控制文件
检查内容 接口文件是否存在,接口文件名称是否正确,接口文件是否通过MD5校验
实现技术 Linux脚本语言,Perl或Python
成功阈值 所有规则通过检查
依赖任务 N/A
触发任务 数据加载
Page 70
检查规则执行服务检查点2
临时区数据技术性检查任务说明
任务类型 ETL 任务 —— 技术型检查
ETL阶段 临时数据区->贴源整合数据区
执行频率 每日执行
执行方式 由Task Automation工作流引擎根据工作流定义统一调度,在Hadoop集群上执行
检查对象 云数据推送平台按照接口规范导出的业务系统每日增量数据
检查内容
日期、时间格式检查;主键唯一型检查;外键参照完整型检查;关键字段取值完整
性检查
实现技术 Hive SQL
成功阈值 90%记录通过检查
异常处理 未通过检查的记录存入指定错误明细表
依赖任务 接口文件级规范性检查任务
触发任务 贴源数据整合任务
Page 71
检查规则执行服务检查点3
汇总区业务性检查任务内容说明
任务类型 ETL 任务 —— 业务型检查
ETL阶段 贴源整合数据区->汇总数据区
执行频率 每日/月/季执行
执行方式 由Task Automation工作流引擎根据工作流定义统一调度,在Hadoop集群上执行
检查对象 汇总数据区的数据
检查内容
业务逻辑检查:通过对若干个汇总值/指标值的运算,来检验各个汇总值/指标间潜在的
平衡或其他比较关系
实现技术 Hive SQL
成功阈值 90%记录通过检查
异常处理 未通过检查的记录存入指定错误明细表
依赖任务 贴源整合数据区数据处理完成
触发任务 集市数据区应用数据生成
Page 72
检查规则执行服务检查点
某省市区技术性检查任务内容说明
任务类型 ETL 任务 —— 业务型检查
ETL阶段 汇总数据区->某省市数据区
执行频率 每日/月/季执行
执行方式 由Task Automation工作流引擎根据工作流定义统一调度,在某省市数据库集群上执行
检查对象 某省市数据区的数据
检查内容 主键唯一型检查;外键参照完整型检查;关键字段取值完整性检查
实现技术 SQL
成功阈值 90%记录通过检查
异常处理 未通过检查的记录存入指定错误明细表
依赖任务 汇总数据区数据处理完成
触发任务 N/A
Page 73
检查规则执行服务检查点
某省市区业务性检查任务内容说明
任务类型 ETL 任务 —— 业务型检查
ETL阶段 汇总数据区->某省市数据区
执行频率 每日/月/季执行
执行方式 由Task Automation工作流引擎根据工作流定义统一调度,在某省市数据库集群上执行
检查对象 某省市数据区的数据
检查内容
业务逻辑检查:通过对若干个指标值的运算,来检验各个指标间潜在的平衡或其他比较关系
数值检查:主要是通过对单个指标值的监控来发现数据的异常、突变等情况
波动检查:通过对单个指标值一段时间内的数值变化情况来检查数据的波动、变化情况
一致性检查:通过对两个指标按某几个维度展开后的增减幅度来发现数据的波动、变化情况
实现技术 SQL
成功阈值 90%记录通过检查
异常处理 未通过检查的记录存入指定错误明细表
依赖任务 汇总数据区数据处理完成
触发任务 N/A
Page 74
数据质量管理分析报告生成服务
分析报告生成服务是部署在ETL服务
器上的ETL任务,按照任务流程被
Task Automation统一调度执行,生
成以下三类报告:
源系统数据交换质量日报
该报告汇总了报告生成当天源系统的数据
接口校验结果,包括针对每个接口单元的
表及记录级校验错误的统计数据和指标日
平均值
数据质量汇总日报
该报告依照每日各源系统数据交换评价指
标的平均值及当天的贴源数据、汇总数据
和某省市质量检查结果汇总生成
数据质量汇总月报
该报告依照当月的日报结果,取各项指标
的平均值和数据统计的汇总值生成
Page 75
数据质量管理分析报告指标定义
指标分类 指标名称 指标说明 对应报告
接口单元级
评价指标
接口传输及
时率
指在最后截止时间前完成上传的接口单元数量与
时限内要求上传的接口单元数的比率。
《源系统数据交换质量日报
(XX系统)》
接口传输完
整率
指在数据质量日报告生成之前,成功上传的接口
单元数量与要求上传的接口单元数量的比率。
《源系统数据交换质量日报
(XX系统)》
接口准确率
指与接口校验内容描述一致的接口单元数量与要
求上传的接口单元数量的比率。
《源系统数据交换质量日报
(XX系统)》
记录级评价
指标
记录正确率
正确的记录数与全部记录数的比值。每条记录只
要违反任一条检查规则(例如:主键唯一、业务
规则等),就被计入错误日志。每个接口单元的
最大允阈值由数据质量检查规则确定。计算公式
如下:
当Ec<Emax时:记录正确率=
当Ec>=Emax时:记录正确率=0
说明: Ec—出错记录数
Et—记录总数
Emax—最大允阈值
《源系统数据交换质量日报
(XX系统)》
《数据质量汇总日报》
《数据质量汇总月报》
Page 76
分析报告生成服务:源系统数据交换质量日报
明细报告生成任务内容说明
任务类型 ETL 任务 —— 明细日报生成
ETL阶段 分析报告生成阶段
执行频率 每日
执行方式
由Task Automation工作流引擎根据工作流定义统一调度,在数据质量管理元数据
库上执行
评价对象 数据质量检查点1、2对应的检查任务执行结果
评价指标 接口传输及时率、接口传输完整率、接口准确率
实现技术 MySQL SQL命令
依赖任务 ETL处理完成
触发任务 数据质量汇总日报生成任务
Page 77
分析报告生成服务:数据质量汇总日报
数据质量汇总日报生成任务内容说明
任务类型 ETL 任务 —— 汇总日报生成
ETL阶段 分析报告生成阶段
执行频率 每日
执行方式
由Task Automation工作流引擎根据工作流定义统一调度,在数据质量管理元数据库上执
行
评价对象 数据质量检查点2、3、4对应的检查任务执行结果
评价指标 记录正确率
实现技术 MySQL SQL命令
依赖任务 源系统数据交换质量日报生成
触发任务 数据质量汇总月报生成任务
Page 78
分析报告生成服务:数据质量汇总月报
任务内容说明
任务类型 ETL 任务 —— 汇总月报生成
ETL阶段 分析报告生成阶段
执行频率 每月月初
执行方式
由Task Automation工作流引擎根据工作流定义统一调度,在数据质量管理元数据库上执
行
评价对象 当月所有数据质量检查点对应的检查任务执行结果
评价指标 记录正确率
实现技术 MySQL SQL命令
依赖任务 数据质量汇总日报生成任务
触发任务 N/A
Page 79
数据质量管理元信息库
采用MySQL数据库,存储数据质量检查规则、数据质量检查结果、数据质量检查报告
示例
Page 80
检查规则配置管理
模块说明
模块名称 接口单元级技术检查规则配置管理模块
实现功能
该模块的主要任务是用web界面方式引导用户完成数据质量检查规则的配置,主要包括检查
规则的唯一标识、检查规则简单描述、检查类型、检查对象、生效标志、检查规则(如:
SQL命令)等。模块需要实现如下功能:
•规则新增;增加一条检查规则
•规则修改;修改规则内容
•规则删除;删除已有的规则
•规则生效:设置规则的状态为生效或无效
•规则搜索:按规则ID、接口名称搜索规则
实现技术 J2EE
运行方式
作为WAR包部署在Tomcat集群上
发布链接到金融数据平台门户上
用户通过B/S方式登录平台执行配置管理
使用对象 数据质量管理员
Page 81
数据质量管理分析报告展现
模块说明
模块名称 源系统数据交换质量日报、数据质量汇总日报、数据质量汇总月报展现模块
实现功能
该模块的主要任务是用web界面方式引导用户提交查询条件,查看满足条件的数据质量管
理分析。模块需要实现如下功能:
•报告查询;按照时间、报告名称
•报告查看;在线查看报告内容
•报告下载;将报告下载到本地查看
•错误明细下载;下载未通过数据质量检查的出错记录明细
有效时间 每日或月ETL处理结束后
实现技术 J2EE
运行方式
作为WAR包部署在Tomcat集群上
发布链接到金融数据平台门户上
用户通过B/S方式登录平台执行配置管理
使用对象 源系统维护人员(查看相关源系统日报)、数据质量管理员、ETL管理员、公司领导