《大数据数据质量提升规划方
案》
22|
本交付物为B-6银行大数据数据质量提升规划方案 x 本文件
资料来源:麦肯锡分析
高阶整体报告
(行领导)
交付物类别
数据整
合与应
用
数据人
才与组
织
数据治
理
数据系
统与工
具
总体数
据战略
分
项
报
告
(
部
门)
具体交付物
大数据愿景及战略
规划
A1 大数据的整体实施路
线图
A4大数据关键能力提升
整体方案
A2 大数据治理机制及运
营模式方案
A3
大数据业务用例需求
分析框架
B4 大数据业务用例整体
管理方案
B5 大数据战略相关业务
用例实施路线图
B10
大数据数据质量提升
规划方案
B6 大数据相关数据治理
体系设计方案
B8 大数据战略相关数据
治理规划实施路线图
B12
大数据数据平台规划
设计方案
B7 大数据战略相关数据
平台建设实施路线图
B11
大数据能力现状诊断
报告
B1 大数据体系整体设计
原则
国内外同业大数据应
用案例集
B3B2
大数据业务场景需求
清单(完整版/优先
排序前)
大数据业务场景优先
排序模型
大数据规划-业务用
例清单
C11 C13C12
数据分析相关系统的
使用情况现状分析
C5
数据模型架构现状分
析
C7
大数据相关组织架构
设计方案
B9 大数据战略相关数据
组织规划实施路线图
B13
数据相关关键岗位的
职责、角色、核心能
力要求和考核规划
C14 数据相关关键岗位的
岗位需求规划分析
C15
数据系统架构现状分
析
C8
数据质量现状分析C6
大数据关键能力缺口
和提升方向初判
C10
数据分析业务运作机
制现状分析
C9
33|
领先方法
参考国际领先做法
先进实践
结合实际案例对标
提升方案
设计符合现状的未来发展规
划和具体提升方案
设计方法:基于领先的设计方法,参照先进实践,设计贴合现状和未来
发展方向的定制化提升方案
44|
数据质量与治理是实现大数据战略的3大重要支撑之一
数据战略
用于指导在组织内的数据使用和分
析及其如何与商业价值挂钩的总体
目标和态度
数据人才
在组织内个人进行分析活动的能力
及如何将其安排在组织结构中
数据质量与治理
对数据进行采集、清理、存储、管
理和维护的各项流程
数据系统与工具
大数据分析所使用的内外部的系统
架构、平台、工具等
数据整合与应用
业务和技术的接口和界面,将数据
洞见转化为业务价值的过程
资料来源:小组分析;麦肯锡相关研究
大数据能力分析的整体框架 – Data Analytics Maturity Assessment (DAMA)
数据
人才与组织
数据
系统与工具
业绩提升 风险管控 运营优化 决策支持
大数据高级分析对
银行的潜在价值
3 5
数据
整合与应用
数据治理
数据战略
2
4
1
本次分析重点方向
55|
目录
▪ 数据质量现状回顾
▪ 数据质量提升方案
▪ 数据模型架构
66|
缺乏统筹和自上而下的推动则是阻碍当前的大数据应用规模化的主要原因
现状诊断 导致的结果
▪ 整体处于数据应用的初级阶段:虽然目前已有~300个模型,但大
部分与风险管理相关,难以有效支持前线营销及高管决策
▪ 全行缺乏大数据整体战略:对于大数据的定位和发展目标缺乏共
识,没有未来发展优先排序,以部门自发探索模式主导
▪ “开发难以规模化”:数据用
例开发速度慢、数量少、结构
不尽然合理
大数据
战略
▪ 数据团队人力不足,且各部门自行搭建,未形成合力:数据团队
现有~170名人员,主体是报表统计或系统开发岗位,真正从事高
级分析的数据人才仅有~25人
▪ “专业人才难以规模化”:高级分
析的关键环节(如模型开发)
高度依赖外包,核心能力不能
沉淀在体内
数据人才
与组织
▪ 基础数据质量不佳:基础数据在一致性、真实性、完整性及规范
性上都存在明显的问题,已成为转型关键项目实施的“瓶颈”
▪ 责任部门不明,政出多门:缺乏全行级的数据模型架构和数据治
理规范,包含明确的责任人、管控指标、政策及流程等
▪ “满足分析要求的数据难以规
模化”:数据质量饱受诟病,
乃至成为推广数据应用的障碍
数据质量
与治理
▪ 全行平台未整合,标准不一,功能定位不清:各部门从各自需求
出发,跨层情况十分普遍,导致数据链路混乱,数据血液失控
▪ 处理速度慢,扩容成本高:局部已经启动优化和技术升级,但未
在全行形成统一原则
▪ “系统处理能力难以规模化”
系统运算能力不足,未分流导
致处理速度慢,不能满足大量
高级分析需要
数据系统
与工具
▪ 各部门单打独斗,横向缺乏协同,纵向不能实现闭环:以零售事
业部数据化营销死循环为例,在最能体现大数据应用价值的零售
客户中,近90%的非零非有效客户,未能有效提升价值;高价值
(私银/卓然/悠然)老客户维护不力,净流出明显
▪ “实施难以规模化”:数据线
索执行率低,如已有渠道的执
行容量不足,即使投放到一线
的数据线索耗损高,总行下发
的线索执行率不足50%
数据整合
与应用
资料来源:小组分析
77|
通常通过一致性、完整性、规范性和准确性这四个指标来衡量数据质量,数据质
量的好坏对于风险、合规、业务经营都至关重要
资料来源:小组讨论; 2013 FIMA(Financial Information Management)
衡量数据质量的四大指标
一致性:数据口径
和定义是否清晰一
致
规范性:数据是否
具有标准的格式
准确性:数据是否
与事实相符
完整性:数据是否
有缺失
数据质量对于金融机构的业务经营至关重要
超过82%的金融机构将数据治理和质量提升作
为未来12个月的工作重点
70%左右的金融机构普遍认为合规管理和风险
管理是受数据质量影响最大的业务应用
通过数据质量提升驱动的数据转型,通常可以
给金融机构带来相当于年利润净增1%~7%不等
的价值提升
60%的金融机构已经有试运行或完整的数据治
理机制,其余35%也在治理机制的设计阶段
超过80%的金融机构,采取业务和IT共同对数
据治理负责的治理模式
数据质量对风险、合规和业务经营的影响重大……
因此,都将数据治理放在至关重要的位置……
✔
✔
✔
✔
✔
88|
现状 影响
一致性
▪ 多个数据来源:不同系统统计的社区银行
网点数不同,从渠道部的3503家到安保系
统的5879家,最多相差70%
▪ 不同部门/机构对于社区网点
定义不同,无统一标准,无
法对社区网点形成准确估算,
阻碍全成本口径统计
完整性
▪ 源数据缺失:员工、渠道维度目前仅有部
分数据,如员工目前仅有客户经理和交据,
需要扩充数据
▪ 信息颗粒度不足:客户、产品维度数据颗
粒度需要进一步提升,如提升客户费用精
细度
▪ 缺失全景分析,导致无法进行
精准的成本核算及决策分析
▪ 缺乏精确的数据支持,决策需
要多轮沟通,效率低
规范性
▪ 缺乏统一管理机制:信息零散,缺乏清晰
的管理流程与逻辑关系
▪ 缺少定期管理报表,可视性与透明度底
▪ 没有全行统一标准,部门各自
发挥,导致重复工作
▪ 透明度底,决策需要多轮沟通,
效率低
G1成本项目目标:通过成本透明化,促进成本管理精细化,更科学、有效地投入资源;同时制定了涵
盖7大领域的降本举措,如全部落地预计节约50亿元
资料来源:优化成本管理体系,全面提升成本效率项目组分析
数据已经成为转型项目实施的瓶颈————成本项目(G1)成本数据颗粒度不足,
影响成本项细分的精准度
现状诊断及差距分析
99|
数据已经成为转型项目实施的瓶颈————科学定价项目( F2 )需要对客户信息
有更真实和完整的把握
真实性
完整性
规范性
一致性
现状 影响
▪ 多个数据来源:新管会系统与新CRM系
统对客户EVA的计算结果不同
▪ 同一数据取值不统一:信息中心、资负部、
经营机构等对资本成本率取值差异大,从
6%-16%
▪ 不同部门/机构对于同一指
标的计算逻辑与基础取值不
同,定价取数需要甄别,工
作量大
▪ 对公客户行业信息真实性差:其他行业占
比高达30%,即使有明确行业分类准确率
较低
▪ 无法进行有效的客户分群
▪ 定价需要参考所在分群的前
20%-30%的均值,行业数据不
准确导致无法精准对标
▪ 客户/产品维度信息缺失:发债、资管计划、
结构性贸等产品/客户维度信息缺失
▪ 信息未集成:单笔交PD/LGD未进行客户/
产品维度集成;管会约21%收入无法归集
到客户;约5%收入无法归集到产品
▪ 缺失客户全景分析,无法有效
的开展账户规划
▪ 无法直接使用计算风险成本,
工作量大
▪ 无法精准定价
▪ 手工台帐规范性差:资金池业务台账信息
记录完整,但未进入客户综合贡献计算
▪ 缺乏统一管理机制:信息零散,缺乏清晰
的管理流程与逻辑关系
▪ 没有全行统一标准,部门各自
发挥,导致重复工作
F2科学定价项目目标:建立以客户为某省市场为导向的科学定价技术方法;同时制定了反漏损速赢计划
,预计全面铺开后,预计全行对公收入可提升6-8%,即实现40-50亿的利润增长
资料来源:基于科学定价项目组分析
现状诊断及差距分析
1010|
现状 影响
1 新管会系统记录了2015年之后的客户级收入,且较为准确,但无法回溯
资料来源:基于数据的营销体系设计和速赢项目组分析
C7零售大数据项目目标:将通过大数据分析,搭建零售数据化营销蓝图、客户全景试图、建立可视化管理看
板体系,设计并落地零售数据营销速赢计划及全面推广方案
▪ 数据分散存储,口径不一,且未打通,例如:
不同产品交存储且未整合
▪ 有两套计算口径1,但都不够精确:
– 基于金融资产规模进行客户价值分层
– 整合信用卡和个金积分的客户贡献度积分
▪ 后台:数据整合难度大,模型
效果打折扣
▪ 前台:用户界面散乱,体验不
佳,打击了一线使用积极性
一致性
完整性
数据已经成为转型项目实施的瓶颈————零售大数据项目( C7 )业务口径
不一致、大量客户关键信息记录不完整
现状诊断及差距分析
社交信息 ▪ 互相转账较多的同行异名账户
▪ 夫妻标识、小孩标识
网点拜访
▪ 访问客群信息 (时间、地点)
▪ 最近一次访问距今时间
网银/手机
浏览
▪ 1/3/7/30天内登陆次数
▪ 点击商品与服务纪录
▪ 浏览路线图
理财产品
交易
▪ 3/7/30天内累计购买金额
▪ 未到期产品中最近与最远一个
到期时间距今天数/产品金额
▪ 部分关键客户信息未被留存和加工
▪ 精准营销机会:家庭账户、亲子
账户、学生贷款、车贷等
▪ 更好了解客户渠道使用偏好,规
划网点布局和业态定位
▪ 能更有的放矢地向客户推荐产品,
提高销售成功率
▪ 客户价值维持和提升关键营销时
间点,靠人工记录容
▪ 可能错失大量客户价值提升的良机
1111|SOURCE: Source
数据已经成为转型项目实施的瓶颈————关键岗位(H1)、网点布局
(C5)、资产负债管理(F1)项目大量数据不具备
现状诊断及差距分析
现状 影响
▪ 人力资源分析所需数据当前都只存在于线下,
大量手工的统计,如:绩效统计
▪ 未进行以员工为维度的全方位信息收集
▪ 也不具备人力资源主数据的管理,存在人员
信息在多处的不一致,如:分散在各部门
▪ 难以对全行关键岗位核心人才的就
绪度监督和改进,基于数字的“接
班人板凳计划管理”难以展开
▪ 无法对关键岗位人才进行全方位管
理和精准招募、培训、留存
HR
网点
资负
▪ 网点的分布、数据口径在多个系统的定位不
一致,如:网点数量有5个不同版本
▪ 网点的运营信息配置信息未进入系统采集和
管理,如:人员数量、各模块布局、人流和
各类交计
▪ 行外数据收集不足:民收入、商业分布、竞
争对手情况等
▪ 无法统一网点计算口径
▪ 无法根据户和竞争对手业态环境分
布,明确该网点经营定位
▪ 无法根据现有网点模块的运营情况,
针对性调整模块布局
▪ 表外及表表外的数据多为手工台帐,各分行
数据口径不一,且完整性不足
▪ 大量资产负债管理及决策报表所需数据,需
要多方采集、手动加工后才能呈现,不但耗
时、缺乏效率且
▪ 预算及资源分配时,条线/产品业务数据颗粒
度不足,难以作为有效的模型输入
▪ 无法有效掌控表外/表表外的产金
池规模及流动性
▪ 无法提升资产负管理效率,大量时
间花在报表准备及数据整理上
▪ 无法精准配置条线/产品的资源,
难以作到有效预算管控
1212|资料来源:小组分析
数据战略
数据
整合与应用
数据
人才与组织
数据治理
数据
系统与工具
1. “战略聚焦”:的大数据战略应服务于全行整体规划,因而“凤凰计划”应成
为未来三年全行级业务用例的主要输入
2. “抓大放小”:考虑到未来三年能力建设与业务用例推进并行,实施难度和资
源投入都较大,全行应聚焦于影响力最大的~20个用例,贵精不贵多
3. “长短兼顾”:业务用例应依照同类技术能力和数据域的治理分批次推进
4. 建立变革引擎,全行统筹排序:落实主体及权责,推动跨部门等变革中的问题
5. “向成本要效益、向应用要价值”:业务用例开发应实行成本约束和绩效约束
6. 组织集约化:推动成本效率、确保管理一致性、实现人才运用的规模效应
7. 某省市场化、专业化:壮大数据人才队伍,某省市场化和专业化
8. 数据治理“实用、落地”:建立数据治理架构和数据责任人制度,理顺数据采
集、管理与使用中的权责边界,将数据质量KPI纳入各部门数据责任人的考核
9. 系统架构“开放、前瞻、简单、高效”:加强实时营销/经营分析能力,增强非
结构化数据的采集与应用能力;明确重点系统分工,减少架构复杂度
10. 系统优化“补缺优先(先做加法,再做减法)”:结合现状利用现在已有基础,
重点放在补缺补漏,明确设计规则,为新系统设计打下基础
设计原则概览
大数据体系整体指导原则:链接现状诊断和未来设计,使数据能力建设有的放矢
1313|
数据质量提升的10大关键举措
资料来源:联合小组分析
“做什么”
“怎么做”
关键问题 质量提升关键举措
关键数据项
4大治理方法、
4大治理保障
全行数据分级管理,优先治理关键数据:
- 建立数据重要性分级机制,梳理全行数据资产,区分关键和非
关键数据
- 首批,可以从用例数据需求出发,优先治理~50个关键数据项
统一全行数据标准,建立元数据管理:
- 数据治理中心发布全行数据标准规范和政策,
- 数据管家参照标准规范定义关键数据项标准、口径,并完善元数
定义黄金数据源,集中治理管控,简化数据架构
建立数据质量指标体系,健全数据问题治理机制
建立全行主数据的强管理,从客户主数据开始,逐个纳入
能力建设:建立数据治理培训体系,提供数据治理资质认证,
意愿调动:以数据质量和管控的指标体系作为考核依据,采取部门为
主体的奖惩激励机制(参考B8考核激励部分设计)
工具部署:部署3大数据管理工具,包括:元数据、数据质量和数据标
准管理系统(参考B工具和系统部分设计)
流程标准化:建立数据治理流程体系框架,优先详细界定7大关键流程
(参考B8数据治理流程的设计)
2
3
4
5
7
8
9
6
10
“谁来做”
业务IT双轮驱动
建立全行治理体系,业务IT双轮驱动:
- 建立由上至下、科技推动、业务负责的全行治理体系,包括:
数据管理委员会、数据治理中心、以及业务的数据域/项管家
- 率先任命首批业务用例方的数据责任人和数据管家
1
1515|
目录
▪ 数据质量现状回顾
▪ 数据质量提升方案
– 谁来做?——明确数据治理责任人
– 做什么?——定义治理范畴(即关键数据项)和标准
– 怎么做?——工作方法和机制保障(能力、意愿)
▪ 数据模型架构
1616|
数据质量提升的10大关键举措
资料来源:联合小组分析
“做什么”
“怎么做”
关键问题 质量提升关键举措
关键数据项
4大治理方法、
4大治理保障
全行数据分级管理,优先治理关键数据:
- 建立数据重要性分级机制,梳理全行数据资产,区分关键和非
关键数据
- 首批,可以从用例数据需求出发,优先治理~50个关键数据项
统一全行数据标准,建立元数据管理:
- 数据治理中心发布全行数据标准规范和政策
- 数据管家参照标准规范定义关键数据项标准、口径,并完善元数
据业务定义
定义黄金数据源,集中治理管控,简化数据架构
建立数据质量指标体系,健全数据问题治理机制
建立全行主数据的强管理,从客户主数据开始,逐个纳入
能力建设:建立数据治理培训体系,提供数据治理资质认证,
意愿调动:以数据质量和管控的指标体系作为考核依据,采取部门为
主体的奖惩激励机制(参考B8考核激励部分设计)
工具部署:部署3大数据管理工具,包括:元数据、数据质量和数据标
准管理系统(参考B工具和系统部分设计)
流程标准化:建立数据治理流程体系框架,优先详细界定7大关键流程
(参考B8数据治理流程的设计)
2
3
4
5
7
8
9
6
10
“谁来做”
业务IT双轮驱动
建立全行治理体系,业务IT双轮驱动:
- 建立由上至下、科技推动、业务负责的全行治理体系,包括:
数据管理委员会、数据治理中心、以及业务的数据域/项管家
- 率先任命首批业务用例方的数据责任人和数据管家
1
1717|
由上至下,建立科技推动、业务负责的全行治理体系
资料来源:小组分析
1
银行的数据治理全行体系
行长
数
据
域
管
家
事业
部
数据治理中心
业务
科技
数
据
域
管
家
数
据
管
家
决
策
治
理
规
划
标
准
科信委
▪ 数据治理战略和路径的规划审批
▪ 数据治理资源投入的支持和审批
科技 业务
▪ 数据管理政策、标准
化流程制定、发布和
监督执行
质
量
管
理
▪ 数据域负责人和管家
任命,遵照管控要求
执行
科技和业务的分工与职责
信息科技部
信息管理部
数据
协调人
业务
部门
数据
责任人
数据
管家
标准
和元
数据
管理
岗
数据
质量
管理
岗
数据
治理
规划
岗
数据
管家
培训
和资
质认
证岗
培
训
▪ 第三方数据采购和服
务管理
▪ 外部获取和新建数据
需求提出
▪ 黄金数据源筛选标准
制定、选取和建立
▪ 参与黄金数据源选取
的评估和讨论
▪ 数据质量和管控指标
体系建设
▪ 监督日常数据质量和
跟踪治理进展
▪ 数据项的业务定义制
定、统一和维护
▪ 数据质量追踪、监督
和修复执行
▪ 关键数据项选取标准
制定和推进
▪ 元数据管理规范和要
求制定和字典整合
▪ 关键数据项的评估和
筛选
▪ 所辖元数据信息的补
充完善和字典维护
▪ 开发培训体系、组织
培训和发放资质认证
▪ 参与培训,并获得资
质认证
1818|
业务条线有数据协调人、责任人和数据管家3大关键角色
银行的数据治理全行体系(业务)
行长
数
据
域
管
家
事业部
数据管理委
员会
数
据
域
管
家
数
据
管
家
数据
协调人
业务部
门
数据
责任人
关键数
据管家
资料来源:小组分析
1
分行
数据
责任人
业务条线数据治理角色的关键职责和人选定位
角色 职责 人选
数据
协调
人
▪ 指定数据责任人
▪ 审批和确保数据治理
资源
▪ 促使跨数据域间的统
筹协调
▪ 通常是事业部级
别高层领导
▪ 能够作用多个数
据域
数据
责任
人
▪ 建立数据域治理目标
和优先级
▪ 指定数据管家
▪ 控制数据治理资源
▪ 批准重要数据治理决
策,如:业务部门关
键数据项的选取
▪ 负责P&L的业务
部门主管
▪ 足够资深可以实
施改变和满足数
据用户需求
▪ 对于前线有掌控
和影响力
数据
管家
▪ 执行数据治理策略
▪ 管理元数据业务定义
▪ 管理数据质量(如:
追踪数据质量报表、
设计数据质量解决方
案和落地执行)
▪ 管理和数据关键用户
的关系和需求收集
▪ 数据域数据和用
户需求的深刻理
解
▪ 有能力执行日常
的执行工作
▪ 通常直接汇报给
数据负责人
▪ 有能力管理多项
数据治理工作
兼职/专职
兼职
兼职
兼职为主,
关键数据
管家可以
全职
a
bb
c
a
b
c
数据治理的关
键业务岗位
c
1919|
以数据域为单位,界定数据管家的管辖范围,企业级关键数据项也可以有专职
的数据管家
资料来源:小组分析
1
专职 兼职
数据管家的设置
“需要先做好数据域划分和关键数据分类”
……
个人
存款
个人
贷款
个人
理财
个人存款
数据管家
个人贷款
数据管家
个人理财
数据管家
个人客户关
键数据管家1
个金
总经理
私银
总经理
零售银行
事业部
零售数据总协调
人
……
个金数据责任
人
▪ 针对关键数据设置专岗数据管家集中治理
▪ 其他非关键数据以关键使用岗位兼任数据管家
数据域的概念和作用
什么是数据域?
▪ 通常银行有4大类数据域,主数据域、交域、衍生数据域
和挖掘数据域
▪ 数据域代表不同的数据类型和特性及差异化的管理方式,
不随数据的存储方式和模型而变动
主数据
域
交域
衍生数
据域
挖掘数
据域
▪ 全行层级关键的被多方调用的核心经营主体数
据,如:客户、产品、机构等
▪ 运营端产生的产品类交产品类交互,如:支付
交易、客服交互等
▪ 贴近业务应用端支持某类特定业务目的的数据
某省市场风险、反欺诈等
▪ 通常以经营主体客户为对象的用于数据挖掘的
宽表,如:客户360
数据域的作用?
▪ 梳理归类全行不同类型的数据资产,用于管理目的
▪ 作为数据治理的基础单位,指定数据管家,明确数据责
任的边界和范围
1 对于负责跨多部门的关键数据项的关键数据管家,需要负责关键数据项所在黄金数据源的质量,作为质量问题识别和协调
解决的关键发起人与协调人,具体质量问题的执行负责人,可以是对应业务部门的相关来源数据项的数据管家
2020|
数据域的划分以业务管理逻辑为主,便于
资料来源:小组分析
1
▪ 适用于
– 分步骤以域为单位,进行黄金数据源的选定、治理和发布
– 针对不同域的数据,规范黄金数据源的数据架构摆放原则
– 根据数据域分派和指定数据域的业务管家
– 根据数据域指导数据存放和管理逻辑
▪ 不适用于
– 统一数据的存储模型架构
– 指定数据的物理存放
重业务管理的用途,
不涉及物理存放的
设计
数据域的主要用途和特性
数据域体系的细分方法
主数据域
交域
衍生数据域
挖掘数据域
一级子域 二级子域 三级子域 示例
客户个人客户基本信息
贷款零售贷款个金贷款
某省市场风险
客户个人客户营销挖掘
主题分类(如:
客户、机构等)
对象分类(如:
个人、对公等)
内容分类
交(如:贷款、
存款)
条线分类(如:
零售、对公)
部门分类(如:
个金、私银)
应用大类(如:
风险、财务)
应用细类某省
市场、操作)
其他细类(如
有)
主题分类(如:
客户、机构)
对象分类(如:
个人、对公)
目的分类(如:
营销、挽留)
2121|
数据管家的指派,由数据治理中心统筹,根据数据重要性进行选取和任命1
资料来源:小组分析
数据域级关
键数据项
(D-CDE)
非关键数据
项
(L-CDE)
企业级关键
数据项
(E-CDE)
数据协调人
数据责任人
关键数据管
家(全职)
数据管家
数据治理中心
根据数据项的重要
性分配给相应的数
据协调人/责任人
数据协调人/责任人
报送数据管家人选
数据治理中心
进行管家资格审核
和培训
数据管理委员会
予以资格认证和正
式任命
数据管家选取原则
选取原则:
需要经过数据管理委员会认证
数据的关键使用者
了解数据的问题和需求
归属于业务部门
具备一定数据分析能力
可以追踪数据质量和诊断数据问
题和定出治理方案
能够协调多方资源
适合人选:
优先业务部门下属数据分析人员
若无可以考某省市场岗位的业务
人员
不同重要性的数据项业务责任任命规则
2222|
目录
▪ 数据质量现状回顾
▪ 数据质量提升方案
– 谁来做?——明确数据治理责任人
– 做什么?——定义治理范畴(即关键数据项)和标准
– 怎么做?——工作方法和机制保障(能力、意愿)
▪ 数据模型架构
2323|
数据质量提升的10大关键举措
资料来源:联合小组分析
“做什么”
“怎么做”
关键问题 质量提升关键举措
关键数据项
4大治理方法、
4大治理保障
全行数据分级管理,优先治理关键数据:
- 建立数据重要性分级机制,梳理全行数据资产,形成全行一致
的业务数据资产地图,区分关键和非关键数据
- 首批,可以从用例数据需求出发,优先治理~50个关键数据项
统一全行数据标准,建立元数据管理:
- 数据治理中心发布全行数据标准规范和政策
- 数据管家参照标准规范定义关键数据项标准、口径,并完善元数
据业务定义
定义黄金数据源,集中治理管控,简化数据架构
建立数据质量指标体系,健全数据问题治理机制
建立全行主数据的强管理,从客户主数据开始,逐个纳入
能力建设:建立数据治理培训体系,提供数据治理资质认证,
意愿调动:以数据质量和管控的指标体系作为考核依据,采取部门为
主体的奖惩激励机制(参考B8考核激励部分设计)
工具部署:部署3大数据管理工具,包括:元数据、数据质量和数据标
准管理系统(参考B工具和系统部分设计)
流程标准化:建立数据治理流程体系框架,优先详细界定7大关键流程
(参考B8数据治理流程的设计)
2
3
4
5
7
8
9
6
10
“谁来做”
业务IT双轮驱动
建立全行治理体系,业务IT双轮驱动:
- 建立由上至下、科技推动、业务负责的全行治理体系,包括:
数据管理委员会、数据治理中心、以及业务的数据域/项管家
- 率先任命首批业务用例方的数据责任人和数据管家
1
2424|
领先银行会对全行数据进行重要性分级,优先治理对经营、风控影响最大的
30~50个关键数据项
资料来源:小组分析
2
字段数关键性 通常做法
领先银行治理推进节奏
30-50
500-750
超出数据治理范畴的数据项
非关键数据项
(L-
CDE)
(E-CDE)
条线级
关键数据项
(B-CDE)
企业
关键
数据项
高
2,000-
5,000
5万-
10万
重点治理
优先启动(通常
前1年内完成)
选择性治理
重点治理
次优先启动(通
常前3年内完成)
以1年半的时
间治理了70
个关键数据
项
3年内将治理
范围扩大到
200多个
通常不治理 不治理
未作为关键
数据项管理
第一年重点治
理4大关键数
据域
第二年参考数
据域和重要衍
生数据域
第三年重要的
交域
不治理
日常化各业务
条线自理
2525|
不同等级的关键数据项,采取差异化的管理方式
资料来源:小组分析
2
M O N/A
E-CDE B-CDE 非关键数据管理的要求
M M M
M M O
M O N/A
M M N/A
M M O
M M M
M O N/A
M O N/A
M M O
▪ 规定与数据项(DE)相关的职责,将每个数据项与数据域一一对应,并
确定每个数据域的责任人员
▪ 建立数据质量报告的(DQ)机制和流程,按照具体的数据质量规则
监控数据项的数据质量,并定期向数据治理中心质量管理岗报告
▪ 报告数据项的数据质量结果,并针对数据治理中心质量管理岗关注的
质量问题,跟踪相关补救措施的进度
▪ 报告数据项的数据质量结果,并针对数据管理委员会关注的质量问题,
跟踪相关补救措施的进度
▪ 在企业数据字典中填写数据项的最重要的业务和技术元数据属性(例
如:标准定义、责任方、数据质量规则)
▪ 遵循企业问题解决及响应SLA(服务水平协议可按各个数据项重要水
平规定不同服务水平)
▪ 在企业数据字典中填写全部数据项的业务和技术元数据属性(包括:
来源系统、数据血缘、黄金数据源等)
▪ 记录数据项的端对端数据血缘关系,跟踪数据项的起源直至前端的来
源系统
▪ 记录部分数据项的数据血缘(例如,回溯至数据仓库(EDW)或立
即回溯至源系统来源)
强制性 可选的 不适用
数据
责任
数据
问题
追踪
数据
血缘
梳理
元数
据维
护
服务
要求
质量
报告
2626|
1. 只针对重要数据项进行CDE优先排序审核
2. 验证数据项是否用作重要报告(诸如 FRY-9C、FRY-14A/M/Q、10K/Q报告)的指标或指标的输入值
优先排序决策框架
数据治理中心向
各业务部门收集
该数据项的影响
程度评估结果
(高/中/低)
数据治理中心整
合各业务部门的
反馈结果,并计
算企业层面的平
均影响程度(高/
中/低)
数据治理中心与各
数据责任人和管家
协作,确定数据项
对监管的影响程度
(高/中/低)
中等/较低影
响程度
数据治理中心初
步判断数据项
(DE)是否需要进
行优先级审核1
数据治理中心与
各数据责任人和
管家协作,确定
数据项是否用于
监管报送2
数据域级关
键数据项
(D-CDE)
非关键数据
项(L-
CDE)
企业关键数
据项(E-
CDE)
已使用
中等影
响程度
影响水
平较低
高影响
程度
监管影响考虑维度
资本要求
资产负债表
利润表
合规
业务影响考虑维度
财务
运营
客户
未使用
数据治理
中心将待
审核清单
发送给数
据责任人
和管家
重要性的考虑因素
被某个数据域使用
对于某个业务流程非常重要
需要一定程度的监管/重视
数据影响评估监管评估预审阶段
关键数据项的分级筛选方法2
资料来源:小组分析
2727|
1. 在普通股一级资本比率为%时,其1%约等于10个基点
示例分析
监管影响和业务影响的评估维度
业务影响
评估
监管影响
评估
高 中
运营影响 对于业务单元的日常运营绝
对需要,否则可能造成一天
以上的停业
对于业务单元的日常运营并
不需要;但如果没有,则可
能造成运营低效
对于业务单元的日常运营
并不需要;即使没有,也
不会造成运营低效
对业务合规
的影响
违反了一项企业政策 并未违反任何企业政策
对业务单元实际税前净利润
的影响
大于5%
对业务单元实际税前净利润
的影响
在%--5%之间
对业务单元实际税前净利
润的影响
小于%
客户影响 导致业务单元客户流失率上
升,增幅为当前值的10%以
上
财务影响
导致业务单元客户流失率上
升,增幅为当前值的5%至
10%
导致业务单元客户流失率
上升,增幅为当前值的5%
以下
对资产负债
表的的影响
对银行已列报资产负债表的
影响大于1%
影响水平不到银行报告的资
产负债表的1%,但超过银行
报告的税前净收入的%
对银行已列报税前净利润
的影响小于%
影响水平大于已列报普通股
一级资本比率的1% 1
影响水平不到报告的普通股
权一级资本比率的1%,但大
于1个基本点
可能造成监管报告事项(例
如,需要立即关注/关注的
事项(MRIA/MRA))
对资本要求
的影响
对已列报普通股一级资本
比率的的影响小于1个基点
对银行报告的税前净收入的
影响水平超过5%
对银行已列报税前净利润的
影响小于5%,但大于%
对利润表的
影响
对银行已列报税前净利润
的影响小于%
低
对该分行净
影响的默认
值将采用四
个维度的最
高影响水平
对该分行的
净影响将采
用所有三个
维度的平均
影响水平
维度
各数据域应采用上述标准对数据项进行总体评估,而非按单项记录进行评估
2
资料来源:小组分析
2828|
数据项 监管影响评估 业务影响评估 重要性评估
数据项 域
在重要主力报告中的利
用
重要报告
影响
将数据项
列为高影
响水平的
部门
将数据项
列为中等
影响水平
的部门
将数据项
列为低影
响水平的
部门
企业影响得
分
重要性层
级
数据责
任人 数据管家
评估日
期 审核日期
FRB代码 管制报告 录入FRY 9C附表HCR
和HCC FRY-14A/Q/M
,以及美国证券交会
(SEC)10K/Q报表评
估指标
高 N/A N/A N/A N/A ECDE --
按FRB代
码划分的
贷款余额
管制报告 FRY-9C 附表 HCC和
FRY-14A/Q/M中的评估
指标
录入FRY -9C附表HCR
,FRY-14Q管制转换附
表、FRY-14A,以及美
国证券交会
(SEC)10K/Q报表的
评估指标
高 N/A N/A N/A N/A ECDE --
贷款的风
险加权资
产
(RWA)
管制报告 FRY 9C附表HCR,
FRY-14Q转换附表,
FRY-14A,以及美国证
券交会 (SEC)10K/Q
报表的评估指标
高 N/A N/A N/A N/A ECDE --
“业务影响评估”部分说明数据项在
所有业务部门的重要性
“重要性评估”部分说明数据项的最终“
重要性”层级和审批记录
“监管影响评估”部分说明数据项在
特定主要报告中的使用情况
数据治理中心利用所提供的模板记录了优先排序的理论依据
资料来源:小组分析
2
示例分析
2929|
首批,可以从用例数据需求出发,优先治理~50个关键数据项
资料来源:小组分析
2 示例分析
治理评估结果
数据域一级数
据子域
二级数
据子域
三级数
据子域
涉及数
据项/
数据
内容
详细
数据项
数据所
在系统
可能的
黄金数
据源
选择
编号 来源/
关联数
据项
问题
描述
对应
用例
解决方
案大类
细化解
决方案
数据治
理难度
首批重
点治理
对象
数据内容 问题描述 解决方案
质量问
题归类
问题提
出方
定位具
体的数
据项
数据项
所在系
统
可能的
黄金数
据源
来源数
据项
1.数据
项缺失
2.数据
项质量
差 –
不完整
3.数据
质量差
–
不一致
4.数据
质量差
–
不准确
5.数据
质量差
–
不规范
1.业务
提出的
对于数
据问题
的简单
描述
2.通过
进一步
的核实
和分析
之后,
针对数
据问题
情况的
详细说
明,可
能包含
具体的
示例
首批业
务用例,
采用“
编号 –
用例名
称”的
方式呈
现
问题提
出的来
源:
1.标准
– 期
2.用例
业务方
3.其他
业务
部门
针对具
体数据
问题,
分阶段
的解决
方案
描述
根据具
体解决
方案,
评估治
理难度,
以需要
达到数
据治理
效果具
体投入
和耗费
的时间、
资源进
行估算
判断数
据项是
否作为
首批重
点治理
对象,
主要考
虑维度:
1.数据
项是都
跨业务
部门和
应用被
使用
2.数据
项治理
难度
首批优先治理的关键数据项筛选表格
数据域层级和具体归属的内容
项目组建议首批业务用例的~50个关键
数据项
项目组基于首批推进的6个业务用例,
收集了关键数据项和数据问题
分析、梳理和诊断数据问题之后,
明确首批治理对象
3030|
目录
▪ 数据质量现状回顾
▪ 数据质量提升方案
– 谁来做?——明确数据治理责任人
– 做什么?——定义治理范畴(即关键数据项)和标准
– 怎么做?——工作方法和机制保障(能力、意愿)
▪ 数据模型架构
3131|
数据质量提升的10大关键举措
资料来源:联合小组分析
“做什么”
“怎么做”
关键问题 质量提升关键举措
关键数据项
4大治理方法、
4大治理保障
全行数据分级管理,优先治理关键数据:
- 建立数据重要性分级机制,梳理全行数据资产,区分关键和非
关键数据
- 首批,可以从用例数据需求出发,优先治理~50个关键数据项
统一全行数据标准,建立元数据管理:
- 数据治理中心发布全行数据标准规范和政策
- 数据管家参照标准规范定义关键数据项标准、口径,并完善元数
据业务定义
定义黄金数据源,集中治理管控,简化数据架构
建立数据质量指标体系,健全数据问题治理机制
建立全行主数据的强管理,从客户主数据开始,逐个纳入
能力建设:建立数据治理培训体系,提供数据治理资质认证,
意愿调动:以数据质量和管控的指标体系作为考核依据,采取部门为
主体的奖惩激励机制(参考B8考核激励部分设计)
工具部署:部署3大数据管理工具,包括:元数据、数据质量和数据标
准管理系统(参考B工具和系统部分设计)
流程标准化:建立数据治理流程体系框架,优先详细界定7大关键流程
(参考B8数据治理流程的设计)
2
3
4
5
7
8
9
6
10
“谁来做”
业务IT双轮驱动
建立全行治理体系,业务IT双轮驱动:
- 建立由上至下、科技推动、业务负责的全行治理体系,包括:
数据管理委员会、数据治理中心、以及业务的数据域/项管家
- 率先任命首批业务用例方的数据责任人和数据管家
1
3232|
遵照标准流程进行数据标准定义3
资料来源:小组分析
1. 发布全行数
据标准指导准
则和框架
数据责
任人
数据管
家
数据标
准和元
数据管
理岗
数据质
量管理
岗
数据治
理规划
岗
角色
发布标准框架和模板 评审和纳入数据标准平台定义数据项业务和技术标准
业
务
人
员
数
据
治
理
中
心
2. 发布数据标
准信息模板
3. 定义业务数
据标准
IT
人
员
系统平
台开发
人员1
5. 定义技术数
据标准
6. 整合数据项
业务和技术标
准并进行审批
4. 审批业务数
据标准
数据项标准实施
8. 数据项标准
技术实现
标准一期项目
3大基础主题
成果导入
7. 纳入企业级
数据标准平台
1. 对应数据项所在系统平台的开发维护人员
数据管家定义
业务标准
数据标准和元数据管理岗经过
审核后,将数据标准纳入标准
平台体系
3333|
元数据在开发和运维过程的强管理流程3
资料来源:小组分析
1. 对应数据项所在系统平台的开发维护人员
1. 提交所在
系统的数据规
格
数据责
任人
数据管
家
数据标
准和元
数据管
理岗
数据治
理规划
岗
角色
开发系统提交自有系统
数据规格供审核
再次提交和审核
审核并提出修改意见和具体指标
标准新增需求
业
务
人
员
数
据
治
理
中
心
2. 和全行已
有数据标准进
行比对与审核
IT
人
员
系统平
台开发
人员1
系统正式上
线
5. 出具评审
结果和修改意
见
6. 根据意见
修改数据规格
符合统一标准
3. 提出新增
数据项标准定
义需求
4. 进行数据
标准定义(参
照标准流程)
7. 再次提交
审核
8. 审核通过
9. 系统上线
数据质
量管理
岗
所有新的系统上
线前或是系统有
修改更新,需要
提交数据标准和
元数据管理岗进
行审核
若有新的
数据项为
定义标准
的,则发
起标准定
义的流程
针对已有的
数据项和标
准,要求进
行统一
通过审核方
可正式上线
元数据管理原则
数据字典
存量:分批次
进行收集、整
合和补全
新增:在开发
和运维过程中
进行强管理
考核:元数据
的信息收集纳
入平台技术管
理人员考核
数据血缘
存量:分批次
由源系统进行
提交
新增:需要评
估和维护对于
已有血缘关系
的影响
考核:对于源
系统开发人员
考核是否按时
提交
3434|
元数据
数据质量检验规则数据标准
元数据直接调用数据标准和数据质量检验规则 示例模板3
数据标准编号
数据标准定义(业务)
所在数据域
数据标准名称
数据标准定义(技术
所在主题
数据标准类型1 ……
数据质量规则编号
数据质量规则(业务)
所对应数据项
数据质量规则名称
数据质量规则(技术)
检查频率
规则指标目标 ……
数据项名称(业务) 数据项名称(技术) 数据项所在系统名称 数据项所在表单名称
数据项所在数据域 数据项管家 数据责任人 技术管理员
数据项对应标准编号 数据项对应标准名称
数据项来源系统 数据项血缘关系数据项重要性等级 数据项黄金数据源
数据项对应质量编号 数据项对应质量名称
数据项访问使用权限 ……
关
联
调
用
关
联
调
用
3535|
数据治理中心的标准和元数据管理岗负责创建和维护企业级的数据字典框架与
模板
3
资料来源:小组分析
元数据定义分类 关键属性价值描述
定义
域
相关人
▪ 唯一的数据项标识
▪ 关键数据项名称
▪ 业务定义
▪ 数据域的名称
▪ 数据域的类型
▪ 数据域主责单位
▪ 数据的责任人和管家
▪ 技术管理员
▪ 最后由谁更新
为用户提供关于数据项的情境信息
有助于将数据项映射到其他数据项,
两者与同一特定主题范围有关。
确定有关某个特定数据项的接触点,
以供参考
定义数据项,并提供附加的使用信
息
提供关于数据项所属数据域的信息
提供负责数据项的成员/人员信息
质量
更新
技术
血缘
▪ 业务规则和CDE状态
▪ 数据质量技术规则
▪ 数据质量指标目标和门槛
▪ 最后更新日期
▪ 最后核对日期
▪ 更新说明
▪ 技术名称
▪ 唯一标识符
▪ 官方数据源
▪ 官方数据源
▪ 上游来源
▪ 下游用途
提高数据项存储信息的可信度
提供可视性,保证数据项是最新的
支持数据血缘的追踪和技术数据质
量规则的创建
赋予用户追踪数据来解决问题或得
到更优质信息的能力
应用到数据项的数据质量度量细节
追踪最后添加到数据项中的变化细
节,包括更新的论据
数据项的技术定义细节
提供从数据项源到数据消耗/转化的
追踪
业务为主 技术为主业务技术共同
3636|
数据字典框架模板中的部分信息项示例说明 示例模板3
描述元数据属性 示例类别
定义和归属
分类
质量
相关人
数据血缘
▪ 业务定义 ▪ 某一特定数据项的业务用例定义 ▪ 表明贷款落入哪类FED代码分
类的数据项
系统
输入
字段
▪ 数据项名称 ▪ 数据项的名称(DE) ▪ FRB代码/ Fed代码
▪ 域名 ▪ 数据项所属的数据域的名称 ▪ 监管报表
▪ 数据管家 ▪ 业务方具体负责数据项/域管理的数据管家 ▪ BBB
▪ 数据责任人 ▪ 业务部门的数据责任人 ▪ AAA
▪ 技术负责人 ▪ 负责技术管理及系统维护的人 ▪ CCC
▪ 重要性层级 ▪ 数据项重要级别的定义(非关键/
CDE/ECDE)
▪ ECDE
▪ 业务规则 ▪ 数据项必须满足的质量规则 ▪ 所有贷款应该有一个FRB码
▪ 贷款应该有一个唯一的代码
FRB
▪ 此DE值应为大于0的3位数字
ERM 贷款 CRS SQLABC
Fed代码
Fed贷款
NAICS
组织类型
国家
Fed商业类型
免税设施标志
贷款用途
主要抵押品
抵押品类别/类型
NAICS
组织类型
国家
派生的Fed类
黄金数据源
3737|
定义和归属 相关人 分类 质量 数据血缘
数据项
数据项
名称 业务定义 重要性
数据负责
人 数据管家
平台管理
员
重要性层
级 业务规则 系统
输入
字段
1 贷款号
码
贷款产品的
连续编号
CDE 抵押贷款
2 财产街
道地址
抵押财产对
象的地址
ECDE 抵押贷款
3 财产某
省市
抵押财产对
象所某省市
CDE 抵押贷款
4 财产所
在州
抵押财产对
象所在的州
n/a 抵押贷款
在有完备的标准、元数据和质量管理系统之前,可以通过excel模板进
行数据字典的维护
示例模板3
资料来源:联合小组分析
3838|
数据质量提升的10大关键举措
资料来源:联合小组分析
“做什么”
“怎么做”
关键问题 质量提升关键举措
关键数据项
4大治理方法、
4大治理保障
全行数据分级管理,优先治理关键数据:
- 建立数据重要性分级机制,梳理全行数据资产,区分关键和非
关键数据
- 首批,可以从用例数据需求出发,优先治理~50个关键数据项
统一全行数据标准,建立元数据管理:
- 数据治理中心发布全行数据标准规范和政策
- 数据管家参照标准规范定义关键数据项标准、口径,并完善元数
据业务定义
定义黄金数据源,集中治理管控,简化数据架构
建立数据质量指标体系,健全数据问题治理机制
建立全行主数据的强管理,从客户主数据开始,逐个纳入
能力建设:建立数据治理培训体系,提供数据治理资质认证,
意愿调动:以数据质量和管控的指标体系作为考核依据,采取部门为
主体的奖惩激励机制
工具部署:部署3大数据管理工具,包括:元数据、数据质量和数据标
准管理系统
流程标准化:建立数据治理流程体系框架,优先详细界定7大关键流程
2
3
4
5
7
8
9
6
10
“谁来做”
业务IT双轮驱动
建立全行治理体系,业务IT双轮驱动:
- 建立由上至下、科技推动、业务负责的全行治理体系,包括:
数据管理委员会、数据治理中心、以及业务的数据域/项管家
- 率先任命首批业务用例方的数据责任人和数据管家
1
3939|
黄金数据源的筛选:为什么要建立“黄金数据源”4
资料来源:小组分析
数据质量管理的困扰 “黄金数据源”可以解决的问题
所需管理的数据存在系统中的多个
地方,管理千头万绪,无从下手
不同业务用户从不同的源头取数,
造成不一致
类似数据存多套,造成数据存储的
冗余,占用存储空间
数据多处引用,造成数据链路复杂,
维护成本高
无法形成唯一的数据质量衡量结果,
各来源情况不一
集中在黄金数据源管理一类数据
用户可以清晰知道应该从哪里获取
高质量的定义明确的数据
减少冗余的数据存储,释放多余空
间,降低运维成本
简化数据架构和链路,降低开发和
维护难度
可以获取唯一的数据质量衡量结果,
形成统一认知
4040|
黄金数据源的筛选:黄金数据源应符合7大条件4
资料来源:小组分析
说明黄金数据源的原则
专人管理
▪ 将有公认的业务、数据和科技人员对每个黄金数据源进行管理(例如:黄金数据源所涵
盖的数据域的数据责任人和数据管家、系统管理人员、数据治理中负责人员)
唯一性
▪ 每个关键数据项(CDE)可存在多个系统,但将只有一个唯一的黄金数据源
▪ 黄金数据源是以数据域为单元的,即一个数据域内的数据项都存放在一个黄金数据源,
便于集中个管理
▪ 黄金数据源将相对平等地支持各个业务条线和各个企业职能部门的的需求(例如:提供
足够广的数据覆盖面和细化程度,以满足所有需求)
▪ 黄金数据源将符合企业的数据访问和使用标准(例如:跨业务条线的数据访问)
▪ 黄金数据源将作为评估、监控和执行该数据域的数据质量的节点(问题修复将在上游的
问题产生点进行)
存储多个历史版本,供追溯历史和问题诊断
▪ 交数据来源将仅存储三个财务年度(截至当日的年数)的版本记录
▪ 参考官方数据来源将无限期存储历史版本记录
▪ 黄金数据源将带来数据架构的简化和标准化,并确保与企业标准相一致(例如:降低数
据资产的存储份数), 适当的时候充分利用新一代技术
1
2
满足企业数据需求
3
符合控制标准
4
数据质量和数据域控
制的官方节点5
存储历史版本记录,
为数据质量控制提供
支持
6
简化和标准化数据架
构
7
4141|
黄金数据源的筛选:黄金数据源的定位规划和管理方式4
资料来源:小组分析
主数据
域
交域
衍生数
据域
挖掘数
据域
▪ 全行层级关键的被多方调
用的核心经营主体数据,
如:客户、产品、机构等
▪ 运营端产生的产品类交产
品类交互,如:支付交易、
客服交互等
▪ 贴近业务应用端支持某类
特定业务目的的数据某省
市场风险、反欺诈等
▪ 通常以经营主体客户为对
象的用于数据挖掘的宽表,
如:客户360
数据域 数据域描述 来源系统
▪ 交
▪ 交
▪ 进行指标计
算和存储的
系统
▪ 进行指标计
算和存储的
系统
黄金数据源位置
▪ 主数据管理系统
▪ 支持运营和分析数
据需求的ODS
(如:MDS)
▪ 主要支持业务应用
分析需求的数据仓
库(如:EDW)
▪ 支持高级分析数据
需求的数据仓库或
沙盘
▪ 管理方式
– 一个黄金数据源
一般对应多个数
据来源系统
– 每个数据来源有
指定的数据管家
– 一个黄金数据源
可能对应多个数
据管家共同管理,
各自负责来源系
统问题并就争议
达成一致意见
▪ 数据提供方式
– 为了便于黄金数
据源的对外供数,
实际用户对于数
据的获取和访问
可以通过建立镜
像和虚拟存储的
方式来实现
4242|
黄金数据源的实现主要步骤
黄金数据源的筛选:黄金数据源的实现路径4
资料来源:小组分析
公开发布“
黄金数据源
”
优先治理关键
数据项(数据
标准、口径和
定义)
治理并建立
黄金数据源
限定时间进
行用户迁徙
和数据链路
切换
圈定所在数
据域范畴和
数据项清单
选定黄金数
据源
明确来源系
统和相关数
据管家
明确数据范畴和来源系统 选定和建立黄金数据源 发布和完成用户迁徙
黄金数据源的实现路径要点
治理顺序
先从衍生类指标的关键数据项开始,配合主数据管理系统进行主数据的黄金数据
源建立,然后是交据的源头系统的规范和治理
治理范围
从关键数据项发起,但以数据项所在数据域为单位,选定黄金数据源,明确来源
系统和数据管家
先“治理”
后“发布”
先将选定的黄金数据源治理完毕(达到一定数据质量、明确具体数据项清单和边
界、具备集中和供数功能),再正式对外发布,进行迁徙和切换
日常维护和
管理
对于前端系统的新增和修改,都会借助元数据管理,识别是否涉及已发布黄金数
据源的数据域,进行源系统的添加和链路集中
4343|
黄金数据源的筛选:如何定义黄金数据源4
资料来源:小组分析
选定黄金数据源
明确数据范畴
和来源系统
治理并建立黄建数据源
数据用
户
数据管
家
IT系统
开发人
员
数据标
准和元
数据管
理岗
1. 发起数据域
的“黄金数据
源”选取要求
角色
业
务
人
员
IT
人
员
数
据
治
理
中
心
数据质
量管理
岗
数据架
构负责
人
2. 提供该
数据域所分
布的各数据
源当前系统
评估结果
4. 制定数
据架构实
现和迁徙
方案
2. 从业务
角度提供“
黄金数据源
”选取建议
和输入
2. 从管理
角度提供“
黄金数据源
”选取建议
和输入
5. 数据项
元数据维
护和更新
5. 企业级
数据字典
更新整合
5. 数据质
量指标产
出规则更
新
5. 系统架
构实施
7. 适应新的数据
使用和获取的方
式途径变更
数据负
责人
数据治
理规划
岗
3. 开展
圆桌会
议进行
“黄金
数据源
”选取
的探讨
和决议
a
b
ca
a
后续展开
公开发布“黄金
数据源”,完成
用户迁徙
6. 公开发布“黄
金数据源”
4444|
标准 问题
1.可行性
目前是否存在?如目前尚不存在,那么未来1年内是否会存在(基于当前的预算投入),
从而可由下游用户开始采用?
2.完整性 是否包含整个银行对该类型数据的全部记录(包含所有来源系统)?如不包含全部,那么
包含该类型数据的百分比是多少?
3.深度 是否包含历史记录?如包含历史记录,那么包含多少期间的(日、月、年)?
4.使用 a. 是否向重要职能部门(风险、资本、资金管理)提供当期数据?如提供,提供多少?
b. 是否向重要职能部门(风险、资本、资金管理)提供历史数据?如提供,提供多少?
5.频率 数据获取的频率?向用户提供数据的频率是多少?
6.质量 与总账对账的流程是否已有规定并有效运行?目前能达到的准确度?
7.记录 元数据记录及维护流程是否已有规定并有效运行?如是,可提供何种元数据信息(例如,
业务/技术性元数据)?覆盖深度如何?
8.业务责
任方
a. 是否支持特定的业务应用(例如,特定风险管理/融资部门的用途)?
b. 业务部门是否参与数据的标准化?
c. 谁是业务责任方?
黄金数据源的筛选:制订一整套标准,并根据这些标准评定该类数据所
在的各个数据源的情况,作为黄金数据源筛选的评判基础
4a
资料来源:小组分析
4545|
标准/问题
按揭贷款数据储存库
DB1 DB2 DB3
可
行
性
目前是否存在? 是 是 是
如目前尚不存在,那么未来1年内是否会存
在,从而可可由下游用户开始采用?
. 是 将实施简化方法
完
整
性
是否包含整个银行对该数据类型的记录? 否 是 否(自由标签或预
先购买账户)
如否,所包含的来源系统的百分比是多少
?
10% 100% 100%
深
度
是否包含历史记录? 否 作为2014年度历史数据合并项目的
组成部分
是
如不包含历史记录,那么包含多少期间
(月、日、年)?
. 在2013年11月开始的数据永久保
存。在2014年,对15个年度期间
的历史月度数据进行了合并,但保
存在一个字段子集之中
1年期间在线数据/7
年期间离线数据
使
用
目前是否向重要职能部门(风险、资本、
资金管理、核心融资)提供当期数据?
否 是 是
如提供,提供多少? 风险、资本、资金管理、融资、
14A/14M、CCAR
风险/资本/资金管理
融资/消费
目前是否向重要职能部门(风险、资本、
资金管理、核心融资)提供历史数据?
否 是 是
如提供,提供多少? . 风险,资本 风险/资本/资金管理
融资/消费
频
率
频率 每天 每日核心数据;每月的特定融资/
会计核算流程
每日/每周/每月
质
量
与总账对账的流程是否已有规定并有效运
行?
否 每天包括双图表字段(总账以下) 否
黄金数据源的筛选:通过多个数据源的评估结果,选取黄金数据源
▪ “黄金数据源”通
常显而(或者至少
是数量有限的几个
来源)
▪ 在本例中,DB2将
是“黄金数据源”
的首选项,其原因
是其最补的不足和
进行下游用户的迁
移
示例4a
资料来源:小组分析
建议选取的
黄金数据源
4646|
黄金数据源的筛选:需要举行跨业务部门的工作会议,确定每个域/项的
黄金数据源
参与“黄金数据源”决策研讨会的每位成员的议题
对不同技术和业务部门之间的诉求不一致,可以通过如下方式进行管理:
为“黄金数据源”定义一个结构化的决策框架,提前收集相关数据,以便在会议
期间做出基于事实的评估
将工作会议成员限定为由系统平台管理者、数据管家和业务部门用户(例如风险
和财务部门)组成的小团体,随着治理模式的进一步完善,之后再扩大到其他参
与者
针对单个数据域
“黄金数据源”
的决策研讨会
关键业务方的数据管家
▪ 优先推选处于他们业务线控
制之下的数据资产/系统
负责不同数据源的系统平台管
理者
▪ 将自己的数据源推举为黄金
数据源,以保持其连续性
▪ 争取获得额外维护升级预算
▪ 避免承担企业治理要求的额
外责任
相关的业务数据用户
▪ 优先选择对他们而言最好用的
数据来源(通常支持目前他们
在用的数据资产来源)
▪ 确保“黄金数据源”获得足够
的预算以满足他们新的需求
(如巴塞尔协议III)
数据治理中心的成员
▪ 优先选取符合企业数据标准的
数据来源(例如具备元数据记
录)
▪ 平衡益相关者的需求
▪ 确保各小组的参与
案例4b
资料来源:小组分析
4747|
黄金数据源的筛选:明确黄金数据源之后,通过有规划的数据来源和出
口归集,完成数据的集中和迁徙
第一年 第二年 第三年 第四年
阶段
描述
分批次迁徙用户,使
用黄金数据源
率先迁移优先客户和
关键应用,再迁徙其
他用户,同时依照严
格的QA/QC活动进
行管理
除役所有遗留系统
和冗余存储
进口出口都统一之
后,移除其他冗余
的中间存储
源头数据统一归口到
黄金数据源
让所有相关源数据都
统一供数给“黄金数
据源”,形成集中的
归口和节点,统一管
控和治理
分析现状,厘清链路,
指定“黄金数据源”
针对数据域(项)厘
清数据链路,充分评
估会议决策“黄金数
据源”的建立和选取
1
OSD
Legacy
User
User
SOR
SOR
SOR
SOR
OSD
Legacy
User
User
SOR
SOR
SOR
SOR
OSD
Legacy
User
User
SOR
SOR
SOR
SOR
OSD
User
User
SOR
SOR
SOR
SOR
指定黄金数据源 归集数据 归集出口 移除冗余2 3 4阶段
计划
OSD 黄建数据源
4c
资料来源:小组分析
4848|
数据质量提升的10大关键举措
资料来源:联合小组分析
“做什么”
“怎么做”
关键问题 质量提升关键举措
关键数据项
4大治理方法、
4大治理保障
全行数据分级管理,优先治理关键数据:
- 建立数据重要性分级机制,梳理全行数据资产,区分关键和非
关键数据
- 首批,可以从用例数据需求出发,优先治理~50个关键数据项
统一全行数据标准,建立元数据管理:
- 数据治理中心发布全行数据标准规范和政策
- 数据管家参照标准规范定义关键数据项标准、口径,并完善元数
据业务定义
定义黄金数据源,集中治理管控,简化数据架构
建立数据质量指标体系,健全数据问题治理机制
建立全行主数据的强管理,从客户主数据开始,逐个纳入
能力建设:建立数据治理培训体系,提供数据治理资质认证,
意愿调动:以数据质量和管控的指标体系作为考核依据,采取部门为
主体的奖惩激励机制(参考B8考核激励部分设计)
工具部署:部署3大数据管理工具,包括:元数据、数据质量和数据标
准管理系统(参考B工具和系统部分设计)
流程标准化:建立数据治理流程体系框架,优先详细界定7大关键流程
(参考B8数据治理流程的设计)
2
3
4
5
7
8
9
6
10
“谁来做”
业务IT双轮驱动
建立全行治理体系,业务IT双轮驱动:
- 建立由上至下、科技推动、业务负责的全行治理体系,包括:
数据管理委员会、数据治理中心、以及业务的数据域/项管家
- 率先任命首批业务用例方的数据责任人和数据管家
1
4949|
建立三个层次的数据质量报表,进行体系化数据质量追踪管理,建立KPI考核
体系作为运作保障机制
企业级管理指标
数据域管理指标
关键数据项质量指标
用户
▪ 监督各数据域的质量和治
理情况
▪ 触发相关干预措施
▪ 进行检视,发现、分析和
解决问题
▪ 追踪质量提升情况
▪ 作为考核数据责任人和域
管家治理成效的关键指标
▪ 对结果进行检视,如有问
题则遵循数据问题解决流
程进行处理
▪ 作为考核关键数据项管家
治理成效的关键指标
汇总
细分
作用和考核
▪ 数据治理中
心
▪ 数据责任人
▪ 数据域管家
▪ 关键数据项
管家
▪ 数据管理委
员会
▪ 作为考核数据治理中心治
理工作的重要依据
内容
▪ 企业级数据质量报
告,包含所有数据
域
▪ 指标涉及3大方面:
管控、质量标准和
元数据
▪ 衡量数据域中关键
数据项的数据质量
情况,是关键数据
项汇总之后的结果
▪ 也包含管控和元数
据管理情况
▪ 衡量关键数据项是
否符合数据标准,
包括:规范性、完
整性、准确性、一
致性等关键质量指
标
资料来源:小组分析
5
5050|
根据数据质量标准建立数据质量指标规则,明确治理目标,并持续监控、分析
和进行问题修复
5
资料来源:小组分析
顺利进行 问题 / 疑虑 延迟
客户
域 现状 目标 问题状态
根本
原因
问题
执行人
问题
负责人指标 规则
80% 95%
问题缓解
待定 待定待定1- 规范性(A) 按照国某省市、区、
弄…拆分
存储
70% 95% 补救计划
核准
待定 待定待定1- 规范性(B) 每个拆分项符合数
据格式要求
60% 95%
问题审视中
待定 待定待定1- 规范性(C) 每个拆分项符合字
符长度要求
25% 95%
问题审视中
待定 待定待定2- 完整性 所有个人客户中家
庭地址不为空的比
例
60% 80% 文字 待定 待定待定3- 真实性 通过定期抽查、一
线反馈或和外部数
据交叉比对,获得
的抽样真实性比例
范围
CDE
家庭
地址
数据项
状态方案
▪ 问题审视中
▪ 补救计划设计进行中
▪ 补救计划核准
▪ 执行中
▪ 问题缓解
1. 根据定义的数据标准建立数据质
量指标规则
2. 设立每类
数据质量指
标的目标
3. 根据现状和目标差距,设立质量门槛,识
别质量问题,分析原因,指定负责人和执行
人,提出解决方案,并根据解决进度
解决
方案
说明:针对需要追溯由多个数据管家协同修复的数据质量问题,会被记录在同一个数据质量问题下,且每个相关的
数据管家,都会有相应需要负责处理的问题,问题的管理者将由数据治理中心的质量管理岗担当
5151|
典型数据质量问题的几类修复方案5
资料来源:小组分析
一致性
完整性
规范性
真实性
▪ 标准口径定义不完善
▪ 多个数据来源不统一
▪ 计算加工逻辑存在偏差
▪ 数据采集不完善
▪ 数据整合不完整
▪ 前线认为因素导致,如:
不理解、偷懒和故意屏蔽
▪ 数据整合更新不及时
▪ 缺乏规范性定义
▪ 采集前端不规范
▪ 处理过程未按规范处理
其他问题:
1- 数据缺失:根据业务需求进行数据创建和采集引入
2- 定义难统一:由于管理逻辑或组织壁垒等原因导致的数据统计口径不一致,通过协调多方进行解决
产生原因 采取措施
▪ 明确定义数据口径和标准
执行人
数据管家
▪ 定义、使用黄金数据源 数据管家、IT系统开发人员
▪ 修正系统加工逻辑 IT系统开发人员
▪ 业务优化采集流程和要求 数据管家
▪ 优化系统链路整合逻辑 数据管家、IT系统开发人员
▪ 根据具体原因,采取培训
教育、流程优化、考核惩
罚、运动式补救等方式
▪ 调整整合逻辑和更行链路
数据管家
数据管家、IT系统开发人员
▪ 明确数据标准规范
▪ 采取教育培训和系统强制
▪ 加强质量控制
数据管家
IT系统开发人员
数据管家、IT系统开发人员
5252|
项目制的数据治理工作
数据质量的日常管理机制5
资料来源:小组分析
数据质量日常管理主要工作 开展机制
▪ 全行统一目标和规划的治
理工作
– 每年末制定未来一年重
点数据治理相关项目和
目标(通常伴随业务用
例的开展节奏)
– 指定业务参与人员,包
括数据责任人和数据管
家
– 基于目标,确定关键考
核指标及评价标准
▪ BAU数据治理工作
– 日常BAU问题采取标准
流程进行收集管理,按
照数据重要性划分进行
治理和资源分配
▪ 重点考核全行级治理项目
所涉及的目标指标,辅助
观测BAU治理动作完成情
况
年初 年中 年末
规划和目标
治理和追踪
重点考核
(必要)
人员和职责
BAU(常态化)数据治理工作
数据问题发现识别、分析诊断和治理追踪1
辅助考核
(加分)
1 数据治理中心的质量岗会负责对所有黄金数据源的日常质
量监控,并针对数据问题进行分析诊断,协同数据管家一同
制定修复方案,并追踪治理进度和成果
5353|
数据质量提升的10大关键举措
资料来源:联合小组分析
“做什么”
“怎么做”
关键问题 质量提升关键举措
关键数据项
4大治理方法、
4大治理保障
全行数据分级管理,优先治理关键数据:
- 建立数据重要性分级机制,梳理全行数据资产,区分关键和非
关键数据
- 首批,可以从用例数据需求出发,优先治理~50个关键数据项
统一全行数据标准,建立元数据管理:
- 数据治理中心发布全行数据标准规范和政策
- 数据管家参照标准规范定义关键数据项标准、口径,并完善元数
据业务定义
定义黄金数据源,集中治理管控,简化数据架构
建立数据质量指标体系,健全数据问题治理机制
建立全行主数据的强管理,从客户主数据开始,逐个纳入
能力建设:建立数据治理培训体系,提供数据治理资质认证,
意愿调动:以数据质量和管控的指标体系作为考核依据,采取部门为
主体的奖惩激励机制(参考B8考核激励部分设计)
工具部署:部署3大数据管理工具,包括:元数据、数据质量和数据标
准管理系统(参考B工具和系统部分设计)
流程标准化:建立数据治理流程体系框架,优先详细界定7大关键流程
(参考B8数据治理流程的设计)
2
3
4
5
7
8
9
6
10
“谁来做”
业务IT双轮驱动
建立全行治理体系,业务IT双轮驱动:
- 建立由上至下、科技推动、业务负责的全行治理体系,包括:
数据管理委员会、数据治理中心、以及业务的数据域/项管家
- 率先任命首批业务用例方的数据责任人和数据管家
1
5454|
领先银行都会针对企业级主数据建立单独管理平台,提高数据的一致性、
完整性,减少数据的冗余
资料来源:联合小组分析
主数据管理平台要求
主数据唯一
识别
主数据管理
组织架构
主数据信息
共享
主数据流程
化管理
规范化主数
据
业务规则/
流程变化
业务规范变化
部门职能调整
总行相关
规范发布
应用系统
新建/变更
产生影响和采取行动
依照数据模型主品类分类梳
理我行主题域管理框架,明
确主数据定义和规则
对主数据的编码名称等重要
属性进行规范和维护
主数据责任部门需要明确,
并设立专属的主数据负责人
主数据在系统间的传输关系
需要规范和维护
主数据在主数据管理系统及
其他系统中的分布和使用需
要定义标准化的流程
客户信息
合约信息
产品信息
机构信息
员工信息
押品
主数据管理范畴
6
▪ 通过主数据管理系统,配合数据责任指定和各类规范流程的制定,实现对于全行主数据的
统一管理,确保一致性、准确性、规范性
5555|
建议在数据源和数据总线之间建立主数据管理系统层,短期内从客户主数据开
始
资料来源:联合小组分析
数据系统设计建议
建立主数据管理系统,直接对接数据源系统,统
一集中管理客户主数据,再分发给运营和分析数
据仓库
详细展开:主数据管理系统
网银 信用卡柜台 基金
ODS (MDS)
数据总线 (ESB/SOA)
EDW运营系统
BP系统
客户主数据
系统
实时更新
数据应用
可视化
数据总线 (ESB/SOA)
运
营
报
表
/
分
析
实
时
监
控
数据源
数据缓冲存储 / ODS (MDS/OMDS)
运营数据架构
数据 外部数据
历史
数据库
历
史
查
询
实
时
分
析
数
据
湖
ETL
数据服务层
非结构化
数据区
结构化
数据区
历
史
数
据
区
数
据
管
控
分析数据架构
主数据管理
数据流向:
▪ 源系统中的客户数据汇入BP系统进行管理(包括重要数据整
合、重复数据删除等工作)
▪ BP将管理后的数据通过CDC技术实时更新至客户主数据系统
▪ 客户主数据系统将更新后的主数据返回源系统
设计亮点:
▪ 减轻当前BP系统的负担 – BP不再需要负责去更新源系统
▪ 之后找到合适契机可以选择将BP的功能逐步转移至主数据管
理系统
1
2
3
1
2
3
实时
数据库
实时
数据库
存款
债券
投资
手机 贷款 理财 风控 …
6
5656|
数据质量提升的10大关键举措
资料来源:联合小组分析
“做什么”
“怎么做”
关键问题 质量提升关键举措
关键数据项
4大治理方法、
4大治理保障
全行数据分级管理,优先治理关键数据:
- 建立数据重要性分级机制,梳理全行数据资产,区分关键和非
关键数据
- 首批,可以从用例数据需求出发,优先治理~50个关键数据项
统一全行数据标准,建立元数据管理:
- 数据治理中心发布全行数据标准规范和政策
- 数据管家参照标准规范定义关键数据项标准、口径,并完善元数
据业务定义
定义黄金数据源,集中治理管控,简化数据架构
建立数据质量指标体系,健全数据问题治理机制
建立全行主数据的强管理,从客户主数据开始,逐个纳入
能力建设:建立数据治理培训体系,提供数据治理资质认证,
意愿调动:以数据质量和管控的指标体系作为考核依据,采取部门为
主体的奖惩激励机制(参考B8考核激励部分设计)
工具部署:部署3大数据管理工具,包括:元数据、数据质量和数据标
准管理系统(参考B工具和系统部分设计)
流程标准化:建立数据治理流程体系框架,优先详细界定7大关键流程
(参考B8数据治理流程的设计)
2
3
4
5
7
8
9
6
10
“谁来做”
业务IT双轮驱动
建立全行治理体系,业务IT双轮驱动:
- 建立由上至下、科技推动、业务负责的全行治理体系,包括:
数据管理委员会、数据治理中心、以及业务的数据域/项管家
- 率先任命首批业务用例方的数据责任人和数据管家
1
5757|
数据治理的理念转变和能力建设,可以通过三纵三横的宣导培训体系进行开展7
资料来源:小组分析
行领导
部门领导
工作层
理念
宣导
工作坊
专题
培训
理
念
宣
导
工
作
坊
专
题
培
训
针对各层级人员,持续化的数据治理和数据转
型的日常理念宣导,包括:海报、宣传视频、
奖竞猜、专题讲座等各类形式
主要针对部门领导和工作层面的人员,通过工
作坊的形式,配合特定工作和项目的发起,在
能力建设知识传授的同时实践工作内容
主要针对工作层面的人员,通过课程的培训体
系和考核,授予相关岗位资质,确保具备岗位
所需的必要技能和专业知识
5858|
针对专题培训,需要形成体系化的培训课程,通过授予认证的方式,确保业务
方的数据责任人和数据管家具备参与数据治理的知识和能力
7
资料来源:小组分析
数据治理中心
根据数据项的重要
性分配给相应的数
据协调人/责任人
数据协调人/责任人
报送数据管家人选
数据治理中心
进行管家资格审核
和培训
数据管理委员会
予以资格认证和正
式任命
关键数据项的筛选、新增和变更
主要培训内容大纲和课时估算
数据标准业务定义创建和维护
数据质量指标业务定义创建维护
黄金数据源筛选的流程和方法
数据质量治理目标设定
元数据的业务定义创建和维护
数据质量问题识别、诊断和修复
关键数据项
其他数据问题和需求的提交管理
数据标准统一
黄金数据源
质量考核追踪
其他数据问题
1天
1天
天
2天
天
课程大类 课程子类 课时预估
培训运作机制
培训课程开发:
由数据治理中心负责培
训课程体系的具体开发
和筹备
培训组织开展:
纳入全行的课程体系中,
由人力资源部统一组织
开展
纳入全行培训体系的考
核计算中
培训认证授予:
培训是否通过的资质审
核由数据治理中心进行
把关
培训资质的授予由数据
管理委员会统一颁布
5959|
数据质量提升的10大关键举措
资料来源:联合小组分析
“做什么”
“怎么做”
关键问题 质量提升关键举措
关键数据项
4大治理方法、
4大治理保障
全行数据分级管理,优先治理关键数据:
- 建立数据重要性分级机制,梳理全行数据资产,区分关键和非
关键数据
- 首批,可以从用例数据需求出发,优先治理~50个关键数据项
统一全行数据标准,建立元数据管理:
- 数据治理中心发布全行数据标准规范和政策
- 数据管家参照标准规范定义关键数据项标准、口径,并完善元数
据业务定义
定义黄金数据源,集中治理管控,简化数据架构
建立数据质量指标体系,健全数据问题治理机制
建立全行主数据的强管理,从客户主数据开始,逐个纳入
能力建设:建立数据治理培训体系,提供数据治理资质认证,
意愿调动:以数据质量和管控的指标体系作为考核依据,采取部门为
主体的奖惩激励机制(参考B8考核激励部分设计)
工具部署:部署3大数据管理工具,包括:元数据、数据质量和数据标
准管理系统(参考B工具和系统部分设计)
流程标准化:建立数据治理流程体系框架,优先详细界定7大关键流程
(参考B8数据治理流程的设计)
2
3
4
5
7
8
9
6
10
“谁来做”
业务IT双轮驱动
建立全行治理体系,业务IT双轮驱动:
- 建立由上至下、科技推动、业务负责的全行治理体系,包括:
数据管理委员会、数据治理中心、以及业务的数据域/项管家
- 率先任命首批业务用例方的数据责任人和数据管家
1
6060|
针对业务部门和分行以红线的方式进行奖惩激励,针对全职的关键数据
管家和数据治理中心以结果加动作的方式进行考核
8
资料来源:小组分析
KPI考核 额外奖惩
考核
结果
考核
动作
数据
治理
中心
业务部门
(红线考
核)
关键
数据
管家
(全
职)
1 2 3
▪ 针对全职数据治理中心
– 可以通过KPI的方式对中心主任、
数据管控主管、数据质量主管、元
数据主管进行考核
– 考核指标不仅涉及数据质量结果,
也考核过程性动作,如:数据管控
进展、元数据维护等
▪ 针对全职的关键数据管家,可以通过
结果和动作的KPI进行考核
▪ 针对兼职数据责任人和数据管家
– 建议考核整个部门而非个人
– 采取“红线考核”方法,超过目标
额外奖励,不达目标进行费用减扣
– 每年预先设定治理目标指标,(可
以项目制的形式推进)
1
2
3
数据治理考核3类对象 关键设计思路
6161|
数据质量提升的10大关键举措
资料来源:联合小组分析
“做什么”
“怎么做”
关键问题 质量提升关键举措
关键数据项
4大治理方法、
4大治理保障
全行数据分级管理,优先治理关键数据:
- 建立数据重要性分级机制,梳理全行数据资产,区分关键和非
关键数据
- 首批,可以从用例数据需求出发,优先治理~50个关键数据项
统一全行数据标准,建立元数据管理:
- 数据治理中心发布全行数据标准规范和政策
- 数据管家参照标准规范定义关键数据项标准、口径,并完善元数
据业务定义
定义黄金数据源,集中治理管控,简化数据架构
建立数据质量指标体系,健全数据问题治理机制
建立全行主数据的强管理,从客户主数据开始,逐个纳入
能力建设:建立数据治理培训体系,提供数据治理资质认证,
意愿调动:以数据质量和管控的指标体系作为考核依据,采取部门为
主体的奖惩激励机制(参考B8考核激励部分设计)
工具部署:部署3大数据管理工具,包括:元数据、数据质量和数据标
准管理系统(参考B工具和系统部分设计)
流程标准化:建立数据治理流程体系框架,优先详细界定7大关键流程
(参考B8数据治理流程的设计)
2
3
4
5
7
8
9
6
10
“谁来做”
业务IT双轮驱动
建立全行治理体系,业务IT双轮驱动:
- 建立由上至下、科技推动、业务负责的全行治理体系,包括:
数据管理委员会、数据治理中心、以及业务的数据域/项管家
- 率先任命首批业务用例方的数据责任人和数据管家
1
6262|
数据管控平台根据元数据管理、数据标准管理和数据质量管理系统里定义的规
则在数据链路上各个环节抽取数据并进行监控
9
数据管控平台
数据仓库
ETL
数据总线
ODS (MDS / OMDS)
基金理财支付存款 贷款风控 …
数据源
元数据管理平台
企业级数据字
典(关联标准
和质量平台)
数据血缘收集
和记录
数据标准平台 数据质量管控平台
规
则
平
台
报
表
平
台
作
业
平
台
数据治理门户
(标准、政策、
任命等发布)
8大
基础
标准
数据标准的重
要性分级
关键
指标
标准
详细描述
三位一体的数据管控平台由数据标
准平台、数据质量管控平台和元数
据管理平台共同构建而成,通过与
各端系统的对接,统一规范数据标
准、监测数据质量、形成数据标准
和链路的强管理
数据标准平台:定义数据标准,
以文档形式呈现,在数据标准
变更时反应到元数据系统中
元数据管理平台:包含数据字
典和数据血缘关系两块
- 数据字典:包含数据结构和
数据字段定义与数据标准的
对应关系,对源头系统在开
发和运维过程中形成管理
- 数据血缘:记录数据项在系
统间的流转和使用情况,描
述数据与数据的关联关系
数据质量管控平台:管理质量
规则、生成质量报表、追踪质
量问题、集成数据管理门户
数据管控平台
6363|
数据质量提升的10大关键举措
资料来源:联合小组分析
“做什么”
“怎么做”
关键问题 质量提升关键举措
关键数据项
4大治理方法、
4大治理保障
全行数据分级管理,优先治理关键数据:
- 建立数据重要性分级机制,梳理全行数据资产,区分关键和非
关键数据
- 首批,可以从用例数据需求出发,优先治理~50个关键数据项
统一全行数据标准,建立元数据管理:
- 数据治理中心发布全行数据标准规范和政策
- 数据管家参照标准规范定义关键数据项标准、口径,并完善元数
据业务定义
定义黄金数据源,集中治理管控,简化数据架构
建立数据质量指标体系,健全数据问题治理机制
建立全行主数据的强管理,从客户主数据开始,逐个纳入
能力建设:建立数据治理培训体系,提供数据治理资质认证,
意愿调动:以数据质量和管控的指标体系作为考核依据,采取部门为
主体的奖惩激励机制(参考B8考核激励部分设计)
工具部署:部署3大数据管理工具,包括:元数据、数据质量和数据标
准管理系统(参考B工具和系统部分设计)
流程标准化:建立数据治理流程体系框架,优先详细界定7大关键流程
(参考B8数据治理流程的设计)
2
3
4
5
7
8
9
6
10
“谁来做”
业务IT双轮驱动
建立全行治理体系,业务IT双轮驱动:
- 建立由上至下、科技推动、业务负责的全行治理体系,包括:
数据管理委员会、数据治理中心、以及业务的数据域/项管家
- 率先任命首批业务用例方的数据责任人和数据管家
1
6464|
定义数据治理7大关键流程,实现端到端管理标准化
资料来源:小组分析
数据治理的7大关键流程
数
据
管
控
数
据
质
量
标
准
元
数
据
A
D
F
G
E
B
C
外部数据采购
共享管理
定义关键数据
项
管理重复和不一
致的指标定义
定义和更新黄金
数据源
外包数据服务
采购流程
数据标准制定
和管理
R 主责
A 审批 I 告知
C 征求
S 协助/支持
数据质量问题识
别、分析和修复
10
6666|
目录
▪ 数据质量现状回顾
▪ 数据质量提升方案
▪ 数据模型架构
– 定义和作用
– 参考实践和启示
– 建设现状
6767|
企业数据模型对业务概念和逻辑规则进行统一定义,为业务和技术人员提供一致
的数据信息视图
资料来源:小组分析
企业级数据模型定义
企业数据模型EDM(Enterprise Data Model)是用实体、属性及其关系对企业运营
和管理过程中涉及的所有业务概念和逻辑规则进行统一定义、命名和编码
反映业务对象及其之间的关系,为企业管理者、业务用户和技术人员提供一致的业务
数据信息视图,是业务人员(数据消费者)和IT人员(数据生产者)之间进行沟通的
一套统一语言
是集成的、面向主题的、稳定的、历史的、通用的、可扩展的
分为企业逻辑数据模型LDM(Logical Data Model)和物理数据模型PDM(Physical
Data Model),此章节重点展开逻辑数据模型
6868|
企业数据模型分三个层面:主题域模型、概念视图、逻辑视图
资料来源:、小组
主题域模
型
逻辑视图
(包括数据属性)
应用逻辑数据模型
应用物理数据模型
▪ 12-20个业务实体。1个
图表。每个主题领域的
业务实体清单
▪ 150-300个重要的业务
实体及其关系迭代开
发
▪ 为实体增加的基本业务
属性也是经过一段时间
的迭代开发完成的
企业级数
据模型
▪ 用由上至下的推动方法
来制定目标数据蓝图并
统一关键特性
▪ 在完成工作的过程中业
务部门参与以形成综合
观点
▪ 由应用决定的逻辑数据
模型
概念视图
(不包括数据属性)
6969|
主题域模型将数据对象映射至拥有他们的相关业务领域
资料来源:麦肯锡项目
ERP
产品
合同/协议
抵押品
核心银行业务运营
客户账户
子分类账账户
CRM
风险
BI
资源规划收款 支付
账户建立
风险
事件
条款及条件
欧洲银行示例
客户营销
主题域
概念
逻辑
7070|
概念性视图对每个主题域进行展开并确定数据实体之间的主要关系
资料来源:麦肯锡项目
一对多的关系
数据流
ERP
产品
客户
偏好
经验的
分析的
人口特征
关系(基本)
关系(高级)
营销
市场
营销
风险
收款
监管
外部
运营 报告 银行组织
合同/协议
捆绑
个人
抵押品
子分类账账户 事件
条款及条件
客户账户
欧洲银行示例
主题域
概念
逻辑
7171|
逻辑视图提供在属性和关系方面所提供的细节具有更深的层次
资料来源:麦肯锡项目
欧洲银行示例
主题域
概念
逻辑
7272|
数据模型和架构开发同步进行
资料来源:麦肯锡
举例: 服务和数据对象
说明高层面的架构组件
… 全部整合到统一架
构下明确各组件之间的关系 细化各组件
说明关键的数据标的 建立概念数据模型 建立逻辑数据模型
▪ 数据对象与架构组件
关联
▪ 整合后数据对象及服
务的完整视图(结合
所有元信息的转化
▪ 说明主要的数据对象并与
集群关联
▪ 说明数据对象并按照可操
作,可交生对象加以归类
▪ 进一步说明数据对象
▪ 建立逻辑数据模型
▪ 服务清单与Karinca组件
进行对照
▪ 全面说明各项服务
▪ 各集群之间统一服务清单,
并按照新的服务和反应时
间加以延伸
▪ 说明每个所提供并消费的
集群服务
7373|
我们细化了数据模型的主要好处
资料来源:麦肯锡
未穷尽
… 以及数据模型如何起效
数据模型作为关键推手的主要领域
…
▪ 引导IT开发的划分和关键重点▪ 架构开发
▪ 提供所有数据资产概要,并与应用进
行对比分析,以评估目标模式的风险
并缓释风险
▪ 网络安全评估及实施
▪ 确保数据在整个架构中的使用一致,
其覆盖/变更也是一致的
▪ 数据一致性
▪ 流程自动化 ▪ 发现事实来源,严格遵守总体数据标
准,取消人工核对
▪ 监管 (比如, BCBS239) ▪ 自动提供黄金来源的位置(权威来源)
7474|
关于企业级数据模型,我们已经梳理出常见的典型问题,并进行了回答
资料来源:麦肯锡
常见问题 答案
▪ 我们应如何处理工作流数据? ▪ 工作流仅扮演系统间接口的角色
▪ 我们是否应该忽略现有软件/应用
系统?
▪ 不应该,现有工具,可以帮助我们
抽取数据模型,并管理其接口
▪ 我们能否仅专注一种存储技术? ▪ 不能,数据模式应可支持多种存储
技术
▪ 我们能否直接购买一个模型? ▪ 不能,模型应根据您的需要定制
▪ 我们是有应将数据模型开发与架
构转型相结合?
▪ 正解,这将有助于您改变物理硬件
7575|
数据模型开发往往与大规模IT转型相伴而行
资料来源:麦肯锡
客户示例
细节
土耳其一家大
型银行
▪ 数据模型开发作为整体架构转型的一部分,包含潜在存储方式的转变
德国一家大型
银行
▪ 建立了风险及财务部门的数据模型,作为现有IT系统大规模升级以及数据仓
库的一部分
一家全球性
银行
▪ 建立了IT后台及支付运营的数据模型,作为大型业务转型中,IT系统重构的一
部分
7676|
数据转型往往是“万里长征”
资料来源:麦肯锡
定义逻辑数据模型
▪ 定义并精益所有数据实
体
▪ 定义数据完整属性
▪ 定义全部关系
实体执行数据模型
▪ 根据逻辑数据模型描述,
执行所有数据实体
▪ 在各数据系统间执行已
定义的关系
定义理念数据模型
▪ 定义关键数据实体
▪ 定义数据实体间的主要
关系
▪ 对关键数据实体的所有
权及责任制达成一致
1 2 3
2个月 6个月
大规模架构转
型时间表(2-
5年)
外部支持
7777|
目录
▪ 数据质量现状回顾
▪ 数据质量提升方案
▪ 数据模型架构
– 定义和作用
– 参考实践和启示
– 建设现状
7878|
参考案例:某著名企业在构建企业级数据模型之前遇到了一系列的数据问题,
如数据不一致、从采集到用户访问延时太长
资料来源:参考案例
图示 主要问题
▪ 数据冗余比较严重,难以
保证数据一致性
▪ 从数据采集到用户访问的
延时太长
▪ 整个解决方案层次太多,
过于复杂。不同层次之间
的数据传递都需要进行
ETL处理
▪ 物理上分离的系统很多,
设备投入和维护成本都比
较高
集中存储区
ODS
交
某省市
7979|
参考案例:构建企业级数据模型后可以以最低的成本建立一致的信息视图
资料来源:参考案例
图示 改进后的好处
▪ 减少了数据冗余,建立一
致的信息视图 (Single
version of the truth)
▪ 简短了从数据采集到用户
访问的延时
▪ 业务应用灵活且可扩展,
可适应日益增加的多类应
用需求
▪ 降低了拥有成本 (total
cost of ownership)
▪ 系统容理
操作型数据
集中的企业级数据模
型:
某省市
IT 用户
业务用户
详细的基础数据(按
照第三范式存储)
数据汇总(小结表或
视图)
数据转换与缓冲区
ETL处理
8080|
欧洲主要银行举例:众多数据方面的痛点促使银行在一个合适的契机建立了企业
数据模型
资料来源:麦肯锡项目
痛点
不知道在哪些系统里有哪些数据,
以及关键数据的黄金数据源在什么
地方
对运用哪些数据在哪些分析没有具
体的定位,比如:
- 流动性风险的计算没有用到信用
风险部门的现金流数据
严重的数据质量问题,包括数据的
不一致性,比如客户序列号:
- 某些系统没有客户序列号
- 其余系统的客户序列号格式不同
加强网络安全的需求
建立了企业数据模型
物理层次
(存储在数据库
系统和表格中)
概念层次
(数据实体和高
阶关系)
逻辑层次
(属性和所有关
系)
当时银行正在经历一个大型的IT
转型,很多系统在被更新的过程
中 合适的契机
8181|
欧洲主要银行举例:针对核心银行业务构建了详细的概念数据模型
资料来源:麦肯锡项目
客户与客户
之间的关系
客户
零售客户 公司客户
安排
事件
子产品
抵押品
贷款
承诺出资额 合同 定单 阻止 应用 支付
存款 投资 保险箱
账户
承销
应计项
目
事件与客户之间
的关系
客户/
客户与安排
之间的关系
安排与安排之
间的关系
事件与安排
之间的关系
时间详情更新 时间详情查询
产品
现金流
客户示例
8282|
欧洲主要银行举例:整个逻辑数据模型需要包括所有属性和关系
SAP Power Designer软件中的客户举例
客户示例
资料来源:麦肯锡项目
8383|
欧洲主要银行举例:逻辑数据模型中的每个数据实体均需要细化到属性层面
客户
客户ID 客户编号
账户关系
状态
结束日期
起始日期
相关账户ID
安排的类型
关系的类型
账户Id
Id
相关安排的类型
事件
事件ID
兑换代码
汇率
交换条款
业务处理分支机构
员工ID
分行ID
账簿
账簿类型
参考
账户的外部索引
账户编码
IBAN
账户Id
账户类型Id
其他关键词
账号
分支机构代码
过期时间戳
账户位置
账户信息
姓名
关闭渠道
关闭员工
公开渠道
打开员工
状态
打开日期
结束日
最后交
开始日
账户Id
产品Id
账户余额
账户编码
更新时间戳
冻结金额
授信额度
贷方余额
借方余额
账簿编码
账户Id
货币代码
账户类型
账户类型Id
账户类型描述
账户期限信息
账户Id
期初
期末
期限状态
期限更新时间戳
账户批量信息
账户编码
更新时间戳
地址利率
利率
期末
期初
状态代码
期间余额
贷方余额
借方余额
账户Id
可用限额
已到期休眠账户
账户Id
转账状态
余额
账户活动
客户关系
Id
客户ID
账户ID
类型
起始日期
结束日期
昵称
审批类型
状态
第一账户标记
投资标记
安排的类型
事件代码
账户Id
计数器索引
计数器账簿类型
计数器账簿
计数器分支机构ID
客户Id
员工ID
业务处理分支机构
发票编号
发票分支机构
客户说明
系统描述
交换条款
汇率
兑换代码
货币代码
我方所得余额
所得余额
金额
索引
参考
客户代码
计数器账户ID
起息日
渠道代码
打印机标记
贷记/借记标记
事件ID
原始交
序列号
柜员ID
Id
时间戳
客户示例
资料来源:麦肯锡项目
8484|
欧洲主要银行举例:建立企业数据模型可以解决很多数据管控和系统上的痛点,
但必须找到一个合适的契机开始项目
资料来源:麦肯锡项目
对的启示
企业数据模型为此银行解决了之前在数据管控和系统架构上的痛点,包括:
- 明确了各个系统清晰的定位以及存有哪些数据
- 提升了数据的一致性和准确性
由于建立企业数据模型非常耗时耗资源,必须找到一个合适的契机(如大型系统转型
期间)去建立
一个银行并不是绝对需要企业数据模型,但是在银行到一定规模的时候如果没有企业
数据模型,很多数据管控上的问题和痛点必须通过手动解决,比如:
- 衡量数据质量的时候(如地址信息)需要从所有存有地址的系统里提取地址信息,
在如ODS这样的系统里合并物理表格
8585|
德国主要银行举例:概念数据模型包含主要的数据实体
[1] 业务合作方
业务合作方的关系
参考数据
§参考数据
主数据
§业务合作方
[2] 业务数据
主数据
§经营数据
§业务特征
额外信息
§回购
§债券
§承诺出资额
§净额结算
§衍生品
§选择权
§其他特征
§事件
条款
§兑付条件
§利息条件
现金流
§现金流
Salden & Zeitreihen
§Beträge
§Sonstige Zeitreihen
对冲
[3] 安全性
安全
§安全性的主数据
§对象
安排的安全性 – 目标
安排的安全性 – 业务
[5] 估值 – 相关信息
[6] 类别数据
类别数据
§清洁数据
[7] 中心服务表格
国家
§国家
机构特定信息
§机构特定信息
[8] 交
交易
§交易
实体集团 实体 子实体
[5] 外部数据
评级
§评级
市场数据
§货币汇率
[4] 估值和结果
业务成果
§业务成果
合作方的结果
§合作方的结果
安全性结果
§安全性结果
业务/安全性的结果
§业务/安全性的结果
合作方的结果
§合作方的结果
股权的使用
§股权的使用
风险分配
客户示例
资料来源:麦肯锡项目
8686|
德国主要银行举例:通过逻辑关系强化了实体模型
……业务合作方的关
系
主数据
业务合作方
参考数据
参考数据
安全性
安全
……安排的安全
性 – 业务
安全性的主数据
对象
估值 – 相关信息
会议
会议
市场数据
货币汇率
中心服务表格
国家
国家
机构特定信息
机构特定信息
1
1 1 1
n
1
1
1
1
1
m
1
n
n
1
n1
1m
1
1 m
n
n
业务数据
……安排的安全性 –
目标
1
1
1
1
1
n
n
额外信息
选择权
事件
会议 承诺
回购 其他特征
主数据
经营数据
业务特征数据
现金流
现金流
n
1
1
1
1
n
1
1 m
n
时间和账户信息
账户
过往记录
账户余额
条件
定价条件
利率
……
对冲
…
估值和结果
合作方的结果
合作方的结果
业务成果
业务成果
1
n
业务成果
业务成果
n
业务/安全性的结果
业务/安全性的结果
安全性结果
安全性结果
股权的使用
股权的使用
风险分配
n
n
类别数据
类别数据
1
n
实体集团
实体
子实体
客户示例
资料来源:麦肯锡项目
8787|
德国专业性银行举例:完整的逻辑数据图可显示整个银行的复杂程度
产品管理
营销
销售服务
产品数据库
MMS
销售渠道
企业站点
ATZ
MMS
代理合并
内容数据库
销售管理
销售数据的管理
内网
销售
B2B B2B Lux
B2C B2C CH
数据仓库(DWH)
条件模型(前端)
投诉数据库
条件贡献分析数据库
市场信息分析数据库
ROLL-OVER
主某省市场数据
银行的存款职能部门
支付交易
企业管理
预期数据池(DDP)
报告 风险管控/合规 财务
业务处理 物流 人员
资金 FO/MO贷款
IT/组织 内审
法律
外部数据
外部数据库
讯
财务数据
数据库
标普
SCD (Lupus)
Xentis
Multifonds
Morning Star(晨星)
主数据管理
数据库
市场数据库
某省市场数据
数据库
利率风险管理
前端数据库
前端数据库
前端数据库外汇风险管理
前端数据库短期流动性管理
LQR长期流动资金管理
前端数据库经济损益的银行账簿
前端数据库
政策储备基金登记管理
和报告
贷款 MKF
组合分析 分析工具
信用监督
信用数据信息系
统
全局格式 数据库
工具
工具
工具
工具
数据库
ADD工具
数据库
对目标/项目的
评价
评级系统
风险评估
借款人
文本(模板)贷款申请的编制
文本(模板)二次表决
文本(模板)贷款决策
处理/服务
档案文件案件归档
ERP采购
数据库运货
Jobtracker岗位管理
处理 某省市(员工)
人力资源
数据库
研讨会计划
时间数据库
研讨会管理
时间配准
Aris流程管理
架构管理系统 架构管理
集团项目管理项目管理
电子化生产发布生产发布
对网站过滤统计的评价统计
审计
ACL
审计数据信息系统
FileNet Archiv Arche案件归档
合规模块
反洗
基金价格的管控
Fondspreiskontrolle
现金管理数据库
对账
数据库
凭证数据库
存款头寸的对账 存款数据库
股份凭证业务
数据库
数据库
存货数据库
数据库
收费模块 投资的边际测试
定价数据
合规数据库
合规数据库
合规数据库
合规数据库
支付处理 数据库
数据库
支付数据库
数据库
现金管理数据库
往来数据库
数据库
数据库
WSS (Trema)
链接数据库
支付数据库
支付数据库
调查数据库
Incentage
支付执行
账户的对账
信息传送
消息数据 Incentage
数据获取
数据提供
现金流、事件、合同数据、交、结果数据的获取
质量保证、科目汇总、密匙生成、历史记录整理
监管报告 监管报告
监管报告 监管报告
数据库
中心数据管
理
编制报告
数据的核算
/修正
市场适当性 市场风险 地址风险 流动性风险 市价计值
证券回购/贷
款
限额监控 操作风险
中心数据存储
数据库
数据库
数据库
数据库
前端数据库
(Risiko)
数据库
数据库
数据库
前端数据库
前端数据库
(风险)
数据库
针对风险的结果数据层级
报告层级风险
评估
数据的核算/
修正
编制报告
外包
某省市场 场外衍生品 衍生产品(外汇) 回购债券股份/基金外汇 贷款
成交结算
衍生产品数据库前端数据库 BSP 后续BSP
WSS (Trema)
前端数据库
MSG
Corona Conf.
WSS (Trema)
后续Trema
WSS (Trema)
后续Trema
MSG
WSS (Trema)
后续Trema
FMP (Incentage)
某著名企业-Alpheus
外币规划 档案文件 文件查看 流动信贷的报告 数据库 数据库
Coupon 2000
衍生产品数据库前端数据库
BSP
后续BSP Martini (Apex)
MSG
衍生产品数据库前端数据库
BSP
后续BSP
MSG
CCP
衍生产品数据库前端数据库
BSP
后续BSP
MSG
BSP
后续BSP衍生产品数据库
MSG
衍生产品数据库前端数据库
BSP
后续BSP
Corona Cash
CCP
信息的业务逻辑
清算、结算
企业行动
组合管理
监管通知
材料规划单位
信息传送
控制
数据库的管控
Plato
Hyperion
Hyperion
SoPHiA
待定
维持履行关系
数据的核算、合
并和汇总
编制报告
分类、菱形编队、规范阶段、推导、事件、结果分解、
可行性LEG
场外衍生品 衍生产品(外汇) 回购债券股份/基金 贷款某省市场 外汇 回购 贷款
前端数据库
总账
前端数据库
总账
WSS (Trema)
SAP BA AFI
GuD
SAP BA AFI
Olympic
SAP BA AFI
WSS (Trema)
SAP BA AFI
Olympic
SAP BA AFI
财务数据库
资金管理工具
资金管理工具
数据库
总账
数据库
总账
前端数据库
总账
衍生产品数据库
总账
前端数据库
总账
RDA
总账
衍生产品数据库
总账
前端数据库
总账
衍生产品数据库
总账
数据库
总账
数据库
总账
RWA
总账
数据库
总账
数据库
总账
信贷数据库
总账
前端数据库
总账
数据库
总账
信贷数据库
总账
数据库
总账
数据库
总账
数据库
总账
信贷数据库
总账
数据库
总账
审计数据 对账工具 减值工具 计算工具 数据库 价格交付
IAS计算器 会计工具 利润表编制工具 利润表说明分析工具 数据库 报告控制
图例
经验在先者
承继者
目标中包含的应用程序
待检测的应用程序
待插入的应用程序
关闭应用程序
尚未检查的应用程序
从属应用程序(数据流)
应计利息、外汇结果核算、历史记录整理、实际利率
的核算/摊销、对冲交算、入账(IFRS、HGB)、存
货的形成
找出财务报表科目、余额法、HB入账生成
HB存货管理、期末处理、外汇折算、支付处理、入
账 (IFRS/HGB)
编制资产负债表(IFRS/HGB)、利润表
(IFRS/HGB)、附注(IFRS/HGB)、银行资产负
债表、结果报告、标准报告(IFRS/HGB)
AMI 发行和存款业务 FO/MO
基金会计核算
报告
交库
投资者支持
资金管理
采购
投资支持
租赁
目标的开发/构建措
施
销售
股份价格核算
外部管理
基金规划
租金的会计处理
目标的规划/报告
会计处理/报告/登记
专家支持
技术目标的支持
某省市
财产风险
销售工具
FileNet Deka Immo
不动产风险
某省市交库
Argo.网站
交库 某省市
交库
交库 某省市
交库 某省市
通知义务
搬迁地址数据库
销售渠道
数据库
奖励养老金
订单引擎
资金管理数据库
支付数据库
数据库
数据库
报告
数据仓库
短信
单证
存款服务
存款业务的监管/管理
存款报告
档案文件
存货的对账 发票管控N计算 账簿记录
履约费 主数据、金融衍生产品
FPR
IFRS 数据库 驱动 DWH BO
数据仓库 数据库 数据库 单项报告
数据仓库 巴塞尔 II
资产净值(N)的公布
基金报告
报告
基金报告 数据库的管控
基金(包括基金的基金) 资产管理
档案文件报告
组合管理
订单登记
订单管理
对账
合规数据库事后审查
数据库事前审查 资产经理
对账 现金对账
顾问对账资产经理
数据库 研究数据研究 数据库
数据库订单工具 分析工具 财务规划数据库
数据库资产经理 贸库
数据的管控风险衡量指标数据库 数据库
基金/风险的管
控
数据库
数据库资产经理 资产经理
数据库加载器数据库TA注册 资产经理 资产经理
FO/MO贸易
MM(包括现金担保品) 场外衍生品 衍生产品(外汇) 股份/基金 债券 回购外汇 贷款
路透 数据库 数据库 回购数据库
前端数据库
讯
前端数据库
风险管理体系
数据库
风险管理体系
前端数据库
风险管理体系
数据库
风险管理体系
数据库 数据库
基于Web的交程序
数据库 数据库
前端数据库
前端数据库 前端数据库
讯
前端数据库
前端数据库
信贷
信贷
前端数据库
前端数据库 前端数据库 前端数据库
讯
前端数据库
信贷
前端数据库
前端数据库 前端数据库 前端数据库
讯
前端数据库
信贷
前端数据库
前端数据库 前端数据库 前端数据库
讯
前端数据库
前端数据库
前端数据库
前端数据库
前端数据库(BWA)
前端数据库
前端数据库
前端数据库 前端数据库 数据库
前端数据库 数据库
数据仓库 数据仓库
风险数据库 档案文件 档案文件
风险数据库 档案文件 档案文件
限额系统 限额系统
前端数据库
后续数据库
前端数据库
后续数据库
LQR
订单自动执行报告 指数数据库 交 订单引擎
交易
交
HA评估
执行/组合管理
现金处理
HU评估
抵押品
市场风险核算
市场风险/呈现
信用风险的核算
评估
限额监控
外汇风险管理
短期流动性风险
流动性风险
主数据管理
票据主数据
基金主数据
地址主数据
数据仓库 档案文件
Liquidity
DWJ
数据库
数据库 数据库 档案文件 流动性 数据库 风险数据 计算工具
数据库 计算工具
计算工具
信贷数据 风险数据
合同管理 合同和的管理
作业数据库作业的组织
事实集合 绩效工具绩效 数据库
数据库订单工具 惯常的柜面审查 买卖盘传递
贸讯 数据库
数据库数据库 衍生品 数据库
资产经理 资产经理 资产经理
财务数据库 财务数据库
限额系统
限额系统
限额系统
限额系统
限额系统
前端数据库WSS (Trema)
数据仓库
数据仓库
客户示例
资料来源:麦肯锡项目
8888|
目录
▪ 数据质量现状回顾
▪ 数据质量提升方案
▪ 数据模型架构
– 定义和作用
– 参考实践和启示
– 建设现状
8989|
目前数据仓库模型已经按照企业级数据模型的设计思路进行建设
资料来源:小组分析
未来改进点
▪ 建立管理机制,需要全行明确企业数据模型的战略定位、组
织架构、建设流程、建设工具等
▪ 模型需要各条线业务模型做指导,提升业务逻辑有效性和覆
盖度
▪ 需要结合业务用例来验证数据覆盖度、分布合理性、关联有
效性、等
现有成果
▪ 按照数据管理知识体系建立了层次模型,包括主题域模型、
概念视图模型、逻辑试图模型
▪ 制定了统一的建设规范
▪ 运用统一建模工具,如ERWIN、ADMS
9090|
结合业界标杆做法,并根据自身具体需求、数据的定位、来源、用途、组成分层
搭建其逻辑数据模型架构
资料来源:小组分析
定义
某省市层
▪ 面向特定应用主题,支持有特定范围的业务分析与决策,
如风险管理、财务管理等
▪ 大量的非规范化处理
公共汇总层
▪ 基于基础层模型,搭建支持全行所有应用的共性汇总层
▪ 跨业务条线集中汇总,不面向某特定应用
基础模型层
▪ 整合我行所有运营与管理数据,按照面向业务主题的方
式组织数据,通过实体及关系反映业务逻辑
▪ 历史的、详细的、范式化数据
A
B
C
9191|
的基础层数据模型包括11大主题、~230个概念视图实体和6000多个逻辑视图
模型
资料来源:小组分析
主题域
模型
概念视图模型
逻辑视图模型
A1
A2
A3
▪ 将全行业务数据提炼为十一大主题,如当事人、
资产、财务、协议等
▪ 的概念视图模型具有~230个实体,如个人客户、
对公客户等
▪ 的逻辑视图模型具有6000多个实体,如个人客
户、当事人关系种类代码等
A
9292|
主题域模型包括客户、产品等十一大主题域
资料来源:小组分析
图示 具体描述
事件
协议
渠道
当事人 资产 财务
地址
营销活动
机构
申请
产品
▪ 将全行所关心的分析领域
对象数据进行抽象,实现
完整、一致的描述,并准
确刻画各对象之间的关系
▪ 将我行运营与管理重要数
据进行分析与整合,提炼
出覆盖所有业务逻辑的十
一大主题
▪ 每个主题反应特定的业务
概念,并按照主题特性进
行分类
▪ 主题间不同的关系反应不
同的业务逻辑规则,如一
个客户拥有一个或多个帐
户、一个帐户可能和一个
或多个当事人有关、一个
帐户可能与一个或多个交
易/事件相关等
A1
9393|
十一大主题域的详细描述
资料来源:小组分析
主题域名称 详细描述
当事人
指银行作为一个金融机构所服务的任意对象和感兴趣进行分析的各种个人或团体客户、潜在客户
、代理机构、雇员等,一个PARTY可以同时是这当中角色
产品 金融机构销售或提某省市场化的产品、产品包和服务,可以包括竞争对象所提供的产品
财务 通常指银行各类账务信息,如科目总账
协议
是金融机构与客户之间针对某种特定产品或服务而签立的契约关系。例如银行的帐户,保险公司
的保单等
申请 指客户在我行的各类申请信息,包括贷款申请、信用卡申请、信用证申请等
渠道
用户通过渠道向金融机构获取关金融机构或金融机构产品信息以及使用金融产品。金融机构通过
渠道向用户销售产品或提供服务
事件
事件是银行与客户或潜在客户之间的联系或交,它记录了详细的行为和交,包括存取款、收费、
计息、咨询投诉、某省市场调查、网上交
营销活动
营销活动是为了获取、维护、增强银行与客户的关系而开展的一些有组织的活动,的可以是为了
把某些产某省市场,也有可能是为了树立某省市场上的形象
机构 是指金融机构的组织和业务单元,如分行、支行、储蓄所、部门、销售团队等等
资产 指客户所拥有的各类资产信息,包括在行内做抵质押资产和其它资产
地址
银行希望关注或考察的任何层次的地理区域和地址,如某省市某省市、县、乡村等,包含“具体
地址”、“地区”、“地理位置”等不同层次的信息
A1
9494|
概念视图模型举例:“当事人”主题的展开
资料来源:小组分析
示例 – “当事人”展开 具体描述
▪ 将每个主题域进行概念分解,得到概念
视图模型,是业务重点相关的主题与内
可视的、高阶的视角
▪ 业务实体是每个概念模型的主要组成部
分,是熟悉并感兴趣的事物、人员、事
件、地点等概念和类别,概念视图模型
仅包括基础的和关键的业务实体及其关
系,如当事人概念视图包含个人客户、
对公客户和虚拟客户的类别实体;当事
人积分历史、当事人评分评级历史、当
事人财务报表、当事人风险资本计量等
重要特性实体;及协议当事人关系历史
等与其它主题概念实体之间的关联实体
▪ 实体间关系种类分为一对一、一对多和
多对多关系
▪ 我行概念视图模型共有~230个业务实体
A2
9595|
逻辑视图模型举例:“当事人”主题的展开
资料来源:小组分析
示例 具体描述
▪ 逻辑视图模型是数据需求和
控制数据质量的业务规则的
详细描述
▪ 是对概念视图模型的进一步
拓展和分解,通常采用范式
化和抽象化两种技术实现从
概念视图模型向逻辑视图模
型的转化,转化的结果是:
1)定义实体的主键;2)将
数据属性添加到每个实体中;
3)定义属性取值的完整集
合即域
▪ 我行定义逻辑模型实体数量
共计6000余个
▪ 逻辑视图模型构建不是一蹴
而就的,需经过不断的迭代
开发和完善
A3
9696|
公共汇总层对基础数据进行两次汇总
资料来源:小组分析
图示
存款账户 卡 贷款借据
协议
机构 产品 渠道
票据 …
客户 交易
第一级汇总
第二级汇总
具体描述
▪ 支持全行所有应用的共性
汇总层,针对常用的统计
汇总口径加工进行统一的
轻度汇总,作为更有针对
性的二次数据加工整理的
基础
▪ 按照不同汇总粒度进行聚
合,由细至粗分二级汇总:
– 第一级:协议级汇总,
包括存款协议级汇总、
零售贷款协议级汇总、
对公表内业务明细、承
兑汇票协议级汇总
– 第二级:产品级、客户
级、机构级、渠道级、
交,其来源以协议级汇
总为主
B
9797|
根据前端应用系统取数需求在某省市层建立某省市
资料来源:小组分析
图示 具体描述
面向特定应用主题或部门
针对特殊设计目标的业务
分析与决策,在分析、内
容、表现等方面服务于专
业用户群体的特殊需求
具有性、可用性、灵活性、
可控性特点
通常采用星型结构(一个
事实表和多个维表)
包括详细数据和汇总数据
支持我行各类应用分析
C
某省市层 支持应用
对公CRM应用某省市 营销应用 高级分析
客户价值某省市 营销应用 高级分析 分析报表
风险应用某省市 风险应用 高级分析 分析报表
头寸应用某省市 决策支持 分析报表
人行报送EAST某省市 监管报送
经济资本应用某省市 风险应用
零售分析应用某省市 高级分析 高级分析 分析报表
零售信用卡交叉销售某省市 营销应用 高级分析 分析报表
小区金融某省市 营销应用 高级分析 分析报表
数据挖掘某省市 沙盒应用 高级分析
通用指标某省市 决策支持
考核应用某省市 考核应用 分析报表
财务某省市 财务应用 高级分析 分析报表
分行某省市 分析报表