公司治理大数据治理
数据治理体系
目录
1.范围 1
2.规范性引用文件 1
3.术语、定义和缩略语 5
4.总体说明 8
.概述 8
.目标 9
.原则 9
5.数据治理体系 10
.总体框架 10
.组织架构 11
.组织构成 11
.角色职责 12
.系统架构 12
.系统功能框架 12
.系统模块流程 14
.系统边界 15
.与企业级省大数据平台关系 16
.与对外能力开放平台关系 16
.与平台运维系统关系 16
6.数据治理核心模块 17
.数据标准管理 17
.背景 17
.目标及原则 19
.业务分类和定义 19
.技术功能要求 23
.本期建设范围及内容 26
.实施要求 27
.元数据管理 27
.背景和定义 27
.元数据运营模式 29
.元模型标准 29
.元数据运维 33
.本期重点建设内容 34
.数据质量管理 34
.与传统经营分析系统的区别 34
.范围和原则 35
.与其它功能模块的关系 36
.本期数据质量功能需求 38
.本期数据质量运维要求 39
.数据资产管理 40
.数据资产概述 40
.数据资产范围 41
.与其它功能模块的关系 42
.本期数据资产功能需求 42
.本期建设内容 45
.数据安全管理 45
.数据安全概述 45
.建设原则 46
.建设内容 46
.边界关系 46
.技术功能 47
.管理要求 48
7.数据治理场景 52
.背景描述 52
.场景一:银行伪卡交易判别 52
.背景介绍 52
.场景描述 53
.场景二:银行手机贷业务 54
.背景介绍 54
.场景描述 54
8.附录 55
附录一:数据标准框架 55
附录二:数据标准体系定义内容示例 56
前言
本规范的制订是为了更好地实现中国移动企业级省大数据平台数据治理子
系统的建设和管理,为省大数据平台上的各类基础技术和应用提供支撑,加强省
大数据平台上数据的管控力度,增强数据治理子系统自身管理能力。
本规范主要包括以下几方面的内容:总体说明、数据治理体系、数据治理核
心模块、数据治理场景等。
本规范是中国移动企业级大数据平台系列规范之一。该系列规范的结构、名
称或预计的名称如下:
序号 标准编号 标准名称
[1] QB-Y-***-2015 中国移动企业级大数据平台目标架构
[2] QB-Y-***-2015 中国移动企业级省大数据平台技术规范总册
[3] QB-Y-***-2015 中国移动企业级省大数据平台技术规范分册
[4] QB-Y-***-2015 中国移动企业级省大数据平台技术规范技术
方案分册
[5] QB-Y-***-2015 中国移动企业级省大数据平台技术规范数据
模型分册
[6] QB-Y-***-2015 中国移动企业级省大数据平台技术规范外部
接口分册
[7] QB-Y-***-2015 中国移动企业级省大数据平台技术规范服务
开放分册
[8] QB-Y-***-2015 中国移动企业级省大数据平台技术规范服务
开放技术方案分册
[9] QB-Y-***-2015 中国移动企业级省大数据平台技术规范数据
治理分册
[10] QB-Y-***-2015 中国移动企业级省大数据平台技术规范数据
治理技术方案分册
[11] QB-Y-***-2015 中国移动企业级省大数据平台技术规范运营
维护分册
[12] QB-Y-***-2015 中国移动企业级省大数据平台技术规范安全
管理技术方案
本规范由中移技﹝××﹞××印发。
本规范由中国移动通信集团公司业务支撑系统部提出,集团公司技术部归口。
本规范起草单位:中国移动通信集团公司业务支撑系统部。
本规范主要起草人:段云峰、汪新勇、赵静、周立、、任怡健、王保强、潘刚、
刘童桐、王金金、陶涛、刘虹、张红星、魏春辉。
1. 范围
本规范规定了中国移动企业级省大数据平台数据治理子系统的建设内容,适用于中国移
动各省(直辖市、自治区)公司企业级省大数据平台数据治理子系统的建设。
2. 规范性引用文件
下列文件中的条款通过本规范的引用而成为本规范的条款。凡是标注日期的引用文件,
其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本规范。然而,鼓励根据本
规范达成协议的各方对是否使用这些文件的最新版本进行研究。凡是不标注日期的引用文件,
其最新版本适用于本规范。
[1]
《中国移动省级经营分析系统业务规
范()》
中国移动通信有限
公司
[2]
《中国移动省级经营分析系统技术规
范()》
中国移动通信有限
公司
[3] QB-J-010-2006
《中国移动省级经营分析系统数据质
量管理系统建设方案()》
中国移动通信有限
公司
[4] QB-J-006-2006
《中国移动省级经营分析系统数据仓
库逻辑数据模型说明()》
中国移动通信有限
公司
[5] QB-J-007-2006
《中国移动省级经营分析系统数据集
市业务技术规范()》
中国移动通信有限
公司
[6] QB-J-008-2006
《中国移动省级经营分析系统与源系
统接口规范()》
中国移动通信有限
公司
[7] QB-J-009-2006
《中国移动省级经营分析系统与
BOSS系统互动技术规范()》
中国移动通信有限
公司
[8] QB-J-003-2006
《中国移动省级经营分析系统业务规
范()—基础业务分册》
中国移动通信有限
公司
[9] QB-J-004-2006
《中国移动省级经营分析系统业务规
范()—数据业务分册》
中国移动通信有限
公司
[10] QB-J-005-2006
《中国移动省级经营分析系统业务规
范()—集团客户分册》
中国移动通信有限
公司
[11] QB-J-001-2006
《中国移动业务运营支撑系统(BOSS)
业务技术规范营销资源管理分册
(版)》
中国移动通信有限
公司
[12] QB-J-001-2006
《中国移动业务运营支撑系统(BOSS)
业务技术规范客服信息分册(
版)》
中国移动通信有限
公司
[13] QB-J-001-2006
《中国移动业务运营支撑系统(BOSS)
业务技术规范(版)》
中国移动通信有限
公司
[14] QB-J-021-2007
《中国移动省级经营分析系统数据仓
库逻辑数据模型规范()》
中国移动通信有限
公司
[15] QB-J-020-2007
《中国移动省级经营分析系统与源数
据接口规范()》
中国移动通信有限
公司
[16] QB-J-022-2007
《中国移动省级经营分析系统数据集
市业务技术规范()》
中国移动通信有限
公司
[17] QB-J-019-2007
《中国移动省级经营分析系统业务规
范 渠 道 运 营 管 理 分 析 监 控 分 册
()》
中国移动通信有限
公司
[18] QB-J-018-2007
《中国移动省级经营分析系统业务规
范客户服务分册()》
中国移动通信有限
公司
[19] QB-J-017-2007
《中国移动省级经营分析系统业务规
范集团客户分册(》
中国移动通信有限
公司
[20] QB-J-016-2007
《中国移动省级经营分析系统数据质
量管理系统业务技术规范()》
中国移动通信有限
公司
[21]
《中国移动业务支撑网 4A 安全技术
规范》
中国移动通信有限
公司
[22]
《中国移动省级经营分析系统技术规
范总册(全量版)》
中国移动通信有限
公司
[23]
《中国移动省级经营分析系统技术规
范逻辑模型分册(全量版)》
中国移动通信有限
公司
[24]
《中国移动省级经营分析系统技术规
范数据集市分册(全量版)》
中国移动通信有限
公司
[25]
《中国移动省级经营分析系统技术规
范数据质量管理子系统分册(全
量版)》
中国移动通信有限
公司
[26]
《中国移动省级经营分析系统业务规
范(全量版)》
中国移动通信有限
公司
[27]
《中国移动省级经营分析系统技术规
范源系统接口分册(全量版)》
中国移动通信有限
公司
[28] QB-J-002-2008
《中国移动省级 NG1-BASS 技术规范
总册()》
中国移动通信集团
公司
[29] QB-J-003-2008
《中国移动省级 NG1-BASS 技术规范
数据集市分册()》
中国移动通信集团
公司
[30] QB-J-004-2008
《中国移动省级 NG1-BASS 技术规范
逻辑模型分册()》
中国移动通信集团
公司
[31] QB-J-005-2008
《中国移动省级 NG1-BASS 技术规范
源系统接口分册()》
中国移动通信集团
公司
[32] QB-J-006-2008
《中国移动省级 NG1-BASS 技术规范
元数据管理分册()》
中国移动通信集团
公司
[33] QB-J-007-2008
《中国移动省级 NG1-BASS 技术规范
数据质量管理子系统分册()》
中国移动通信集团
公司
[34] QB-J-008-2008
《中国移动省级 NG1-BASS 业务技术
规范客户分析及运营分册()》
中国移动通信集团
公司
[35] QB-J-001-2008
《中国移动省级 NG1-BASS 业务规范
()》
中国移动通信集团
公司
[36] QB-Y-003-2009
《中国移动省级 NG1-BASS 技术规范
总册()》
中国移动通信集团
公司
[37] QB-Y-004-2009
《中国移动省级 NG1-BASS 技术规范
数据集市分册()》
中国移动通信集团
公司
[38] QB-Y-005-2009
《中国移动省级 NG1-BASS 技术规范
逻辑模型分册()》
中国移动通信集团
公司
[39] QB-Y-006-2009
《中国移动省级 NG1-BASS 技术规范
外部接口分册()》
中国移动通信集团
公司
[40] QB-Y-007-2009
《中国移动省级 NG1-BASS 技术规范
元数据管理分册()》
中国移动通信集团
公司
[41] QB-Y-008-2009
《中国移动省级 NG1-BASS 技术规范
数据质量管理子系统分册()》
中国移动通信集团
公司
[42] QB-Y-002-2009
《中国移动省级 NG1-BASS 业务规范
()》
中国移动通信集团
公司
[43] QB-Y-052-2010
《中国移动省级 NG2-BASS()业
务规范》
中国移动通信集团
公司
[44] QB-Y-053-2010
《中国移动省级 NG2-BASS()技
术规范总册》
中国移动通信集团
公司
[45] QB-Y-054-2010
《中国移动省级 NG2-BASS()技
术规范数据集市分册》
中国移动通信集团
公司
[46] QB-Y-055-2010
《中国移动省级 NG2-BASS()技
术规范逻辑模型分册》
中国移动通信集团
公司
[47] QB-Y-056-2010
《中国移动省级 NG2-BASS()技
术规范外部接口分册》
中国移动通信集团
公司
[48] QB-Y-057-2010
《中国移动省级 NG2-BASS()技
术规范元数据管理分册》
中国移动通信集团
公司
[49] QB-Y-058-2010
《中国移动省级 NG2-BASS()技
术规范数据质量管理子系统分册》
中国移动通信集团
公司
[50] QB-Y-059-2010
《中国移动省级 NG2-BASS()技
术规范多 OP能力交互分册》
中国移动通信集团
公司
[51] QB-Y-060-2010
《中国移动省级增值业务综合运营平
台业务规范()》
中国移动通信集团
公司
[52] QB-Y-061-2010
《中国移动省级增值业务综合运营平
台技术规范()》
中国移动通信集团
公司
[53] QB-Y-062-2010
《中国移动省级增值业务综合运营平
台技术规范-数据管理分册()》
中国移动通信集团
公司
[54] QB-Y-063-2010
《中国移动省级增值业务综合运营平
台接口规范》
中国移动通信集团
公司
[55] QB-Y-039-2011
《中国移动省级 NG2-BASS()业
务规范》
中国移动通信集团
公司
[56] QB-Y-038-2011
《中国移动省级 NG2-BASS()技
术规范总册》
中国移动通信集团
公司
[57] QB-Y-040-2011
《中国移动省级 NG2-BASS()技
术规范数据集市分册》
中国移动通信集团
公司
[58] QB-Y-041-2011
《中国移动省级 NG2-BASS()技
术规范逻辑模型分册》
中国移动通信集团
公司
[59] QB-Y-042-2011
《中国移动省级 NG2-BASS()技
术规范外部接口分册》
中国移动通信集团
公司
[60] QB-Y-043-2011
《中国移动省级 NG2-BASS()技
术规范元数据管理分册》
中国移动通信集团
公司
[61] QB-Y-044-2011
《中国移动省级 NG2-BASS()技
术规范数据质量管理子系统分册》
中国移动通信集团
公司
[62] QB-Y-045-2011
《中国移动省级 NG2-BASS()技
术规范 OP能力交互分册》
中国移动通信集团
公司
[63] QB-Y-046-2011
《中国移动省级增值业务综合运营平
台业务规范()》
中国移动通信集团
公司
[64] QB-Y-047-2011
《中国移动省级增值业务综合运营平
台技术规范()》
中国移动通信集团
公司
[65] QB-Y-048-2011
《中国移动省级 NG2-BASS 技术规范
系统安全管理分册()》
中国移动通信集团
公司
[66] QB-Y-044-2012
《中国移动省级 NG2-BASS()业
务规范》
中国移动通信集团
公司
[67] QB-Y-045-2012
《中国移动省级 NG2-BASS()技
术规范总册》
中国移动通信集团
公司
[68] -2012
《中国移动省级 NG2-BASS()技
术规范数据集市分册》
中国移动通信集团
公司
[69] -2012
《中国移动省级 NG2-BASS()技
术规范逻辑模型分册》
中国移动通信集团
公司
[70] -2012
《中国移动省级 NG2-BASS()技
术规范外部接口分册》
中国移动通信集团
公司
[72] -2012
《中国移动省级 NG2-BASS()技
术规范元数据管理分册》
中国移动通信集团
公司
[73] -2012
《中国移动省级 NG2-BASS()技
术规范数据质量管理子系统分册》
中国移动通信集团
公司
[74] QB-Y-046-2012
《中国移动省级增值业务综合运营平
台业务规范 》
中国移动通信集团
公司
[75] QB-Y-047-2012
《中国移动省级增值业务综合运营平
台技术规范 》
中国移动通信集团
公司
[76] -2012
《中国移动省级增值业务综合运营平
台技术规范数据管理分册 》
中国移动通信集团
公司
[77] QB-Y-044-2013
《中国移动省级 NG2-BASS()业
务规范》
中国移动通信集团
公司
[78] QB-Y-045-2013
《中国移动省级 NG2-BASS()技
术规范总册》
中国移动通信集团
公司
[79] -2013
《中国移动省级 NG2-BASS()技
术规范数据集市分册》
中国移动通信集团
公司
[80] -2013
《中国移动省级 NG2-BASS()技
术规范逻辑模型分册》
中国移动通信集团
公司
[81] -2013
《中国移动省级 NG2-BASS()技
术规范外部接口分册》
中国移动通信集团
公司
[82] -2013
《中国移动省级 NG2-BASS()技
术规范元数据管理分册》
中国移动通信集团
公司
[83] -2013
《中国移动省级 NG2-BASS()技
术规范数据质量管理子系统分册》
中国移动通信集团
公司
[84] -2013
《中国移动省级 NG2-BASS()技
术规范安全管理技术方案》
中国移动通信集团
公司
[85] QB-Y-046-2013
《中国移动省级增值业务综合运营平
台业务规范 》
中国移动通信集团
公司
[86] QB-Y-047-2013
《中国移动省级增值业务综合运营平
台技术规范 》
中国移动通信集团
公司
[87] -2013
《中国移动省级增值业务综合运营平
台技术规范数据管理分册 》
中国移动通信集团
公司
3. 术语、定义和缩略语
下列术语、定义适用于本规范:
字母 名词 解释
C CWM
CWM 标准是 OMG 组织定义的数据仓库和相关系统的国际元数据
标准,给出了各种元数据结构的标准定义。CWM标准的目的在于:
使数据仓库和商业智能软件的元数据在异构的数据分析工具、
数据仓库平台、元数据存储库等系统之间进行交互。
E ETL 特指从数据源系统到大数据平台的数据抽取、转换和加载。
G 管理元数据
描述大数据平台中管理领域相关概念、关系、规则的数据,主
要包括人员角色、岗位职责、管理流程等信息。
H 核心元模型
大数据平台核心元模型是以 CWM 为基础扩展形成的,针对大数
据平台的物理模型、逻辑模型、数据处理过程、接口单元、指
标和维度编码等主要实体进行精确定义,并要求各省大数据平
台统一遵循的元模型。定义核心元模型的目的是建立大数据平
台的统一元数据管理标准,为元数据管理的功能层与应用层解
耦、为企业级总部大数据平台和企业级省大数据平台的元数据
交换和相互理解提供统一的语义基础。
字母 名词 解释
H
核心元模型参
照表
核心元模型参照表是对核心元模型中的枚举类型属性进行枚举
值定义的编码表。参照表为枚举类型属性的每个枚举值定义了
唯一的编码,并明确该编码的语义,是核心元模型标准化定义
的重要组成部分。
J 技术元数据
描述大数据平台中技术领域相关概念、关系、规则的数据。主
要包括对数据结构、数据处理方面的特征描述,覆盖大数据平
台数据源接口、数据仓库、ETL、OLAP、数据挖掘、前端展现等
全部数据处理环节。
S 数据处理过程
数据从数据源系统到大数据平台前端使用的整个处理过程,包
含大数据平台数据仓库内部的数据抽取、转换和加载。
S 数据采集点
覆盖大数据平台数据处理环节的、获取每个环节运行状态的实
体。该实体可以是程序实体也可以是任务实体
S 数据质量报告
数据质量报告是对数据质量日常监控以及质量评估等过程累积
的各种信息进行汇总、梳理、统计和分析,形成的统计报告
S 数据质量监控
通过获取大数据平台各环节的数据质量监控信息,结合元数据
库中的有关检查规则,对各个环节的数据质量情况进行判断,
并及时向数据质量监控人员报告。
S
数据质量规则
库
数据质量规则库是对数据质量管理活动所用到的各种判断及校
验规则进行归类和存放的存储结构,存储的内容包括采集规则、
监控规则、告警规则和审计规则等
S
数据质量信息
库
数据质量管理子系统存储层上的存储结构,用于存储数据质量
信息采集程序采集的数据质量信息、质量评估信息、问题解决
方案和问题处理流程信息等
S 省公司 中国移动通信集团各省(直辖市、自治区)移动通信有限公司。
S
SQL脚本
自动解析
SQL脚本自动解析指通过对 SQL脚本的词法、语法和语义进行分
析,自动生成满足 CWM 规范要求的数据处理过程的技术元数据
的功能。
Y 业务元数据
描述大数据平台中业务领域相关概念、关系、规则的数据。主
要包括业务术语、信息分类、指标定义(指标口径)、业务规则
等信息。
Y 元模型
元模型是描述元数据的基础模型结构,用于说明元数据对象的
各种属性、结构和关系。
字母 名词 解释
Y 元数据
元数据是描述数据间关系的数据。大数据平台中元数据泛指描
述数据概念(Concepts)、数据间关系(Roles)、数据处理规则
(Rules)的数据,其中,领域语义(Semantics)和知识
(Knowledge)也属于元数据的范畴。
D 数据标准
指在中国移动台企业级省大数据平台下为了使企业内外部使用
和交换的数据是一致和准确的,经协商一致制定并由大数据治
理委员会主管机构批准,具有行业特点且共同使用和重复使用
的一种规范性约束。
D 数据标准体系
指数据标准按照中国移动企业级省大数据平台需求对数据进行
标准化的划分归类。
D 数据标准内容
按照数据标准体系划分的要求分别给出各数据标准制定的规范
内容。
D
行业参考模型
实体
中国移动规范中原定义或新增加的逻辑数据模型 LDM实体。
D 公共代码标准
需要引用外部公共标准机构的标准。如:世界各国和地区名称
代码等。
下列略缩语适用于本规范:
缩写 英文描述 中文描述
AST AbstractSyntaxTree 抽象语法树
BOSS BusinessOperationSupportSystem 业务运营支撑系统
CWM CommonWarehouseMetamodel 公共仓库元模型
ETL ExtractionTransformationLoading 抽取、转换和加载
OLAP On-lineAnalysisProcess 在线分析处理
XMI XMLMetadataInterchange XML元数据交换
BI BusinessIntelligence 商务智能
REST RepresentationalStateTransfer 表述性状态转移
4. 总体说明
. 概述
本规范用于指导企业级省大数据平台数据治理子系统建设,规定了省大数据平台数据治
理的范围和要求,明确了数据治理子系统的体系结构,制定了数据治理子系统的功能和处理
流程。数据治理子系统包含数据标准管理、元数据管理、数据质量管理、数据资产管理、数
据安全管理等功能模块。本方案借鉴资产管理的方法理论来管理数据,将数据作为一种特殊
的资产,对进入平台的数据进行标准化的规范约束,并以元数据作为驱动,连接数据的标准
管理、数据质量管理、数据数据安全管理的各个阶段,形成统一、完善的数据治理体系,以
解决实际业务问题为导向,增强数据治理子系统对业务发展的支撑能力。
. 目标
数据治理子系统的建设为数据治理工作提供强有力的系统支撑。本期规范建设目标是以
元数据为驱动,建立省大数据平台完整的数据治理体系。从组织架构、系统功能等方面增强
数据宏观管控,并实现精细化管理,具体包括:
数据治理组织架构管理:定义数据治理所需人员组织上的岗位和职责,从管理角度支撑
数据治理工作的落地和执行。
数据标准管理:建立企业级省大数据平台数据标准体系,并制定数据标准运维管控制度
和流程。
元数据管理:降低元数据使用难度、提升用户体验,使大数据平台各类用户均能参与到
元数据运营维护当中。
数据质量管理:为内、外部用户提供平台化的数据质量监控;通过扩充和优化公共规则
库、保证数据的完整性、一致性、准确性、及时性、合法性,提升用户使用感知;并提供数
据质量应用满足个性化需求。
数据资产管理:重点建设从规划、注册、运维到注销的全流程管理体系,使数据资产管
理系统化、可视化。
数据安全管理:建立体系化的数据安全管控策略,通过用户安全管理、数据安全管理实
现全方位数据安全管控机制,通过技术手段与管理措施相结合的方式落实数据安全,做到事
前可管、事中可控、事后可查。
. 原则
企业级省大数据平台数据治理子系统建设应遵循以下基本原则:
1. 有效性原则
体现大数据平台数据治理过程中数据的标准、质量、价值、管控的有效性、高效性。
2. 价值化原则
体现数据治理过程中以数据资产为价值核心,最大化大数据平台的数据价值。
3. 统一性原则
体现大数据平台架构统一、标准统一、元数据统一、质量流程统一、资产价值统一的一体化
管控平台体系。
4. 开放性原则
体现平台化、开放性运维思想,实现人人参与数据治理、人人参与数据运维。
5. 产品化原则
体现大数据平台数据治理能力的显性化,通过产品化互联网思维服务大数据平台数据生态圈
用户。
6. 安全性原则
体现安全的重要性、必要性,保障大数据平台数据安全和数据治理过程中数据的安全可控。
5. 数据治理体系
. 总体框架
数据治理总体框架包括组织架构、数据治理模块、数据运维三部分。通过组织架构建立管理
办法,制定工作流程,确定角色职责。数据治理模块主要包括数据标准管理、元数据管理、
数据质量管理、数据资产管理、数据安全管理,各模块协同运营,确保大数据平台的数据一
致、安全、有效。数据运维贯穿整个数据治理体系的流程中,实现平台化的运维管理思路。
数据治理总体框架如图 5-1所示:
图 5-1数据治理体系框架
. 组织架构
数据治理组织的构建旨在通过建立数据治理组织架构明确各级角色和职责,保障数据治理的
各项管理办法、工作流程的实施,推送数据治理工作的有序开展。
. 组织构成
数据治理组织架构主要由数据治理委员会、数据治理中心和各业务部门构成。组织架构划分
和角色设定如图 5-2所示:
图 5-2数据治理组织架构图
. 角色职责
组织责任体系是数据治理责任落地的保障,数据治理组织架构通过明确各角色职责,实行认
责制度,让数据治理工作更好的融入到数据日常使用和相关的工作中,从而推动数据运维自
治的实现,如表 5-1。
表 5-1数据治理组织架构角色职责定义内容
组织结构 角色 角色描述 角色主要职责
数据治理
委员会
数据管理
决策者
由公司主
管领导和
各业务部
门领导组
成
负责牵头数据治理工作;制定数据治理的政
策、标准、规则、流程,协调认责冲突;
对数据事实治理,保证数据的质量和隐私;
在数据出现质量问题时负责仲裁工作。
数据治理
中心
数据平台
运营者
数据管理
中心机构
的平台运
负责提交数据标准的要求及数据质量规则和
业务规范,解释数据的业务规则和含义;监
督各项数据规则和规范的约束的落实情况;
营人员 负责数据治理平台中整体数据的管控流程制
定和平台功能系统支撑的实施;
负责平台的整体运营、组织、协调。
数据提供
者
相关数据
开发提供
人员
负责数据及相关系统的开发,有责任执行数
据标准和数据质量内容;
负责从技术角度解决数据质量问题;
作为数据出现质量问题时的主要责任者。
数据维护
者
数据维护
人员
制定相关数据标准、数据制度和规则;
遵守和执行数据标准管控相关的流程,根据
数据标准要求提供相关数据规范;
作为数据出现质量问题时的次要责任者。
各业务部
门
数据消费
者
数据使用
人员,包
含内部用
户和外部
用户
作为数据治理平台数据管控流程的最后参与
使用者;
是数据资产价值的获益人;
作为数据治理平台数据闭环流程的发起人。
. 系统架构
. 系统功能框架
数据治理功能框架明确了数据治理在企业级省大数据平台中的定位,并以合理的功能层次划
分指导数据治理系统相关功能建设。系统功能框架如图 5-3所示。
图 5-3数据治理功能框架图
企业级省大数据平台门户:
企业级省大数据平台统一的访问接口,供企业内、外部用户、第三方独立开发者访问及使用
数据治理相关产品或功能,并负责统一访问认证及日志记录。
能力开放平台:
企业级省大数据平台统一的对外服务层,数据治理相关的产品及应用均通过这个层次进行注
册、发布,并对内、外部开放。
数据治理系统:
数据标准:在数据标准管理组织架构推动和指导下,遵循协商一致制定的数据标准规范,
借助标准化管控流程得以实施数据标准化的整个过程。
元数据:采用集中式管理模式进行元数据管理,全公司元数据逻辑集中,即元数据管理
模块作为公司元数据的统一发布源,集中管理元数据,提供元数据集中创建、维护、查询功
能。
数据质量:对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段
里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过
改善和提高组织的管理水平使得数据质量获得进一步提高。
数据资产:规划、控制、提供数据及信息资产的一组业务职能,包括开发、执行和监督
有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、提高数据资产
的价值。
数据安全:通过计划、制定、执行数据安全政策和安全策略措施,为企业级大数据平台
的数据和信息提供行之有效的认证、授权、访问和审计。
数据运维:包括数据资产运维、数据质量运维,借鉴互联网思维,通过产品化运维工具
来整体提升企业级大数据平台数据运维效率。
企业级省大数据平台:
大数据基础平台,负责数据的接入、存储、管理、应用及相关基础功能支撑。
. 系统模块流程
图 5-4数据治理系统功能各模块关系图
如图 5-4所示,数据治理系统各模块之间,根据数据操作的流程产生相互关联,各模块业务
流程关系说明如下:
L1:数据标准管理模块将标准定义映射到元数据信息上,实现数据标准的规范要求落地。
L2:元数据管理模块为数据资产管理模块提供存储模型、属性信息查询服务。
L3:元数据管理模块为数据质量管理模块提供元数据相关属性信息。
L4:用户通过元数据定义大数据平台的数据结构。
L5:数据质量管理模块根据采集需求从大数据平台采集数据。
L6:数据质量管理模块将数据质量问题反馈给大数据平台。
L7:数据质量管理模块向资产模块提交数据质量评估结果。
L8:元数据管理模块为数据安全管理模块提供隐私级别定义服务。
L9:数据资产管理模块发起资产访问申请,由数据安全管理模块控制用户访问权限,控
制数据资产的增加、删除、变更操作权限,对访问的数据内容、数据属性等操作进行管控。
L10:数据安全管理模块为大数据平台提供数据访问权限策略。
. 系统边界
企业级省大数据平台数据治理子系统与其它子系统之间存在数据交互、功能调用、流程
穿插等关联。数据治理子系统与大数据平台系统内其它子系统的关系示意如图 5-5所示:
图 5-5数据治理子系统与各子系统边界图
. 与企业级省大数据平台关系
企业级省大数据平台上的数据资产是数据治理的主要对象;数据治理为企业级省大数据平台
提供数据标准指导、元数据定义、数据质量监控、数据安全等方面的全面支撑,使大数据平
台上的数据资产清晰、有序、安全、可控。
. 与对外能力开放平台关系
数据治理为对外能力开放平台提供元数据查询、数据安全管理支持;对外能力开放平台为数
据治理提供统一的数据治理产品及功能注册、发布、使用服务。
. 与平台运维系统关系
数据治理子系统支撑大数据平台的数据管控流程,并与平台运维交互协调,共同支撑大数据
平台整体的安全运维、数据运维和管理运维。
6. 数据治理核心模块
. 数据标准管理
. 背景
中国移动企业级省大数据平台数据标准是在经营分析系统数据管控要求基础之上,借鉴互联
数据治理
元数据管理数据标准管理
数据质量管理 数据资产管理
数据安全管理
数据服务平台
企业级省大数据平台
平
台
运
维
网企业数据治理的经验而提出的。数据标准是指在中国移动企业级省大数据平台下,保障企
业内外部使用和交换数据的一致性和准确性,具有行业特点且共同使用的一种规范性约束。
数据标准是企业级省大数据平台数据治理的基础性工作,是数据治理建设中的首要环节。首
先,数据标准为企业级省大数据平台提供统一的数据标准定义和平台逻辑模型。其次,数据
标准是企业级省大数据平台进行数据治理的依据和根本。再次,数据标准是衡量企业级省大
数据平台数据资产运营和管理的评估依据。最后,中国移动通过数据标准管理的实施,实现
对企业级省大数据平台全网数据的统一运营管理。
企业级省大数据平台数据治理体系中数据标准管理如图 6-1所示,包括制定数据标准的规范
性文件、进行数据标准化管控及数据标准管理组织。
图 6-1数据标准管理内容
企业级省大数据平台数据标准管理与原经营分析系统数据管控的区别如下表 6-1所示:
表 6-1企业级省大数据平台数据标准管理与原经营分析系统数据管控区别
企业级省大数据平台数据标准管理 原经营分析系统数据管控
数据范围 涉及企业内外部数据运营相关的数据,包含
BOM三域数据、外部数据。
数据仅限于市场经营活动的 B 域
和部分 O,M域数据。
业务应用模
式
以数据标准为基础的数据治理体系,实现数据
的资产化,贯穿整个数据运营的全流程,形成
以中国移动大数据平台为核心的大数据生态
圈,服务于企业内外部客户。
以支撑企业内部经营分析为主。
服务对象 服务于整个大数据生态圈。 原经营分析系统使用人员。
. 目标及原则
数据标准管理的总体目标:通过统一的数据标准制定和发布,结合制度约束、系统控制等手
段,实现中国移动企业级省大数据平台数据的完整性、有效性、一致性、规范性、开放性和
共享性管理,提高企业级省大数据平台数据治理水平。
数据标准制定的原则:
开放性:标准制定人人参与。
共享性:数据标准化信息在大数据生态圈共享使用。
完整性:涵盖客户、产品、服务、帐务、资源、网络等全部重要数据信息。
有效性:信息准确度高、理解上不存在歧义。
一致性:做到“五统一”,定义统一、口径统一、名称统一、来源统一、参照统一。
规范性:制度规范、流程控制、系统管理等。
. 业务分类和定义
.数据标准体系分类
数据标准制定如图 6-2所示,包括数据标准体系划分和数据标准内容制定,数据标准体系可
分为基础类数据标准和指标类数据标准。
图 6-2数据标准体系划分
.数据标准内容制定
数据标准内容的制定按照数据标准体系分类的要求分别给出数据标准制定的规范要求。
1、基础类数据标准
基础类数据标准是通过各种业务处理产生或各类渠道采集的基础性数据,在全国范围内必须
是唯一定义的,如“用户品牌”、“归属地市”。基础类数据标准分为行业参考模型实体标准
和公共代码标准。
行业参考模型实体标准指按照行业需求和中国移动省级数据逻辑模型实体规范要求,继承以
往数据逻辑模型实体规范,将各域的逻辑模型实体定义抽象为模型实体标准要求。行业参考
模型实体数据标准体系定义内容如表 6-2所示。
表 6-2行业参考模型实体数据标准体系定义内容
行业参考模型实体标准 标准体系属性说明
数据标准编码 根据数据标准编码命名规则进行编写。
标准主题 数据标准归属主题
标准子类 数据标准归属类型
中文名称 数据标准中文名称。
英文名称 数据标准英文名称。
实体编号 根据行业参考模型实体编号命名规则进行编写。
实体名称 根据行业参考模型实体名称命名规则进行编写。
数据版本 该数据标准的版本信息。
数据体系分类
根据数据分类规则对数据进行分类,以保证数据体系的易用
性,以及符合用户查找习惯。
重要级别
集团规范定义的数据为一级,省公司定义的数据为二级,其
它常用的数据为三级。
数据提供部门 该数据标准定义数据的提供部门。
数据提供部门负责人 该数据标准定义数据提供负责人。
数据维护部门 该数据标准定义数据维护部门。
数据维护部门负责人 该数据标准定义数据维护负责人。
业务主管部门
该数据标准定义数据业务主管部门,该部门对数据口径、编
码取值和相关专业术语有决定权。
业务主管部门负责人 该数据标准定义数据业务负责人。
数据来源系统 如:BOSS,CRM,ERP等
主要依据 关于指标的解释和描述文件。如集团规范、省公司规范、业
务部门制定等等。
业务定义 指标的业务描述口径,一般由业务部门使用业务语言制定。
具体行业参考模型实体数据标准体系定义内容示例参见《附录二:数据标准体系定义内容示
例》。
公共代码标准,指对于一些共享程度较高、内容相对比较稳定的编码,通常可以组织力量一
次性地编制出来,其中有一些需要引用外部公共标准机构的标准,比如:世界各国和地区名
称代码等。公共代码标准体系定义内容如表 6-3所示。
表 6-3公共代码标准体系定义内容
公共代码标准 标准体系属性说明
数据标准编码 根据数据标准编码命名规则进行编写。
公共标准号 引入外部公共标准号
中文标准名称 数据标准中文名称
英文标准名称 数据标准英文名称。
标准状态 该标准的状态,如现行、停止。
公共标准机构名称 引入该公共标准的机构名称。
数据标准体系
根据数据分类规则对数据进行分类,以保证数据体系的易用
性,以及符合用户查找习惯。
重要级别
集团规范定义的数据为一级,省公司定义的数据为二级,其
它常用的数据为三级。
数据标准引入部门 该数据标准引入和维护部门。
数据标准引入部门负责
人
该数据标准引入和数据维护负责人。
数据上报系统
最终对数据进行计算和发布的系统,也是各部门唯一获取指
标数据的来源系统。
具体行业参考模型实体数据标准体系定义内容示例参见《附录二:数据标准体系定义内容示
例》。
2、指标类数据标准
指标类数据标准是数据基础上按照一定业务规则加工汇总的数据,如 KPI指标数据。指标类
数据又可分为基础指标和计算指标。基础指标一般不含维度信息,且具有特定业务和经济含
义。计算指标通常由两个以上基础指标计算出。指标类数据标准体系定义内容如表 6-4所示。
表 6-4指标类数据标准体系定义内容
指标类标准 说明
基础属性
数据标准编码 根据数据标准编码命名规则进行编写。
中文名称 数据标准中文名称。
英文名称 数据标准英文名称。
应用场景 该指标适用于什么场景。
数据版本 该数据标准的版本信息。
数据体系分类
根据数据分类规则对数据进行分类,以保证数据体系的易用
性,以及符合用户查找习惯。
重要级别
集团规范定义的数据为一级,省公司定义的数据为二级,其
它常用的数据为三级。
管理属性
数据提供部门 该数据标准定义数据的提供部门。
数据提供部门负责人 该数据标准定义数据提供负责人。
数据维护部门 该数据标准定义数据维护部门。
数据维护部门负责人 该数据标准定义数据维护负责人。
业务主管部门
该数据标准定义数据业务主管部门,该部门对数据口径、编
码取值和相关专业术语有决定权。
业务主管部门负责人 该数据标准定义数据业务负责人。
数据上报系统
最终对数据进行计算和发布的系统,也是各部门唯一获取指
标数据的来源系统。
数据生成系统 生成数据所需的数据所在的来源系统,如 BOSS系统。
数据上游系统 数据生成后上报给哪个系统,如 ERP系统。
业务属性
主要依据
关于指标的解释和描述文件。如集团规范、省公司规范、业
务部门制定等等。
业务定义 指标的业务描述口径,一般由业务部门使用业务语言制定。
计算流程/算法 用来描述指标详细的计算过程。
指标类型 根据管理需要可以将指标分为基础指标、计算指标两类。
计算指标公式
用于描述相关指标间的平衡关系,可用于指标数据审核过程
中,能有效地保证指标数据质量。
技术属性
计量单位
数据使用单位如:“户”、“分钟”、“MB”、“元”、
“次”、“%”等等。
统计精度 指标统计数值精确到小数还是整数。
数据值域 数据的合理取值范围。
统计周期
数据统计周期如“日”、“周”、“月”、“季度”、“半
年”、“年”等等。
统计粒度 数据统计粒度如:“用户级”、“区县级”、“地市级”等。
统计维度
数据统计维度如:“地域”、“品牌”、“在网时长”、
“客户等级”等。
指标出数表 指标数据来源于哪张物理表。
指标出数代码 指标数据来源于物理表的哪个。
具体行业参考模型实体数据标准体系定义内容示例参见《附录二:数据标准体系定义内容示
例》。
. 技术功能要求
. 数据标准制定
数据标准的制定按照本册中数据标准管理的业务分类和定义规范指导要求,基于各企业级省
大数据平台的数据管控需求进行数据标准规范的制定。其制定的数据标准规范内容在全省进
行发布和告知,要求企业级省大数据平台系统按照该标准规范进行统一的数据管理。
数据标准制定包括数据标准的编制、数据标准的审查、数据标准的发布。数据标准化管理组
织将数据标准以正式发文的方式在全公司范围内进行发布,并在发布后将数据标准、版本说
明保存备案。最终将发布的数据标准更新至数据标准管理模块中,如图 6-3所示。
图 6-3数据标准管理的编制、审查、发布流程图
数据标准的编制、审查和发布通过数据标准管理模块开发实现,其流程如图 6-3示:
1、数据标准管理组织协调者组织数据提供者和执行者参与数据标准属性的收集和整理工作,
并按照协商一致的原则形成数据标准初稿。
2、数据标准初稿进行多次的讨论和丰富后,形成数据标准送审稿提交给数据标准管理决策
者。
3、经过数据标准管理决策者的讨论审核后,由数据标准管理组织协调者再次进行数据
标准的修改完善,并完成数据标准的发布。
. 数据标准执行
数省公司和各部门、分公司统一按照所制定的数据标准实施数据标准管理,数据标准的执行
流程如图 6-2所示。
图 6-2数据标准管理的执行流程图
数据标准执行的流程步骤如下:
1、数据标准制定发布后,将数据标准录入到数据标准管理模块。
2、数据标准管理执行者按照发布的数据标准,制定和发布数据标准接口。
3、数据标准管理模块将标准要求提供给数据质量管理根据已录入系统的数据标准形成稽查
规则,对数据标准管理执行者制定和发布的数据标准接口中的内容进行相关的标准稽核监控。
4、将标准稽核结果发送给数据标准管理模块,并反馈给数据标准管理决策者和数据标准管
理执行者。
. 数据标准维护
数据标准的维护指数据标准建立后,根据业务需求的发展变化或外部数据标准要求不一致时,
对数据标准的内容进行变更和版本管理,如图 6-5所示。
图 6-5数据标准管理的变更流程图
数据标准管理的变更通过数据标准管理系统开发实现落地,其流程如图 6-5所示:
1、对执行的相关数据标准进行变更请求的申请,组织该数据标准相关执行层和各数据运维
者进行讨论和变更需求汇总。
2、由数据标准管理组织协调机构进行标准变更的审核。
3、讨论审议数据标准项的变更内容,并形成标准变更需求审批表提交给数据标准管理决策
层进行审批。
4、决策层将审批结果反馈给标准管理组织协调者,并由其进行数据标准发布及版本维护。
. 数据标准监控
数据标准监控实现对数据标准执行过程的监控,包括对数据标准的执行、效果、问题进行监
控管理,为后期数据标准维护管理提供依据。
数据标准的监控通过数据标准管理和元数据管理、数据质量管理协同实现落地,监控流程如
图 6-6所示:
图 6-6数据标准管理监控流程图
数据标准管理监控流程如下:
1. 数据管理者录入数据标准和元数据信息。
2. 根据数据标准制定数据标准接口。
3. 根据数据标准生成的稽核规则,进行前向稽核,稽核正常进行下一流程,稽核非正常返
回错误文件记录给数据管理者做数据标准的更新。
4. 数据提供者将数据提交到企业级大数据平台,并且完成对元数据的采集。
5. 对数据提供者数据进行后向稽核,稽核正常则数据可提供数据消费者正常使用,稽核非
正常返回错误信息记录给数据提供者做数据修订。
. 本期建设范围及内容
本期数据标准管理建设范围要求涉及企业级省大数据平台中数据标准内容,但不在全集团范
围内强制统一数据标准规范。
本期具体建设内容包括:
1、数据标准规范内容涵盖:
行业参考模型实体标准
指标数据标准
公共代码标准
2、数据标准化管控内容涵盖:
建立数据标准化管理组织架构。
搭建数据标准管理模块。
实现数据标准管理流程的功能系统化,并衔接元数据管理、数据质量管理和数据资产管
理形成数据治理的闭环运维。
提供具数据标准产品,如数据标准查询 APP等。
. 实施要求
数据标准管理实施要求包括:
1、数据标准统一规划。按照企业级省大数据平台的数据治理要求,结合数据标准规范指导
内容,构建适应企业级省大数据平台的数据标准体系,并制定数据标准实施方案。
2、建立数据标准管理的支撑体系。要求包括数据标准管理组织架构、数据标准管理办法和
制度流程,以及数据标准管理支撑工具。
3、实现中国移动企业级省大数据平台中数据业务口径和技术口径有效协同统一。
4、支撑中国移动企业级省大数据平台的平台化、产品化和数据资产运营的需求。
5、支撑新增企业级省大数据平台数据接口内容的标准化定义。
6、满足原有数据可逐步进行数据标准规范的迁移和统一。
. 元数据管理
. 背景
元数据管理模块是大数据平台数据治理体系的重要组成部分。IT 研究与顾问咨询公司
Gartner发布的《2013年十大战略性技术趋势》中对于企业战略性大数据的描述如下:将多
个系统,包括内容管理、数据仓库、数据集市和专门的文件系统等与数据服务和元数据相互
结合,组合为“逻辑的”企业数据仓库。通过对这个“逻辑的数据仓库”的有效治理,为企
业后续的数据资产运营、增值以及数据服务提供有效支撑。
中国移动企业级省大数据平台是这种逻辑的企业数据仓库的一个具体落地实现,元数据管理
的建设将贯穿大数据平台建设、使用、运营、维护的全过程,并发挥以下作用:
提供企业级数据字典,便于内外部客户更好地了解企业数据概况;
提供全局元数据查询检索,便于用户快速定位元数据;
提供元数据详细描述,使用户了解数据组成、结构及数据流向;
提供血缘/影响分析功能,便于用户进行分析判断、问题定位;
提供元数据接口服务,便于其它系统或模块使用元数据服务;
提供元数据应用,方便终端用户使用元数据;
提供统一的基于元数据描述的 API管理产品,集中管理平台开放的内外部 API。
大数据平台的元数据管理方面,与传统经分相比,主要有以下不同点:
管理范围不同:
新增集群 NameNode节点的管理元数据;
新增集群 DataNode节点的业务/技术元数据;
新增大数据平台内部以及其与 DW、MPP等跨工具/产品的复杂数据流元数据。
管理制度方面:
管理流程:新增跨部门、跨系统的多层次交互式的元数据注册、维护、管理、使用流程,
同时需要针对不同用户提供有针对性的元数据产品支持。
角色权限:管理上更加细致的分工,不同部门需新增相应的元数据查询、管理、维护角
色;
工具支撑方面:
需支持大数据平台新增元数据范围地获取、存储与管理;
需支持大数据平台海量元数据的获取、存储、管理及应用;
需提供标准化定义,并支持管理集群节点快速获取分节点的运行元数据信息;
需对大数据平台的文件、语音、图片等非结构化数据的标记元数据,即大数据相关的词
库元数据进行管理,并提供检索查询等应用支持;
需通过元数据对大数据平台的新增数据进行敏感定义及标记;
需为终端用户提供简单易用的元数据产品,降低使用成本。
. 元数据运营模式
本期规范要求,在提升元数据用户使用体验的同时,着重改善元数据管理的运营模式,重点
建设前向的元数据管控机制,并逐步探索集中的大数据平台元数据管理方式。
本期规范中,除元数据基础功能外,对元数据管理的运行维护提出以下要求:
对于集团统一标准规范的元数据,严格按照集团提供元数据标准落地;
对于大数据平台的集群 NameNode、文件目录等部分元数据,通过互通机制定期按集团要
求格式上报。
. 元模型标准
关于元数据标准的元模型部分,将在经分规范的核心元模型基础上,根据大数据平台新增数
据结构特点进行扩充,以满足这部分元数据获取、存储、管理及应用要求。主要涉及集群节
点的 namenode元数据及 Hadoop的文件/目录元数据。
本期规范需要上报的元数据信息,主要涉及集群 NameNode 元数据,包括集群的运行监控信
息及文件/目录元数据。
图 6-7总部集群与省集群节点的元数据上报关系示意
图 6-7为集团总控节点与省集群节点的元数据上报关系示意图。集群节点定期上报其自身的
NameNode阶段运行信息及数据节点的数据信息,供集团了解省分节点运行、存储情况,为后
续的统一管控提供基础支撑。
. 集群监控类
对于集群 NameNode节点的运行监控类元数据,属于 ApacheHadoop的私有定义,暂无法使用
或在 CWM规范基础上扩充。故直接引用 ApacheHadoop的相关定义,并对其进行适当规范。
本期对 NameNode节点的元数据上报信息要求如下:
英文名 中文名 类型 备注
ConfiguredCapacity 配置容量 double
PresentCapacity 当前总容量 double
DFSRemaining 剩余容量 double
DFSUsed 已用容量 double
DFSUsed% 使用率 double 小数点后 4位
Underreplicatedblocks 待复制数据块 double
Blockswithcorruptreplicas 中断复制数据块 double
Missingblocks 丢失数据块 double
Datanodesavailable 可用节点数 double
DatanodesNonavailable 不可用节点数 double
需要上报的作业监控信息如下:
英文名 中文名 类型 备注
Name 名称 text
Description 描述 text
LastModified 更新时间 date
Steps 步骤 double
Status 状态 text
Owner 拥有人 text
Datanode节点需要上报的元数据信息如下:
英文名 中文名 类型 备注
Name 节点名称 text
Hostname 主机名 text
Rack 所属机架 text
DemissionStatus 可用状态 text
ConfiguredCapacity 配置容量 double
DFSUsed 已用容量 double
NonDFSUsed 非 DFS使用容量 double
DFSRemaining 剩余容量 double
DFSUsed% 已用容量 double 小数点后 4位
DFSRemaining% 使用率 double 小数点后 4位
ConfiguredCacheCapacity 配置缓存容量 double
CacheUsed 缓存使用量 double
CacheRemaining 缓存剩余量 double
CacheUsed% 缓存使用率 double 小数点后 4位
CacheRemaining% 缓存剩余率 double 小数点后 4位
Lastcontact 最近检查时间 date
. 数据节点类
为支持大数据平台下文件、目录、Hbase、Hive 相关元数据的集中存储,本期规范将 CWM 核
心元模型的 Table、Column、View 类进行扩展,同时新增.hdfs 模型包,里边包含目录
(Directory)和文件(File)两个实体及相关属性。关于经分系统核心元模型及参考表,
元模型标准 CWM的相关定义,请参考《中国移动省级 NG2-BASS()技术规范核心元模型规
范》中的相关章节描述。修订内容如下:
1、需要修改的元模型包括:
Table类增加以下属性:
location:String
说明:存储大数据平台上该表对应的 HDFS文件目录信息。
createTime:String
说明:该表的创建时间。
creator:String
说明:该表的创建人。
Column类增加以下属性:
partitionColumnId:String
说明:Hive表对应的分区字段编号。
View类增加以下属性:
createTime:String
说明:该视图的创建时间。
creator:String
说明:该视图的创建人。
2、需要增加的元模型包括:
ColumnFamily类有如下属性:
name:String
说明:Hbase对应的列簇名称。
File类有如下属性:
name:String
说明:文件名称。
path:String
说明:文件路径信息。
pressorType:String
说明:压缩类型。
size:String
说明:文件大小。
type:String
说明:文件类型。
permission:String
说明:权限。
owner:String
说明:所有者。
group:String
说明:所属用户组。
Directory类有如下属性:
name:String
说明:目录名称。
path:String
说明:路径信息。
permission:String
说明:权限。
owner:String
说明:所有者。
group:String
说明:所属用户组。
3、需要增加的元模型关系包括:
添加 TableToDirectory关系;
添加 ColumnFamilyToDirecitry关系。
. 元数据运维
在前期元数据运行维护要求的基础上,满足本期大数据平台的数据治理要求,对元数据的维
护提出以下补充要求:
强化元数据管理制度要求,每个元数据均需将所属部门、责任人信息补充完整;
为加强数据安全及隐私保护,每个元数据需提供对应的数据隐私级别信息;
细化元数据分类,在前期技术、业务、管理大分类的基础上,增加从系统所属部门、系
统及模块角度标记每个元数据;
严控元数据版本,对于每次变更需详细记录变更原因、时间、人员等关键信息;
细化元数据权限,对于不同的部门、人员、角色,仅授予工作所需的最小权限,对于权
限变化要严格审批。
. 本期重点建设内容
基于大数据平台“逻辑集中、物理分散”的最终目标原则,元数据管理的建设也将按此目标
分步实现。在本期规范中,强调元数据的运维管理及产品化支撑,元数据产品要简单易用、
用户体验不断提升。主要建设以下内容:
1、 元数据之家产品。基于大数据平台数据治理及改善用户体验要求,建设一个方便内外部
用户使用的元数据产品。主要包括以下模块:
集中分类展现;
多样化检索;
详情多样化展示;
收藏与评价;
统计分析;
知识库;
权限审批。
2、 元数据应用产品:
查询类 APP,面向业务人员及大数据平台分析人员。
3、 辅助开发产品:
团结帮 API管理产品,对 OpenAPI进行元数据结构化描述,用于对大数据平台开放 API
进行注册、发布、订阅及使用管理。
. 数据质量管理
. 与传统经营分析系统的区别
数据质量为数据的“适用性(fitnessforuse)”,即数据满足使用需要的合适程度。数据质
量通过完整性、一致性、准确性、及时性、合法性等多类维度对数据进行度量。
在大数据平台上,数据质量为其提供洁净、结构清晰的数据,是大数据平台开发数据产品、
提供数据服务、发挥大数据价值的必要前提,是企业数据资产管理的关键因素。
大数据平台数据质量和传统经营分析系统的区别如表 6-5所示。
表 6-5大数据平台数据质量和传统经营分析系统的区别
大数据平台数据质量 经营分析系统数据质量
监 控 数 据
的类型
可以对非/半结构化数据中指定信息项进行
监控,例如 Gn日志中的终端信息等
仅监控结构化数据
数 据 仓 库
的类型
支持传统数据仓库、MPP和 Hadoop。 仅支持传统数据仓库。
使用者 数据资产的所有者及其授权用户、数据应用
开发者、租户等将成为大数据平台数据质量
管理模块的主要使用者,负责监控规则的设
置和监控结果的处理。
经分运维人员和数据质量管理
员为主要使用者,负责将业务
人员的需求在数据质量模块上
实现。
运维工作 运维人员主要负责保障数据质量功能模块
的正常运行和规则库的扩充,规则配置、执
行和结果处理等实际工作由用户自行负责。
数据质量运维人员的工作范畴
涵盖数据质量监控的全流程,
包括采集、规则配置、告警、
结果查看和处理。
监控模式 由事后监控向事中、事后监控相结合转化,
用户/应用设置数据质量监控规则后,可以
在计算执行过程中调用数据质量监控作业,
无需等待结果出来后再进行监控。
用户仅能在结果出来后才能进
行监控。
质量保障 数据质量功能模块是大数据平台接收源数
据的屏障,保障所有接收的源数据均符合大
数据平台的要求;数据质量还是大数据平台
数据资产评估的重要组成部分,定期运行平
台数据资产的相关质量规则,为数据资产评
估提供输入。
未明确规定数据质量为其它功
能模块提供服务。
. 范围和原则
大数据平台数据质量的管理范畴,涵盖从源数据接入大数据平台到应用输出的全过程。
大数据平台数据质量管理的原则包括:
以用户需求为中心:数据质量模块旨在为大数据平台所有用户提供服务,平台功能的增
加和增强始终围绕着用户的实际使用需求;界面设计需要充分考虑不同类型用户的需求,既
要满足业务用户简单易懂的需要,也要允许技术用户实现个性化的监控需求。
全员参与:大数据平台的用户包括数据提供者、数据开发者、数据管理者、数据消费者,
均要参与平台的数据质量管理;
过程控制:数据质量监控不仅是在结果输出后,还包括对计算过程中质量监控,一旦发
现问题,可以及时终止进程;
持续改进:数据质量的提升是一个持续的过程,需要定期对发现的问题进行评估,提出
改进意见;也包括数据质量模块本身功能的提升和规则库的完善。
. 与其它功能模块的关系
. 与元数据模块的关系
数据质量模块将与元数据模块通过接口互通,根据需求获取相关元数据信息。
用户检索监控对象时,可以检索监控对象的名称、说明或者其它元数据的属性信息,数据质
量模块通过接口将检索条件传输到元数据模块,元数据模块将检索结果反馈给数据质量模块,
如图 6-8所示。
图 6-8数据质量模块与元数据模块交互流程
用户对监控对象配置监控规则,数据质量功能模块由元数据管理模块自动获取该监控对
象的物理地址,按照用户需求自动生成采集规则。
用户如果需要在监控对象血统的相关节点上配置监控规则,则可以跳转到元数据平台上
查看监控对象的血统图,找到对应节点的名称,然后按照监控对象的配置方式进行配置。
. 与数据资产模块的关系
源数据接入大数据平台,需要进行接收稽核,满足稽核规则的源数据才能接入大数据平
台。源数据初次申请进入大数据平台时,即需要配置其稽核规则,此后该源数据每次提交数
据到大数据平台,均需要按照设定的规则进行稽核,并将稽核结果反馈给数据资产模块,如
图 6-9所示。
图 6-9数据质量模块与数据资产模块交互流程(资产接收)
数据质量模块对大数据平台上所有资产进行定期的监控,并将监控结果反馈给数据资产
模块,为数据资产评估提供支持,如图 6-10所示。
图 6-10数据质量模块与数据资产模块交互流程(资产评估)
. 本期数据质量功能需求
本期数据质量模块的目标是为内、外部用户提供平台化的数据质量监控;通过扩充和优
化公共规则库、增强后台对不同类型数据仓库和非结构化数据的兼容性,提升用户使用感受;
并提供数据质量应用满足个性化需求。
. 平台化数据质量监控
为外部用户提供数据质量监控界面,用户可以在界面上完成监控对象选择、规则配置、
告警及结果查看、问题处理等数据质量全流程监控。
监控对象选择灵活,可以通过多种检索条件进行检索;
规则配置界面友好,用户通过选择规则模板直接进行配置;
后台自行适配多种数据仓库,根据监控对象的不同,自动生成适配的作业;
设置好的监控规则作为单独的作业,用户可以在计算执行过程中或计算完成后进行调用。
. 对内质量服务
为大数据平台内部提供数据质量支撑,包括两方面:
资产接收稽核:获取接入源数据的元数据和数据标准信息,配置相应的监控规则,不满
足稽核规则的源数据则通知数据资产模块,不予接收;
数据资产评估支撑:对大数据平台中的数据资产进行定期的监控,将监控结果输入到数
据资产模块,作为数据资产评估的一部分。
. 规则库
数据质量功能模块将《中国移动企业大数据平台规范数据标准分册》及本分册中数据标
准、数据安全等相关要求转化为相应质量监控规则,内置于规则库中,并将其它常用数据质
量监控规则也纳入规则库中。
规则库按照使用场景划分为不同等级,如文件级、字段级、数据级等,便于用户选择。
数据质量功能模块可以为已经确定的场景,设定规则包,例如数据资产评估,用户可以
直接使用,无需任何配置,也允许用户根据实际情况对规则包中的内容进行修改。
. 后台支撑
数据质量功能模块需要为数据标准、元数据、数据资产、告警通知等提供接口。
数据质量功能模块后台需要自动适配不同类型数据仓库,保证采集和规则配置的兼容性。
数据质量功能模块对规则和结果的存储需要满足大数据平台的需求。
. 数据质量应用
数据质量功能模块为一线人员提供数据质量应用,包括:
绩效监控:用户可以在该应用上设置规则、查看结果以及进行结果的进一步剖析;
体检中心:通过运行该应用,对企业的数据质量进行了一次全面的体检,并即时输出体
检报告,让企业时刻了解自身数据系统的健康情况。
. 本期数据质量运维要求
本期数据质量运维着重体现“平台化”、“全员参与”的理念,通过平台化数据质量监控和规
则库的配合,让大数据平台的所有用户能够对自己提供或消费的数据进行数据质量管理,可
以在数据质量模块上方便自如的配置需要的监控规则、查看结果并进行后续处理。
. 数据资产管理
. 数据资产概述
. 背景
数据资产化将以资产的角度开展数据管理工作变为可能,将有助于多角度、全方位开展数据
的管理,明确数据安全级别,落实资产责任管理,是实现数据变现的必要前提。数据资产化
包含了数据资产梳理盘点和数据价值评估的过程。
数据资产是指企业及组织拥有或控制,能给企业及组织带来未来经济利益的数据资源。数据
有可能成为资产,但不是所有数据都能具备资产的属性。数据资产包含着如下几个要素:1)
被企业拥有和控制;2)能够用货币来计量;3)能为企业带来经济利益。
数据的价值根据其相关性的不同而各不相同,而数据相关性又因数据使用者而异。对某个人
群没有价值的数据,可能对另外一个人群相当有用;在某个时间段内没有价值的数据,可能
在另一个时间段内相当有用。例如:用户十年前的入网信息,在几年前是没有什么价值,但
随着“十年移动”等营销活动开展,这类信息又非常有价值。
. 系统框架
图 6-11数据资产架构图
如图 6-11所示,数据资产管理系统包括六个部分:
注册管理:支持多种方式(采集器、在线维护、提供自助注册接口)注册数据资产,并提供
审核及版本控制等功能;
变更管理:支持已注册数据资产信息的变更、审核和更新功能;
审计管理:支持对数据资产的盘点,以及对数据资产访问记录的审计;
资产统计分析:支持数据资产的评估,包括数据质量、访问情况等信息的采集,根据这些信
息对数据资产进行综合评估打分;
权限管理:对接数据安全管理模块,除了同步数据安全管理模块中用户账户信息及权限外,
还会将用户对数据资产访问的申请信息发送给数据安全管理模块进行处理;
接口管理:与元数据管理模块、数据质量管理模块、数据安全管理模块对接,收集相关模块
的基础数据,用于完成数据资产的注册、稽核及安全管理等工作
数据资产化后,将解决目前普遍存在的需求分散重复、口径模糊等问题,实现成果和经验的
共享和积累,方便实现应用和数据的生命周期的自动化管理。明确的数据资产信息,将有效
支撑公司内部知识系统和资源管理的建设,为业务人员能更快捷、有序、便利地提供资产使
用的方式和途径,支撑数据分析、开发、运维的自治。
. 数据资产范围
数据资产的范围和形式应包含企业拥有的各类数据,如表、视图、接口、程序等。同时,随
着大数据的发展,还应纳入各种非/半结构化的数据形式,如日志、网页、图片、音视频等。
数据资产标识是一个有业务含义、分段式、全局唯一的字符串,用来区分识别数据资产的标
签。资产标识包含有资产所属业务域、资产类型、提供者等信息。
资产标识规范为五段式结构,每段以点分隔。具体格式如图 6-12所示:
图 6-12数据资产标识规范
{根前缀}:指数据资产全局前缀,以常量表示。其值为.xxx
{业务域}:指数据资产所归属的业务系统类别域。其值为 BSS,OSS,MSS等
{资产类型}:指数据资产模型类别。其值为表、文件、图片、音频等
{提供者/租户}:指数据资产的生产者,或者是数据资产的所有者。其值一般是生产者或者
所有者的标识。其值为 MKT(市场)、GRP(集团)、BASS(经分)等
{资产名称}:指数据资产的简短命名。其值一般是资产对象的名称或编码。
数据资产标识示例:...application_log
二维码如图 6-13所示。
图 6-13数据资产标识二维码
. 与其它功能模块的关系
数据资产管理模块将与元数据、数据质量、数据安全模块通过接口互通,根据需求获取元数
据,数据稽核和交互账号权限等信息。
在资产注册、变更时,需要从元数据模块获取表、字段、口径、程序等元数据信息,用于数
据资产信息的登记和更新。
在资产运维时,需要从数据质量模块获取数据质量监控、稽核的结果,用于资产评估。同时,
消费者申请访问数据资产,需要从数据安全模块中获取账号信息,相关数据访问申请也需要
发送给数据安全模块进行处理。
. 本期数据资产功能需求
. 管理过程
数据资产管理过程是一个资产全生命周期的管理过程,资产全生命周期管理以数据资产作为
管理对象,以资产战略和资产策略为导向,从系统整体目标出发,统筹考虑资产的规划、投
资、设计、建设、运行、维护、稽核、变更、注销的全过程,在满足安全、效能的前提下有
效管理与监控数据资产的生产和使用情况,不断优化数据资产质量,实现数据资产的业务价
值。其管理过程如图 6-14所示:
图 6-14数据资产全生命周期管理过程
如图 6-14 所示,数据资产全生命周期管理过程分为如下四大阶段:
战略规划:该阶段旨在按照业务需要和业务发展要求,建立数据资产总体性、纲要性规
划。制定帮助所有的数据资产供应者以及消费者,帮助他们运营,帮助他们长期发展建立清
晰的服务战略。该阶段主要包含了制定数据资产战略规划和制定数据资产策略计划等关键任
务和活动。
注册入库:该阶段旨在按照战略规划和战略计划进行数据资产的设计、建设和交付。针
对需求进行分析设计,根据战略阶段的要求与规范,定义数据资产的结构等,是资产管理中
的重要组成。该阶段主要包含了设计并生产数据资产和数据资产注册、入库等关键任务和活
动。
运营维护:该阶段旨在对数据资产的有效使用进行管控,确保数据资产健康运营。运营
维护包含数据资产发布、资产稽核、监控告警、资产评估、资产审计、资产变更等方面;提
供数据资产给授权的消费者(内部用户、集团用户和外部用户)使用;对数据资产进行盘点,
监控数据资产的使用情况,对数据资产访问记录进行审计;对数据资产从规划到运营阶段情
况进行全方位、多维度的统计分析,对资产内容标准化、合规性的稽核评价,根据评估结果
有目的的对数据资产进行改进和完善。
注销报废:该阶段主要是对无效和失效的资产进行清理,主要包括资产注销和报废清除
等任务和活动。在注销报废阶段,对已失效的资产,由管理者注销资产,并由运维者销毁资
产对象;
. 管理对象
图 6-15数据资产管理对象
如图 6-15所示,数据资产管理对象是针对纳入企业级大数据平台进行存储、访问、操作的结
构化和非结构化数据,包括但不限于:
1. IT支撑系统(含业务支撑、运营支撑、管理支撑等)所产生的业务数据、交易数据、分
析数据、流程数据等,简称 B域数据;
2. 网络运行管理和分析系统所产生生业务数据、交易数据、分析数据、流程数据等;以及
各类网元设备所产生的话单、信令、上网日志、性能检测数据,简称 O域数据;
3. 业务平台(含管理平台、能力平台、应用平台等)对内进行发布和共享的特定业务数据,
简称业务平台数据;
4. 其它纳入企业级大数据平台管理的外部引入数据,简称外部引入数据。
. 管理角色
数据资产管理过程中,应包含如表 6-6相关的角色:
表 6-6人员角色职责
角色 主要职责
数据资产规划者
制定数据资产模型规范;
规划数据资产建设方案;
数据资产提供者
提交数据资产相关信息到数据资产管控平台进行数据资产注册;
确保数据资产提交的信息和注册信息一致;
数据资产消费者
查看可用的数据资产;
申请使用数据资产服务;
订阅并使用数据资产服务;
数据资产管理者
数据资产的注册管理和变更管理;
数据资产的稽核审计和监控告警;
数据服务的创建、发布、下线管理;
数据服务申请审批;
数据资产运维期的使用跟踪分析和优化;
数据资产运维者
数据资产的保护,如备份、加密、脱敏和安全管理;
数据资产的销毁;
. 本期建设内容
本期数据资产管理模块重点从规划、注册、运维到注销的全流程管理功能进行建设,使数据
资产管理系统化、可视化。
. 数据安全管理
. 数据安全概述
根据集团公司信息安全管理要求,大数据平台必须建立完整的信息安全管理措施和技术方案,
加强大数据平台与其它系统之间的数据信息安全管控。
为了进一步明确和加强信息安全管理的规范性,通过制定并执行数据安全政策和安全策
略措施,为企业级大数据平台的数据和信息提供行之有效的认证、授权、访问和审计。实现
对敏感数据访问和隐私保护技术实现和管理措施保护客户隐私信息的详细实现方案,深化数
据安全的技术防护措施。
. 建设原则
旨在完善数据体系化的安全策略,全方位进行安全管控,通过多种手段保障数据安全,做到
事前可管、事中可控、事后可查。
事前可管
全面分析系统,及时发现存在安全风险的环节设置防线,防患于未然。
事中可控
通过 4A、金库模式、敏感数据管控、隐私信息保护等手段,密切关注用户操作,确保安全实
施。
事后可查
记录用户所有访问痕迹,保留用户操作日志提供审计。
目标建立完善的体系化的安全策略措施,全方位进行安全管控,通过多种手段保障大数据平
台数据治理中的数据安全,完成数据“存、管、用”的数据治理安全,做到“事前可管、事
中可控、事后可查”。
. 建设内容
数据安全主要内容包括:
客户的隐私保护,采用加密等技术手段对涉及的隐私信息进行防护。
数据权限控制,对用户的数据访问权限进行细粒度的控制管理。
隐私信息配置,提供隐私数据的配置服务,为隐私数据的转化服务提供识别依据。
隐私信息转化,为数据治理相关环节提供隐私信息的去隐私化或还原服务。
日志记录服务,对数据治理各环节所产生的日志记录进行获取并整理。
应用权限控制,为用户的应用功能访问权限的控制管理提供服务。
离线文件加密服务,对后台的数据导出行为控制提供数据文件的加密服务。
. 边界关系
数据安全关注数据治理过程中与数据相关的安全保障技术及相应的管理办法,包括:数
据权限控制、数据去隐私化、数据加解密等。数据安全为数据治理各环节提供数据安全保障
机制及技术手段,重点关注数据治理过程中大数据平台访问策略及数据资产环节的安全保障,
示例如下:
1、数据安全对大数据平台的访问账号、功能权限进行安全保护,如:
大数据平台的账号管理;
大数据平台敏感行为的控制管理;
大数据平台数据去隐私化;
2、数据安全对资产管理涉及的数据及业务过程行为进行数据安全保护,并实现相关的安全
防护工作,如:
数据资产的增加、删除、变更过程的数据权限控制工作;
数据使用过程中的防泄漏保护工作;
数据资产变更过程的记录及追踪;
数据粒度的权限控制管理;
相关系统应用、数据访问行为的日志记录等工作;
. 技术功能
. 数据安全需求
图 6-16数据治理全程的安全需求
数据安全需求如图 6-16所示。
数据存储:
存储设备访问控制:身份识别、权限控制、访问控制、操作审计、金库模式;
数据安全防护:数据脱敏、数据加密;
数据处理:
数据安全防护:业务逻辑安全;
数据封装:
数据安全防护:数据最小化、数据脱敏、数据文件加水印;
数据使用:
接入安全控制:身份识别、权限控制、访问控制、操作日志;
数据安全防护:数据脱敏、数据加密、传输通道加密。
. 数据安全管理办法
从数据层面为大数据平台提供安全防护能力,包括数据层的大数据平台核心数据防护措
施和配套安全系统等。所有软硬件设备均需要能够满足中国移动公司所提出的各项安全功能
规范要求,具体详见规范性引用文件。
. 管理要求
. 隐私信息保护管理措施
隐私保护的重要管理制度是三权分立管控制度。三权是指:数据库管理权限、隐私数据
安全管理权限以及审计权限。三个权限分别掌握在不同的管理员手上,三个管理角色的权限
相互独立、互不重叠,不允许越权,且相互制衡。三权分立管控制度示意图如图 6-17所示:
图 6-17三权分立制度
数据库管理员(DBA)角色:数据库管理员主要负责大数据平台的维护和管理,数据库
设计方案及规划。DBA 拥有数据库最高的操作权限。经过隐私保护实施后,数据库中将不包
含任何隐私信息。DBA 角色能够获取所有的数据但无法读懂隐私信息,DBA 无法获取隐私信
息保护的策略和密钥信息。
安全管理员(SA)角色:是隐私数据保护专用管理角色,主要负责获取隐私信息属性,
管理和配置去隐私处理的策略和密钥信息,制定版本更新计划和历史版本归档工作。SA掌握
所有去隐私处理使用的策略和密钥,但 SA 没有访问大数据平台任何主数据库的权限,无法
获取隐私信息。
审计专员角色:属于 4A 管理平台的专门的事后审计管理角色,审计专员有权限对 DBA
和 SA的任何操作进行审计。一旦发现违规的行为可以及时通告和升级处理。
建立三权分立管控制度的目的就是要建立权力制衡的机制,进一步保证隐私信息的安全。
各省分公司实施过程中,必须要明确三个角色权限由不同的人员担任,三个角色的权限不能
有任何的设置重叠,需配套建立相应版本更新、数据需求、后台运维、日志审计管理流程。
隐私数据安全原则
对大数据平台开发及维护人员进行常态化的客户隐私数据相关安全管理制度及相关知
识的宣贯,加强相关人员的安全意识。隐私数据安全知识包含但不限于如下内容:
1) 《中华人民共和国刑法修正案(七)》、《中华人民共和国电信条例》等国家法律法规中
有关信息安全及泄露或出售公民个人信息行为的相关规定;
2) 总部下发的“五条禁令”及违规判定相关文件,并且签订“保密承诺书”相关文件;
3) 总部下发的《客户信息安全保护管理规定》、《第三方安全管理办法》等相关管理办法;
4) 电信企业近年来发生的客户信息泄露相关案例;
5) 各省公司内部的客户信息安全保护管理规定。
日志审计管理流程
审计员需定期对程序运行日志和用户操作日志进行安全审计和检查工作,并形成正式的审计
报告。通过对日志中涉足敏感区域访问的行为以及客户隐私数据的访问日志进行详细分析,
初步判断是否危及信息安全,若有安全问题的可疑情况,需及时上报相关领导,并触发后续
处理流程。日志审计场景如图 6-18 所示:
图 6-18日志审计流程图
. 安全保障制度
1. 安全策略集中管理
大数据平台需要综合考虑系统安全管理策略,做到集中管理、集中修订、集中更新安全规则,
从而实现统一的安全策略实施,安全管理员可以在中央控制端进行全系统的监控。其具体要
求如下:
各安全产品应具备集中管理功能,可以支持远程的配置、修订安全规则;
应支持系统范围内集中的用户帐户管理,包括帐户的创建、删除、修改、角色划分、权
限授予等工作;
应提供必要的手段,能够对整个中国移动大数据平台中出现的任何涉及安全的事件信息
及时通报给指定管理员,并保存相关记录,供日后查询;
应提供单次登录服务,允许用户只需要一个用户名和口令就可以访问系统中所有被许可
的访问资源。
应提供必要的手段,能够对外网访问策略进行管理,加强外网接口服务器的访问策略管
理工作。
应提供移动终端应用上线审批的管理,对于用户的访问权限和访问内容提供相应的管理
措施。
2. 安全保障要求
系统安全保障要求如下:
按照大数据平台的实现应用流程以及机构的设置,严格划分所有用户的角色,并据此设
定不同的权限,确保用户只能访问权限许可范围内的资源;
禁止在生产系统中使用未经批准的应用程序,禁止在生产系统上加载无关软件,严禁擅
自修改系统的有关参数;
用于开发、测试的系统必须与生产系统严格分开;
监视系统运行记录,及时审查日志文件,认真分析告警信息,及时掌握运行状况,对系
统可能发生的故障做好应急方案;
软件程序的修改或增加功能时,须提出修改理由、方案、实施时间,报上级主管部门批
准;程序修改后,须在测试系统上进行调试,确认无误经批准后方可投入生产应用;
软件修改、升级前后的程序版本须存档备查,软件修改、升级时须有应急补救方案;
建立严格的机房安全管理制度,非工作人员未经许可不准进入机房,任何人不准将有关
中国移动大数据平台资料泄密、任意抄录或复制。
3. 项目实施安全要求
系统建设阶段:
系统建设阶段,开发商必须与移动公司签订系统建设/实施的保密协议,确保系统的建
设内容不会被泄漏出去;
实施系统的开发商项目组人员要和建设单位签署个人保密协议,避免将系统的建设内容
向外界透露;
提供给实施系统的开发商的测试数据不能外泄。
系统运行阶段:
用于开发、测试的系统必须与生产系统严格分开;
系统运行后,必须由本公司的内部正式员工负责系统运行的各种实际数据,从而安全地
进行控制和使用;
系统运行后,系统上需要严格划分所有用户的角色,并据此设定不同的权限,确保用户
只能访问权限许可范围内的资源;
系统运行后,系统涉及所有数据库的管理和对表、视图、记录和域的授权工作统一由数
据库管理员执行。
7. 数据治理场景
. 背景描述
移动业务发展多年,在多年的用户发展和经营中,积累了大量的用户数据。特别是移动
互联网的兴起,带来了海量实时的用户行为信息,具备极高的商业价值。在未来的大数据生
态中,移动作为海量数据的拥有方和大数据平台的承建方,占据核心地位,可以为多个行业
甚至政府、公安、交通等部门提供多种形式的数据资产服务,如图 7-1所示。
图 7-1移动大数据生态圈
以移动大数据平台为核心,提供多样化的数据资产服务,满足航空、保险、银行等行业
不同的数据要求。如下有两个具体的数据资产开放场景,为大家展示完整的移动内外部的业
务流程。
. 场景一:银行伪卡交易判别
. 背景介绍
银行信用卡盗刷一直以来都是银行非常头疼和难以解决的问题。由于磁条卡复制容易,
制作成本低,导致市面上出现大量伪造信用卡。尤其国内旅客在国外消费时,无需输入密码,
更加方便了伪卡的制作,从而增加了伪卡交易的几率。每年银行都会因为伪卡交易的问题,
白白损失掉许多资产。能否判断信用卡是否是本人交易,成为鉴别伪卡交易的关键点。如果
能够在信用卡交易的同时,通过客户的手机位置信息与交易地点进行匹配,那么可大大提升
伪卡交易的发现几率,并可及时进行相应的后续处理。
. 场景描述
国内某银行与移动进行数据合作,建立数据合作平台,进行伪卡交易的判断和验证。
流程如图 7-2所示:
图 7-2判别流程
A 用户在 POS 上刷卡交易后,银行收到交易请求,发送用户手机号码到数据服务平台,
进行请求查询。
数据服务平台传递数据查询请求,大数据平台实时采集获取该内该手机号码的位置信息。
移动大数据平台采集该手机号码的位置信息后,通过标准化处理和元数据的约束形成标
准化数据。
标准化数据经过平台数据定价和评估模型,产生有价值的数据资产。
数据资产通过预先配置好的数据质量检查规则,形成待服务数据。
满足数据质量要求的数据资产经过平台相应数据安全机制验证,输出数据结果并反馈给
对端银行系统,判断此笔交易是否为伪卡交易。
. 场景二:银行手机贷业务
. 背景介绍
银行的贷款业务是银行收入的重要支撑,但是由于贷款人信用状况多维性和复杂性,银
行无法准确判断每个贷款人的信用情况。以至于每年都会有许多的坏账出现,非常影响银行
的收益。全面获得贷款人的征信信息,对于银行来说,非常重要。移动具有其客户多年的消
费以及通讯数据,从消费能力和交往圈可以有利的支撑客户的信用状况,从而作为银行贷款
客户的重要征信依据,移动对该贷款人的信用报告可有利的支撑贷款业务,从而降低银行贷
款的风险。
. 场景描述
某银行与移动公司合作推出了手机贷业务,通过手机贷 APP终端,可方便的进行无抵押小额
贷款。
流程如图 7-3所示:
图 7-3手机贷流程
用户在得到手机贷业务的宣传后,下载安装并实名注册手机贷客户端。
APP进行注册后,手机贷 APP进行授信请求的推送。
用户同意授信后,APP后台发送数据请求到移动大数据平台。
大数据平台以该手机号码为关键字,进行用户相关信息的采集和解析。
采集后的数据通过数据标准化要求进行数据预处理,通过标准化处理和元数据的约束形
成标准化数据。
标准化数据经过平台数据数据定价和评估模型,产生有价值的数据资产。
数据资产通过预先配置好的数据质量检查规则,形成待服务数据。
满足数据质量要求的数据资产经过平台相应数据安全机制验证,产生评估结果。
满足评估结果的用户会收到 APP 的相应推送消息,用户可进行后续的贷款预约和准备,
贷款结束。
8. 附录
附录一:数据标准框架
图 8-1数据标准管理框架
数据标准管理的整体框架如所示,包括数据标准规划、数据标准化实施、数据标准支撑三大
部分内容。
数据标准规划按照企业级省大数据平台数据治理的规范需求,构建省级数据标准体系,并规
划制定数据标准化的实施路线和方案,逐步对企业级省大数据平台数据进行统一标准化数据
管理。
数据标准化实施基于数据标准规划,通过数据标准支撑模块,达到数据标准的执行落地,并
真正起到数据标准的管理效果。
通过对数据标准化实施过程的支撑,建立数据治理组织架构,制定省级数据标准管理办法和
实施流程要求,并最终通过数据标准管理工具进行建设。
附录二:数据标准体系定义内容示例
1、行业参考模型实体标准定义内容示例:
标准定义 说明
数据标准编码 V000
分层 基础层
标准主题 事件域
标准子类 信令
中文名称 LTE网络 S10/S11接口信令
英文名称 OSS_NES_I_S10S11_XDR_DAY
实体编号 CYR_ST_002
数据版本
数据体系分类 行业参考模型实体定义类
重要级别 一级。
数据提供部门 网络部
数据提供部门负责人 张三
数据维护部门 数据治理中心
数据维护部门负责人 李四
业务主管部门 市场部
业务主管部门负责人 王五
数据来源系统 网络优化平台系统
2、公共代码标准体系定义内容示例:
公共标准定义 标准体系属性说明
数据标准编码 V000
公共标准号 GB/T02659-2000
中文标准名称 世界各国和地区名称代码
英文标准名称 Codesfortherepresentationofnamesofcountriesandregions
标准状态 现行
公共标准机构名称 全国信息与文献标准化技术委员会
数据标准体系 公共标准代码
重要级别 一级
数据标准引入部门 业务支撑系统部
数据标准引入部门负责
人
张三
数据上报系统 经营分析系统
3、指标类数据标准体系定义内容示例:
标准定义 说明
基础属性
数据标准编码 V000
中文名称 集团客户到达数
英文名称 Group_Arrive_Cust_Num
应用场景 统计定报
数据版本 该数据标准的版本信息。
数据体系分类 客户管理-客户规模
重要级别 一级
管理属性
数据提供部门 业务支撑系统部
数据提供部门负责人 张三
数据维护部门 数据管理中心
主要依据 参考集团规范《中国移动省级 NG2-BASS()技术规范逻辑
模型分册》。
业务定义 记录中国移动手机用户连接 LTE网络下 S10/S11接口的相关
信息,主要包括 IMSI、TAC、ECI、业务时间、访问端口、访
问内容等
数据维护部门负责人 李四
业务主管部门 集团客户部
业务主管部门负责人 王五
数据上报系统 ERP系统
数据生成系统 BASS系统
数据上游系统 BOSS系统
业务属性
主要依据 2014年定期统计报表制度
业务定义 截至统计周期末,以组织名义与中国移动签属协议,近三个
月累计整体收入大于 0,状态在网的法人单位和产业活动单
位。包括 A、B、C三类集团客户。
计算流程/算法 第一步:用集团用户信息表关联集团客户信息表,限制集团
状态为在网,企业规模代码为“A类”、“B类”、“C类”
集团第二步:关联账单表,限制处理日期,统计集团成员近
三月应收和集团用户近三月应收情况第三步:限制集团成员
近三月应收大于 0 或集团用户近三月应收大于 0,统计符合
条件的集团客户数
指标类型 基础指标
计算指标公式 0
技术属性
计量单位 户
统计精度 整数
数据值域 最小值:0,最大值:99
统计周期 月
统计粒度 地市级
统计维度 日期、地市、品牌
指标出数表 _RPT_MM101_2007_MON
指标出数代码 CU7550