版 本 号 : 2 . 0
The Business and Technical Specification on Data Quality Management
System in Business Analysis Support System
中 国 移 动 通 信 企 业 标 准
QB-J-XXX-2007
中国移动省级经营分析系统
数据质量管理系统
业务技术规范
(征求意见稿)
中国移动通信有限公司 发布
2 0 0 7 - 0 5 发 布 2 0 0 7 - 0 5 实 施
目 录
1. 范围∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙1
2. 引用标准∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙1
3. 术语和定义∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙1
4. 符号和缩略语∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙2
5. 概述∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙2
6. 总体说明∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙2
数据质量管理概述 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙2
主要内容 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙3
系统建设目标 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙3
实施建议 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙4
7. 数据质量管理需求∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙4
数据质量问题 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙4
信息问题域 .......................................................................................................5
技术问题域 .......................................................................................................6
流程问题域 .......................................................................................................7
管理问题域 .......................................................................................................8
系统功能需求 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙8
元数据管理 .......................................................................................................9
数据质量监控 ...................................................................................................9
项目管理支撑 ...................................................................................................9
8. 系统架构∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙9
系统体系 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙9
源系统层 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙10
经营分析系统数据处理流程 .........................................................................10
数据质量监控点 .............................................................................................10
存储层 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙11
元数据存储 .....................................................................................................11
业务元数据 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙11
业务术语 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙11
业务描述 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙11
业务指标 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙11
业务规则 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙12
技术元数据 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙12
数据源接口 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙12
ETL 过程 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙12
数据仓库和数据集市存储 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙13
分析应用 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙13
运行环境信息 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙14
质量管理过程 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙14
管理元数据 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙15
运行状态信息存储 .........................................................................................16
质量管理知识存储 .........................................................................................16
功能层 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙16
元数据管理 .....................................................................................................16
元数据维护 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙17
元数据导入/导出 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙17
同步检查 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙18
实体查询 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙19
过程查询 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙19
影响分析 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙19
血统分析 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙20
实体关联度分析 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙20
实体差异分析 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙20
版本管理 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙20
变更通知 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙21
质量监控支撑功能 .........................................................................................21
知识库管理 .....................................................................................................21
知识积累和维护 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙21
知识使用 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙21
系统管理 .........................................................................................................21
应用层 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙21
数据质量监控 .................................................................................................21
信息地图 .........................................................................................................22
需求变更影响评估 .........................................................................................22
数据集市支撑 .................................................................................................24
项目管理支撑 .................................................................................................24
工作分配管理 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙24
系统使用状况分析 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙24
项目需求管理 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙24
项目组织架构管理 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙25
9. 数据质量监控模块∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙25
概述 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙25
数据质量监控模块的目标 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙25
数据质量监控模块功能要求 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙25
数据质量监控流程 .........................................................................................25
采集 .................................................................................................................26
指导原则 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙26
信息采集 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙26
检查 .................................................................................................................27
数据质量检查基本功能 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙27
数据稽核 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙27
处理过程检查 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙30
数据质量检查点的部署方式 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙30
报告 .................................................................................................................31
检查结果报告基本过程 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙31
报告定义 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙31
报告生成 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙31
报告提示 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙31
检查结果报告的内容 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙31
告警管理 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙32
告警界面 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙32
告警形式 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙32
告警升级 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙33
告警恢复 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙33
处理 .................................................................................................................33
问题处理的阶段划分 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙33
问题隔离阶段 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙33
问题处理阶段 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙34
总结 .................................................................................................................34
总结的类型 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙34
问题总结 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙34
阶段性总结 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙34
数据质量监控模块技术实现 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙35
技术实现架构 .................................................................................................35
数据质量检查代理 .........................................................................................36
目录扫描模块 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙36
检查规则读取模块 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙36
数据质量检查模块 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙36
检查结果生成模块 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙36
代理活动采集模块 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙36
通信模块 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙37
数据质量监控服务器 .....................................................................................37
用户管理模块 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙37
检查规则处理模块 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙37
代理配置处理模块 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙37
代理活动监控模块 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙38
检查结果处理模块 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙38
数据库接口模块 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙38
通信模块 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙39
数据质量检查客户端 .....................................................................................39
检查规则查看 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙39
检查规则配置 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙39
代理配置 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙39
代理活动监控 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙39
检查结果查看 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙40
用户管理 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙40
通信模块 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙40
实施要求 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙40
场景描述 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙41
10. 数据质量管理流程∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙44
概述 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙44
管理机制 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙44
组织机构职责 .................................................................................................44
角色与职责 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙44
项目负责人 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙44
项目经理 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙44
数据质量管理员 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙45
业务系统接口员 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙45
文档的设立和维护 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙45
相关外部组织 .................................................................................................46
质量控制流程 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙46
需求变更控制流程 .........................................................................................47
流程进入条件 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙47
流程产生文档 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙48
数据质量问题处理流程 .................................................................................48
流程进入条件 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙49
流程产生文档 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙49
指标口径及业务规则问题处理流程 .............................................................50
流程进入条件 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙51
流程产生文档 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙51
元数据变更维护流程 .....................................................................................52
流程进入条件 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙52
流程产生文档 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙52
错误数据维护流程 .........................................................................................53
流程进入条件 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙53
流程产生文档 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙54
质量检查 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙54
管理流程检查 .................................................................................................54
组织结构检查 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙54
管理流程及相关标准的检查 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙55
质量管理流程执行情况检查 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙55
元数据质量检查 .............................................................................................55
及时性检查 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙55
完整性检查 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙56
准确性检查 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙56
11. 系统管理∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙56
概述 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙56
系统安全管理 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙57
系统版本管理 ∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙57
12. 编制历史∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙∙57
前言
为更好地及时获取、分析、评估和解决省级经营分析系统各环节的数据质量问题,保证数据质量的
稳定可靠,需要构建一套省级经营分析系统数据质量内部控制的管理体系,利用数据质量监控模块进一
步提升数据质量管理系统对经营分析系统的支撑能力,特制订本规范。
本标准由中国移动通信有限公司提出并归口。
本标准以中移有限业【2007】XX 号印发。
本标准起草单位:中国移动通信有限公司。
本标准主要起草人:
本标准解释单位:中国移动通信有限公司。
1
QB-J-XXX-2007
1. 范围
本规范包含了中国移动经营分析系统数据质量内部控制的管理体系,以及数据质量管
理系统业务技术规范方面的内容。
本规范适用于中国移动省级经营分析系统数据质量管理系统()的建设。
本规范重点描述了以元数据管理为基础的数据质量监控功能,引入数据质量监控模块,
并提出了数据质量全程监控的概念。旨在为数据运营打下基础,提升数据质量管理能力,使
经营分析系统具有更高的实用价值。
2. 引用标准
《中国移动省级经营分析系统数据质量管理系统业务技术规范()》
《中国移动经营分析系统元数据管理规范 》
《中国移动省级经营分析系统数据质量控制指导意见》
3. 术语和定义
序号 名词 解释
1 元数据
是描述经营分析系统中数据的数据,为数据质量管理等业务功能提供信息
支撑。
2 技术元数据
技术元数据包含关于经营分析系统数据技术层面的信息,描述了数据源、
ETL、数据仓库和数据集市、OLAP、一级经营分析系统接口等子系统的
数据特征。
3 业务元数据
业务元数据用业务术语、名称、定义来描述经营分析系统中的各种业务信
息,供业务人员使用。
4 管理元数据
管理元数据主要是指经营分析系统日常建设过程中,涉及开发、运维等管
理流程的基本信息。
5 CWM
CWM 标准是 OMG 组织定义的数据仓库和相关系统的国际元数据标准,
CWM 标准的目的在于使得数据仓库和商业智能软件的元数据在分布异构
的数据分析工具,数据仓库平台,元数据存储等系统之间交互。
6 信息地图
信息地图是在元数据基本功能基础上对经营分析基础元数据信息的全局、
多视角的展现。
7 数据质量监控
自动获取经营分析系统各环节的数据质量信息,结合元数据库
中的有关检查规则,对数据质量情况进行诊断,并及时向数据
质量监控人员报告。
8
数据质量监控
代理(Agent)
是指部署在经营分析系统数据处理流程各阶段上的,完成数据质量情况采
集、检查、报告等功能的驻留程序。
9 数据质量监控 对分布式数据质量监控代理进行管理和服务的程序模块。
序号 名词 解释
服务器
4. 符号和缩略语
缩写 英文描述 中文描述
BOSS Business Operation Support System 业务运营支撑系统
ODS Operational Data Store 操作型数据存储
CORBA Common Object Request Broker Architecture 公共对象请求代理体系结构
CORBAIDL CORBA Interface Definition Language CORBA 接口定义语言
CWM Common Warehouse Metamodel 公共仓库元模型
ETL Extraction Transformation Loading 抽取、转换和加载
JMI Java Metadata Interface Java 元数据接口
OLAP On-line Analysis Process 在线分析处理
XMI XML Metadata Interchange XML 元数据交换
5. 概述
中国移动省级经营分析系统(以下简称为省级经营分析系统)经过多年发展,已初步建
立了数据质量管理机制,有效保障了经营分析系统的数据质量。随着省级经营分析系统价值
的不断显现与稳步提升,以及IT系统安全管理、风险内部控制等重大管理举措的实施,各省
公司对经营分析系统如何保障数据质量提出了更高要求。为了全面及时地采集、检查、报告、
解决和总结经营分析系统各环节的数据质量问题,保证数据质量的稳定可靠,中国移动特制
定《中国移动省级经营分析系统数据质量管理系统业务技术规范()》(以下简称“本规
范”),旨在指导和规范各省(直辖市、自治区)公司的数据质量管理系统的建设、工程实施
以及日常运维管理工作。
6. 总体说明
数据质量管理概述
在经营分析系统发展的不同阶段,经营分析系统对数据质量的关注点也有所不同。早期
对数据质量的关注点主要是提高数据准确性,随着系统功能和定位的不断延伸,用户关注的
重点逐步由数据准确性扩展至完整性、一致性、及时性等方面,这些内容也属于数据质量的
范畴。
根据中国移动省级经营分析系统前期的建设经验,目前系统关注的数据质量问题主要包
括以下几个方面内容:
1. 数据质量的六大基本要素是否满足,所谓六大基本要素是指:
完整性:主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面;
唯一性:指主键唯一和候选键唯一两个方面;
一致性:指统一数据来源、统一冗余存储和统一数据口径;
精确度:指计量误差、度量单位等方面的精确度;
合法性:主要包括格式、类型、域值和业务规则的有效性;
及时性:指数据刷新、修改和提取等操作的及时性和快速性。
2. 如何从用户视角衡量数据质量,重视用户对数据的满意程度;
3. 如何建立基于CWM规范的元数据管理功能平台,支持数据质量管理,为将来全网
共享元数据奠定基础;
4. 如何建立数据质量监控手段,及时发现、报告、处理经营分析系统数据质量问题;
5. 如何通过建立有效的数据质量管理体系来保障和提升数据的价值。
主要内容
本规范用以指导经营分析系统数据质量管理系统建设的全过程。描述了经营分析系统数
据质量管理需求及范围、数据质量管理总体应用体系框架,明确规定了数据质量管理系统中
的元数据支撑功能及其它支撑功能,确定了数据质量管理的基本功能和流程,重点强调了数
据质量监控模块的功能和作用。
有关元数据建设的详细内容请参见《中国移动省级经营分析系统数据质量管理系统业务
技术规范()》中的《附件 1 省级经营分析系统元数据管理功能技术规范.doc》和《附
件 2 中国移动经营分析元数据管理规范.doc》,上述两个附件给出了元数据管理建设步骤的
参考,包括省级元数据库存储逻辑模型、省级元数据库的访问接口实现方法、元数据管理工
具选型参考标准等,为元数据支撑管理功能的建设提供参考依据。
系统建设目标
本规范借鉴了先期元数据试点和经营分析系统数据质量管理系统()部分省份的建
设经验,同时参考了《经营分析系统元数据管理规范 》和 OMG 组织的 CWM 国际标准
等文献,本期重点实现以下建设目标:
1. 在经营分析系统数据处理主要阶段设置数据质量监控点,支持对数据质量的全程监
控。在各数据监控点上,实现多角度、多方式、可配置的约束规则,提供常见问题
的自动处理方法。
2. 完善数据质量监控模块,建立有效的数据质量监控机制,提供全面及时的数据质量
报告,控制和预防错误范围的扩大。加强数据质量监控技术与管理手段的配合,着
重关注经营分析系统数据来源和数据输出的数据质量,明确相关责任。
3. 建设符合 CWM 规范的元数据管理平台,为全网经营分析系统的数据质量管理、数
据资源管理和数据运营奠定基础。
实施建议
本规范是省级经营分析系统数据质量管理系统规划和建设的基本指导,各省在实施过程
中,可根据实际需要以本规范为基础进行扩充与细化。建议如下:
1. 在建立数据质量管理系统后,需要建立配套的管理机制,确保有专人依照流程对数
据质量问题进行管理和维护;
2. 元数据管理是本次经营分析数据质量管理系统的重要功能,是将来实现元数据共享
和交换的基础。元数据提供了对数据本身的描述,是关于数据的数据,主要包括技
术元数据、业务元数据和管理元数据。各省在遵循 CWM 标准的前提下,可以根据
自身实际情况,决定自行建设还是采购元数据管理工具;
3. 各省可以根据自身业务情况扩展《中国移动省级经营分析系统数据质量管理系统业
务技术规范()》附件中的元数据存储逻辑模型,但必须遵循 CWM 元模型的
扩展规则;
4. 本规范中列举的各类应用,如数据质量监控、信息地图、需求变更影响分析、项目
管理支撑、数据集市支撑等应用是本期建设重点关注的内容,各省可以根据实际情
况增加其它相关应用。
7. 数据质量管理需求
数据质量问题
经营分析系统数据质量问题按照问题的来源和具体原因,可以分为信息、技术、流程、
管理四个问题域。如图 7-1 所示。
图 7-1 数据质量的四个问题域
数据质量问题
管理问题域技术问题域
流程问题域信息问题域
信息问题域
图 7-2 信息问题域
信息类问题是由于对数据本身的描述理解及其度量标准的偏差而造成的数据质量问题。
产生这部分数据质量问题的原因主要有:元数据描述及理解错误、数据度量的各种性质得不
到保证和变化频度不恰当等。
元数据描述及理解错误中的相关元数据主要包括:
业务元数据——主要包括业务描述、业务规则、业务术语、业务指标口径等。
技术元数据——主要包括接口规范、执行顺序、依赖关系、ETL 转换、数据
建模和工具等方面的内容。
数据度量和变化频度提供了衡量数据质量好坏的手段。数据度量主要包括完整性、唯一
性、一致性、准确性、合法性。变化频度主要包括业务系统数据的变化周期和实体数据的刷
新周期。
数据质量问题
变化频度
元数据
技术元数据
业务元数据
度量
唯一性
一致性
合法性
实体数据刷新周期
完整性
准确性
信息问题
业务系统数据变化周期
技术问题域
图 7-3 技术问题域
技术类问题是指由于具体数据处理的各技术环节的异常造成的数据质量问题,它产生的
直接原因是技术实现上的某种缺陷。数据质量问题的产生环节主要包括数据创建、数据获取、
数据传递、数据装载、数据使用、数据维护等方面的内容:
1、数据创建质量问题主要包括业务系统话单延迟入库、创建数据默认值使用不当和数
据录入的校验规则不当,导致指标统计结果不一致、数据无效、记录重复等。
2、数据获取质量问题主要包括采集点不正确、取数时间点不正确以及接口数据在获取
过程中失真。如,编码转换处理错误以及精度不够,导致指标统计结果不一致、数据无效等。
3、数据传递质量问题主要包括接口数据及时率低,接口数据漏传,网络传输过程不可
靠,如包丢失,文件传输方式错误,传输技术问题,协议使用不当导致的数据不完整等。
4、数据装载质量问题主要包括数据清洗算法、数据转换算法、数据加载算法错误。
5、数据使用质量问题主要包括展示工具使用错误、展示方式不合理和展示周期不合理。
6、数据维护质量问题主要包括数据备份/恢复错误、数据的存储能力有限、维护过程缺
乏验证机制和人为后台调整数据。
数据获取
数据装载
平台孤岛
数据创建
数据校验规则不当
默认值使用不当
数据创建延迟 调度机制
数据清洗算法
数据转换算法
数据加载算法
取数时点不同步
数据源不当
接口数据获取
过程中失真
软件平台
硬件平台
数据使用
展示方式
展示工具
展示周期
数据维护
人为调整数据
维护验证机制
数据存储能力
数据备份、恢复
数据传递
文件传输方式出错
及时性
漏传
传输技术
网络传输过程不可靠
安全管理
技术问题
数据质量问题
流程问题域
图 7-4 流程问题域
流程类问题是指由于系统作业流程和人工操作流程设置不当造成的数据质量问题,主要
来源于经营分析系统数据的创建流程、传递流程、装载流程、使用流程、维护流程和稽核流
程等各环节:
1、创建流程质量问题主要指操作员数据录入时缺乏审核流程;
2、传递流程质量问题主要指通信流程沟通不畅;
3、装载流程质量问题主要指清洗流程缺乏/不当、调度流程逻辑错误、数据加载流程逻
辑错误及数据转换流程逻辑错误;
4、使用流程质量问题主要指数据使用流程缺乏流程管理;
5、维护流程质量问题主要指缺乏变更维护流程、缺乏错误数据维护流程、缺乏数据测
试流程以及对人工后台调整数据没有严格的流程监控;
6、稽核流程质量问题主要指缺乏数据错误反馈流程。
数据传递数据创建
数据装载
数据使用
数据维护
稽核流程
流程问题
数据加载流程
数据转换流程
调度流程
人为调整数据流程
数据清洗流程
错误数据维护流程
变更维护流程
数据测试流程
数据质量问题
管理问题域
图 7-5 管理问题域
管理类问题是指由于人员素质及管理机制方面的原因造成的数据质量问题,如人员管理、
培训和奖励等方面的措施不当导致的管理缺失。
人员管理所产生的质量问题主要指:
(1)针对省级数据质量问题,没有建立管理数据质量的专门机构,出现数据质量问题
后无专人负责;
(2)没有明确的数据质量目标;
(3)经营分析系统中的数据质量问题的优先级不够;
(4)集团公司缺少管理数据质量的管理办法等;
人员培训所产生的质量问题主要指对数据质量相关人员缺少长期培训计划;
通过上述对经营分析数据质量问题的分类,结合各省经营分析系统建设经验,信息、流
程和技术三个方面的数据质量问题相对集中和可控,是本系统实施的重点。在管理方面,本
规范侧重于提供对开发、运维管理流程方面的支撑,并对管理元数据及其管理范围进行了明
确定义,具体参见第 8 章管理元数据的相关定义。
系统功能需求
在各省具体数据质量问题解决过程中,数据质量问题的定位和解决过程往往依赖具体人
员的经验,问题处理效率和正确性难以保证。因此有必要引入元数据管理的相关功能,提供
对数据模型、指标统计口径及处理过程等数据实体和处理的标准定义和描述。数据质量管理
系统利用元数据库存储技术、业务、管理方面对数据质量的约束规范;利用知识库存储数据
质量问题和处理过程;通过制定相关管理流程来保证经营分析数据质量的日常管理。
本规范介绍如何在基于元数据管理的基础上建立数据质量管理系统,并通过制定相关管
管理
培训
目标
工作优先级
责任人
责任心
激励
奖惩制度
奖惩制度的执行
反馈机制
反馈渠道
培训资金
培训时间
培训内容
培训制度
培训计划
管理问题
数据质量问题
理流程来保证经营分析数据质量的日常管理。
数据质量管理系统的基础是遵循 CWM 标准的元数据管理支撑功能的实施。
根据系统定位,数据质量管理系统与元数据管理支撑功能之间的关系如下:
数据质量管理包含元数据管理
元数据管理功能为数据质量管理系统提供支撑
元数据管理
为了实施数据质量管理,需要业务数据的有关统计口径、数据来源、数据约束关系等元
数据的支撑。数据质量管理系统要求建立符合国际主流规范 CWM 的元数据管理支撑平台。
它负责管理整个经营分析系统的技术、业务和管理三类元数据,形成元数据全局视图,展现
经营分析系统数据实体的组成、关系以及处理转换的过程。
数据质量监控
在数据质量管理系统中,数据质量监控是基础功能。数据质量监控实时采集数据处理过
程的各个质量监控点上的质量信息,执行数据质量监控流程,进行数据稽核诊断,然后直观
展现检查结果。数据质量管理人员可根据告警信息,采取相应的质量控制行动。最后,还应
评估总结本次数据质量监控活动的有效性和及时性,以利于以后质量管理工作的改进。
在数据质量监控工作中对质量问题的监控、诊断和处理结果应整理形成质量问题处理案
例,并记录到知识库中,以便进行知识共享。
项目管理支撑
数据质量管理也涉及经营分析系统相关项目的日常管理。将项目管理的内容纳入质量管
理,可全面、及时记录系统的建设状况和使用情况,有效支持经营分析系统的全员使用。项
目管理支撑包括:工作分配管理、系统使用状况分析等。
8. 系统架构
系统体系
数据质量管理系统按照体系结构划分为源系统层、存储层、功能层和应用层,体系结构
如图 8-1 所示:
图 8-1 数据质量管理系统体系结构
源系统层
经营分析系统数据处理流程
经营分析系统的数据处理流程主要涉及源系统接口数据、ETL 过程、数据仓库、数据集
市、前端应用等处理阶段。数据质量管理系统对数据的管理和监控范围涵盖了全部这些处理
阶段。
数据质量监控点
数据质量管理系统在数据处理的各阶段都应设立数据质量监控点,并使稽核诊断工作尽
量前移。本期系统规定的数据质量监控点设置如下:
(1)各数据源接口
(2)ETL 处理过程(对数据抽取、转换的主要阶段,以及加载到数据仓库前都应设置
监控点)
(3)数据仓库(对各种数据粒度的汇总应设置监控点)
(4)数据集市(对地市和部门的集市分别应设置监控点)
(5)前端展现应用
部门集市
ETL
地市集市
前端应用
前端应用
元数据库
技术元数据
业务元数据
管理元数据
数据质量知识库
集市运行状况
仓库运行状况
ETL运行状况 ETL类型问题
仓库类型问题
集市类型问题
前端运行状况 前端类型问题
源数据状况 源数据类型问题
元数据库管理 数据质量监控模块
知识库管理检查采集 报告 处理 总结
运行状况信息库
监控流程
源系统层
存储层
功能层
数据仓库
数据源
数据源
应用层
系统管理
实体查询
同步检查
元数据维护
影响分析 血统分析
变更通知
过程 查询
导入/导出
实体差异分析
版本管理
实体关联度分析
信息地图 数据质量监控需求变更影响分析 项目管理支撑数据集市支撑
前端应用
存储层
存储层中存储的信息主要包括三个部分:
(1)元数据库:存储技术元数据、业务元数据和管理元数据,为数据质量管理系统提
供基本的数据实体和处理描述及其映射关系,是质量管理的支撑基础;
(2)运行状况信息库:存储从各个数据质量监控点上采集的有关系统运行状况的信息
及质量稽核过程信息,是稽核诊断的主要输入信息;
(3)数据质量知识库:存储数据质量管理中对质量问题的识别、诊断和处理结果的记
录信息,作为解决质量问题的知识共享。
以上三种数据库,在逻辑上可进行独立设计,在物理实现上可以部署在同一台服务器上。
元数据存储
元数据是数据质量管理系统实现的核心,是描述和控制经营分析系统中数据的数据,为
数据质量管理体系架构的功能层和应用层提供信息支撑。元数据库中存储的元数据分为三类:
技术元数据、业务元数据和管理元数据。
业务元数据
本部分将业务元数据划分为业务术语、业务描述、业务指标和业务规则四个部分,其中
业务规则、业务术语和业务描述共同完成对业务相关信息的事实表述。数据质量管理系统通
过对这些业务元数据的映射,可以得到对应的数据质量检查规则。各省公司可以根据自身业
务需求对业务元数据主题进行扩充,扩充的元数据主题必须遵循 CWM 元数据扩展规范。
业务术语
是一个名词或者名词短语,是对一种共识的定义,例如:一个有效的账户被定义为此账
户有余额且其有效期未过。
业务描述
提供对省公司各项主要业务的统一描述,这部分内容应与仓库模型的主题信息、相关业
务的统计指标建立关联,描述内容包括:
业务基本描述
业务管理规定,包括业务组织、业务流程、资费标准
业务统计
业务描述是一个完整的描述,通过动词来连接术语使其成为一个有效的声明,例如:开
通具体业务的客户必须至少拥有一个有效的账户。
业务指标
面向业务分析人员,对业务关键信息的解释。
业务指标需要提取的元数据主要包括指标标识、指标名称、描述信息、建立时间、所属
部门、创建者、类别、数据来源等。
业务规则
业务规则是一种描述信息,定义和约束了部分业务逻辑,可以用于对业务逻辑结构进行
验证,用于控制或者影响业务逻辑的行为。
技术元数据
技术元数据包含关于经营分析系统数据技术层面的信息,描述了数据源接口、ETL、数
据仓库和数据集市、一级经营分析系统接口等子系统的数据特征。根据经营分析系统的特点
和经营分析系统数据质量管理的具体要求,本部分将技术元数据分为数据源接口、ETL 过
程、数据仓库和数据集市存储、分析应用、运行环境信息、质量管理过程六个部分,对各部
分所包含的实体进行说明。
数据源接口
经营分析系统的数据来源主要是外部的操作型应用系统,经营分析系统管理的数据源接
口元数据主要是关于 BOSS、客服、网管、智能网、DSMP、彩铃等外部系统与经营分析系
统间接口的相关信息,包括:
运行环境相关信息
主要包含相关系统的主机信息、操作系统信息、数据库信息等;
数据接口定义信息
描述源系统数据接口的定义信息,包括接口数据实体结构(主题信息、实体定义、
实体内部列定义、关键字、索引定义等)、接口数据实体间关系。
ETL 过程
ETL 过程中的元数据管理内容主要是 ETL 规则,包括源系统数据到数据仓库的映射关
系、ETL 程序结构信息、数据转换和清理规则等,主要内容有:
接口抽取
描述数据抽取过程的相关信息,针对具体接口,主要包含:
1) 接口抽取条件:接口抽取的前置条件和数据条件;
2) 接口抽取周期:日、月等;
3) 接口抽取时间:周期内的抽取时间;
4) 接口抽取方法:增量、全量等;
数据清洗、转换、装载
描述接口数据到仓库数据的数据处理过程信息,包括源系统数据到数据仓库的映射
关系、ETL 程序结构信息、数据转换和清理规则等。
数据仓库和数据集市存储
数据仓库存储涉及 ODS、仓库底层数据、集市数据等基本信息,以及数据流处理逻辑
相关信息的提取,具体包括:
数据仓库逻辑模型
逻辑数据模型是企业元数据的重要组成部分,其实现方式主要是将建模工具(例如:
ERWIN)中的模型信息纳入到元数据管理中。
数据存储结构信息
这部分内容反映了数据仓库的物理实体信息。数据仓库内部的结构数据管理内容繁
杂,主要有 ODS 和数据仓库的数据结构、数据定义、物理数据模型的结构、程序代码
描述、数据库目录以及文件规划等信息。其中,数据库目录包括需纳入管理的表、关系
以及索引和视图的定义等。
数据流及其处理逻辑
这部分内容描述整个数据仓库中数据的流向、数据的处理逻辑、数据仓库各应用程
序模块接口等系统全局性的信息。数据流向和数据处理逻辑信息是进行系统开发、维护、
升级前和数据变更前的影响分析的重要信息源。
数据生命周期信息存储和检索
该部分内容主要记录了数据在不同生命周期所存放的位置。通过元数据管理系统对
不同类型以及不同生命周期的数据进行有效管理,支持对处于生命周期不同阶段的数据
进行信息检索。
数据生命周期管理的具体解释请参见《中国移动省级经营分析系统规范总册
()》。
分析应用
在数据仓库或数据集市基础上,经营分析系统提供了 KPI、OLAP、综合报表、数据挖
掘、一级经营分析系统接口等应用,分析应用元数据是指这些上层应用的相关信息,主要包
括:
指标技术定义信息
包含指标定义、对应维度定义、指标统计口径、指标关系等信息;
多维数据信息
主要指对多维数据相关信息的提取,主要包括:
1) 多维主题基本信息:包含主题与指标、维度等的关系;
2) 多维数据库信息:鉴于主流的多维数据库都支持 CWM 标准,针对各省的建设
情况,可以考虑选用元数据工具进行相关信息的提取;
一级经营分析系统接口
作为数据分发过程,与 ETL 处理过程对应,主要包括一级经营分析接口的定义、
标准代码定义、数据转换规则以及其它涉及一级经营分析系统接口数据生成上传的
元数据信息;
数据挖掘信息
应用使用状况信息
主要记录各业务应用的使用频次、使用人数等信息。
运行环境信息
描述经营分析系统运行环境的相关信息,主要有:
任务调度信息
经营分析系统处理涉及多个环节的大量任务,通常由一个统一的任务调度系统集中
控制这些任务的执行,获取这些任务的相关信息对于了解和优化系统至关重要。主要提
取信息有:任务基本信息、任务依赖信息、任务执行信息等。
系统运行环境信息
包括经营分析系统相关的主机信息、操作系统信息、文件系统信息、系统处理目录
信息、数据库信息、表空间信息等。
质量管理过程
质量管理过程中的元数据主要是根据数据质量管理的要求,为支撑数据质量检查的相关
功能,从监控经营分析数据及系统运行情况角度,抽取出的数据质量检查方法和标准。
质量管理过程中的元数据的规则有两个来源:一个来源是系统各个处理环节的技术元数
据,反映的是系统技术层面的处理情况,如数据量和指标值多少是合理,处理过程应该在什
么周期内什么时间段内完成才正常,主机资源、表空间、文件系统的使用应该控制在什么样
的阀值下系统处理才不会有问题;另一个来源是业务规则、指标口径等业务元数据,通常会
把业务规则的信息转化成技术化的规则、算法和度量标准,如指标间的稽核关系,而类似指
标合理性的度量标准,则会根据业务发展情况而不断变化。
主要包括以下内容:
1、 规则库
规则是数据质量检查的具体标准,主要包括经营分析数据的约束规则和合理性规则,
以及检查数据处理过程及处理环境是否正常的规则等。
规则分为三类:约束规则、计算规则和条件规则。
约束规则描述了一种无条件必须为真或假的强制规则。这种约束可以是结构化
(Structural)约束,也可以是行为(Behavioral)约束。
1) 结构化约束:当创建术语或者改变术语之间的关系的时候,结构化约束能
够保证术语的完整性;
2) 行为约束:典型地被定义为“前置条件”和“后置条件”。只有在符合“前置
条件”的情况下,操作才能够正确地执行;“后置条件”保证了操作结果的
正确性,“后置条件”表示该行为是否满足了其预期的结果。例如:客户在
开户时余额为0,在能够使用移动业务之前,必须先充值,这里前置条件
就是必须先充值,而后置条件是指所办理的业务是否成功办理;
计算规则描述计算关系,例如:月末余额=上月末余额+本月充值金额-本月
消费金额;
条件规则描述当条件成立时,触发相关的事件或事务,例如:预付费客户的帐
户余额小于0,则对其实施停机操作。
2、 算法库
主要是指支撑上述检查规则所需要的基本算法的集合,结合具体的规则由数据质量
检查相关功能调用。
3、 度量信息
度量信息是数据质量检查的基本依据,它反映了数据质量的衡量标准,也是数据质
量管理系统技术元数据的一个重要组成部分。
度量信息是经验的积累,需要在数据质量不断建设的过程中逐步精确化,随着衡量
标准的不断细化和精确,经营分析系统数据质量也会不断提高。
管理元数据
管理元数据主要是指经营分析日常建设过程中,涉及开发、运维管理各方面的基本信息,
本规范明确要求对管理元数据进行存储,在此基础上对系统需求开发和日常运维管理流程提
供 IT 化支撑,从管理流程角度对经营分析数据质量提供保证。管理元数据主要包括:
管理流程定义
指经营分析需求开发、运维各管理流程及其具体步骤、步骤输入输出和参与角色的
描述;
角色及职责定义
指参与经营分析需求开发、运维各管理流程的角色及其具体承担职责的描述;
人员组织信息及工作内容分配
指需求开发和系统运维过程中各参与人员承担的角色及具体负责的工作内容描述,
如具体某个需求开发由谁牵头负责,ETL 某个加载转换过程由谁负责维护等系统访问
情况信息。
以上信息各省可以根据各自的管理流程情况,制定相关模板,进行手工整理。
运行状态信息存储
运行状态信息库存储在数据质量检查点上产生的,描述系统运行情况的各种度量数据,
包括数据量、数据处理周期、数据处理过程运行情况等。系统运行状态信息包括以下几类:
(1) 源数据状况
主要包括:文件传送完整状况、文件记录合法状况、文件传送及时状况、文件加载正确
状况等。
(2)ETL 运行状况
主要包括:作业运行成功状况、作业失败信息、抽取和变换数据量、加载数据量及正确
状况、作业调度和操作状况等。
(3)数据仓库运行状况
主要包括:实体主键取值合法状况、实体属性的完整状况、外键取值和引用合法状况、
属性合法状况、数据汇总状况等。
(4)数据集市运行状况
主要包括:实体主键取值合法状况、实体属性的完整状况、外键取值和引用合法状况、
属性合法状况、实体合法状况(属于某地市或部门)、数据汇总状况等。
(5)前端运行状况
主要包括:OLAP 加载状况、 OLAP 运行状况、 OLAP 存储情况、应用运行合法和成
功状况、应用满意状况等。
质量管理知识存储
数据质量知识库存储数据质量问题的识别、诊断、处理各阶段的相关信息。这些信息可
作为解决质量问题的历史档案进行知识共享。这些知识以关键字的形式进行索引和分类管理。
知识库中的内容可分为以下几类:
(1)源数据类型问题
(2)ETL 类型问题
(3)仓库类型问题
(4)集市类型问题
(5)前端类型问题
功能层
功能层提供了数据质量管理系统所能提供的基本功能,它为前端的应用提供了基本的功
能支撑。主要包括元数据管理和数据质量监控模块,具体内容如下:
元数据管理
作为数据质量管理系统的元数据基本支撑,方便用户对系统的理解,并在系统数据质量
出现问题时,便于问题的定位。主要包括:
元数据维护
元数据维护提供对元数据的增加、删除、修改等基本操作,另外,还应支持实体、实体
间关系的建模,数据处理过程的描述等功能。对于元数据的增量维护,要求能保留历史的版
本信息。
元数据的维护操作是原子操作,这些原子操作的实现需要借助于元数据管理平台提供
的 JMI 接口或者 CORBA IDL 接口来完成。
在实施元数据维护操作的过程中,需要对这部分操作的过程进行一定的约束和限制。元
数据定义为如下的 4 种状态:
审核状态
对于需要进行维护的元数据,首先进入审核状态,从而等待审核人员的核查,确定
该元数据是否需要进行修改;
公示状态
审核通过后,进入公示状态,即处于对元数据定义征求意见的状态,没有最后定稿,
公示状态有一定的期限要求;
发布状态
公示状态期限的限制到期后,根据在公示状态期间回馈的意见,给出元数据维护的
准确的方案,进入发布状态;
维护状态
用户提交修改元数据请求后,相关元数据进入维护状态,对相关元数据的维护需要
保留其历史版本信息。
元数据导入/导出
元数据导入/导出实现元数据的自动加载、批量导入/导出和模板化导入/导出,是元数据
维护功能的手工操作的重要补充。具体实现方式参见《中国移动省级经营分析系统数据质量
管理系统业务技术规范()》的有关附件。
(1)自动加载
自动加载能够提供自动方式快速地从各种软件或存储中(如数据库、OLAP 软件、前端
展现工具)中提取元数据信息,并存储到元数据库中。这种方式通常采用 API 或 Web 服务
直接连接各软件的元数据库。
(2)批量导入/导出
批量导入/导出功能将按 XMI 文档格式组织的元数据批量导入元数据库,或者将元数据
库中的指定部分导出为 XMI 文档。系统对导入/导出过程进行日志记录。元数据的 XMI 文
档中描述元数据内容、属性、以及对新增、修改、删除动作的标记。用户通过执行批处理命
令或屏幕菜单选择批量导入/导出元数据,并支持即时调用或后台定时自动执行。
(3)模板化导入/导出
模板化导入/导出是为非结构化、无法自动抽取或非 XMI 文档的元数据提供的批量导入
/导出支撑功能。通常采用预定义模板格式的元数据描述文档,整理出元数据基本信息文档,
通过该功能导入系统,并自动转化成元数据存储;同样也支持把元数据信息导出到预定义格
式的文档中,并提供下载,方便交流。
对于不满足 CWM 规范的元数据(如大部分指标数据等),其通常需要借助 XMI 来定义
相应的模板。该模板满足 CWM 规范,可以利用编制的相应程序进行这部分元数据的导入和
导出。
1) 采用 XMI 开发元数据模板,将原有的 Word、Excel 文件中元数据信息转换为格式
固定的 XMI 文件;
2) 将格式固定的 XMI 文件批量导入数据质量管理平台。
同步检查
同步检查主要是指对于数据质量管理系统中抽取的元数据,定期从经营分析系统中抽取,
并与元数据库的对应信息比较,及时发现经营分析系统的应用变更,保证元数据的及时同步
更新。
从经营分析系统中抽取元数据,主要分为两类:自动抽取和人工抽取。因此,有如下两
类同步检查方法:
自动同步检查
对于需要检查的元数据,利用软件 API 或 CORBA IDL 接口对系统中的元数据进行
直接查询访问,获得相应的元数据,然后进行比较,从而确定相应的元数据是否保持了
同步;
人工同步检查
对无法进行自动抽取检查的元数据需要人工在源系统与元数据库之间进行比较,确
定是否保持一致。
同步检查的过程可以描述如下:
1) 同步检查时机
同步检查时机分为如下的两类:
实时同步检查
能够适用于实时同步检查的元数据,指那些可以自动抽取的元数据。触发检查
的时机是源系统中的元数据发生了变更或者是相应系统中的元数据发生了改变。
定期同步检查
适用于定期同步检查的元数据,主要包含如下的几种情况:
a) 当用户手工修改源数据系统或者是元数据库时,则需要对元数据进行
同步检查;
b) 对于整个数据质量管理系统而言,需要定义一个周期(1 天或者 1 周
等)进行元数据同步检查;
2) 同步检查度量
元数据同步检查主要包含以下几个方面:
及时率:指定类型的元数据在某一抽取检查周期内按一定时间要求抽取的元数
据项和应抽取项的比率;
完整率:指定类型的元数据在某一抽取检查周期内抽取的元数据项和应抽取项
的比率;
正确率:指定类型的元数据在某一抽取检查周期内抽取比对无误的元数据项和
应抽取项的比率;
3) 同步检查过程
在同步检查发现差异时,原则上不能直接修改元数据存储,而是给出各类元数据的
差异报告,并由数据质量管理员确认后,利用元数据维护工具进行元数据的更新。
实体查询
实体查询指对元数据库中的数据实体基本信息的查询功能,通过该功能可以查询数据库
表、维表、指标及其它纳入管理实体的基本信息,查询的信息按处理的层次及业务主题进行
组织,实体查询返回实体及其所属的相关信息。
实体查询要求能支持对历史版本信息的查询,以了解具体实体的历史变更情况。
过程查询
过程查询是针对具体的数据转换、汇总等处理过程,查询其具体用途、参与的输入、输
出实体等详细信息,从而帮助对数据处理过程的理解。过程查询要求能支持对历史版本信息
的查询,以了解处理过程的历史变更情况。
在 CWM 规范当中,有专门的仓库过程(Warehouse Process)和转换过程(Transformation)
实体,过程查询可以直接返回过程本身的详细信息。
过程查询还可以基于过程实体本身包含的关联信息,得到与其关联的实体信息。
影响分析
影响分析(Impact Analysis,也称冲突分析)是指从某一实体出发,寻找依赖该实体的
处理过程实体或其他实体。如果需要可以采用递归方式寻找所有的依赖过程实体或其他实体。
该功能支持当某些实体发生变化或者需要修改时,进行影响实体范围的评估。
影响分析应能够以图形的方式展现所有实体和关联关系。
血统分析
血统分析(Lineage Analysis,也称血缘分析)是指从某一实体出发,往回追溯其处理
过程,直到经营分析的数据输入的源头,也就是源系统接口数据。对于不同类型的实体,其
涉及的转换过程可能有不同类型,如:对于底层仓库实体,涉及的可能是 ETL 处理过程;
而对于仓库汇总表,可能既涉及 ETL 处理过程,又涉及仓库汇总处理过程;而对于指标,
则除了上面的处理过程,还涉及指标生成处理的过程。除了数据接口实体由源系统提供,作
为经营分析系统的数据输入,其它的数据实体都经过了一个或多个不同类型的处理过程。血
统分析正是提供了这样一种功能,可以让使用者根据需要了解不同的处理过程,每个处理过
程具体做什么,需要什么样的输入,又产生了什么样的输出。
为实现血统分析,对于任何指定的实体,首先获得该实体的所有前驱实体,然后对这些
前驱实体递归地获得各自的前驱实体,结束条件是所有实体到达数据源接口或者是实体没有
相应的前驱实体。血统分析应能够以图形的方式展现所有实体和处理过程。
实体关联度分析
实体关联度分析是从某一实体关联的其它实体和其参与的处理过程两个角度来查看具
体数据的使用情况,从而形成一张关系和所参与数据处理过程的网络,进一步可以了解该实
体的重要程度。该功能可以用来支撑需求变更影响评估的应用。
对于关系数据表,可以分析与某个表有关的实体或处理过程,查看具体数据的使用情况,
从而判断该表的重要程度。该功能有助于寻找数据库中关键表和冗余表,为系统调优提供支
持。
在 CWM 模型中的每个实体当中,可以有一个单独的对象(或者类)函数,它可以在实
体关联信息的支持下,返回该实体所关联的所有实体和参与的所有过程。
实体差异分析
实体差异分析是对不同实体的元数据进行检查,用图形和表格的形式展现它们之间的差
异,包括名字、属性及数据血统、对系统其他部分影响的差异等。
在经营分析系统中存在许多类似的实体。这些实体(如数据表)可能只有名字上或者是
在属性中存在微小的差异,甚至有部分属性名字都相同,但处于不同的应用中。由于各种原
因,这些微小的差异直接影响了数据统计结果,我们需要清楚了解这些差异。该功能有助于
进一步统一统计口径,评估近似实体的差异。
版本管理
版本管理是不同时期进入元数据库的同一实体的元数据进行管理。要求的基本功能是能
够显示同一实体的元数据的修改历史。另外还提供版本差异分析,版本变更分析等。
变更通知
变更通知是当元数据发生改变时,系统自动发信息(邮件、短信)给订阅用户。用户可
以主动订阅自己关心的元数据,帮助了解与自身工作相关的业务系统变更情况,提高工作的
主动性。
质量监控支撑功能
质量监控支撑功能包括数据质量监控模块的核心支撑功能,形成监控应用的服务后台,
其主要功能子模块包括:信息采集、质量检查、结果报告、改进处理和处理总结模块。这些
子模块共同构成数据质量监控流程。
质量监控支撑功能的详细说明及其相互关系参见第 9 章。
知识库管理
知识库管理提供针对数据质量知识库的增、删、改、查询功能和其他日常维护功能。
知识积累和维护
在每个数据质量问题发布、处理、解决后,需将该问题的内容和总结报告存储到知识库
中,并提供知识库的维护功能,即增加、修改和删除功能。
知识使用
知识的使用是指维护人员在发现数据质量问题时,可以通过输入关键字的方式查找之前
发生过的类似问题的处理办法,以达到知识重用的目的。该功能应提供按问题、现象和处理
方法的关键字查找,并提供有关知识的分类统计。
系统管理
系统管理是为数据质量管理系统提供的一系列管理支撑功能,具体参见第 11 章。
应用层
在数据质量管理系统功能层的支持下,应用层对数据质量管理的实际问题提供应用解决
方案,主要包括数据质量监控、信息地图、需求变更影响分析、数据集市支撑、项目管理支
撑应用等。
数据质量监控
数据质量监控应用在质量监控支撑功能模块上对经营分析系统提供全面的数据质量监
控应用。数据质量监控应用提供数据质量监控模块的人机交互界面,形成监控应用的展现前
台,其主要功能模块包括:数据质量评估、诊断报告展示和接口异常分析等模块。这些模块
也将支持数据质量监控流程的执行。
信息地图
在血缘分析等元数据处理功能基础之上,信息地图是对经营分析系统技术和业务元数据
信息的全局、多视角的展现。该应用针对不同的使用角色应有不同的视角展现其关注的元数
据,业务人员关注指标口径、业务规则等业务元数据。
信息地图的展现应支持以下要求:
数据实体展现视图:按照经营分析系统分析处理的各个环节,分层组织和展现
数据实体,层次划分包括源系统接口数据实体、仓库数据实体、指标实体等;
数据处理过程展现视图:支持从经营分析系统处理过程角度的视图展现,展现
不同层次实体间的加工处理过程;
指标视图:支持对指标业务口径及统计过程的展现,指标按使用部门和应用主
题进行分类组织;
支持不同展现视图间的灵活跳转。
信息地图的展示应满足如下要求:
角色分类
系统中的元数据信息按照不同的角色组织和分类,不同的角色访问不同的元数
据内容。
元数据分类
不同人员关心不同类型的元数据,包括业务元数据、技术元数据和管理元数据。
指标实行统一管理、统一查询和统一维护
将现有经营分析不同功能模块下实现的指标,进行统一查询,统一维护,应当
满足:
1) 可以集中查询不同模块下的指标定义、指标计算规则和指标详细信息;
2) 提供指标比较分析,对歧义指标进行直观的不同规则的理解;
3) 为统一指标规则定义提供信息管理平台。
需求变更影响评估
需求变更影响评估应用主要利用元数据支撑功能,对经营分析维护开发过程提供需求变
更评估方面的 IT 化支撑,减少对人的依赖,在提高需求变更评估效率的基础上,使需求变
更的影响评估更全面可靠。
经营分析的需求变更主要有以下几种情况:
1. 源系统数据变更引起经营分析相关应用或相关数据的调整;
2. 经营分析系统使用部门所提出的新的需求;
3. 经营分析系统内部发起的需求变更;
按照需求变更的类型,又可以分为两种类型:
A. 需求变更涉及已有应用和数据的调整;
B. 需求变更不涉及已有应用和数据的调整,仅需新增数据实体和应用;
A.已有应用和数据
进行调整
B.需新增数据实体
和应用
1.源系统数据变更 1A 1B
2.业务部门所提出的新需求 2A 2B
3.经营分析系统内部发起的需求变更 3A 3B
对于 B 类需求变更,需通过规范需求开发管理流程,并利用元数据维护基本功能,进
行管理。
对于 A 类需求变更,是定位给系统分析设计人员提供的应用支撑。利用元数据支撑功
能和问题管理功能贯穿经营分析系统应用建设从数据源到用户界面各个环节的监控和数据
采集,通过对相关需求所涉及的数据实体、处理过程等元数据基本要素的收集,形成受影响
的实体、处理过程的影响及修改建议报告,作为后续需求设计和开发的输入,提供相关指导。
需求变更影响评估应用应满足以下要求:
1、 关联实体影响评估:通过确定需求涉及数据实体,利用影响分析等功能,分析与其
关联的数据实体(包括源系统数据接口、仓库数据实体、指标以及其它应用实体),从
静态数据层面给出影响评估,对于实体结构的调整及实体间关系的调整给出建议,用于
后续接口定义变更、数据库模型调整以及指标口径变更等。
2、 受影响实体关联处理过程评估:根据需求涉及数据实体及其关联数据实体的分析,
得出其参与的处理过程,得到受影响处理过程的影响评估,作为后续应用开发的范围,
给出具体每个处理过程的调整建议,并可以据此评估需求变更工作量(需要人工经验的
配合)。
3、 维表变更影响评估:对于需求涉及的代码定义或者维表取值的变更,可以给出该代
码定义或维表具体的使用范围,包括数据实体与处理过程,可作为后续维度调整及指标
取数条件调整的依据。
4、 灵活展现:影响评估具体应用的展现要求灵活方便,可以展现全局的影响,也可以
深入分析具体某个实体或者处理过程的详细信息及变更影响评估。
5、 影响评估报告:支持以固定模板的方式生成需求评估报告,由数据质量管理系统根
据输入的条件要素自动产生,评估结果包括受影响的数据接口、仓库表、指标、etl 数
据处理过程、集市指标汇总处理过程等,以及建议的修改方式。基本内容:报告时间、
条件要素(数据、程序模块、指标等)、数据条件要素变更方式、受影响要素、受影响
要素建议变更方式(增加维度定义、程序模块修改、指标统计口径变更等)。
数据集市支撑
综合利用元数据支撑功能,为数据集市的质量管理提供以下功能:
(1)通过数据仓库数据质量管理,指导数据集市应用开发;
(2)通过实体查询、过程查询、血统分析和人员任务分析等功能,支持帮助在数据仓
库中快速找到数据集市所需的数据源。
项目管理支撑
数据质量管理系统同时也是一个实施日常管理的良好平台,在管理元数据的基础上,可
以通过它实现对项目日常管理的工作的支撑,主要包含如下的几个方面:
工作分配管理
经营分析系统中的日常运作和开发管理都需要记录不同阶段不同子系统的人员记录,从
而明确各个部分的实施情况。通过人员和系统元数据的结合,可以在数据质量管理系统中对
这些涉及到系统日常管理的内容进行记录,明确各开发、维护参与人员的职责。例如,ETL
部分的某个模块是有哪个开发人员进行的编码,谁进行的测试,谁进行的维护,以及谁进行
的抽取等。
系统使用状况分析
经营分析系统的使用状况分析是通过数据质量管理系统了解经营分析系统以及各子系
统、子模块的使用状况,从而为用户了解经营分析系统的使用状况做出一个全面的评价,也
为系统的升级和维护提供参考意见。
所有用户对经营分析系统各模块及模块内具体内容的访问和操作在数据质量管理系统
中都有详细的记录,因此通过数据质量管理系统可以对经营分析系统的使用状况进行全面的
检查和分析。
项目需求管理
项目需求管理的功能包括项目需求管理、项目需求检索。系统记录了需求的关键内容及
需求文档,用户能随时查询系统中所有的需求内容,通过项目组织架构管理功能还能跟踪需
求的负责人。
项目需求管理统一管理各部门对经营分析的需求,需求响应前可先查看当前需求量和是
否存在相似需求,以便对相似需求进行合并处理、适当控制需求,避免重复建设。
项目组织架构管理
项目组织架构管理从全局出发明确列示经营分析系统中各部分的项目人事组织架构、项
目组织结构。本应用在项目建设涉及的项目组和人员比较多的情况下,有助于加强项目组织
人事和系统的架构的管理
9. 数据质量监控模块
概述
数据质量监控模块是经营分析 系统数据质量管理系统功能层上的核心内容(见
系统体系部分)。它整合了数据质量信息的采集、检查、报告等环节,在这些环节间建立起
有序的联动关系。相关的处理过程构成了数据质量监控模块的主要部分,形成了数据质量监
控的基本框架。
数据质量监控模块能够自动获取经营分析系统各环节的数据质量信息,结合元数据库中
的有关检查规则,对数据质量情况进行诊断,并及时向数据质量监控人员报告数据质量现状。
该监控模块可使数据质量管理人员方便、及时、全面地掌握经营分析系统各环节、各层次的
数据质量状况,协助数据质量管理人员及时发现问题、定位问题和解决问题。
本章首先给出数据质量监控模块的功能要求,在此基础上,进一步线出技术实现方案。
数据质量监控模块的目标
在数据质量管理系统中引入数据质量监控模块,主要为了达到以下几点目标:
1. 初步实现经营分析系统数据处理各个环节的全程监控;
2. 及时发现数据质量问题、及时定位问题、及时解决问题;
3. 积累数据质量管理经验,提升和强化数据质量管理系统的能力。
数据质量监控模块功能要求
数据质量监控模块的含数据质量监控的主要流程,该流程有五个主要功能环节构成。下
面首先给出数据质量监控的总体流程,然后对每个功能环节分别进行阐述。
数据质量监控流程
数据质量监控流程是数据质量监控模块的重要组成部分,其监控流程如图 9-1 所示。
数据质量监控流程包括五个主要环节:采集、检查、报告、处理和总结。
图 9-1 数据质量监控流程
此外,监控流程还涉及与以下部分的交互:
元数据库
运行状况信息库
数据质量知识库
外部系统
管理/配置模块
采集
经营分析系统数据处理的各个阶段均应部署相应的数据质量信息采集点,采集到的信息
作为后续的数据质量检查环节的输入。
指导原则
在本期工程中,数据质量信息采集需要遵循以下原则:
原则 1:信息采集点前移. 将信息采集点前移部署到省级经营分析系统与 BOSS 等外部
业务系统的接口上,及时发现数据传输中的问题,不但可以保障省级经营分析系统的数据质
量,同时也可进一步保障一级经营分析系统的数据质量;
原则 2:信息采集点覆盖数据处理的主要过程. 经营分析系统的数据处理包含多个过程,
要求在主要过程中部署信息采集点,支持对数据质量的全局监控。
检查采集 报告 处理 总结
信息采集点
元数据库
外部系统
运行状况信息库 数据质量知识库
人机接口
管理/配置模块
信息采集
经营分析系统数据处理包含多个过程,如外部业务系统接口传输、ETL、数据仓库处理、
数据集市处理、一级经营分析系统接口传输、前端应用展示等。各个主要环节均应根据情况
设置信息采集点,如图 9-2 所示。
图 9-2 经营分析系统信息采集点分布图
信息采集有以下几点需要说明:
(1) 信息采集点的扩展
采集点的部署范围可以根据实际情况进行扩展,在同一范围内,可以增加采集点的密度,
从而提高数据质量监控的精度;
(2) 信息采集点采集的信息内容
根据已有系统的实际情况,以及具体的监控需求和配置,信息采集点可以采集以下类型
的信息用于数据质量检查:
数据处理日志
部分数据内容
校验文件
其它
检查
数据质量检查基本功能
数据稽核
数据稽核是数据质量检查的基本功能,是根据元数据库中预先配置的规则、算法和质量
检查度量,对数据的正确性、合理性等多角度进行检查,用以及时发现数据质量问题。根据
省级经营分析系统的特点,数据稽核包含以下内容:
(一) 接口文件级检查
接口数据是经营分析系统数据的源头,接口数据质量问题的改进是经营分析系统数据达
到较高的数据质量的最基本保障。对于每个到达的源数据文件,数据质量检查环节首先进行
部门集市
ETL
地市集市
前端应用
前端应用
省级数据仓库
数据库
数据库
一经数据仓库
信息采集点
前端应用
的是文件级检查。文件级检查主要包括以下几个方面:
1、文件传送及时率
2、文件传送完整率
3、文件记录合法率
4、文件加载正确率
关于这四个方面的具体定义参见《中国移动省级经营分析系统数据质量控制指导意见》。
此外,文件级检查还需做以下方面的检查:
• 校验文件名称是否正确;
• 校验文件是否可以正常打开;
• 接口数据文件名称是否正确;
• 接口数据文件是否存在;
• 接口数据文件是否可以正常打开;
• 接口数据文件记录总长度是否与接口规范中的总长度一致;
• 接口数据文件大小是否与校验文件中大小一致;
• 接口数据文件数据时间是否与校验文件中数据日期一致.
(二) 仓库数据检查
仓库数据检查从仓库模型约束、实体属性、实体关系、实体业务特征等角度,根据预定
义规则,检查数据合理性,及早发现异常,保证仓库对分析、报表等所提供数据的可用性与
正确性。主要包括以下方面的内容:
1、实体主键取值合法性
对于数据仓库中的表来说,主键是记录的唯一标识,主键上不允许出现重复数据。主键
检查主要是检查主键字段的值是否唯一。
2、外键检查
检查是否满足引用完整性的规则。
3、值域检查
检查特定字段的取值是否落在预定的取值范围之内。
4、编码规范检查
数据仓库系统中,对于一些字段值往往有一些特定的编码,编码规范检查按照检查规则
配置中配置的编码规则进行检查。
6、实体关键属性的完整率
实体关键属性需要填充信息,不可为空。
7、属性合法性
实体属性的取值在语法和语义上均应符合业务逻辑。
关于以上几方面的具体定义参见《中国移动省级经营分析系统数据质量控制指导意见》。
(三) 关键指标稽核
经营分析系统需要进行检查的指标主要分布在经营分析系统的 KPI、OLAP、报表、一
级经营分析系统接口等分析应用中。目前系统主要关注的指标分类如下:
客户分析类指标
业务量类指标
收入类指标
大客户类指标
合作服务方类指标
市场竞争类指标
服务类指标
主要的检查方法分为以下几类:
(1) 数值检查
定义:
主要是通过对单个指标值的监控来发现数据的异常、突变等情况。
检查原理:
通过对指标与阀值上下限的比较来进行检查。
适用范围:
主要适用变化趋势平稳的业务关键指标,对于波动变化较大的业务数据,不建
议采用此方法检查。
(2) 波动检查
定义:
通过对单个指标值一段时间内的数值变化情况来检查数据的波动、变化情况。
对于系统内的指标,分为月指标和日指标。其中,月指标支持与上月比较,日指标
可以与前日、上周、上月进行波动比较。
检查原理:
通过对指标不同周期之间的增减幅度与阀值范围上下限的比较来进行检查。阀
值范围上下限是一个数值区间,一般在-1 到 1 之间取值。
适用范围:
主要关注的业务发展指标。
(3) 扩展检查
定义:
通过对两个指标(也可以是一个指标的两个周期)按某几个维度展开后的增减
幅度来发现数据的波动、变化情况。
该检查的两个指标分别命名为左指标和右指标,即第一个选择的为左指标,后
选的为右指标。
检查原理:
通过对左右指标不同维度切面的增减幅度与阀值范围上下限的比较来进行检
查。阀值范围上下限是一个数值区间,一般在-1 到 1 之间取值。
适用范围:
需要进行维度细分检查的指标,如检查某项业务在省内各地市发展的一致性,
相关用户数和收入是否同增同减等。
(4) 比较检查
定义:
通过对若干个指标值的简单四则运算(加、减、乘、除),来检验各个指标间
潜在的平衡或其他比较关系。在这个简单四则运算中,可以带入常量运算,支持括
号。
检查原理:
左比较项=(>,>=,<,<=,<>)右比较项
适用范围:
需要进行相关性检查的指标。
处理过程检查
处理过程检查是指根据预先配置的规则和质量检查度量,对数据处理过程的检查稽核。
本期方案重点关注处理过程的及时性,即根据预先设定的时间范围,从经营分析系统各数据
处理环节的处理效率角度进行检查,得出处理超出规定时间范围的接口及其具体的处理环节。
处理环节包括接口数据的抽取、传输、清洗转换、加载,集市数据汇总生成,应用展现等。
数据质量检查点的部署方式
数据采集点和质量检查点集成在一起,在数据采集的本地直接进行质量检查,分析其中
存在的数据质量问题(见图 9-3)。
部门集市
ETL
地市集市
前端应用
前端应用
省级数据仓库
数据库
数据库
一经数据仓库
检查点
前端应用
图 9-3 数据质量检查点的部署方式
数据质量检查点进行检查操作的依据是元数据库中预先配置的考核标准、规则、算法、
质量检查度量等。检查点需要与元数据库交互,获取相关检查规则。检查点与元数据库的交
互方式可以根据实际情况参考以下方案:
(1) 检查点主动读取元数据库. 检查点根据自身的配置信息,主动访问并获取元数据库
中与本检查点相关的规则数据。
(2) 利用管理配置功能远程配置检查点. 数据质量监控模块具有管理配置功能,可以提
供集成的系统管理配置界面,集中管理元数据库和分布式检查点,并将适当的检查规则分配
到特定的检查点上,实现检查点的远程配置。
为了提高系统性能,检查点应对检查规则进行本地缓存,并根据配置信息,以定时或事
件触发的形式更新本地缓存。
报告
检查结果报告基本过程
检查结果报告环节根据数据质量检查环节的结果信息,以规范的格式和特定的展现方式
向数据质量管理人员报告数据质量情况。可以根据系统配置,分布式或集中式检查点从不同
角度生成不同类型的检查或告警报告,并由检查点将检查报告存储于运行状况信息库中。
多数情况下,质量管理人员只关注存在质量问题的报告,这些报告通常以告警形式出现。
报告功能是经营分析系统数据质量管理的重要手段和方法,包括报告定义、报告生成与
报告提示等功能。
报告定义
用户通过系统提供的界面,可以定义相关报告内容,如:报告名称、报告描述、报告所
涉及人员、报告发布方法、报告重要程度、报告所涉及数据、报告计算规则、报告阀值等内
容。
报告生成
报告生成是指结合预定义检查规则配置对所采集信息进行分析,根据相关情况,生成报
告。
报告提示
系统按照事先定义的方式和时间,自动向相关人员发送报告。
检查结果报告的内容
检查结果报告的具体内容可根据实际情况进行配置,一般应包含以下内容:
消息 ID
告警发生时间
发出通知时间
解决时间
数据处理模块
严重级别
问题描述
目前状态
可以将检查结果报告从不同角度进行分类,例如:
(1) 从问题严重等级分类
提示(Information)
报警(Warning)
严重(Serious)
致命(Fatal)
以上问题等级分类按严重级别由轻到重递增。各省公司可以根据实际情况,调整以上的
问题等级分类。
(2) 从管理层次分类
事件管理
问题管理
服务水平管理
事件管理是在数据质量事件的粒度上反映和考查数据质量情况;由于多种数据质量事件
常可归结为特定的数据质量问题,故问题管理是在问题的粒度上对数据质量情况的反映和考
查;因为服务水平管理常涉及多种数据质量问题管理,所以服务水平管理是在服务的粒度上
对数据质量情况的反映和考查。
告警管理
告警是一类重要的检查报告,包括报警、严重、致命等级别,是数据质量管理人员最为
关注的报告类型。
告警界面
监控系统的监控界面要求简洁醒目,能够形象直观的表示系统问题故障。维护人员可以
根据任意字段对结果进行排序。
告警形式
对于所有的告警信息,监控系统的告警形式可包括声音、短消息、电话。同时,告警形
式可以具有不同的级别,如一级:声音,二级:短消息,三级:电话。
各种告警形式的具体描述如下:
声音:可根据预先定义的告警级别通过声音进行告警。
短信息:可根据预先定义的告警级别通过短消息进行告警。
电话:可根据预先定义的告警级别通过电话进行告警。
告警升级
所有的告警信息都支持告警升级,如果告警信息超过告警升级的时间阀值尚未解决,告
警信息自动升级告警级别(例如,报警升级到严重)。
升级后的告警于独立一栏显示,仅当事件解决后才消掉该栏的相关升级告警。
告警恢复
监控系统支持将已解决的告警问题的状态进行自动恢复,对于不能自动恢复的告警应提
供手工方式改变告警状态,告警问题在预定义时间内自动修复或已解决时相应告警应自动消
失。
处理
问题处理的阶段划分
在检查过程中发现数据质量问题时,系统需根据问题的严重级别启动相应的问题处理过
程。问题处理过程可分为两大阶段:
阶段 1:数据处理流程挂起,问题隔离。当发生严重或致命级别的问题时,检查环节直
接根据预先定义的处理方案,将数据处理流程挂起,并将存在问题的数据进行隔离。通过流
程挂起和问题数据隔离,可将问题的影响范围控制在较小的区间内,防止问题放大,便于问
题的解决。
阶段 2:问题分析,问题处理。当发生数据质量问题时,检查环节会通过报告环节发出
数据质量问题报告,处理环节对问题进行分析,产生问题解决方案,并通过适当的途径解决
问题。
对于严重或致命级别的问题,需要执行以上两个阶段的问题处理过程;对于提示或报警
级别的问题,则无需执行阶段 1 的操作,仅执行第二阶段的操作即可。
问题隔离阶段
当数据质量检查环节发现严重或致命级别的问题时,检查环节自身会在发出检查报告的
同时,直接采取问题隔离行动,包括挂起数据处理流程,将问题数据进行隔离等。该阶段任
务主要是控制问题的影响范围,防止问题扩散,便于第二阶段的问题分析和问题处理操作。
根据具体系统的实际情况,问题隔离操作可采用分控和总控两种形式实现。
1. 分控方式. 由经营分析系统数据处理各个阶段上的分布式检查点独立执行数据处理
流程挂起和问题隔离操作。
2. 总控方式. 数据处理各个阶段上的分布式检查点向某个中央调度控制器保送当前问
题状态,并由调度控制器执行数据处理流程挂起和问题隔离操作。
问题处理阶段
当数据质量检查环节发现数据质量异常,通过报告环节发出告警之后,系统进入处理环
节,通过问题分析,确定问题原因,生成解决方案,然后通过相应途径具体解决问题。
1.问题分析
根据告警提供的问题信息,对问题的原因进行分析。分析过程主要由质量管理人员完成,
生成解决方案;对于简单问题,可以由系统自动生成解决方案。无论人工分析还是系统自动
分析,均可参考质量检查知识库,通过对以往案例的分析,辅助得到问题解决方案。
2.问题处理
根据问题解决方案,采取具体行动解决问题。对数据的修正需要由数据的所属系统完成,
故处理环节需要与外部系统有交互接口。
问题处理可以有多种途径,例如:
(1) 向外部系统发送检查报告. 对于外部数据源问题,可以将报告环节生成的检查报告
发送给源数据所在系统的管理人员,由相应人员解决数据质量问题。
(2) 启动数据质量维护流程. 对于经营分析系统内部处理环节造成的数据质量问题,启
动相应的数据质量维护流程,解决相应的数据质量问题。
总结
总结的类型
当问题处理环节结束后,数据质量监控模块需要启动总结环节,对问题处理的全过程进
行记录和总结。总结可以需要划分为不同的类型:
数据质量事件总结
数据质量问题总结
数据质量总体情况总结
数据质量阶段性总结
其他总结
以下对问题总结和阶段性总结做简单阐述。
问题总结
问题总结是针对数据质量问题进行的总结,主要完成两方面的工作:
1. 对处理环节问题处理的过程和结果进行评估;
2. 把问题的采集、检查、报告、处理全过程信息进行整理,形成问题处理案例,存入
数据质量知识库中,以便质量管理工作的改进。
阶段性总结
阶段性总结是对经营分析系统一个时间阶段内的数据质量状况进行总结。阶段性总结以
数据质量知识库为基础,通过对知识库中各种数据质量问题案例进行分类查询和统计,得到
不同角度的总结报告,如月度数据质量分析报告等。
数据质量监控模块技术实现
技术实现架构
数据质量监控模块的技术实现架构主要由以下三类实体构成(如图 9-4):
各数据处理环节上的数据质量检查代理(Agent)
中央数据质量检查服务器
数据质量检查客户端
图 9-4 数据质量监控模块技术实现架构
外部数据源系统的数据文件通过接口机进入省级经营分析系统,并顺序经过 ETL 服务
运行状况显示
知识库管理规则管理
运行状况信息库
知识库
元数据库
用户管理
Agent配置管理
Agent行为监控
应用服务器
Agent
数据集市
服务器
Agent
数据仓库
服务器
Agent
ETL
服务器
Agent
接口机
Agent
数据质量监控服务器
外部数据
源系统
一经系统
运行状况信息管理
外部系统接口
数据流
运行状况信息流
控制信息流数据质量监控
客户端
器、数据仓库服务器、数据集市服务器、应用服务器、一级经营分析系统等数据处理环节。
在每个数据处理环节中,均部署数据质量检查代理,执行与本处理环节相关的数据采集、检
查、报告等功能,并与监控服务器进行交互。
数据质量监控服务器对监控模块的全局资源进行管理和配置,并与相关的全局数据库
(元数据库、运行状况信息库、知识库)进行交互。
数据质量检查客户端是用户或管理人员与监控服务器交互的界面。数据质量管理用户通
过客户端察看数据质量检查结果信息,监控系统管理人员通过客户端对监控服务器和检查代
理进行管理和配置。
数据质量检查代理
数据质量检查代理(Agent)由多个模块组成,可完成数据质量监控流程(图 9-1)中的数据
采集、检查、报告等功能。
目录扫描模块
源数据文件不定时到达数据质量检查代理端,为了能及时对到达的数据文件进行处理,
需要目录扫描模块每间隔一个特定时间段后去扫描存放源数据文件的目录。当发现有符合条
件的源数据文件到达时,目录扫描模块发送一个消息给数据质量检查模块,通知数据质量检
查模块已经有源数据文件到达,可以开始对此文件进行数据质量检查。
检查规则读取模块
在数据质量检查代理端,需要读取对此代理配置的数据质量检查规则,这项任务是由检
查规则读取模块来完成。其他系统模块在需要数据质量检查规则时,如果此时还没有获取到
检查规则或者需要更新检查规则时,向检查规则读取模块发出读取规则的请求,由此模块生
成特定格式的请求消息,并交给通信模块发送给服务器端。
数据质量检查模块
数据质量检查模块是检查代理的主要模块,所有本地数据质量检查工作全部由该模块完
成。数据质量检查可包括以下内容(具体参见 节):
1.文件级检查
2.数据类型及格式检查
3.主键检查
4.编码规范检查
5.值域检查
6.外键检查
7.其他检查
检查结果生成模块
代理上的检查结果生成模块负责接收数据质量检查模块产生的检查结果,按照对特定代
理的配置信息,形成相应的检查报告,并将此结果发送给服务器端的检查结果处理模块。
代理活动采集模块
在代理端的代理活动监控模块负责监控此代理端运行的进程活动情况。当数据质量检查
代理端的代理进程启动时,代理活动监控模块负责向服务器端发送一个注册请求,通知服务
器端此代理进程已经处于启动。注册的内容包括此代理进程所在的 IP 地址、通信端口、进
程 ID、启动时间戳等能够唯一标识此活动代理进程的信息。
当进程正常结束时,代理活动监控模块也要向服务器端发送一个注销请求,通知服务器
端此代理进程已经正常结束。
此外,在代理进程活动期间,代理活动监控模块应该每间隔一个特定时间(这个特定时
间间隔在代理配置中设定)向服务器端提交一个更新的活动状态,表明此代理进程仍在正常
运行中。
当服务器端向代理端发送刷新代理进程活动情况的请求时,此代理活动监控模块要负责
将最新的代理进程活动情况返回给服务器端。
通信模块
代理端的通信模块的作用和服务器端的通信模块相同,都是负责向其他系统模块提供通
信接口,所有需要在通信链路上传输的消息都通过通信模块来进行传输。
数据质量监控服务器
用户管理模块
用户管理处理模块是用户管理的控制中心,涉及用户管理的相关操作统一提交给服务器
端的用户管理模块。数据质量检查客户端提供给用户一个友好的可操作界面,当用户提交相
应的用户管理请求时,这些请求将被发送给用户管理模块,并由此模块完成相应的处理。此
模块对外应该提供诸如增加用户、修改用户、删除用户等接口。
检查规则处理模块
本模块处理所有和数据质量检查规则相关的请求。为了完成数据质量检查工作,首先要
对各个数据处理环节进行检查规则的配置,即某个环节应该进行哪些数据质量检查。检查规
则的配置操作在客户端进行,当确认某一项配置时,客户端向检查规则处理模块提交相应的
处理请求,由规则处理模块来完成具体的规则配置过程。
当数据检查代理要开始进行数据质量检查时,首先要知道对当前数据要进行哪些检查,
以及某项检查的具体参数,也就是说,要获取此源数据文件的具体数据质量检查规则。此时,
代理向服务器端的检查规则处理模块发出获取检查规则的请求,由规则处理模块处理后,将
相应的规则发送给请求代理。
因此,此模块要提供诸如增加规则、读取规则、修改规则之类的接口。
代理配置处理模块
在具体部署数据质量检查功能时,每一个数据质量检查代理的具体分工可能不尽相同,
例如不同的代理分别处理不同来源的源数据文件,或者对于同一个源数据文件由不同的代理
来完成不同阶段的数据质量检查工作。因此,需要对具体部署的各个数据质量检查代理进行
配置,所有的这些配置信息也都由服务器统一管理。
实际的代理配置操作在客户端上进行,由客户端将此代理的配置信息发送给服务器端的
代理配置处理模块,由此模块来完成最后的配置工作。配置的内容包括各个代理的 IP 地址、
通信端口号、源数据文件存放的目录、源数据文件的命名格式等。
代理活动监控模块
在日常的数据质量检查管理时,要求能随时监控各个代理的活动情况,以更好地完成数
据质量检查的任务,代理活动监控模块正是为了满足这个需求而产生的。
当数据质量检查代理端的代理进程启动时,代理活动监控模块负责向服务器端发送一个
注册请求,通知服务器端此代理进程已经处于启动。注册的内容包括此代理进程所在的 IP
地址、通信端口、进程 ID、启动时间戳等能够唯一标识此活动代理进程的信息。服务器端
的代理活动监控模块接收到注册信息后,将这些信息写入到数据库的相应的表中,便于以后
的查询。
当进程正常结束时,代理活动监控模块也要向服务器端发送一个注销请求,通知服务器
端此代理进程已经正常结束,此时,服务器端的代理活动监控模块删除这个进程在服务器上
的注册信息。
此外,在代理进程活动期间,代理活动监控模块应该每间隔一个特定时间(这个特定时
间间隔在代理配置中设定)向服务器端提交一个更新的活动状态,表明此代理进程仍在正常
运行中。
在客户端,如果用户启动了监控程序,并且需要刷新各个代理活动状态时,将发送获取
活动状态的请求到服务器端的活动监控模块上,由服务器从代理端的代理活动监控模块获取
最新的各个代理的活动状态,并将结果返回给发送请求的客户端。
检查结果处理模块
数据质量检查代理对数据质量进行检查之后,将检查的结果发送给服务器端的检查结果
处理模块,由此模块在服务器上将结果保存到运行状况信息库中,以方便管理人员从客户端
上查看每个代理所产生的数据检查结果。
此模块还负责生成特定格式的数据检查报告,并负责将此报告以电子邮件或者其他方式
直接发送给关心这些数据检查结果的相关人员。
当管理人员从客户端上查看检查结果日志时,客户端发送查看检查结果的请求到此模块,
由此模块从运行状况信息库中取出相应的结果送回控制台或者客户端。
数据库接口模块
数据质量检查服务器需要能够支持对数据库的访问,这些数据库包括:元数据库、运行
状况信息库、数据质量知识库。
数据库接口模块中要负责和数据库系统的连接、身份验证、会话的建立等任务,而所有
需要读写数据库中数据的其他模块只需将读写数据的请求发送到数据库接口模块即可。
通信模块
通信模块是整个系统中信息交互的交通枢纽,所有的节点之间的请求和应答都以消息包
的形式在通信链路上传输。此模块对系统中的其他模块提供消息发送和接收的统一接口。
当代理或服务器中的某个模块有消息要向其他模块发送时,直接将待发送的消息交给通
信模块即可。反之,通信模块把从通信链路上接收的消息交给系统中相应的其他处理模块进
行下一步处理。
数据质量检查客户端
数据质量检查客户端不需要在用户端安装特定的程序,用户通过浏览器连接到服务器上,
在浏览器中完成相关的操作。
检查规则查看
数据检查规则查看模块向服务器端提交一个查看规则的请求,当服务器将满足查看条件
的规则返回时,在控制台端通过用户便于查看的方式展现给用户。用户可以按照不同的查询
条件来查看对应的检查规则,例如查看某一特定代理端的检查规则、或者查看某一特定源数
据的检查规则等。
检查规则配置
检查规则配置模块提供给用户一个可视化的对检查规则进行配置的界面。当用户提交一
个检查规则配置时,此模块负责将这些规则发送给服务器端的检查规则处理模块。
此模块可以按照不同的数据质量检查方式再进一步细分,例如文件级检查规则配置模块、
主键检查规则配置模块等。
代理配置
代理配置模块和检查规则配置模块类似,提供给用户一个可视化的对各个数据质量检查
代理进行配置的界面。当用户提交一个代理配置请求时,此模块负责将对代理进行的配置信
息发送到服务器端的代理配置处理模块中。
对各个代理的配置主要包括以下方面:代理端的 IP 地址、代理端通信端口、源数据文
件存放目录、代理活动情况监控的间隔时间等。
代理活动监控
代理活动监控模块提供可视化的界面方便用户对各个数据质量检查代理的活动进行实
时的监控。当代理活动监控模块启动时,此模块向服务器发送获取代理活动情况的请求,服
务器将此请求发送到各个代理端,代理端返回的活动状况结果通过服务器到达客户端的代理
活动监控模块,并展现给用户。
由于数据质量检查代理端每间隔一定时间将给服务器发送一个更新的代理活动状态,此
更新的活动状态也将由服务器转发到控制台上,以刷新控制台展现的代理活动状态列表。
活动监控的主要内容包括:代理进程启动时间戳、代理进程目前的状态(空闲、忙碌
等)、代理进程活动状态(例如正在进行某个源数据文件的文件级检查、此文件级检查开始
的时间戳等)等。
检查结果查看
此模块负责向服务器端的检查结果处理模块提交查看检查结果请求,并将返回的结果以
图形化的方式呈现给用户,以方便用户随时查看各个代理端的检查结果。
用户管理
此模块提供图形化的方式来管理系统中的用户。所有对用户的相关操作,例如增加用户、
修改用户信息、删除用户等操作都提交给服务器端的用户管理模块进行处理。此模块提供友
好的图形化界面以方便进行用户的管理工作。
通信模块
客户端的通信模块和服务器或者代理端的通信模块类似,都是为了给其他模块提供通信
接口。
实施要求
及时性
要求所有告警信息必须在问题故障发现后的指定时间内发出。
完整性
要求错误告警信息不能有任何遗漏的情况。
准确性
要求所有监控告警信息必须准确无误,告警提示定位必须准确,应正确提示被监控且问
题出现的监控点。告警发生时间必须是引起告警的事件发生的时间,并非告警的报告时间。
稳定性
要求监控模块支持 7×24 小时稳定运行。
安全性
根据用户不同角色,分配相关权限,严格控制对监控系统的访问。
配置灵活性
要求各类监控问题的告警阀值等系统参数可灵活配置,可统一设置亦可独立设置。
告警过滤配置
针对单位时间内发生大量告警的情况,按要求过滤告警信息中不重要的信息,减少轻
微告警的干扰,以提高监控与处理的效率。
告警过滤需要提供灵活的过滤规则,对已设定的过滤规则需要提供保存和修改功能,
便于维护人员灵活选择。告警过滤应实现对以下告警的过滤:
频繁发送的同一告警
由主要告警引起的相关大量的关联告警
已进入处理流程进行处理,重复发送的告警
告警门限值配置
对于文件大小、检测时间间隔等门限值均允许调整配置。
免告警配置
对于任何一个告警,都可以配置免告警的起始时间,和免告警的结束时间,在符合免
告警的时间段里,所有出现的告警都应被系统过滤掉;
个性化配置
用户可以自己定义所关心的告警的组合(精确到某条告警信息),在用户下一次登陆进
去的时候,这些告警的组合依然存在,并且前台可以显示这些告警的内容。
可查询性
可以根据监控信息里的各种组合条件(消息 ID、主机、模块、严重级别、发生时间段、
状态等)进行检索查询,查询的列项数及顺序可自定义,生成告警信息处理报表。
扩展性
对于出现新的监控需求,监控模块应该支持增加新的监控功能,并且不会影响到原有监
控模块的功能和使用。
场景描述
为了更好地说明数据质量监控模块的功能和处理流程,本节给出数据质量检查的一个场
景描述。
以下假设某日从 BOSS 系统上传一批接口文件到省级经营分析系统的接口机上,以此为
起点,描述数据质量监控处理的过程。
1. 接口文件检查
执行者 条目 内容描述
发生位置 接口机
检查任务
对传输到接口机上的数据文件进行文件级检查(包括文件个
数,文件名称等)
检查结果 无异常,通过检查!
发送报告
检查代理会向检查服务器发送检查结果消息,该消息中包
括检查时间、被检查的数据文件名、检查规则、问题现象、
检查结论等内容。
质量检查
代理
(Agent)
任务调度 数据处理转移到下一个阶段。
发生位置 数据检查服务器
检查结果存储
服务器接收到代理发来的检查结果消息,将该消息进行格
式化,存储到运行状况信息库中。
质量检查
服务器
检查结果显示 服务器以预定义的形式将检查结果显示在监控界面上。
发生位置 数据质量检查客户端
客户端
结果展示 客户端界面展示服务器提交的检查结果。
2. ETL 过程检查
执行者 条目 内容描述
发生位置 ETL 服务器
检查任务 对数据的抽取、转换、装载过程进行检查。
检查结果 发现一条话单的金额异常!
发送报告
检查代理会向检查服务器发送告警消息,包括告警时间、
数据文件、ETL 处理的具体阶段、检查规则、问题现象、
告警信息等内容;
质量检查
代理
(Agent)
任务调度 数据处理转移到下一个阶段。
发生位置 数据检查服务器
检查结果存储
服务器接收到代理发来的检查结果消息(告警消息),将该消
息进行格式化,存储到运行状况信息库中。
质量检查
服务器
检查结果显示 服务器以预定义的形式将告警信息显示在监控界面上。
发生位置 数据质量检查客户端
客户端
结果展示 客户端界面展示服务器提交的告警信息。
3. 数据仓库处理过程检查
执行者 条目 内容描述
发生位置 数据仓库服务器
检查任务
根据预定义规则,对数据仓库中的数据的一致性、合法性、
完整性等方面的情况进行检查。
检查结果
发现当天的话单总数与前一天的话单总数差异过大,超过
预定义的波动范围!
发送报告
检查代理会向检查服务器发送严重问题消息,包括问题发
现时间、数据主题、数据实体、数据仓库计算过程名称、
检查规则、问题现象、问题信息等内容。
质量检查
代理
(Agent)
任务调度 将数据处理流程挂起。
发生位置 数据检查服务器
检查结果存储
服务器接收到代理发来的检查结果消息(严重错误消息),将
该消息进行格式化,存储到运行状况信息库中。
检查结果显示 服务器以预定义的形式将严重错误信息显示在监控界面上。
分析问题
分析严重问题发生的原因,产生问题处理方案(可由服务器
根据数据质量知识库中的信息,自动生成问题处理方案,
或由数据质量管理人员产生此方案)。
启 动 问 题 处 理
流程
服务器将问题处理方案发送到相应的外部系统,启动问题
处理流程,并等待问题处理结束。
质量检查
服务器
知识存储
将本问题产生的过程、分析过程和解决过程的全部信息存
储到知识库中,作为未来工作的参考。
发生位置 数据质量检查客户端
客户端
结果展示 客户端界面展示服务器提交的告警信息。
发生位置
外部系统(经营分析系统数据质量维护流程,包括工单管理
系统)
问题处理
根据处理方案和数据质量管理流程,处理并解决发生的数
据质量问题。
过程记录 将问题处理的全过程进行记录。
外部系统
处理过程返回
外部系统解决数据质量问题后,流程返回到数据检查服务
器‘启动问题处理流程’节点上。
10. 数据质量管理流程
概述
基于元数据的数据质量管理流程,主要包含两个方面:元数据自身的数据质量管理以及
基于数据质量管理系统之上的经营分析系统管理流程。下面首先通过从管理机制、质量控制
流程、质量检查等方面分别介绍数据质量管理流程。
管理机制
元数据管理的引入为数据质量提供了系统的保证,但由于经营分析系统的需求不断变化,
而元数据涉及一些手工整理的业务和技术元数据,经营分析数据质量的提高必将是一个长期、
持续的过程,因此,有必要成立一个有效的组织机构保障经营分析数据管理工作的顺利进行。
组织机构职责
数据质量管理小组的职责有:
制定数据质量检测标准;
制定数据质量管理、保障、控制和维护流程;
监控数据质量问题处理的整个流程并进行结果评估;
以月例会、季度总结会的方式召开数据质量管理小组会议,阐述和总结经营分析系
统数据质量工作;
每月对经营分析系统进行数据质量状况评估,并形成《数据质量状况月报》;
每季度对经营分析系统进行数据质量状况评估,并形成《数据质量状况季报》;
角色与职责
数据质量管理涉及以下几个角色,包括项目负责人、项目经理、数据质量管理员、业务
系统接口员,其中数据质量管理员是整个组织机构的核心角色。
项目负责人
工作职责:
支持数据质量管理小组的部门或系统间协调工作。
项目经理
工作职责:
全面负责经营分析的建设和维护
领导经营分析数据质量管理员进行数据质量管理工作
数据质量管理员
数据质量管理员是数据质量管理小组的工作核心。在管理小组的组织结构中属于常设岗
位,各省公司必须指派专职的经营分析系统数据质量管理员。
工作职责:
编写和维护数据质量管理工作相关文档,如数据质量检查报告、数据质量控制流程;
定期组织相关力量对经营分析系统需求影响分析报告的正确性和完备性进行评估;
对经营分析数据及元数据的维护流程进行监控,对过程文档进行评审,保证维护工
作的正确性
定期、不定期地进行数据质量评估;
数据质量相关知识及流程的培训;
收集各业务系统接口对数据质量管理系统提出的问题和需求;
组织协调相关力量对异常或有争议数据质量问题进行协商解决;
建立、维护数据质量问题解决的经验集;
业务系统接口员
工作职责:
负责经营分析系统与业务系统间的协调和工作落实;
参与质量方案的评估和方案制定;
负责监督和管理相应业务系统建设、维护单位进行的与经营分析元数据有关的活动;
根据实际使用情况,对元数据系统的建设提需求和建议;
文档的设立和维护
在元数据质量管理小组的日常工作中应提交和维护以下文档:
编号 文档名称 文档描述 编制人 批准
MQ001 《数据质量状况月报》
描述数据质量的现状、存在问题、解
决方案、系统使用情况、本期工作成
果、下阶段工作目标等
数据质量管理员 数据质量管理小组
MQ002 《数据质量状况季报》
描述系统数据质量的现状、存在问题、
解决方案、系统使用情况、本期工作
成果、下阶段工作目标等
数据质量管理员 数据质量管理小组
MQ003 《数据质量检查标准》
描述系统各种数据的质量标准及定
义,提供各质量标准的检查手段
数据质量管理员 数据质量管理小组
MQ004 《数据质量问题及解决方案集》
描述各类质量问题的预防、发现和解
决方案,提供可行的标准管理和控制
流程,指导具体操作
数据质量管理员 数据质量管理小组
MQ005 《系统需求变更影响评估报告》
对系统需求变更影响的完备性评估
记录,作为需求变更开发设计的必备
环节的文档输出
数据质量管理员 数据质量管理小组
MQ006 《数据质量评估报告》
定期、不定期进行的系统数据质量检
测和抽测工作记录,提供各方参考
数据质量管理员 数据质量管理小组
MQ007 《数据质量管理维护日志集》 日常数据质量管理维护的处理记录 数据质量管理员 数据质量管理小组
相关外部组织
包括业务系统维护单位、经营分析系统需求/使用单位、经营分析系统建设单位、经营
分析系统维护单位。
质量控制流程
由于中国移动业务的不断发展和经营分析系统需求的不断变更,数据质量管理系统实施
上线后,如何保证元数据后期的持续正确维护,对发挥整个经营分析系统的作用至关重要。
按照数据提取方式,可以把纳入元数据管理范围的元数据分为两种类型:
自动提取型元数据:主要包括 ETL、数据仓库、多维数据库等技术元数据,对这部分
元数据,系统后期的维护流程主要是:
周期性提取相关元数据并与系统内部元数据进行差异比较
对于差异部分,通过相关流程决定处理方式
手工整理型元数据:主要指业务元数据和部分非结构化的技术元数据,无法支持自动提
取,通常采用文档模板的方式进行手工整理,然后通过专用的接口导入元数据系统。
由于经营分析需求持续不断变化的特点,无论是上面哪种类型元数据的维护,都需要相
关的流程加以控制,以保证所管理元数据的正确性,从而达到整个经营分析系统数据质量持
续提高的目的。
本节基于数据质量管理系统的应用需求,定义了经营分析系统数据质量持续改进过程,
并规范了常见数据质量问题的处理流程。
主要包括以下五个流程:需求变更控制流程、元数据变更维护流程、数据质量问题处理
流程、指标口径及业务规则问题处理流程以及错误数据维护流程。其中需求变更控制流程是
基础的流程。而根据元数据提取类型的不同,对于需要手工整理的指标口径及业务规则等业
务元数据,由于涉及部门间的协调工作,单独定制相应的流程,以区别于普通的数据质量问
题;元数据变更维护流程作为子流程,是涉及系统应用调整必须要完成的工作内容;另外对
于错误数据的维护也作了相应的流程规定。以上流程作为各省数据质量管理系统建设的参考
依据。
需求变更控制流程
经营分析系统在进入需求变更流程后,首先要确定需求变更所涉及的条件要素,作为数
据质量需求影响评估应用的输入条件,并通过需求影响评估应用自动生成需求影响评估报告,
然后根据此报告,出具应用变更方案,如需要元数据变更,则向数据质量管理员提交元数据
变更申请,由元数据管理员评估决定是否进入元数据变更维护流程,经营分析后续进行相关
的应用调整,最后应用上线的同时,实施对元数据的同步维护更新。经营分析需求变更控制
流程如图 10-1 所示。
图 10-1 经营分析需求变更控制流程
流程进入条件
在经营分析需要进行需求变更调整时,都可以进入本流程,主要包括以下几种情况:
1) 接收使用部门提出的需求
2) 源系统相关应用调整引起的变更
3) 经营分析内部应用调整
4) 由于数据质量问题引起的经营分析应用处理变更
流程产生文档
1、 《影响评估报告》:由数据质量管理系统根据输入的条件要素自动产生,评估结果包括
受影响的数据接口、仓库表、指标、ETL 数据处理过程、集市指标汇总处理过程等,以
及建议的修改方式,作为下一步需求实现方案及元数据变更方案的基础参考。
基本内容:报告时间、条件要素(数据、程序模块、指标等)、数据条件要素变更方式、
受影响要素、受影响要素建议变更方式(增加维度定义、程序模块修改、指标统计口径
P01 经营分析需求变更控制流程
数据质量管理系统数据质量管理员经营分析系统
开始
生成《影响
评估报告》
确定变更要素
确定应用变更方
案
提交《元数据变
更申请》
需要元数
据变更
评估变更申请
Y
应用上线实施
结束
P04 元数据变更
维护流程
N
记录 记录
变更等)等。
2、 《元数据变更申请》:作为元数据变更的过程性文档记录,纳入历史归档,可以考虑由
数据质量管理系统提供相关支撑,使整个流程实现自动闭环。
基本内容:申请时间、申请原因、申请人、需求来源、对应需求上线时间、影响评估报
告名称、涉及变更元数据内容等。
数据质量问题处理流程
数据质量管理员根据问题的实际情况判断数据质量问题的归属节点,如果是经营分析系
统内部问题,即转入经营分析系统变更处理流程,如果判断为不是经营分系统内部问题,则
提交数据质量事件报告,申请数据质量小组协调,数据质量小组评估数据质量事件报告,确
定责任归属。数据质量小组中业务系统接口员由各个业务系统的代表担任,在评估过程中,
各业务系统的代表应该提供业务系统的实际情况,并结合自身的业务系统经验,协助数据质
量小组确定问题的根本原因。责任确定以后,确定的责任归属业务系统的代表应该推动相应
的业务系统修改相应的系统,并在系统修改完毕以后,发业务系统变更通知到经营分析系统,
经营分析系统根据业务系统变更通知进入系统变更处理流程。最后,对于已经发生错误的数
据,则进入错误数据维护流程。
数据质量管理系统在管理好系统元数据的基础上,对于支持自动抽取的元数据,需要提
供定期抽取同步检查的基本功能(对于非结构化不支持自动抽取的元数据,一般靠人工定期
检查),在被管理的元数据与经营分析系统信息产生差异,或者发生其它有关元数据的准确
性的问题时,需要有相关的流程保证相关问题能得到处理,以保证元数据的准确性和可用性。
经营分析数据质量问题处理流程如图 10-2 所示。
图 10-2 经营分析数据质量问题处理流程
流程进入条件
主要包括以下几种情况:
(1)经营分析系统使用者报告数据质量问题;
(2)数据质量管理员或者数据质量管理小组定期或者不定期的检查、评估发现数据质量问
题;
(3)经营分析系统内部开发人员/维护人员报告数据质量问题;
(4)被管理元数据与数据质量管理系统定期提取元数据及手工整理元数据发生差异;
流程产生文档
《数据质量问题报告》:
详细记录数据质量问题发生的现象、原因、影响范围等信息,作为数据质量管理的
过程性文档记录,纳入历史归档,可以考虑由数据质量管理系统提供相关支撑,使整个
流程实现自动闭环。
基本内容:
报告时间,报告人,报告原因,问题详细描述,是否发生过的问题,问题发生的节
点,发生错误的程序模块,错误影响的数据(表名,字段名,影响的记录数),错误数
据影响(在数据的下游,哪些衍生数据需要重新生成,哪些报表需要重做)等。
《数据质量事件报告》:
P02 数据质量问题处理流程
数据质量管理小组经营分析系统 数据质量管理员 业务系统
结束
接收数据质量
问题
只是数据
错误
记录
编写《数据质量
问题报告》
P01 需求变更控
制流程
经分应用
处理问题
N
提交《数据质量
事件报告》
N
Y
P05 错误数据维
护流程
评估及确定责任
业务系统修改
系统间协调
业务系统变更通知
Y
分析数据质量问
题原因
详细记录数据质量问题发生的现象、原因、影响范围等信息,在需要外部协调时由
数据质量管理小组提交给外部系统,作为数据质量管理的过程性文档记录,纳入历史归
档,可以考虑由数据质量管理系统提供相关支撑,使整个流程实现自动闭环。
基本内容:
报告人,报告原因,问题详细描述,是否发生过的问题,问题发生的节点,估计发
生错误的业务系统,估计发生错误的原因,错误影响的数据(表名,字段名,影响的记
录数),错误数据影响(在数据的下游,哪些衍生数据需要重新生成,哪些报表需要重
做)等。
指标口径及业务规则问题处理流程
业务元数据是元数据管理的重要组成部分,对于经营分析系统具有重要的意义,业务元
数据主要是指标口径,另外还包含一些业务描述和业务规则方面的内容。指标口径既包含业
务部门提供的业务口径,又包含经营分析内部系统实现的统计口径,由于指标涉及多个部门
及系统实现方面的差异,已经对经营分析系统的实施造成了一定影响,在此特别明确规定统
计口径的差异处理流程。另外,其它业务元数据如业务描述、业务规则等差异问题的处理,
也可以参照此流程。
对于指标口径及业务规则问题的处理,需要通过数据质量管理小组协调。协调是一个复
杂的过程,在流程图中不描述具体的协调过程。数据质量管理小组中包含了各部门的代表,
数据质量管理员要求相关的系统或者业务部门的代表提供本部门对相关业务元数据如指标
口径的定义,理解,计算办法,计算公式,并确定关注和使用该业务元数据的部门。业务元
数据应该以该统计口径的定义和使用部门的解释为准。如果有多个部门对同一个业务元数据
的给出了不同的定义,并且使用了该业务元数据,元数据质量管理员应该申请更高层次的协
调。经营分析指标口径及业务规则问题处理流程如图 10-3 所示
图 10-3 指标口径及业务规则问题处理流程
流程进入条件
主要包括以下几种情况:
(1) 经营分析或元数据相关应用使用者对指标口径产生异议
(2) 经营分析或元数据相关应用使用者对业务描述或业务规则等业务信息产生异议
流程产生文档
《业务元数据质量问题报告》:
作为业务元数据质量管理的过程性文档记录,纳入历史归档,可以考虑由数据质量
管理系统提供相关支撑,使整个流程实现自动闭环。
基本内容:
报告时间,报告人,业务元数据类型、业务元数据名称,业务或规则描述,报告人
P03 指标口径及业务规则问题处理流程
数据质量管理小
组
数据质量管理员经营分析系统
编写《业务元数据质
量问题报告》
接收指标口径及
业务规则问题
是否内部
统计或实
现问题
P01 需求变更控
制流程
记录
分析问题原因
结束
Y
协调
N
记录
需要口径
调整
N
Y
提交外部协调申
请
P05 错误数据维
护流程
理解的业务或规则描述,关注业务元数据的部门,定义业务元数据的部门,差异情况
(双方的理解差异情况都可以记录)
元数据变更维护流程
元数据变更维护流程是其它 3 个流程的子流程,在确认需要对元数据内容做调整的时候
都可以进入该流程。由于数据质量管理系统对于经营分析的重要性,对元数据的变更必须要
有严格的流程控制,每一次元数据的变更都需要有明确的原因,考虑清楚后续的影响,并且
对元数据的变更必须要留历史版本信息,以便于元数据的历史追溯。元数据变更维护流程如
图 10-4 所示。
图 10-4 元数据变更维护流程
流程进入条件
1. 经营分析需求变更导致元数据相应变更
2. 自动获取类元数据与管理系统内部元数据比较发现差异问题
3. 经营分析使用部门对指标口径或者其它业务元数据产生异议
流程产生文档
1. 《元数据维护变更方案》:
作为元数据维护变更指导性文档,纳入归档,也可以考虑由数据质量管理系统提供
P04 元数据变更维护流程
数据质量管理员数据质量管理系统
制定《元数据维
护变更方案》
开始
评估变更方案
记录
结束
执行维护方案
提交《元数据维
护报告》
评估《元数据维
护报告》
相关支撑,使整个流程实现自动闭环。
基本内容:
对应变更申请名称、受影响元数据、受影响元数据调整方案等
2. 《元数据维护报告》:
作为元数据维护变更的具体操作步骤记录,纳入归档,也可以考虑由数据质量管理
系统提供相关支撑,使整个流程实现自动闭环。
基本内容:
维护人、维护时间、对应变更申请名称、具体维护步骤记录、相关测试内容
错误数据维护流程
在系统中由于历史原因导致了现有数据库中数据存在错误,需要进行维护。错误数据的
维护必须得到数据质量管理员的同意,并在在维护完成后提交数据维护报告,数据质量管理
员可以采取适当的检查以验证数据维护操作的执行情况。经营分析错误数据维护流程如图
10-5 所示。
图 10-5 错误数据维护流程
流程进入条件
(1) 源系统数据处理异常导致经营分析数据需要回退,如清单回退、用户资料维护
P05 错误数据维护流程
数据质量管理员经营分析系统
制定《错误数据
维护方案》
结束
评估《错误数据
维护报告》
评审《错误数据
维护方案》
开始
执行《错误数据
维护方案》
编写《错误数据
维护报告》
记录
等
(2) 经营分析由于系统应用处理问题导致数据异常
(3) 经营分析由于口径理解偏差导致分析结果数据异常
流程产生文档
(1)《错误数据维护方案》
错误数据维护方案是对具体错误数据维护的实施方案的描述。
基本内容:包括维护时间,维护人,维护原因,维护方法(维护程序代码,手工/
自动),检查方式(如何判断维护成功完成,错误的数据已经修改为正确的数据,而且
维护不会影响到正确的数据),维护内容(表名,字段名,本次维护影响的记录数),数
据影响,在数据的下游,哪些衍生数据需要重新生成,哪些报表需要重做等。
(2)《错误数据维护报告》
错误数据维护报告是对具体错误数据维护的执行情况记录。
基本内容:包括维护时间,维护人,维护原因,维护方法(维护程序代码,手工/
自动),检查方式(如何判断维护成功完成,错误的数据已经修改为正确的数据,而且
维护不会影响到正确的数据),维护内容(表名,字段名,本次维护影响的记录数),检
查人,检查的结果,在数据的下游,本次维护所涉及数据的衍生数据是否已经重新生成,
需要重做的报表是否已经重做等。
质量检查
数据质量检查是经营分析数据质量控制的重要工作内容,主要从管理流程和元数据本身
质量两个角度进行检查,由数据质量管理小组组织实施,根据检查结果得出数据质量管理实
施的阶段状况,发现数据管理实施过程中的问题,并针对具体问题进行解决,以保证经营分
析的正常运行。
管理流程检查
组织结构检查
检查的内容主要包括:
建立完整的质量管理机构;
制定质量管理小组的工作制度及岗位描述;
质量管理机构各岗位有具体的责任人(及备份责任人);
有管理机构岗位责任一览表(包括对外联系人、方式);
管理流程及相关标准的检查
检查的内容主要包括:
有针对常见数据质量问题建立的管理流程和机制;
有对各管理流程的具体执行步骤描述;
有明确的数据质量检查标准及检测办法;
质量管理流程执行情况检查
检查的内容主要包括:
需求变更流程是否有纳入元数据维护控制相关内容
每月、季度发布数据质量管理状况报告;
有数据质量问题处理记录;
有数据质量问题结果监测和评估记录;
有每月、季度进行数据质量抽测和评估报告;
有每月维护和更新数据质量管理标准等规则性文档;
有每月对系统业务和设计完备性的评估报告;
元数据质量检查
元数据质量检查与管理流程检查相配合,作为数据质量管理系统基础应用的补充(参见
第三章),是对数据质量管理系统的内容进行检查,从元数据角度及时发现数据质量数据问
题的直接手段。主要针对元数据抽取、存储等角度对元数据内容进行检查,各省在具体实施
时可以根据实际情况增加检查项目和内容。可以考虑在数据质量管理系统上增加相关的检查
功能支持。
此处的检查量化指标主要是针对支持自动抽取的技术类元数据,对于业务元数据的相关
检查要求主要通过相关需求变更及问题处理流程来实现控制。
针对支持自动抽取的技术类元数据,包括 ETL 处理信息、数据仓库信息、多维数据信
息等,系统需要有相应机制,定期进行抽取,并与数据质量管理系统内相应信息进行比对,
以发现差异和捕获异常。
及时性检查
首先确定需要周期同步检查的元数据类型和范围,然后针对具体类型的元数据检查其抽
取及时率。
计算公式:
抽取检查及时率=(某类型元数据周期内在规定时间窗口内抽取的项个数/同类型元数
据周期内应抽取的项个数)*100%
完整性检查
首先确定需要周期同步检查的元数据类型和范围,然后针对具体类型的元数据检查其抽
取完整率。
计算公式:
抽取检查完整率=(某类型元数据周期内抽取的项个数/同类型元数据周期内应抽取的
项个数)*100%
准确性检查
首先确定需要周期同步检查的元数据类型和范围,然后针对具体类型的元数据检查其抽
取准确率。
计算公式:
抽取检查准确率=(某类型元数据周期内抽取比对无误的项个数/同类型元数据周期内
应抽取的项个数)*100%
11. 系统管理
概述
数据质量管理系统在中国移动经营分析系统中扮演着面向全局(涉及经营分析系统的
各个组成部分)、总体控制、总体协调及总体管理的核心角色,确保数据质量管理系统能够
稳定和安全的运行,是实施数据质量管理系统建设的重要一环。
在中国移动经营分析系统建设的过程中,对系统的安全管理已经进行了系统全面的论
述。但是,由于数据质量管理系统管理的数据是对经营分析系统整体结构以及日常运营的描
述,其数据的一致性、完整性、安全性和实时性都对经营分析系统功能的发挥起到至关重要
的作用。从某种意义而言,数据质量管理系统可以被称为经营分析系统的中枢,其系统本身
以及所管理的数据都应该具有更高层次的管理和安全要求。因此,在实施数据质量管理系统
时,有必要从数据质量管理系统自身出发,结合系统管理的特点,制定有针对性的系统管理
方案。
本章主要涉及数据质量管理系统的安全管理、变更管理、版本管理、访问控制管理等
几个方面的内容。
系统安全管理:主要指通过建立较为完备的管理策略,确保数据质量管理系统能够安
全有序地运行。主要包括系统的监控告警、登录管理、日志管理以及备份与恢复等方面;其
中,监控告警指对系统运行过程中出现的故障等进行监控,自动排除和告警等;登录管理主
要是指操作系统、数据仓库、数据质量管理、应用功能等多级口令的控制与统一;日志管理
指针对用户对系统的使用情况进行的跟踪记录以及系统内部操作的动作、结果记录等方面;
备份与恢复指对系统的数据、日志等进行的定期备份以及必要恢复。
系统变更管理:主要是指数据质量管理系统由于经营分析系统的业务运营或用户修改,
而使元数据发生插入、删除以及修改等操作。在这些操作发生时,利用变更管理实施元数据
的保护,确保元数据信息与经营分析系统保持一致。
系统版本管理:对元数据信息在运行过程中产生的各个版本实施有效的管理。
系统访问控制管理:主要是指对用户的登录使用进行控制,防止非法用户登录和非授
权的访问。
系统安全管理
安全管理应遵循《业务支撑网 4A 技术规范》的统一要求。
系统版本管理
数据质量管理系统涉及到很多分散的子系统,版本管理的混乱会导致系统难以开发、难
以维护、灾难发生时难以恢复甚至发生系统数据不一致等。因此,数据质量管理系统的实施
和运行过程中,要建立相应的版本管理体系,确保系统的正确实施和运行。
实施数据质量管理系统的版本控制,需要满足:
在系统内部要建立相应的版本管理体系,对建设及运行等阶段的文档、源程序等进
行统一管理;
数据质量管理系统的实施厂商要有自己的版本管理体系,保证系统的实施能够准确
和按时完成;
版本管理要有专门的管理工具,确保版本管理的效率和准确性。
元数据管理的版本控制要满足如下的基本功能:
各类元数据的更新维护操作必须保留历史版本信息,并记录修改原因、修改时间、
修改人等基本维护信息;
提供对各类元数据历史版本信息的查询功能;
提供对各类元数据维护操作的审计、稽核功能;
12. 编制历史
版本号 更新时间 主要内容或重大修改
2006-4-21 第一次发布
2007-4-20 第一次发布
《中国移动省级经营分析系统数据质量管理系统业务技术规范()》版本主要修订如
下内容:
1.《中国移动省级经营分析系统数据质量管理系统业务技术规范()》(以下简称
版本)中“ 系统功能定位”在《中国移动省级经营分析系统数据质量管理系统业务技
术规范()》(以下简称 版本)中改为“ 系统功能需求”,并对其内容进行了扩充,
该节由“元数据管理”、“数据质量监控”和“项目管理支撑”三小节组成;
2.修订了 版本中“ 系统体系”的“功能层”的部分内容,引入了数据质量监控模块,
整合了 版本中的相关功能;
3.在 版本中,进一步完善和强化了数据质量知识库的功能;
4.在 版本中,对 版本中的应用层功能进行了整合,并扩充了若干应用(如需
求变更影响分析、数据质量监控、数据集市支撑、项目管理支撑);
5.在 版本中,新增一章“9. 数据质量监控模块”,详细阐述了监控模块的具体功能。
2025 年 10 月 16 日星期四 19:40:58
:4019:40: 时 40 分 7 时 40 分
58 秒 Oct. 16, 2516 October 20257:40:58 PM19:40:58