阿里巴巴高级技术专家
! D a t a Fun Summit
* + * ,
阿里巴巴数据治理实践
目录
CONTENTS
数据治理概念和需
求层次
• 数据治理的理论参考
• 数据治理的概念和需求层
次
01
!
企业数据治理痛点、
阿里巴巴数据治理
实践
• 企业数据治理的典型痛点
• 阿里巴巴数据治理的挑战
• 阿里巴巴数据治理的成功
关键
• 阿里巴巴数据治理的发展实
施阶段
02
01 数据治理概念和需求层次
• 数据治理的理论参考
• 数据治理的概念和需求层次
!
数据管理&数据治理
理论参考
数据管理协会知识体系 – DAMA-DMBOK2
十大职能领域
DCMM:数据管理能力成熟度评估(2018)
信通院:数据资产管理实践白皮书
理论和实践相结合的落地指南
国际:DMBOK2 十大职能领域 [1]
【1】:DAMA国际 【2】:DCMM:
国内:DCMM 八大过程域 [2]
数据治理的范畴
数据治理的概念和需求层次
• 数据治理的内涵逐步泛化是业界共识
• 企业数据治理,涵盖数据发现可用、数据
及时稳定产出、数据质量保障、数据安全
合规和数据生产的经济性等多个层次。企
业数字化转型阶段不同,治理关注的核心
需求存在差异
• 在数据管理过程中,要保证一个组织已经
将数据转换成有用信息,这项工作所需要
的流程和工具就是数据治理的工作[1]
【1】来源:DAMS,ani Harper。有用的信息:数据资产
成本
生产经济性
安全
数据权限管理、敏感数
据保护、合规要求
可用
数据的共享使用,
、好理解、可复用
质量
准确性、完备性、唯一性、一致性、有效性 等
时效
数据生产稳定、产出及时性
02 企业数据治理痛点、
阿里巴巴数据治理实践
• 企业数据治理的典型痛点
• 阿里巴巴数据治理的挑战
• 阿里巴巴数据治理的成功关键
• 阿里巴巴数据治理的发展实施阶段
!
数据治理成效进展缓慢,数据问题依旧严重,缺少系统化的工具平台支撑治理落地和成效展现是关
键原因之一
1 2
4 3
……
数据治理咨询成果落地不足
数据治理产出成果,比如各类规范
和管理办法,包括数据字典,多以”
纸面文件”的形式流转与企业中, 与
实际业务和数据没有紧耦合,能 满
足“我有””,但是没能做到 “我执行”
自动化服务程度不高
业务人员使用数据更多需要数据和
技术人员的贴身服务,按照IT建设
的模式提出数据加工需求或者取数
需求,以被动支持的方式满足业务
需求,没有形成数据资产目录,数
据服务目录
数据治理成效可视度低
缺少量化方式来评估数据治理成熟
度水平,数据治理工作的推动成效
无法体现,变成了纯手动的脏活累
活,严重影响数据治理工作的开展
推进
数据治理在线管理能力不足
缺少灵活友好的数据治理在线管理
工具,来支持数据治理全流程工作
数据治理与数据原仓之间没有打通,
“数据的描述”和“数据的记录”
两
企业数据治理典型痛点
企业数据治理新模式
从传统架构思维向DT架构思维转变,围绕数据资产化、数据价值释放的核心目标开展工作
数据稳定性与质
量治理
数据规范治理
数据安全治理
数据成本治理
解决
数据口径一致
性问题
解决数据产出
及时性和准确
性问题
解决
数据权限控制
与数据共享交
换问题
解决
数据计算和存储成本高昂
问题
阿里巴巴数据治理发展实施阶段
特定阶段专注解决主要矛盾
监控告警的痛点 监控数量
监控所有任务是不现实的
配置难度
为每个任务配置监控规则极为繁琐
告警时间
每个任务所需告警的时间都不同
智能监控核心功能
• 智能识别关键路径,合理设定告警阈值
• 任务异常产生事件,自动评估事件影响
范围,通知相应人员
• 灵活告警方式配置,支持某著名企业群机器
人、
电话
A
B
E
D
F G H
C
I J
K L
6:30
8:30
6:00
6:30
5:00
6:00
4:30
5:00
120min
10min
60min
8:30
9:00
60min
B
E
45min
D
30min
F
20min
G H
30min
A
120min
C
I J
50min
LK
30min
DataWorks独创、荣获国家专利的智能基线监控技术
阿里巴巴数据治理实践:数据稳定性
千万级任务的调度情况下,调度依赖关系复杂程度远超过人工处理程度,独有智能基线监控机制确保高优先任务高保障产出
输出表1 输出表2 输出表3
表1规则
表2规则
表3规则
任务节点
1
2
3
1 执行任务 2 触发规则 3 执行规则 4 告警/阻塞
任务节点1 表1规则
任务节点2
输出表1
橙色阈值
红色阈值
强规则?
短信/邮件
Webhook机器人
阻塞下游
2
1
4
3
4
4
阿里巴巴数据治理实践:数据质量治理
通过完整性、有效性、准确性、唯一性、一致性、合理性的全面评估,产出可信的、高价值密度的数据资产
•质量监控与调度挂钩,第一时间发现问题
• 40+规则&自定义规则,精细化质量控制
•无需设定阈值,算法自动判断异常值
•故障快速恢复
阿里巴巴数据治理实践:数据规范治理
优惠
分摊
会
员
商
品购买
优
惠
券
核销
领取
发布
门
店
子
公
司
开设
参与
营销
活动
报名
工具
使用
营销
报名
包含
优惠
分摊
数据模型设计
业务板块
业务域
维度业务过程定语类型
原子指标定语 属性时间
派生指标
指标体系设计
数据处理任务开发数据服务开放
Table
View
API
Report
核心公共层
其他
一条门槛线 1)确定标
准、流程及规 范
2)筛选核心公共层监控
范围并持续更新
核心公共层数据资产:
1)做规范管控,架构评
审,发布管控 2)评估
建设水平
3)发现短板,持续改进
强管控
轻约束
通过规范设计和开发来预防问题的发生。统一公共层来减少重复建设和确保口径一致性
数据规范设计 数据公共层建设
阿里巴巴数据治理实践:数据标准管理
通过制定码表、元素、模型分层、数据模型等设计规则及字段内容质量约束,保证逻辑数据模型设计的一致性
模型设计标准管理
制定各类数据实体(元素、码表、
模型分层、模型等)的设计约束,
规范每类业务实体包含的属性、该
属性是否必选、该属性内容约束等
规则。
物理模型数据规范
标准编码规范 中英文缩写规范
逻辑模型数据规范
阿里巴巴数据治理实践:数据安全治理
制定分类分级规范
数据自动打标
打标人工调整
更合理管理和使用
判断依据
字段名
字段描述
字段值
匹配规则
关键字匹
配
正则表达
算法模型
(阿里:根据分级差异化审批流)
数据分类分级与权限控制
敏感数据发现与脱敏
可信计算环境
数据风险审计
阿里巴巴数据治理实践:数据成本治理
设定组织成本
目标
培养个人成本
意识
计算存储成本
管控
成本治理评估
与运营
组织目标驱动 意识优先 知行合一 治理常态化
阿里巴巴2020年成本治理的目标:数据成本增速不能超过业务增速
阿里巴巴数据治理成功关键
一部数据资产治理方法论
产出及时、质量可靠、用、安全可控、生产经济
自
下
而
上
下自
上
而
一套组织体系
组织建设、制度保障
一组平台工具支撑&运营
阿里云大数据平台/数据中台
核心目标:
数据资产化、数据价值释
放
自上而下:
从公司治理角度入手来解
决数据的管理问题,提供
足够的授权和支持
自下而上:
以平台技术支撑和完善的
运营体系促进治理的切实
落地
阿里巴巴数据治理成功关键 – 一套组织体系
固定的专业组织、充分赋权,负责数据治理实施的整体推进。制规范 定目标 促落地 保健康
数据治理小
组
数据管理团
队
业务线数据
负责人
数据平台负
责人
数据资产治理规范
技术规范及模板管理办法 管理流程
阿里巴巴数据治理成功关键 – 制度保障
从实践中总结制定一系列的管理办法、流程和规范,并及时演进迭代
阿里巴巴数据治理成功关键 – 一部数据资产治理方法论
数据运营思想贯穿数据建设全过程
数据引入
数据采集、清洗、结构化
与集成
智能数仓规划
逻辑空间与物理空间
数据规范定义
口径一致、算法一致、命
名唯一
数据建模研发
数据建模与代码开发
数据连接萃取
ID识别与标签画像生产
运维调度
作业运维、任务调度与监
控报警
数据资产管理
数据资产概览、资产地
图、治理、应用、运营等
数据主题式服务
批量查询、即席多维分析
与在线服务等,主题导向
阿里巴巴数据治理成功关键 - 一组平台工具支撑
强大的平台能力支撑是治理落地的核心保障;技术的创新和演进是数据治理落地
的坚实基础
一站式 大数据开发和
治理平台
阿里自研的大数据平台,各
类存储和计算引擎的上层操
作系统,提供数据集成、数
据开发、数据地图、数据质
量、数据安全和数据服务等
全方位的产品服务,帮助企
业专注于数据价值的挖掘和
探索。
DataWorks
自研、全托管、EB级 大
数 据存储和计算引擎
阿里自研的安全可靠、高
效能、低成本、从GB到
EB 级别按需弹性伸缩的
在线 大数据计算服务,致
力于 海量结构化、半结构
化数 据的存储和计算服务,
提 供数据仓库的解决方案
及 分析建模服务。
Mapute
阿里巴巴数据治理成功关键 – 运营落地
构建量化的数据治理评价体系,日常治理运营和专项整治相结合,促进治理工作持续落地改进
专项行动
• 针对成本治理的“雷
霆行动”
• 构建BU治理排行榜
成本账
单
健康分
• 存储健康分
• 计算健康分
治理运营是推动数据治理落地的关键因素
阿里巴巴构建了量化的治理的评价体系(健康分)
日常治理运营推送和专项整治活动密切结合
• 每详细的 成本
账单给具体 资
源使用人
THANKS!
Ending
! D a t a Fun Summit
* + * ,