2019 中 国 数 据 智 能 管 理 峰 会
陌陌数据治理方面的思考
与系统实践
演讲人:@momo
2019-07-19
mailto:@momo
2019 中 国 数 据 智 能 管 理 峰 会
2019 中 国 数 据 智 能 管 理 峰 会
业务技术业务诉求
日志源
数据应用方
……
数据
资产
1 数据生产
与保障
2 数据使用
赋能
3 基础能力
开放
离不开数据
TEAM
团队介绍
陌陌-数据基础架构团队
数据仓库 /数据系统 |数据平台
2019 中 国 数 据 智 能 管 理 峰 会
WHY
为什么
上层建筑
经济基础
• 数据标准体系
• 数据治理系统
• 数据平台规模
• …
• 业务复杂程度
• 数据使用范围
• 业务体系量级
• …
决
定
反
作
用
数据生产力发展
StartUp Business PlatForm
• DataSet :
• DataUser:
• Solution:
100+
10+
WhatEver
1000+
100+
DataWarehouse
10000+
1000+
DataLake
2019 中 国 数 据 智 能 管 理 峰 会
WHAT
是什么
高效率 &易使用
工具化 & 自动化标准化 & 规范化
数据治理
方法论
什么是
数据仓库
2019 中 国 数 据 智 能 管 理 峰 会
WHO
谁需要
业务方
算法策略
数据仓库
技术
谁需要用数据
谁管理规整数据
+
2019 中 国 数 据 智 能 管 理 峰 会
DATALAYOUT
数据分层
技术有什么
业务要什么
仓库存什么
底
体
设
计
顶
体
设
计
业务应用层
中间汇总层
基础加工层
原始接入层
OLAP分析报表 | Dashboard | 用户标签服务 …
DataChangeLog | EventLog | DataBaseSnapshot…
字段命名统一 | 度量单位统一 | 异常数据处理 …
对象维度信息 | 主题汇总信息 | 维度汇总信息 …
• 业务指标与维度分析
• 计算密集型数据服务
• …
• 多方复用的中间结果
• 关联紧密的维度 JOIN
• …
• 数据库 Schema
• 字段业务含义
• 事件埋点信息
• …
2019 中 国 数 据 智 能 管 理 峰 会
DATAFLOW & DATAMODEL
数据流 & 数据模型
粒度
维度
事件明细
事件多维汇总
对象明细
对象维度
对象事件汇总
汇总多维
报表
粒
度
变
化/
维
度
变
化
1. 维度越来越少
-区分粒度的信息减少
✓ 数据流设计
1. 维度的取舍与命名
-哪些信息在哪一粒度下有效
✓ 数据表设计
度量
2019 中 国 数 据 智 能 管 理 峰 会
UNIFORM & STANDARD
规范 &标准
1. 表名规范
-分层名 + 业务数据流名 + 维度内容名 + 粒度
名
2. 字段名规范
- 相同实体对象标志一致 | 相同描述维度名称一
致
3. 维度值规范
- 异常取值逻辑与结果一致 | 度量实体单位一致
✓ 表征统一
1. 统一处理逻辑所处层级
-事件分流在基础加工层做 | 主题维度汇聚在中间汇总层做
2. 指标处理逻辑统一
- 精确度统一| 定义原则统一
3. 库作用统一
- 线上库生产SLA| 线下库业务测试 | 临时库 Ad-hoc 使用
✓ 逻辑统一
1. 新人学习培养
-快速掌握学习迁移
2. 提高用户使用
- 培训文档 | 需求模板
✓ 知识沉淀
质量 易操作 易管理+ +
2019 中 国 数 据 智 能 管 理 峰 会
PROJECT FLOW
项目流程
功能开发时补充设计 功能迭代时
• 初始化构建数据设计
• 业务发现遗漏时
• …
• 数据流合并分裂
• 数据模型变更
• …
• 数据流与模型设计
• …
2019 中 国 数 据 智 能 管 理 峰 会
PROCESS
角色与流程
需求方 数据产品|分析 数据仓库 技术开发
应用需求
数据需求
模型评审
仓库测试
验收上线
数据交付
流程 / 角色
负责 参与
2019 中 国 数 据 智 能 管 理 峰 会
TOOLS & AUTOMATION
自动化 & 工具化
✓ 元数据管理 ✓ 数据血缘 ✓ 数据质量
2019 中 国 数 据 智 能 管 理 峰 会
TOOLS & AUTOMATION
元数据管理
✓数据洞察
-业务,标签搜索|scheme信息
仓库存储信息/质量报告
✓数据集成
- 数据源信息|同步配置
✓ 数据开发
- 作业配置|调度配置
✓ 运维管理
- 运行日志|监控报警信息|资源成本
- 存储管理
:
|
:
|
:
|
:
|
:
|
:
|
2019 中 国 数 据 智 能 管 理 峰 会
TOOLS & AUTOMATION
数据血缘
✓数仓血缘
-表、字段血缘|作业|应用
✓血缘应用
-冷热数据分析 |链路分析
-质量故障的数据修复
(N eo4j)
2019 中 国 数 据 智 能 管 理 峰 会
TOOLS & AUTOMATION
数据质量
✓支持多规则的数据质量报告
-完整性|准确性|及时性
✓数据质量故障的熔断
- 阻止下游扩散
✓智能报警
-延迟,异常波动|故障报告
2019 中 国 数 据 智 能 管 理 峰 会
WHAT`S MORE
更进一步呢?
✓数据成本管理
-计算成本
✓数据服务
-用户标签及画像.
✓数据产品
-用户行为分析..
✓实时应用
-实时订单..
2019 中 国 数 据 智 能 管 理 峰 会
数仓架构图
2019 中 国 数 据 智 能 管 理 峰 会
SKILL MODEL
能力模型
1.较强的主观能动性, 团队合作意识强
-沟通业务需求, 优化数据使用流程
2. 掌握社交数据仓库设计模式
-了解不同存储数据库设计方法并能够互相转化 KV, 关
系数据, 图数据…
3. 较强的程序化,工具化意识
-提高效率,解放生产力
4. 熟悉业务分析诉求
-紧跟业务迭代,熟知业务变迁
业务知识
工具技术
逻辑梳理
团队交流
2019 中 国 数 据 智 能 管 理 峰 会
THANK YOU !