携程基础大数据架构实践
基础大数据 于磊
背景
• OTA公司数据特点
• 业务线差异性大、复杂度高
• 机票
• 酒店
• 团队游
• 门票
• 租车
• Wifi
• 大数据落地场景
• 分析报表
• AB test平台
• 用户中心
• 个性化推荐栏位
• 精准化运营
大数据现状
• 在携程,有20个BU,以及相应的数据团队
• 数据源
• 数据消费者
• 数据的挖掘者
• 数据问题
• 数据来源多
• 标准不一
• ETL流程管理困难
• 全司级跨BU数据使用困难
携程大数据治理
• 在携程,数据治理工作及架构
• 埋点数据规范
• AB test平台
• 用户画像
• 实时用户意图
• 报表系统
• 实时商品信息
• 实时订单
• 用户推荐引擎
携程基础大数据架构
埋点规范系统 BU线上系统
实时/离线用户行为
实时/离线订单
佣金日志
实时/离线商品
信息日志
订单/佣金规范系统 规范下发
用户画像 用户实时意图 相关DW 规范验证 BU算法挖掘
通用精准化营销平台
BU大数据应用
通用报表平台
数据源层
日志层
算法引擎层
通用化配置层
精准化应用层
推荐栏位 个性化广告 CRM 搜索排序
投放 报表
基础大数据团队 20个BU的数据团队
BU日志
数据源层
• 埋点规范
• 埋点注册
• 埋点生成
• 规范校验
• 测试环境实时校验(事前)
• ETL数据校验(事中)
• 离线校验告警(事后)
规范监控报表门户
日志层
• 数据接入
• Trace MQ (Kafka等)
• 离线 & 实时
• Hive
• Storm
• 对外接口
• MQ
• API Service
• Hive 表
算法引擎层
• 数据接入
• 离线:Hive表(Zeus调度)
• 实时:MQ (Kafka等)
• 算法引擎
• 离线:用户画像、相似相关商品、规则挖掘、主题挖掘(HBase、Redis)
• 实时:用户意图(HBase、Redis)
• DW:Hive、ES
• 规范验证
• 画像审核系统
• ETL 中Schema识别
• 测试环境血缘审核
通用化配置层
• 通用化精准营销平台【开发中】
• 选人魔方(广告、 SMS、APP推送、EDM)
• 个性化推荐平台
• 选品平台
• 数据出口
• Service API
• Hive表
UI模版
管理
选人模块
(ES+Spark)
推荐引擎(KV)
选品模块
(ES+Hbase)
统一配置化平台
推荐栏位 广告 推送 发券
数据治理在携程
•元数据字典
•元数据监控
元数据管理
•埋点规范
数据规范
•时间维表
•气候维表
•地理维表
统一维表
•订单索引
•用户肖像
•产品索引
•用户偏好
统一数据接口
•KPI
•UIP
标准化指标
•数据隔离
•权限管理
数据安全管理
元数据标准流程
SQL
Muise
Redis
Hbase
HDFS
创建
数据
表
采集数
据
schema
加入定
时扫
schema
列表
定期
元数
据扫
描及
比对
变更
预警
血缘
分析
通知
下游