2020 中国数据智能管理峰会
京东EB级全域大数据平台建设
和治理之路
演讲人:包勇军
微信扫码,海量资源到手
1. 进群即领福利《报告与资源合编》,内有近百行业、上万份行研、管理及其他学
习资源免费下载;
2. 每日学习分享6+份精选行研资料;
3. 群友信息交流,群主免费解答并提供相关行业报告。
报告收集整理于网络,只用于群友学习,请勿他用
知识星球 行业与管理资源社群
1. 无限制下载行业研究报告、咨询公司管理方案,企业运营制度、科技方案与大
咖报告等。
2. 每月同步更新3000+份最新行业资源;涵盖科技、金融、教育、互联网、房地产、
生物制药、医疗健康等行研报告、科技动态、管理方案;
微信扫码,工作轻松无忧
扫一扫二维码或添加客服微信(微信号:Teamkon4)免费报告等
你取。添加好友请备注:姓名+单位+行业或业务领域
行业与管理资源微信群
业务合作联系微信:Teamkon
2020 中国数据智能管理峰会
数据的价值
行业大数据平台现状
京东全域大数据平台的建设历程
未来的发展方向
Agenda
2020 中国数据智能管理峰会
京东零售数据算法通道委员会
数据的价值
2020 中国数据智能管理峰会
京东零售数据算法通道委员会
The Economist(经济学人期刊),2017年,5月版
The world’s most valuable resource is no longer oil, but data
2020 中国数据智能管理峰会
京东零售数据算法通道委员会
《数据中台2019年行业分析报告发布》
Forrester报告显示,数据洞察驱动业务发展,领先者相比落后者:
倍业务增长能力、倍客户响应速度、倍维持竞争优势
数据的价值
0
500
1000
1500
2000
2016/12/30 2017/12/30 2018/12/30 2019/12/30 2020/12/30 2021/12/30
数据洞察助力业务增长($billion)
上市公司 初创公司
1990 2000 2010 2020
三井住友银行
东京三菱银行
日本兴业银行
日本电信电话公司
丰田汽车
日本联合银行
日本第一劝业银行
IBM
日本富士银行
埃克森美孚
思科
通用电气
NTT Docomo
微软
沃尔玛
朗讯
日本电信电话公司
埃克森美孚
英特尔
德国电信
工商银行
埃克森美孚
微软
中国石油
沃尔玛
巴西国家石油
必和必拓
汇丰银行
建设银行
苹果
亚马逊
沙特阿拉伯国家石油
微软
苹果
谷歌
伯克希尔哈撒韦
脸书
腾讯
阿里巴巴
VISA
大众消费石油互联网软件通讯及硬件金融投资
全球市值前十公司变化 科技公司成主流
2020 中国数据智能管理峰会
京东零售数据算法通道委员会国内大数据行业趋势
大数据首次写入政府
工作报告,为政策元年
国务院印发《大数据发展
行动纲要》
《十三五规划纲要》
“实时国家大数据战略”
工信部发布《大数据产业
发展规划2016-2020》
十九大报告提出“推动
大数据与实体经济结合”
中央政治局就实施
国家大数据战略进行
集体学习
大数据连续6年写入
政府工作报告
预热 起步 落地 深化
国家“大数据”政策相继出台 大数据市场规模呈稳步上升态势,从19年
8000亿元增长至23年的万亿
来源于:公开资料整理
2015-2023年中国大数据市场产值预测(亿元)
2020 中国数据智能管理峰会
京东零售数据算法通道委员会
行业大数据平台现状
2020 中国数据智能管理峰会
京东零售数据算法通道委员会行业大数据平台发展阶段
探索起步期 快速推进期 规模发展期 产业消化期 应用成熟期
数据中台市场相对成
熟,市场热度逐渐消
退,市场开始洗牌,技
术不成熟、发展规模较
小的厂商将被兼并或淘
汰。
行业标准、监管规范等
已建立,各细分领域发
展稳定,开始走向差异
化竞争,数据中台被广
泛应用,行业趋于稳
定。
市场认知加深,企业用
户不断增加,细分市场
涌现。
中大型企业相继建设数
据中台,数据中台由概
念向应用落地转变。众
多细分领域产品上线,
市场头部企业初现,资
本市场高度关注。
数据中台逐步受到市
场关注,互联网企业
率先将数据中台应用
落地。与之相关的创
新性企业相继发布典
型产品和服务。
数据平台发展阶段
来源于:公开资料整理
2020 中国数据智能管理峰会
京东零售数据算法通道委员会行业大数据平台架构
离线调度
离线调度
离线调度
离线调度离线调度
即席查询 实时分析 数据服务 元数据服务
离线/流式开发 算法平台
数仓平台
ETL 数据集成
埋
点
管
理
数
据
安
全
数
据
质
量
平
台
数
据
目
录
数
据
治
理 管
理
中
心
离线调度 流式调度
离线调度
Hive
MR
Spark
Clickhouse
ES
Doris
Flink
Storm
Spark Streaming
Kafka DataXScribe Flume
MySQL 日志系统Oracle MongoDB ……
离
线
计
算
多
维
分
析
实
时
计
算
计算层
平台层
服务层
传输层
数据层
2020 中国数据智能管理峰会
京东零售数据算法通道委员会
01
数据规模增加:服务器增长的边际效益越来
越低
02
如何对不断累积的海量数据去芜存菁,形成
正向循环
03
实时数据的需求越来越多,开发门槛高、周
期长、落地难
行业大数据平台建设的挑战
04
缺少“中台”统筹导致烟囱式开发,带来业务
困扰和资源浪费
05
指数级数据增长下的永无止境的高时效性需求,
从分钟->秒->毫秒
06
传统的规则化大数据分析无法满足更精准的
需求
07
疫情、新基建激发大数据建设诉求,政企数
字化转型迫在眉睫
2020 中国数据智能管理峰会
京东零售数据算法通道委员会
京东全域大数据平台的建设历程
2020 中国数据智能管理峰会
京东零售数据算法通道委员会京东大数据平台数据指标
集群规模
服务器规模数万
计算能力
日计算任务数百万级别
存储能力
总存储EB+级
日增几十PB
峰值能力
每秒处理消息数数十亿级
处理延时秒级
京东大数据平台总体规模
2020 中国数据智能管理峰会
京东零售数据算法通道委员会京东大数据平台支撑的业务体系
海量的存储计算、分析的需求、多业态的业务场景
2020 中国数据智能管理峰会
京东零售数据算法通道委员会京东大数据平台建设历程
规模化
数据规模增加:服务器增长的
边际效益越来越低
如何对不断累积的海量数据去
芜存菁,形成正向循环
体系化
缺少“中台”统筹导致烟囱式开
发,带来业务困扰和资源浪费
数据的标准和质量建设滞后,数
据价值被埋没
实时化
指数级数据增长下的永无止境的
高时效性需求,从分钟->秒->毫
秒
智能化
传统的规则化大数据分析无法满
足更精准的需求
商业化
疫情、新基建激发大数据建设诉
求,政企数字化转型迫在眉睫
2020 中国数据智能管理峰会
京东零售数据算法通道委员会
无论是堆机器、堆集群、堆人力,无法在数
据的快速膨胀、业务的高速增长和平台的稳定、
易用、高效上取得比较好的平衡
规模化:业务增长带来的挑战
2020 中国数据智能管理峰会
京东零售数据算法通道委员会
03
01
02
04
调度层:数万台超大集群规模、自适应资源超分
计算层:深度定制的内存计算引擎、云原生的
存、算分离架构
应用层:任务千人千面优化、自助诊断系统
跨层计算优化
结合业务特点定义热、温、冷数据分
层,实现分层数据优化存储
数据生命周期管理
定制存储与计算机型,降低单位成本
实现更精准的容量规划
存储计算分离
单存储集群规模从数千提升至数万节点
数万台节点集群全面落地EC技术
大集群和EC存储
规模化:高效的计算存储引擎
2020 中国数据智能管理峰会
京东零售数据算法通道委员会
年节约机器和人力成本数十亿元
规模化:自动化的运营管理系统
电商全业务域数据体系
统一数据标准和口径
资产治理产品化
提供自动化工具
端到端全链路资产分析诊断
资产ROI评估
自动化运维运营,通过系统化来解决平台规模化可靠性易用性,达到低碳降本和业务提效,支持业
务快速布局和起量
2020 中国数据智能管理峰会
京东零售数据算法通道委员会体系化:业务快速并行发展带来的挑战
数据腐化:随着时间流逝,数据价值流失
缺乏治理:高数据价值甄别难
来源繁杂:结构化、非结构化数据、多种异构数据源
业务复杂:需求扩张速度与应接能力矛盾
数据烟囱:重复建设,缺乏连接、无法形成合力
野蛮生长,管理成本急剧增加
2020 中国数据智能管理峰会
京东零售数据算法通道委员会体系化:数据中台的核心目标
1
构建生产标准
2
统一数据集成
3
全域模型体系
4
全场景数据服务
5
统一资产管理
支持全业务体系、多种异构
数据源统一集成,打破数据
孤岛
建立企业统一的公共数据层,
保障数据规范和口径的统一
通过标准化SQL开发,打通
异构数据源到应用的链路瓶
颈,提供安全可靠的统一数
据服务层
建设数据资产盘点、分
析、治理的全链路管理
和评估体系,保持平台
良性发展
Data Schema Sys Easy DTS
Easy Model/Easy
Label
Easy Data/Easy
Olap/Easy Audience
Data OS
从源头规范数据技术
标准和业务语义
金融 物流 营销 电商 保险
2020 中国数据智能管理峰会
京东零售数据算法通道委员会实时化:速度是永恒的诉求,快速响应市场变化
基于海量数据的秒级决策,高时效性需求:天->分钟
->秒->毫秒
01
大促洪峰压力02
实时计算技术开发推广03
2020 中国数据智能管理峰会
京东零售数据算法通道委员会实时化:解决方案 Easy Realtime实时计算平台
• “零代码”开发
• 一站式融合数据服务平台
易用性
• 全方位深度定制的实时计算引擎
• 全链路的实时采集、传输、计算
分析一体化计算框架
低延迟
• 云原生资源调度、多租户资源隔
离、自适应的跨机房容灾
• 全链路的实时监控自愈,实现分
钟级故障恢复
高可用
可视化应用
数据产品
数据流系统
数据库
数据采集 SQL/Flink SQL2
……
一站式实时解决方案
多维分析引擎3
数据查询服务4
业务系统1
5
2020 中国数据智能管理峰会
京东零售数据算法通道委员会智能化:对数据的深度理解是业务再增长的动力源
大数据平台
统计分析
打造以高效精准业务决策为目标的数据智能化服务
数据算法平台
数据智能化
大数据平台
统计分析
Deep Data
2020 中国数据智能管理峰会
京东零售数据算法通道委员会
挑战
智能化
高性能的算法平台九数研发,提供了一套成熟
的工业级解决方案
大数据下的超大规模机器学习算力挑战
研发联邦学习数据交换平台,为京东生态合作提供数
据交换避难所
数据安全背景下的跨业务实体数据跨融合分析
打造伽利略图计算框架,支持异构多数据类型的组织分析,
可支撑数十亿节点、数百亿边的数据规模
数据多模态的大量涌现,组织越来越复杂,应用
越来越灵活
01
02
03
2020 中国数据智能管理峰会
京东零售数据算法通道委员会智能化:九数(9N)商业分析和业务智能化平台
9N核心算法引擎
Galileo
(图计算引擎)
9N-FL
(联邦学习引擎)
9N-Cloud算法资源云化管理系统
一站式算法解决方案
9N算法诊断平台
仿真系统 效果诊断
9N服务平台
趋势分析 关联分析
9N-RL
(强化学习引擎)
9N-OL
(在线学习引擎)
精准匹配 时序预测
9N-Deep
(模型训练引擎)
京东零售 京东健康 京东数科 京东物流 全渠道
赋能业务
服务京东全业务场景,助力业务高速发展
……
典型案例
助力京东广告从规则化到数字化智能化的转型,
加速无人投放广告高速发展,已经成为京东广告
核心收入来源
开源回馈社区
9N-FL已开源
Galileo图计算框架即将开源
9N算法平台整体开源计划中
2020 中国数据智能管理峰会
京东零售数据算法通道委员会京东全域大数据平台架构 Easy JData
可视化分析(Easy BI) 数据服务(Easy Data) 统一元数据服务
Easy RealTime 九数算法平台(9N)
离线数仓
数据集成平台(Easy DTS)
埋
点
管
理
数
据
安
全
数
据
质
量
平
台
数
据
目
录 数
据
资
产
管
理
管
理
中
心
离线调度 流式调度
离线调度
离线计算 实时计算(JRC) 数据湖(Easy DataLake)
数据总线(JDQ)
MySQL 日志系统 ……
计算
存储层
平台层
服务层
传输层
数据层
实时数仓
数据建模平台(Easy Model)
多维分析(Easy OLAP)
用户洞察(Easy Audience)
全域数据存储
数据操作系统
(DataOS)
2020 中国数据智能管理峰会
京东零售数据算法通道委员会
未来发展方向
2020 中国数据智能管理峰会
京东零售数据算法通道委员会
技术升级
云原生,批流一体化
开放行业赋能
以Paas,Saas为抓手,
建设大数据商业生态
深度业务赋能
Deep AI
未来的发展方向
全域大数据平台
微信扫码,海量资源到手
1. 进群即领福利《报告与资源合编》,内有近百行业、上万份行研、管理及其他学
习资源免费下载;
2. 每日学习分享6+份精选行研资料;
3. 群友信息交流,群主免费解答并提供相关行业报告。
报告收集整理于网络,只用于群友学习,请勿他用
知识星球 行业与管理资源社群
1. 无限制下载行业研究报告、咨询公司管理方案,企业运营制度、科技方案与大
咖报告等。
2. 每月同步更新3000+份最新行业资源;涵盖科技、金融、教育、互联网、房地产、
生物制药、医疗健康等行研报告、科技动态、管理方案;
微信扫码,工作轻松无忧
扫一扫二维码或添加客服微信(微信号:Teamkon4)免费报告等
你取。添加好友请备注:姓名+单位+行业或业务领域
行业与管理资源微信群
业务合作联系微信:Teamkon
2020 中国数据智能管理峰会
Q&A
2020 中国数据智能管理峰会
THANK YOU!