大数据的系统架构支持
@林仕鼎
2013/4/26,BDGS’13
互联网服务的典型技术特点
超大规模
快速迭代
百度的数据规模
• 100~1000PB
• 10~100PB/天
• 千亿~万亿
• 百亿~千亿
• 十亿~百亿/天
• 十亿~百亿/天
• 100TB~1PB/天
数据总量
数据处理量
网页
索引
更新量
请求
日志
离线
在线
离线分析与在线实验相结合
快速迭代是互联网产品的
主要创新手段
算法A
算法B
算法B
通过反馈来验证算法优劣
搜索引擎的迭代
5%
5%
Online Learning
A/B test
策略
机器学习
平台
FeatureTraining
数据
网页
网页库
倒排表
Data Mining
想法
原型
系统
快速开发
测试
产品
部署运维
开发框架
互联网产品的迭代
A/B测试,持续优化
数据智能
验证
数据分析
应用引擎
云测试
应用引擎
数据
架构
技术
互联网服务
enable
数据智能
IT产业生产力的变化
‘60
‘70
‘80
‘90
‘00
‘10
硬件
Mainframe
软件
PC
Internet
Inf
+人
+数据
Cloud
迭代的本质是让人参与系统进化,
而Big Data为迭代指导方向,
Infrastructure则加速迭代。
软件
+人
数据智能
软件基础架构
大数据
数据中心、网络、服务器
数据中心计算
云计算技术体系
存储
计算
实
时
结构
访问模式
主要技术领域
数据密集型
计算密集型
通讯密集型
超大规模系统
体系结构、虚拟化
数据中心
设计、开发、
测试、运维
Disk
Flash
Pipe
K/V
File
Table
统一存储体系
– 平衡大容量、高并发、低延迟
– 不同访问模式通过组合满足
统一访问与传输
数据访问层
P2P
CDN
分布式存储
描述能力
数据流优化
控制流管理
资源分配
优先级、并发控制
隔离、安全
执行层
模型层
Map
Reduce
表示层
SQL-like
翻译
Join
Select
Top
分布式计算
B
C
D
A
实时存储与计算
kNN查询
平台
向量计算引擎
流式数据处理引擎
PubSub
引擎
机器学习
算法平台
OLAP
引擎
复杂事件处理引擎
分布式数据结构
超大规模数据仓库
图查询
平台
实时检索
平台
向量计算引擎
Vector
Layout
Map-
Shuffle
Operators/ Checkpoint
SIMDProgram
复杂事件处理
average(price)
trigger(?,b,c)
filter(b)
pattern(a->b->c)
condition(func(a,b,c))
流式计算模型
window
step
bound
time
M=Stream<window,step,bound>
目标
• 1000PB
• 10亿维特征训练
• 100维条件查询
• 流式
• 触发式
海量
高维、多维
实时
更大、更复杂、更快!
数据智能
分布式
存储与计算
大规模人工
辅劣标注系统
人计算
向量引擎
Machine
Learning
算法
Web Contents
流式处理
Logs
PubSub
推荐系统
智能交通
Apps
自劢评估
商业智能
决策辅劣
Thanks!