MBA智库文档行业 IT互联网 IT ArchSummit北京-《Uber的流处理系统及实践》.pdf

ArchSummit北京-《Uber的流处理系统及实践》.pdf

下载

Kbyh2o

124页 | 9.07MB | 0次下载 |

0.0

(0人评价)

我要评价：

投诉举报

用手机看文档

扫一扫,手机看文档

下载

开通VIP

优步流处理应⽤用袁泳 @ UBER 优步简介便捷交通，弹指之间流数据 - 城市的脉搏市场动态当前全球有多少⻋车可⽤用过去10分钟⾥里旧⾦金⼭山⾥里每个区域有多少⻋车载客？过去10分钟⾥里旧⾦金⼭山⾥里每个六边形有多少⻋车载客？历史变化状态跟踪出发点优步平台本质：分布式状态机乘客状态乘客状态司机状态优步平台本质：分布式状态机各类应⽤用⽣生成事件秒级事件延迟事件绝少丢失收集事件消息 - 低开销、易扩展挑战在哪⾥里？多维度每个事件消息包含数⼗十字段细粒度数据细粒度数据细粒度数据每个城市多于 10,000 六边形 7 种⻋车型细粒度数据⼀一天1440分钟细粒度数据 13 种司机状态细粒度数据 300 座城市细粒度数据⼀一天数据量: 300 x 10,000 x 7 x 1440 x 13 = 3930亿可能组合细粒度数据查询模式不定任意维度的组合多种聚合查询 Heatmap Top N Histogram count(), avg(), sum(), percent(), geo 多变的地理位置聚合查询⾼高流量 • 数⼗十万条消息每秒，数百亿⼀一天  • 每条消息包含数⼗十字段短时交货关键: 把问题⼀一般化数据类型 • 多维时序数据维度值 state driver_arrived vehicle type uber X timestamp 13244323342 lattitude longitude 数据查询 • 基于单表时空数据的OLAP   SELECT <agg functions>, <dimensions>   FROM <data_source>  WHERE <boolean filter>  GROUP BY <dimensions>  HAVING <boolean filter>  ORDER BY <sorting criterial>  LIMIT <n>  DO <post aggregation> 选择存储系统最低要求 • ⽀支持时序和地理空间的OLAP  • ⽀支持⼤大流量数据  • ⽀支持秒级查询  • ⽀支持原始数据查询   键值数据库键值数据库维度值 A a B b ⼀一键⼀一值：预算所有组合 • 布尔操作符: AND, OR, NOT   ⼀一键⼀一值：预算所有组合维度值 A a B b • 布尔操作符: AND, OR, NOT   ⼀一键⼀一值：预算所有组合维度值 A a B b • A and (not B) • B and (not A) • A or B • not (A or B) 维度 A B • {A} • {B} • {A, B} • {} ⼀一键⼀一值：预算所有组合维度 A B • {A} • {B} • {A, B} • {} ⼀一键⼀一值：预算所有组合 —> 计算幂集键值数据库的局限预算所有键值组合的时空复杂度：O(2 n )  关系数据库关系数据库关系数据库的局限 • 不易管理多项索引关系数据库的局限 • 扫描速度不够但我的KV系统速度奇快光快不⾏行⼀一个城市⾥里每个六边形⾥里⻋车的数⺫⽬目 => 18,000 次查询  平均延迟: 1ms 百分位延迟: 2s 失败率: % 光快不⾏行⼀一次查询延迟超过百分位的概率: (1 - ) x = 83%  ⼀一次查询成功的概率: (1 - )18000 = 84% 系统必备功能 • 快速扫描  • 布尔查询  • 原始数据  • 各类聚合   Elasticsearch 基于⾼高效倒排索引的布尔查询内建分布式查询快速扫描，灵活聚合存储搞定没？数据转换 . (Lat, Long) -> (zipcode, hexagon) 动态定价趋势预测供求分布技术上说: Clustering & Pr(D, S, E) 新场景 —> 新需求预处理 Joining Multiple Streams Sessionization 多级处理状态管理 Apache Samza Why Apache Samza? DAG on Kafka 与Kafka的⼀一流整合内置检查点内置状态管理处理存储存储层当掉怎么办？预处理耗时太久怎么办？处理存储终于搞定了？后期处理查询结果转换和平滑处理查询结果转换和平滑处理计算规模⼀一个城市⾄至少10,000六边形每个六边形331个邻居需要处理计算规模⼀一次查询：331 x 10,000 = 310万六边形计算规模 99%-ile 处理时间: 70ms 计算规模简单架构 “You can have a second computer once you’ve shown you know how to use the first one.” - Paul Graham 后期处理 • 每个处理单元都是纯函数  • 通过组合算⼦子组合处理单元后期处理 • ⾼高度并⾏行化的执⾏行  • 流⽔水线务实考量数据发现 Elasticsearch 查询语句过度复杂 SELECT timeseries(7d) FROM driverAcceptanceRate WHERE geo_dist(10, [37, 22]) AND time IN (2015-‐02-‐04,2015-‐03-‐06) AND = 1 Elasticsearch 查询可以优化 • 流⽔水线  • 查询验证  • 查询限速 T im e in seconds Elasticsearch 也许会被替换 Storage QueryProcessing 还有⼀一件事数据流⾥里总有不同模式总有快速探索发现模式的需要多少司机在5分钟内连续取消请求5次以上哪些乘客半⼩小时内在相距超过100公⾥里的地⽅方叫⻋车？ Complex Event Processing FROM driver_canceled#(10 min) SELECT clientUUID, count(clientUUID) as cancelCount GROUP BY clientUUID HAVING cancelCount > 10 INSERT INTO hipchat(room); 简单实现谢谢！

联系我们

智库文档公众号

客服微信

ArchSummit北京-《Uber的流处理系统及实践》.pdf

下载

标签

相关专题更多

联系我们

意见反馈

标签

相关专题 更多

联系我们

意见反馈

相关专题更多