?????????
?????????
???
• ???
11? ????, ?????????
12? ????????
13? ????????
14? ??????????
??
• ?????????
• ???????
• ???????
• ???????
????????
??
??
???
??
??
??
???
??
??
??
???
??
??
??
???
??
?????
??
??
????
????
BI??
????
????
…
??
??
???
??
???- ????
??
??
???
??
????????
??
??
????
????
BI??
????
????
????????
?????????
??????
• ??????????
• ???????Binlog????
• ??????????????
• 850+ ???
• ??+ ????????
????????
• ???????
• ??????
• ???????
• ?????????
• 1100+ ????
• ??????????
??????
????
????????
????????
• ???, ????
• ???????
• ????????
• 42P+ ????
• 150K /????
• 2500+ ??, 3????????
• 16K ????????
????????
ETL??
??????
????????
• ????????
• ???????
• ??SLA??
• ??????
????
?????
????
????
????
BI??
BI?? - ????
????
BI?? - ????
???????
2011 2012 2013 2014 2015 2016
“??”
PHP
??
SQL
ETL
??
??
??
??
SQL
??
??
??
??
??
?Hadoop
ETL
??
??
??
??
??
Binlog
??
YARN
??
Spark
??
??
??
Hadoop
???
??
??
&
SLA
??
OLAP
??
???
??
???????
2011 2012 2013 2014 2015 2016
“??”
PHP
??
SQL
ETL
??
??
??
??
SQL
??
??
??
??
??
?Hadoop
ETL
??
??
??
??
??
Binlog
??
YARN
??
Spark
??
??
??
Hadoop
???
??
??
&
SLA
??
OLAP
??
???
??
???????
2011 2012 2013 2014 2015 2016
“??”
PHP
??
SQL
ETL
??
??
??
??
SQL
??
??
??
??
??
?Hadoop
ETL
??
??
??
??
??
Binlog
??
YARN
??
Spark
??
??
??
Hadoop
???
??
??
&
SLA
??
OLAP
??
???
??
???????
2011 2012 2013 2014 2015 2016
“??”
PHP
??
SQL
ETL
??
??
??
??
SQL
??
??
??
??
??
?Hadoop
ETL
??
??
??
??
??
Binlog
??
YARN
??
Spark
??
??
??
Hadoop
???
??
??
&
SLA
??
OLAP
??
???
??
???????
2011 2012 2013 2014 2015 2016
“??”
PHP
??
SQL
ETL
??
??
??
??
SQL
??
??
??
??
??
?Hadoop
ETL
??
??
??
??
??
Binlog
??
YARN
??
Spark
??
??
??
Hadoop
???
??
??
&
SLA
??
OLAP
??
???
??
???????
2011 2012 2013 2014 2015 2016
“??”
PHP
??
SQL
ETL
??
??
??
??
SQL
??
??
??
??
??
?Hadoop
ETL
??
??
??
??
??
Binlog
??
YARN
??
Spark
??
??
??
Hadoop
???
??
??
&
SLA
??
OLAP
??
???
??
?????
• Hadoop ? NameSpace ???
• ???? ? ?????
• OLAP????
Hadoop?????
• ??
• 15??, ?????????500??
• ???????9???
• 15?6???1000??, 15?12???
1500??
• ???????, ??????
Hadoop?????
• Hadoop???????
• ??????, ???
• Hadoop?????, ?????????
• Hadoop????????
• App??container?????
• ?DataNode????
• HDFS??pipeline
Hadoop?????
• ????
• ????, ??NameSpace
• ??????????
• YARN????????, ??????????????
??
• HDFS??addBlock??, ???client????DataNode
???pipeline. ???????client????.
• ??HDFS Balancer???????????
• ?Balancer?????, ????Block??/??????
Hadoop????? - ??
246
420
611
1110
1894
1985
2460
0
500
1000
1500
2000
2500
3000
cq
dx
rz
all
Hadoop?????
• ??
• ?????, ????
• ????, ??????
• ??????
??????????
• ??
• ????Hadoop/Spark?????
• ??, ??, ?????
• ???????, ?????
• ??????/???????, ??????
?
• Spark??????, ????/?????
??????????
• ????
• ??????
• ????, ??, ?????????
• ???????
• ???ipython notebook+spark?zeppelin
• ??????, ?????bug / ????&??
• ????????????, ?????????
??
??????
user code…
git push…
托管平台注册…Hadoop作业管理
Hadoop作业编译、执⾏…
?????
OLAP??
• ????
• ?????, 50????
• ??????, 20?????
• TP99 < 3S
• ??????????
• ????????
OLAP??
• ?????
• Presto / Hive / Spark on ORC File??
• Hive grouping set ??HBase + ????
• Druid
• ElasticSearch
• Kylin
OLAP??
• ????
• ?????, ???, ???, ?????,
?????Kylin, ?????????
• ??Star Schema Benchmark, ??OLAP
??????, ?????????
• ??????????????, ???
???
Kylin - OLAP????
StarSchemaBenchmark
OLAP??
• ????
• ??Presto?
• ???BI??7??????
• ??????7? -> 1~2?
• 3????, TP95%???????1s?, ?
???2?
?????
• ?????
• ????????, ???
• ???, ?????????
• ???????, ??????????
?????
• ?????
• ?????????
• ???????, ???????
• ????, ????????????
?????
• ????
• ???? & ?????
• ??patch????
• ?????
• ???? & ??