林子雨编著《大数据技术原理与应用(第 3 版)》 课程思政
阿里推动 Flink 开源社区蓬勃发展
2019 年阿里巴巴集团以 亿美元(9000 万欧元)的价格收购了总部位于柏林的初
创公司 Data Artisans。由于 Data Artisans 拥有着一种代表当今大数据流处理引擎的前沿技术,
让阿里这一收购举动引起了相关业界不小的反响。尤其是,在阿里集团刚刚进行一次大规模
组织架构调整后,需要依靠更加智能化的云计算技术融合到阿里系更为多元化的发展格局中,
收购 Data Artisans 不失为面向新战略的一次有力布局。Data Artisans 手里握着一项当今大数
据流处理引擎为数不多的前沿技术,叫做 Flink。Flink 核心是一个流式的数据流执行引擎,
其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。企业依托 Flink
技术体系建立的大数据流处理引擎解决方案,可以更合理更快速地获得计算结果投入到企业
决策。
===============================
每年双十一时让我们在阿里总部盯着的那个大屏幕上显示实时成交数字,其背后就是依
赖 Flink 技术。那块屏幕显示的数字,需要通过巨大的网络流量汇总各个地方的报表、数据
库等的数据,并需要在毫秒级别的时间延迟之内进行计算,并将计算结果汇总为单一的视图,
即我们可以通过一块屏幕观察到的结果,这样的技术实现正是大数据流处理引擎技术在当今
成为 AI 时代顶梁柱的核心原因。据透露,目前阿里巴巴所有的业务,包括阿里巴巴所有子
公司都采用了基于 Flink 搭建的实时计算平台。可以说,一路下来,对 Flink 的投入,阿里
已经证明了自己在大数据计算领域的战略眼光。
===============================
随着 2020 年 11 月 11 日 12 点钟声的敲响,2020 年双 11 的 GMV 数字定格在了 4982 亿,
在 Flink 实时计算技术的驱动下全程保持了丝般顺滑滚动,基于 Flink 的阿里巴巴实时计算
平台也圆满完成了双 11 整体经济体的实时数据任务保障,再次平稳度过全年大考。
除了 GMV 媒体大屏之外,Flink 还支持了诸如搜索推荐实时机器学习,广告实时反作弊,
菜鸟订单状态实时跟踪反馈,云服务器的实时攻击探测以及大量基础设施的监控报警等等重
要业务。实时业务量和数据量每年都在大幅增长,2020 年的实时计算峰值达到了创纪录的每
秒 40 亿条记录,数据体量也达到了惊人的 7 TB 每秒,相当于一秒钟需要读完 500 万本《新
华字典》。实时计算作业数达到了 35000 多个,集群总计算规模也达到了超过 150 万核,在中
国乃至世界范围内都处于领先水平。至此,Flink 已经支持了阿里经济体所有的实时计算需求,
实现了全链路数据实时化,第一时间为消费者、商家以及运营人员带来了数据的价值。
===============================
阿里巴巴是国内最早选择 Flink 开源技术的公司,在 2015 年阿里的搜索推荐团队希望
面向未来 5-10 年的发展,选择一款新的大数据计算引擎,用来处理搜索推荐后台海量商品和
用户数据,由于电商行业对时效性具备非常高的诉求,因此团队希望新的计算引擎既有大规模
批处理能力,也具备毫秒级实时处理能力,即一款流批统一的引擎,当时 Spark 的生态已经走
向成熟,并且通过 Spark Streaming 提供了流批一体的计算能力,而 Flink 当时刚刚在前一年
成为 Apache 顶级项目,还是一个冉冉升起的新星项目,当时团队内部针对 Spark 和 Flink 经
过了一段时间的调研和讨论,一致认为虽然 Flink 当时生态并不成熟,但其基于流处理为核心
的架构对于流批一体的支持更加合适,因此非常迅速的做出决定,在阿里内部基于开源 Flink
进行完善和优化,搭建搜索推荐的实时计算平台。
经过团队一年的努力,基于 Flink 的搜索推荐实时计算平台成功的支持了 2016 年的搜
索双 11,保证了搜索推荐全链路实时化。通过在阿里最核心业务场景的落地证明,也让全集团
都认识了 Flink 实时计算引擎,并决定将全集团实时数据业务都将迁移到 Flink 实时计算平
台上。又经过一年的努力,Flink 在 2017 年双 11 不负众望,非常顺利地支持了全集团双 11
的实时数据业务,包括 GMV 大屏等最核心的数据业务场景。
林子雨编著《大数据技术原理与应用(第 3 版)》 课程思政
===============================
2018 年 Flink 开始走向云端,阿里云上推出了基于 Flink 的实时计算产品,旨在为广大
中小企业提供云计算服务。饮水思源,阿里巴巴不仅希望利用 Flink 技术解决自己业务的问
题,同样也希望能够推动 Flink 开源社区更快的发展,为开源技术社区做出更多贡献,因此阿
里巴巴在 2019 年初收购了 Flink 创始公司和团队 Ververica,开始投入更多资源在 Flink
生态和社区上。到了 2020 年,国内外主流科技公司几乎都已经选择了 Flink 作为其实时计
算解决方案,这时,Flink 已经成为大数据业界实时计算的事实标准。
Flink 坚持流批一体技术创新之路,也自然推动 Flink 开源社区的高速发展和生态的加
速繁荣。随着 Flink 在国内更多公司的加速落地,来自中文社区力量日益庞大,已经开始逐渐
超越国外成为主流。
首先最明显的是用户数量的增多,从今年 6 月份起,Flink 中文邮件列表的活跃度开始
超越英文邮件列表。随着大量的用户涌入 Flink 社区,也带来了更多的优秀代码贡献者,有效
的促进了 Flink 引擎的开发迭代。
自 版本以来,Flink 每个版本的 Contributor 数量都在提升,其中大多数都是来自
国内的各大企业。毫无疑问,来自国内的开发者和用户群体,已经逐渐成为推动 Flink 向前发
展的中坚力量。
中文社区的不断壮大,使得 Flink 整体的活跃度和 2019 年相比有增无减。在 Apache
软件基金会 2020 财年的报告中,Flink 蝉联了年度最活跃项目(通过 user+dev 邮件列表活
跃度)。与此同时,在代码 Commit 次数和 Github 主页流量这两项指标上,Flink 均排名第二。
能在 Apache 软件基金会接近 350 个 顶级项目中取得如此成绩,着实不易。
我们有理由相信,在阿里的强力支持和推动下,Flink 在将来势必会获得更加广阔的市
场空间。