2 3
写在前面...
《企业全面上云成功路径与实践》白皮书全文共7章约13万字,
力图全面覆盖企业全面上云旅程中的各个知识点和实践需求,为了方便读者阅读,我们在此统一作此说明。
首先
First of all
《企业全面上云成功路径与实践》白皮书与过去您读到的类似内容有何不同?
-全面覆盖企业上云7大关键议题,包括上云价值分析、上云障碍解决、上云决策落实、上云规划设计、上云
行动事件、云上管理与治理体系以及企业构建云原生架构的方法;
-企业成功上云所需的组织内部策略,上云并非简单地IT行动,它需要在组织内部形成共识并紧密协作,为此
我们特别设计了全面上云的成功框架和破除传统企业全面上云的障碍两章内容,帮助企业上云负责人完善组
织内部沟通协作策略;
-根植于上云实践的具有可操作性的内容,从上云价值分析、IT上云蓝图规划,到迁移上云、云上IT治理,都
来自于阿里云及合作伙伴的一线实践,白皮书不仅仅是指导性原则,丰富了大量经过实际场景和项目验证的
实操内容;
-完全本地化团队中文撰写,内容契合中国企业实践,作为一家中国云计算公司,我们深知内容来自于中国云
计算市场一线并完全由本土云计算专家撰写的重要性,因此,白皮书完全由本地化专业团队中文撰写,结合
中国企业上云特征和需求;
在每一章中您会读到哪些内容?
第一章《启动全面上云策略》:本章主要阐述企业全面上云战略的定义、必要性与价值,以及如果借助全面上云确保与消费者永
续连接,驱动企业IT从成本中心向服务中心转型,以及实现新“四化(云化、数据化、AIoT化和移动化)”,此外,我们将为您和
您的企业明确阿里云从全面上云到数字原生操作系统的战略愿景。
第二章《上云价值分析》:从业务、治理、平台、安全、运维、IT成本等企业核心视角,帮助上云负责人明确全面上云对企业内、
外部的价值,并以此清晰地向上云旅程相关方阐述其能够从上云旅程中获益以及如何获益,并在随后的工作中支持企业全面上云。
第三章《全面上云的成功框架》:这一成功框架的目标是帮助企业上云负责人通过一系列针对组织内部的策略及行动,向公司内
部清晰化上云的决策依据和推进流程,形成内部各团队、部门及中高层负责人对上云旅程的准确认知,并结合上云价值分析中的
获益情况,对上云负责人给予支持。
第四章《破除传统企业全面上云的障碍》:传统企业全面上云必然会面临阻碍,其中许多并非来自IT,而是来自于经济性、服务等
级、技能与组织,乃至数字资产及合规性要求,这一章筛选出常见的6个问题并给出来自实践的建议。
第五章《IT上云蓝图规划》:IT上云是企业全面上云的关键和基础,它将赋予IT前所未有的参与业务的“机遇”,因此完备的目标
评估、可行性分析和上云规划必不可少,这正是这一章的重点:来自于一线实践的内容,将为上云负责人提供IT上云前的完整筹备
“清 单 ”。
第六章《迁移上云与云上治理》:从IT迁移上云到云上IT治理、云上管理体系,本章在提供迁移上云的行动建议和实操指南之外,
帮助上云负责人在上云后持续优化、迭代云上的IT治理与管理体系,确保云上IT仍然能够与企业治理与管理体系及其要求保持一
致。
第七章《云原生》:云的时代需要新的技术架构,来帮助企业应用能够更好地利用云计算优势,让业务更敏捷、成本更低的同时
又可伸缩性更灵活,这正是云原生,这一章将帮助上云负责人继续企业全面上云的旅程,拥抱云原生架构,用技术加速创新,进
一步发挥企业上云的价值。
此次发布的《企业全面上云成功路径与实践》白皮书,只是万里长征的第一步,未来我们将继续修订、补充、迭代,以此为基础
为中国企业全面上云提供建议、分享经验,贡献绵薄之力。
其次
the second
4
5
01-297
目录
CONTENT
1. 复杂经济系统驱动企业全面上云
2. 启动全面上云战略
3. 以全面上云为起点,带动企业实现新“四化”
4. 从全面上云到数字原生操作系统,阿里云为企业和社会带来本质化改变
二、上云价值分析
业务视角
治理视角
平台视角
安全视角
运维视角
成本分析
三、全面上云的成功框架
全面上云战略的必要性认知
企业CEO的支持
全面上云优先战略
全面上云的TCO分析 开展上
云工作坊(Workshop) 选择
卓越的云合作伙伴
7. 组织变革与目标聚焦
8. 循序渐进的上云路线图(可供参考的流程图)
一、启动全面上云战略 09
09
12
19
21
27
27
35
39
45
49
54
61
61
62
63
65
66
67
69
70
73
73
78
81
83
84
86
95
95
99
106
145
145
178
206
265
265
270
273
275
279
286
四、破除传统企业全面上云的障碍
整体评估上云的经济性
确认核心云服务的SLA服务等级协议
从0到1,第一个上云项目
评估业务痛点与收集需求清单
清点数字资产与合规性要求
上云技能与组织就绪
五、IT上云蓝图规划
设定提升IT服务质量的目标
上云目标评估要素及可行性分析
上云规划
六、迁移上云与云上治理
迁移上云
云上IT治理
云上管理体系
七、云原生
云原生概述
云原生理念、技术
基础设施云原生化建设瓶颈分析
敏捷基础设施的构建与风险防控
阿里巴巴云原生架构设计
各个行业面临的挑战及解决方案
6 7
2 0 2 0 年 是不平凡的一年
我们看到了众多数字化创新不断的涌现,更看到以云为代表的数字基础设施在这一过程中发挥至关重要作用,在
云的支撑之下,资源有效调度、数据高速流动、应用便捷开发、系统快速上线,凸显过去10年阿里云及整个中国
云计算产业建设的丰硕成果。
可以说,2020年开启了一个“万物皆可云”的新时代。云以在线公共服务的方式,提供安全、可靠的计算和数
据处理能力,让计算和人工智能成为普惠科技,成为企业数字化转型的载体,乃至全社会数字化发展的基础。
但我们同样看到,在企业从信息化向云化迁移的过程中,“上云”仍非易事,在云上获得数字化、智能化的能力
仍有难度,他们需要一份来自于上云最佳实践、根植于上云成功路径的全面系统且具有可操作性的指导性“手
册”,但在过去,企业只能参考或缺少最佳实践、或翻译晦涩难懂、或仅有精炼框架的内容。
为此,阿里云研究中心牵头完成这一份《企业全面上云成功路径与实践》白皮书,以一份包含企业上云的成功框
架、实施指南和最佳实践的完整集合,帮助企业清晰上云价值、破除上云障碍、落实上云决策、设计上云规划、
实施上云行动并形成云上治理体系与创新。
更重要的是,在您所看到的这份白皮书中,蕴藏着阿里云自2009年成立以来,为200多个国家和地区的企业、开
发者和政府机构提供服务所积累下来的经验与实践。
在此,我们将之分享出来,希望能够帮助每一家企业加速上云,并拥有平滑、顺畅的上云旅程。
导语
St
or
ag
e
Cl
ou
d
Alibaba
8
9
Alibaba Cloud
经济系统变得越来越复杂,这种复杂来自于客户的个性化,来自于产品的复合化,来自于场景的多元化,来自
于供应链的复杂性等复杂因素。面对经济系统的复杂性,过往形成的传统IT架构以及基于这套架构所形成的解决之
道,越来越难以适应经济系统复杂性需求。响应的周期、成本、效率难以满足客户的需求。
基于传统IT架构的解决方案,核心是如何解决企业内部的资源和架构的管理问题,即使进行了面向内部资源的
优化,但最终的结果,往往是构建起一套封闭技术体系。
云计算与传统IT架构完全不同,它不再只是提供硬件+软件的解决方案,更多是提供一套以消费者为核心、以
服务为形式、以数字技术为手段的完整基础设施。
以云计算为基础,企业可以思考新的问题,即数字化转型,例如如何面向全局优化,实现与供应商等合作伙伴
以及客户的数据集成,构建面向全局乃至全产业链优化的开放技术体系,或是利用数字技术结合数据洞察,加速生
产、提高效率或是改善成本。
复杂经济系统驱动企业全面上云1
企业全面上云成功路径与实践
启动全面上云战略
1
主要阐述企业启动全面上云战略的定义、必要性,以及全面上云的未来愿景。
A
lib
ab
a
C
lo
ud
S
to
ra
ge
10 11
Alibaba Cloud
在当下,外部环境的诸多突发事件,在复杂经济系统之上,叠加了前所未有的紧迫性,数字化转型变成必选
项,它从原本的“增长轨道”被许多企业切换到“生存之道”,地位和价值产生了根本性的变化。从传统IT架构切
换到以云为基础的体系架构就变得更加重要。
因此,无论是为了面对经济系统的复杂性,还是推动企业数字化转型进程,企业构建以云计算为基础的解决方
案和新的技术体系成为必然,云计算不再仅仅是一个单纯的IT名词,而是一个企业生存、发展和转型的应对之道。
新消费、新经济是当前复杂经济系统中重要的、以数据为基础的代表,它们代表了算力和智能为手段的新阶
段,云计算所提供的极致算力和智能(算法),为数据价值的充分利用提供了可能,也因此成为新消费、新经济以
及数字经济的基础设施。
当我们把云计算看作一种基础设施和技术体系建构方式之后,云计算所提供的就不再只是常被提及的经济性和
快速响应。云计算为企业在新消费、新经济的市场环境下,提供了五项重要的价值:
第一,云为企业提供新技术和资源的供给。云计算既是数字经济的基础设施,提供算力、存储、网络等资源,
更重要的是提供了可靠易用的云平台、全局智能的大数据、云端一体的智联网和随时随地的移动协同,是以高经济
性提供新技术的平台。以阿里云为例,243个行业解决方案、37个行业通用方案,其中包含了大量前沿技术,并以
云服务的方式供给企业,极大的降低企业的新技术应用门槛。
第二,在云上企业能够更快连接合作伙伴与客户。随着数字经济转型进入深水期,越来越多的非互联网企业将
会选择全面上云,云计算的支出正在成为每一个公司的标配,使用云计算的能力,是企业基础能力的重要组成部分
和指标。这意味着,在互联网+传统产业的过程中,为了尽快与客户的业务系统、产品平台和技术体系接轨,企业
必须尽快上云。同时,在同一套云平台下建立起企业间的数据、技术和产品连接,简化系统架构和业务接口的复杂
性,要远比在物理IDC及封闭技术体系上更加简单迅速。
第三,云计算架构在经济学上更加经济。云计算是一种大规模分布式计算的模式,其推动力来自规模化所带来
的经济性。在这种模式下,一些抽象的、虚拟化的、可动态扩展和被管理的计算能力、存储、平台和服务汇聚成资
源池,通过按需交付给外部用户。
在云计算中,无论是基础设施、平台还是软件,都需要较高的初始固定投入,但是这一初始固定投入一旦建
成,就可以反复共用而极少耗损,从而利用分享基础设施、平台和软件来降低边际投入。
在用户侧,对于云上的企业来说,第一,由于云服务商的边际成本的降低,企业可以以更加经济的方式获得基
础设施;第二,企业个性化的每项增值业务,只要进行一个较低的边际投入,就可以展开广泛的服务,无须从头开
发基础设施、平台和软件;第三,新技术的采用具有不确定性但初始成本较高,云上则为用户提供了按需付费、以
租代买的方式,对降低企业的投资有较大的帮助。
第四,技术领先性降低了新技术采用门槛。IT技术发展的趋势一定是加速发展的,其速度要远远超过一般企业
IT基础设施迭代的速度,这意味着在下一个更新周期到来之前,企业需要持续为性能、效率和可用性逐渐落后的IT
基础设施付费,而竞争对手很可能在通过云上的技术红利获得更优质的IT资源和IT技术。
以AI领域当前炙手可热的GPU算力为例,从2018年9月到2020年5月,GPU单卡算力提升了大约7倍,在
特定场景下提升了11倍,8块GPU卡的AI超算系统的峰值算力可达10 PetaOPS。如果一家企业在2019年初投入
1000万用于采购GPU算力,那么现在这些算力的价格可能只是原来的几分之一。
第五,云的安全和可用性避免风险支出。2019年,CNCERT接到网络安全事件报告超过10万件,而随着“互
联网+”加速与产业融合,安全威胁从线上到线下,意味着企业面临着比以往更加复杂、规模更大的安全问题。
安全能力的滞后会在未来越来越多的造成风险支出的上升,2017年蠕虫式勒索病毒WannaCry在全球造成了超
过80亿美元的损失,这其中既包括雷诺、台积电等传统工业制造业企业,也包括互联网、信息技术领域的多家企业。
A
lib
ab
a
C
lo
ud
S
to
ra
ge
12 13
Alibaba Cloud
安全问题不仅仅是依靠技术和产品,安全团队的能力和安全防御经验实际上更为关键,只有足够的安全团队及
丰富的安全经验,才能够在物理安全、硬件安全、虚拟化安全、云平台内部身份和访问控制、云平台安全监控和运
营等方面进行了全方位安全设计和建设,而这些正是云服务商在努力构建的。
启动全面上云战略2
1 全面上云战略的定义与必要性
根据《2019中国企业数字转型指数研究》显示,中国企业在数字化转型方面成效显著的比例仅为9%,平均成
绩只有45分,数字化程度整体偏低。IT基础设施作为数据这一生产要素的产生、加工和价值挖掘的主要承载工具,
直接影响企业数字化进程,IT架构陈旧无力支撑上层应用的多元需求成为转型的一大瓶颈,形成诸多数字化转型中
的阻碍。
跨平台异构环境的数据难打通。由于历史原因,早期企业部门间的IT建设缺乏统一管理,应用需求差异较大且
开发时间不一致,导多个软硬件平台的信息系统同时运行。这些系统数据相互独立、隔离,应用间的数据天然割
裂。随着数字化进入到全新的发展阶段,构建数据驱动的精细化运营体系,需要打通组织内部的数据壁垒,实现生
产过程全链条的全量数据汇集,这也成为企业基础设施主要瓶颈。
高并发、不可预测访问需求承载力有限。随着互联网化的进程持续推进,互联网形态的业务日渐丰富。相比较
过去传统业务,企业业务具有更强的“在线”形态,在诸如抢购、秒杀、网促等场景下,要求IT架构能更好的支撑
高并发、高弹性的业务需求。而现有基础设施架构为应对可能存在的业务峰值,需要储备大量物理资源,造成了严
重的资源闲置,随时存在因不可预测流量冲击导致业务中断的风险。
快速响应用户需求变化,推动应用产品迭代更新是数字时代企业最有力的竞争手段,偏稳态的传统基础设施略
显乏力。
在数字技术支撑方面,传统基础设施对大数据、区块链、人工智能等新兴数字技术在算力支撑、统一服务编排
调度等方面的支持能力有限,难以构建基于数据驱动的交付流程,产品交付的效率大打折扣;
在应用开发方面,基于传统信息系统构建的业务应用,集成了多个业务逻辑,修改其中部分程序也需要对整个
程序进行重建和部署,阻碍了应用开发效率;
在运维管理模式方面,传统基础设施架构下企业将开发、IT运营和质量保障分三个各自独立的部门,软件开发
和部署涉及组织多部门间的联动合作,沟通协作成本较高,影响应用交付效率。
IDC《全球云计算IT基础设施市场预测报告》数据显示,2019年全球云上的IT基础设施占比超过传统数据中
心,成市场主导者,这意味着,云计算市场正在发生一场新的转变。
在过去十年的云计算发展中,企业上云经历了基础IT要素(硬件、软件、数据)上云、企业业务系统云上运
行、企业间云端互联三个阶段,随着数字化转型进程的加速,企业进入上云的第四个阶段:全面上云,即企业所有
业务都要迁移上云,并在此基础上围绕价值链实现与其他企业的云端互联,云平台功能从企业内部系统集成扩展到
产业链上下游企业间资源共享,业务协同,实现更高效的集成应用模式。
除了以上诸多因素,企业全面上云还存在着以下三点必要性:
首先,围绕云计算将建立新型技术体系,全面上云将享有“数字产业上下游技术升级”。以云计算为核心的
新型技术体系,将建立起完全不同于传统IT的全新架构体系,硬件从高性能单一系统转向大规模定制化、分布式平
台,中间基础软件转变为云操作系统、云原生软件,前端应用向软件即服务的模式转型。
A
lib
ab
a
C
lo
ud
S
to
ra
ge
14 15
Alibaba Cloud
新体系以分布式的极致性能和高可用性为基础,构建起超大规模、超高密度的数字基础设施,并以此驱动对底
层硬件(包括但不限于芯片、服务器、存储、网络等)和中间基础软件(包括但不限于数据库、中间件、操作系统
等)的重新设计,重塑整个数字经济的产业链和生态体系,因此,企业全面上云将享有“数字产业上下游技术升
级”,而不单纯是IT基础设施的改造升级。
其次,数字原生时代的应用与智能将以云为基础爆发,云及云上能力成为企业应对关键。数字原生的生产方式
正在推动各个产业升级,伴随数字原生时代到来的是应用大爆发、智能大爆发,以及企业用户的大爆发。据IDC预
测,到2023年,将有超过5亿个数字应用程序和服务使用云原生方式开发和部署,相当于过去40年开发的应用程序
总数。城市大脑、自动驾驶、科技抗疫、淘宝直播等数字原生的应用越来越广泛,任何传统IT基础设施都已经无法
满足数字原生大爆发的需求。
第三,经济增速放缓、市场竞争加剧,在相当长的一段时间内留给“从容上云”的窗口期将越来越少。随着人
口、资本和规模三大红利的消失,整体经济增速放缓已经成为事实,市场竞争在低增速背景下正逐渐加剧,在相当
长的一段时间内,企业的主要精力将放在生产与营销领域,通过新技术采用、新产品上市和新营销手段拉动企业业
务增长。
在云上的业务系统、前端应用乃至业务团队可以专注在商业模式和创新,逐步屏蔽底层的技术建设的需求,在
这一过程中为每个创新主体提供便捷、快速、智能的平台,实现数字原生的数智化建设方式,快速实现数字化应用
构建和部署,企业IT团队将聚焦于服务这些团队的需求,释放给传统IT基础设施的资源有限且不足,并很难在短期
内推动云下系统的上云旅程,“从容上云”的窗口期将越来越少。
2 全面上云确保与消费者永续连接
与消费者保持7x24小时的持续服务一直是全球化企业的重要战略,为此许多企业建立了横跨多个大洲的“ 日
不落式服务”呼叫中心,以某手机品牌为例,其呼叫中心遍及欧洲、美洲、亚洲、非洲,甚至在某些大洲按照一定
的时区间隔来配置呼叫中心站点,但这是一件成本高昂的建设:全球化部署的呼叫中心意味着规模庞大的基础设施
建设以及本地(大多数时候还包括多语种)人力资源储备。这是作为全球化企业必须要面对的挑战,但也让企业获
得了消费者的极大信任和依赖感,“无论何时、何地,总能够联系到客户服务”成为全球化企业的竞争优势之一。
现在,与消费者持续保持连接意义发生了改变,消费者不再将焦点全都放在是否存在7x24小时的呼叫中心,
而是更加关注企业的服务可用性,即是否能够随时随地的获得服务,并时刻关注服务状态和进程是否符合自己的需
要和预期,并由此延伸出一个新的需求:接触频次。正如电商网购消费者中的绝大部分客户都会频繁查询发货、物
流和配送状态,消费者希望获得永续连接,这种永续连接体现在持续的、高频次的接触上,消费者会持续不断的
“Ping”,一旦中断便会产生极大的忧虑。
在保持永续连接方面,数字经济时代有着天然的优势,新技术让数字互动更频繁、摩擦更少和充分定制化,因
此企业可以与消费者建立比以往任何时候都更紧密的联系。不可否认的是,数字化与新技术也加重了消费者对接触
频次的要求,因为这种接触的单次成本对于企业和消费者来说都比以往有着断崖式的下跌:外派平台只需要提供定
位信息,消费者则只需要点击一次刷新按钮。
以接触频次为代表的永续连接是一种全新的消费者连接方式,它高频次、双向低成本、以数字化和新技术作为
支撑,它实质上是一种高频次的数据提供按需服务方式,消费者通过网络和数据与企业保持永续连接,但这种连接
受到非常大的挑战,全面上云则是确保企业与消费者永续连接的重要支撑。
- 全面上云首先确保了系统持续可用、充分可靠。提高业务系统的可用性与可靠性是企业IT服务首要目标,但
在传统IT架构下,为了保证系统可用性与可靠性需要付出极大的成本建设1:1的冗余保障系统,而且一个节点的冗余
也无法完全保证数据与业务的万无一失。在云上确保系统可用性与可靠性不仅能够利用云平台本身的高可靠性获得
提升,云的弹性支持建立“不对等”的云上容灾、备份系统——可以从较小的规模进行建设,并在故障发生时快速
扩容。
A
lib
ab
a
C
lo
ud
S
to
ra
ge
16 17
Alibaba Cloud
- 全面上云避免因为地域、距离问题而降低服务水平。对全球化企业来说,几乎可以认为每时每刻都有消费者
在使用你的业务服务,这意味着无论是地域、距离还是网络等方面的差异,都不能也不应该成为降低服务水平的借
口。选择全球化服务的云服务商,企业全面上云意味着在全球范围内资源规格、服务水平、技术体系都几近统一的
云服务,并可以将业务在全球分布式部署,从而避免上述问题所导致的服务水平降低。
- 全面上云帮助企业每一项业务都拥有极致算力和高效智能。在数字原生时代,企业的每一项业务都将具备数
字化的端(无论是内部应用还是外部应用),这必然产生对算力和智能需求。为了更好的提供服务,云与端之间的
链路被逐渐打通,云持续向前端延伸,形成云端一体的全新形态。云端一体的融合模式为各种场景提供了最高效
能,最低延迟的解决方案,企业每一项应用都将获得云端极致的算力、大规模存储、高效智能、安全等服务,形成
数字经济基础设施的企业内普惠。
3 全面上云驱动企业IT从成本中心向服务中心转型
长期以来,企业IT被认为是企业的成本中心,即使是在强依赖IT基础设施的互联网企业,由于其成本范围最
广、成本费用发生占比较大、成本支出与业务增长之间关联性不强,以及往往因为业务压力存在持续的、高增长
的、高昂的硬件(固定成本)支出,企业IT仍然无法摆脱成本中心的角色定位。因此,企业IT存在只考虑成本费
用、只对可控成本承担责任、只对责任成本进行考核和控制的特点。其中,可控成本具备三个条件,即可以预计、
可以计量和可以控制。
在以计量和控制为导向的成本中心的角色定位下,企业IT往往会存在过度追求成本效益管理职能,并为了具象
化从而获得管理层认可,过度追求IT投入建设后企业所能获得的具体价值与收获,继而出现如下三类常见问题:
1、为支持重点业务,不断增加IT投入。
由于企业信息化时代的IT投入惯性,往往会在部分重点业务上进行资源上的重点投入,以期通过资本和资源红
利,帮助业务快速成长,实现高占比市场份额,并在持续高速增长中获得更多的资本投入,在这一过程中,企业IT
经常陷入“大力支持高增长的重点业务”的误区,为该业务配置或新购大量IT资源,甚至会发生超额配置、超期采
购的情况,一方面,忽略重点业务的数据洞察,另一方面,忽略IT投资回报率,造成IT资源的浪费;
2、过度计量导致IT资源紧张,无法支撑业务增速且新技术采纳度低。
在缩减成本、降低支出的需求下,企业往往会首先削减IT投入,并要求企业IT进行精细化、实时化和业务分账
制的计量,为了符合企业高层的要求,IT团队经常会过度计量,降低IT资源供给速度,以需求最小化的方式进行计
量,这会直接体现在减少硬件采购、减缓软件支出、避免新技术采纳等方面,过度管理受短期业务要求和需要驱动
的IT项目。此外,IT团队会为了成本导向放弃IT架构指导方针,这些违规行为通常会让IT运营更加复杂,进而增加
了长期成本。
3、过度追求投资回报率和业务流程,导致IT建设融合度低。
在企业的高速发展期,IT建设模式一般是以项目式的系统开发,即先由企业里的某个部门提出需求,然后通过
招投标确定IT系统建设单位,收集企业里的业务需求,制定开发计划、测试、上线、维护。由于这些IT建设都是以
单个部门或业务为导向的,必然会高度追求投资回报率。同时,IT团队为了保证自身责任的清晰,会高度追求业务
审批流程的准确性和完备性。这种模式下的系统建设,采用瀑布式开发,严格分级,各系统独立建设,缺乏数据共
享,会成为“烟囱式”的建设模式,出现大量独立的计算存储网络设备,资源利用率低,闲置严重,非常依赖容量
规划,并且新业务上线周期长。
为了解决上述问题, 企业IT必须快速向服务中心转型,这一转型过程应当与上云路径同步进行,逐渐从IT支持
角色转变为IT服务角色,逐渐从以IT技术为核心转变为以IT服务为核心,逐渐从以IT职能为中心转变为以IT服务流
程为中心,逐渐从费用分摊的成本中心模式转变为按服务级别收费的利润中心模式。
A
lib
ab
a
C
lo
ud
S
to
ra
ge
18 19
Alibaba Cloud
1、上云驱动了企业IT向服务中心转型,转型加深、加快上云进程。
与过去主要是企业自定义和自定价的面向服务架构(SOA)不同,云计算服务商已经将IT资源和能力服务化,
并提供极小颗粒度的配置方式,IT团队可以通过组合配置为内部业务部门提供服务,并建立内外部服务的对应关
系,减少从资源到服务的转换。此外,由于云的自动化和自服务特性,IT团队能够将一部分IT工作释放到需求部
门,减少大量日常繁杂的技术维护工作。随着IT团队向服务中心转型的加深,会进一步深化现有IT支持的上云进
程,从而实现高覆盖度的服务化IT。
2、上云与向服务中心转型实现服务成本的透明度与可信度。
使用云计算服务商所提供的云服务具有标准的公开定价和服务水平定义,具有更加清晰地成本支出定义和服务
等级协议,帮助企业IT从费用分摊的成本中心模式转变为按服务资源和级别收费的利润中心模式,从而维持云计算
服务长期目标的实现和业务运作良性保持,合理平衡资源,收益和风险之间的平衡,从而创造云计算的最佳价值和
长期可持续发展,使得云计算服务业务总体上得到有效的治理和管理,实现端到端的业务服务需求。
3、上云推动企业管理的改善、业务的提高,企业IT重要性随之提高。
在上云的过程中,降低和优化架构复杂性的综合评估势在必行,这将在多数领域发现重大的成本节约机会,可
以帮助企业发现大量未使用或重复的应用,重复配置或闲置的资源,以及可供整合的子架构。由于云上服务的按需
配置、按量付费,IT团队可以采用可预测性模式和探索性模式来支持业务需要,并通过流程自动化提高业务团队的
IT配置自动化、自主化,从而推动企业管理的改善、业务的提高,企业IT重要性随之提高。
此外,IT团队可以应用具体形象直观的数字来描述IT系统投入建设后改善多少管理状况,给公司市场带来多大
的成长,产出是否大于投入等,从而取得高管层充分的认可与支持。让高管层认识到IT部门不只是专业技术部门,
也是一个创收、迸发经济价值的利润中心。
4、企业IT向服务中心转型没有终点,IT团队调整势在必行。
随着上云和向服务中心转型的进程加深,原本复杂、冗长、占用大量时间和资源的IT运维工作压力必然会持续
下降,这意味着将有一定程度上的人力资源空闲。IT团队终于有机会将更多精力聚焦在业务上,而不是基础设施
上,IT团队的积极主动调整将变得尤为重要。
在对团队成员进行精确细分的基础上,IT团队的调整有可以考虑如下方向:属于开发型的成员,可以支持其连
接业务团队,持续推动DevOps,加深与业务团队的合作,甚至可以选择双线汇报;属于传统运维型的成员,应当
鼓励其持续提高IT运维效率,尝试AIOps等新技术;属于复合型的成员,建以优化流程、计量、分账方式为主要方
向,进一步提高上云后的IT团队价值测算。
以全面上云为起点,带动企业实现新“四化”3
在数字经济时代,以大数据,云计算,人工智能,5G,物联网,区块链等新一代信息技术,将构建起支持整
个“数字中国”的技术底座,这就是数字基础设施,也就是信息时代里像工业时代高铁和高速公路一样的基础设
施,它是企业竞争力的基本能力,体现以数据为关键要素的算力、算法、数据为基础的特点。
未来十年是数字基础设施的安装期。数字基础设施的共同目标,以服务大多数企业和消费者为基础,并不断深
化产业数字化的服务,而构建数字基础设施,需要对现有的信息技术基础设施的“四化”。
全面上云即企业IT基础设施的云化。以可靠易用的云为基础,实现IT基础设施的端到端的云化,就像当年工厂
自主发电转变成完整的电网电力供应的电力变革一样,让大多数的企业不需要自己去构建数字经济时代最重要的算
力基础设施,在云端获得可靠的IT资源、可靠的算力,而且具有很高的经济性。
A
lib
ab
a
C
lo
ud
S
to
ra
ge
20 21
Alibaba Cloud
云化为企业提供五项关键的能力,即数据能力、(资源)调度能力、安全能力、大规模实践和开放的生态,解
决企业在数字化转型过程中所面临的传统IT基础设施分散、复杂、昂贵、缓慢和不稳定的情况,向供应电力一样,
供应数字经济时代最重要的算力。
第二是数据化,构建全局智能的大数据。企业一直面临充分利用海量数据的压力,数据需要被有效利用、有效
的被计算,但在过去,企业没有能力去处理这些海量数据,现在,企业通过强大的云计算平台加上高效算法,能够
进一步挖掘数据价值,最大化数据效率,再通过清晰、直接的方式展现给企业的管理者、运营者,形成数据对企业
运营、管理的正向循环。
第三是AIoT化,数据不是凭空创造的,更不是自动获得的,我们怎么建立与物理世界的连接和在线化?包括
工业、农业、交通运输业等等,这个需要新的支撑,即AIoT。正是因为有了AIoT,我们可以连接物理世界的数
据,各种不同维度、越来越细的颗粒度,更重要的是还可以反馈去控制这个世界。
与简单的连接物理设备为主的IoT不同,AIoT把原来离散的设备变成数据的输入端的同时,也让它们变成了在
线的智能设备,像停车位、窨井盖、路灯、滴灌系统、生产设备全部在线化,能够自动连接到云上,形成云-端一
体的数据流动、智能协同、高效管理、安全管控和全局资源调度。
最后是移动化,移动化已经深刻影响了消费领域,中国现在有亿互联网用户,有亿用户使用在线政务
服务,但移动化并不仅仅是在线生活、在线社交,更是在线协同与在线办公、组织管理、高效系统和业务创新,并
且沉淀下宝贵的企业数据,更重要的是全过程跨越了时间、地域、系统和移动性的阻碍。
企业在全面上云旅程中,用云逐步替代传统的IT基础设施系统,实现弹性计算、分布式处理、大规模存储计
算、还有安全的能力,增强资源调度能力;用云上数据中台、大数据平台等帮助企业数据化,让企业通过数据的采
集、清洗、归档、分析数据的同时,实现数据在感知、分析与预测方面的能力建设;云上的AIoT能力借助IoT设备
和AI能力服务于企业来感知、认知和决策能力的提升。
最终,企业以全面上云为起点,数据与云深度融合、AIoT与云构建云端一体、云为移动化提供坚实的数字底
座,带动企业实现新 “四化 ”。
在信息化时代,企业利用IT技术实现业务的信息化,结合业务咨询,企业实现了一定程度上的流程优化与再
造,并以传统IT基础设施为基础,建立起ERP、CRM等信息系统。
为了持续满足业务增长所带来的系统压力,传统信息化系统通过持续堆叠性能更高的硬件,如CPU、SSD
等,提升系统性能,改善服务质量,但这也让系统不断变得更复杂、更昂贵,迭代速度也越来越慢,这被称为纵向
扩展(Scale Up)。
当互联网服务这一全新的、以指数级提升性能和资源需求的服务形态出现,用户分布式系统以横向扩展
(Scale Out)的方式取代传统信息系统成为必然,可以说,如果没有分布式系统,时至今日就不可能有互联网行
业的飞速发展,更不会有互联网应用的大爆炸。
云服务商以分布式技术为基础,结合资源管控、调度,以及将其产品化和服务化输出能力,诞生了最初始的云
计算的概念,并经过十余年的发展,在云操作系统(如阿里云的“飞天”操作系统)的基础上,成功解决了资源云
化问题,形成了包括算力、存储、网络和安全等在内的云计算服务,并支持企业实现“四化”。
从全面上云到数字原生操作系统,阿里云 为企业和社会带来
本质化改变
4
1 全面上云战略的定义与必要性
A
lib
ab
a
C
lo
ud
S
to
ra
ge
22 23
Alibaba Cloud
云计算突破了IT基础设施的物理限制,将算力等资源变成公共服务,这是一次体系性的跃迁,基于云的体系架
构屏蔽了大量的底层技术细节,让用户可以通过服务调用的方式调用底层计算资源,从而比信息化时代降低了用户
的使用门槛。
以阿里云为例,在为企业的数智化需求提供服务的过程中,用云逐步替代传统的IT基础设施系统,实现了弹性
计算、分布式处理、大规模存储计算以及安全服务;用云上数据中台、大数据平台等帮助企业通过数据的采集、清
洗、归档、分析数据的同时,实现数据在感知、分析与预测方面的能力建设;云上钉钉则帮助各个机构能够根据用
户的使用习惯和需求进行移动协同的建设;云上IoT能力和AI能力服务于企业感知、认知和决策能力的提升。
过去几年,很多大中型企业已经通过上述举措实现了数智化项目的试点与探索。然而,当前外部环境的变化让
数字化进程大大加速,很多企业缺少应对数智化需求暴增的开发和服务能力,尤其是大量业务用户的应用需求和大
规模用户协作的需求无法得到满足。
为此,云服务商正在为企业提供更加完整的云平台,让云不仅与企业业务形成有效支撑、有机融合,更在屏蔽
硬件复杂性的同时,更进一步,通过软件的组件化,提升软件开发效率,进而为企业应用开发提供一个新型平台。
不仅如此,许多企业都拥有数量繁多的应用,超过1000个应用的企业同样屡见不鲜,但过去企业应用的构建
时
垂直烟囱式的方式,不仅构建过程中没有很好的组件式方法和资源复用,数据连接、应用互联、流程交互等方面更
是难以解决,也正因为如此,许多企业根本无暇考虑IT基础设施的云化或是数字化、智能化,仅仅是处理复杂的应
很显然,为了更好地实践“云钉一体”,推动云端一体,现有的云计算产品形态和服务能力已经难以满足需
要,需要一个基于云,其上具备移动协同、数据智能的、IoT的一体化能力的操作系统。
以阿里云为例,这个操作系统以钉钉、数据中台、业务中台、AIoT中台为核心,为每个创新主体提供数字原
用体系就已经戳捉襟见肘。
阿里云提出“云钉一体(云服务+钉钉)”的目标,即是为那些并非IT技术出身的企业用户提供更为简单易用
的云计算服务,就像当年Windows为计算机普及提供了一个普世的操作界面,帮助企业基于“云钉一体”的基础
设施更容易的开发企业应用,随着“云钉一体”为开发者提供更便捷、简易的应用开发环境,将极大地扩充企业乃
至整个生态中可使用的应用数量,也就是产品数量。
因此,“云钉一体”将在提升企业移动协同水平的基础上,让企业应用开发变得更加敏捷和一体化,形成整体
融通、全局最优的应用体系,并基于敏捷性而提升试错、迭代的速度,加速企业创新,从而帮助企业在数字经济时
代保持充足的活力。
与此同时,云端一体则让万物皆有算力。云端一体,即云和端的融合,一方面,为PC端、移动端等端提供晕
的能力,让端具有云端极致的算力、大规模存储、高度安全的能力;另一方面,即让部分边缘计算的端,在边缘侧
提供全栈云计算产品和服务,通过与云进行协同,提供低延时的服务和降低对网络的消耗,以及IoT设备通过智能
化的技术,实现数据的处理和采集,并将数据上传到云上进行大规模的计算。
云端一体的融合模式为各种场景提供了最高效能,最低延迟的解决方案,云将和各种各样新型的端,包括IoT
的端、IT的端,包括其他新兴的端来组成新的云端一体,真正让全社会都能够获得以及发挥数字化、智能化的能
2 云钉一体,让应用开发更容易
以云为基础,结合云上的数字化、智能化、中台化和移动化的能力,跨越传统软件工程中的将功能代码作为组
件的“传统组件化”,将能力视作组件,重新定义软件应用的开发方式,帮助企业在建立任何种类的软件应用时可
以快速构建,是云在突破IT基础设施的物理限制之后,进入到企业应用开发领域的新使命。
力,让万物皆有算力。
3 阿里云:飞天云平台+数字原生操作系统
A
lib
ab
a
C
lo
ud
S
to
ra
ge
24 25
Alibaba Cloud
生的数智化建设方式,填补底层算力与数智创新之间的技术鸿沟,它将为每个创新主体提供便捷、快速、智能的平
台,这个操作系统将让应用开发变得非常简单,让不会写代码的人也能用低代码开发与应用平台搭建自身所需的操
作系统,快速实现数字化应用构建和部署。
企业可以通过这一数字原生操作系统直接调用数据、智能、应用和端的能力,专注在商业模式和创新,逐步屏
蔽底层的技术建设的需求,只要通过操作系统就可以调用各种能力。
阿里云飞天云平台和数字原生操作系统将共同组成阿里云,由狭义的云计算平台,成为一个为企业数字原
生需求服务的复合型平台,在解决算力等云需求的基础上,把人工智能、移动协同、AIoT、数据与业务流程管理、
应用开发等能力进行封装,让上层应用可以直接调用各类能力,普惠每个组织,进一步释放全社会数字化、智能化
的创新能力,特别是让中小微企业参与到数字化中,让原来用不起来云的机构,都能得到即开即用的云。
阿里云将实现更强大的平台和组织间的协作,既改变了云的使用方式,也改变了企业开发应用的方式,让
云可以向水电煤一样,普及到更多的企业,更多的人,更多的系统中去。
因此,阿里云所提出的全面上云,并非简单的“全站上云”或是IT基础设施的迭代,它将是把未来的信息系统
变成一个智能化的、面向未来的数据智能、移动化的新型系统的起点,从全面上云开始,结合数字原生操作系统,
为企业和社会带来本质化改变。
St
or
ag
e
Cl
ou
d
Alibaba
2
6
27
Alibaba Cloud
企业在价值创造和价值变现的发展过程中,IT基础架构数字化转型主要的矛盾体现在需求与供给上严重不匹
配,无法有效应对业务能力全面提升、数字化运营、数字化业务发展的挑战。
首先,如何通过新的业务模式、新的产品影响乃至颠覆当前行业市场?在市场洞察的基础上,如何快速进入新
市场并保有当前市场份额?
我们从企业决策层的视角看,企业的关键举措需要最大化股东价值,提升业务敏捷度,以企业战略优势为目
标,优化企业投资,全面优化企业运营效能。企业数字化转型要帮助CEO在市场洞察的基础上,快速拓展新业
务,进入新市场并保有当前市场份额;能够提升企业创新效能,紧贴市场需求,及时发布新产品与新服务;提高业
务敏捷度,使得业务运营与市场反馈相匹配,使服务与产品更快面向市场。
企业数字化转型要帮助COO提升由数据驱动的企业洞察力,使得运营有效性提升,更好推动产品与服务设计
过程,使业务运营匹配企业战略;设计全新的企业产品与服务,推动市场需求挖掘,深入理解市场,并迅速响应新
业务视角1
企业全面上云成功路径与实践
上云价值分析
2
从业务、治理、平台、安全、运维、IT 成本等企业核心视角出发的上云价值分析
A
lib
ab
a
C
lo
ud
S
to
ra
ge
28 29
Alibaba Cloud
兴市场的需求;通过“服务化”模式,降低运营成本,结合数据分析结果,获取更多运营洞察。
企业数字化转型要帮助CHO在人事计划范围内,及时获得优秀人才资源,优化人才结构,提高人员效能,打
造多方共赢的团队文化,打造主动学习的能力与氛围,为员工、团队、企业文化的成长提供更加深入的洞察。
其次,随着新技术的高速发展,企业如何从中获益,如何快速使用新技术,为业务创造价值,如何将技术与业
务进行深度融合?
企业全面上云能够促进IT支持业务开展效能,建立并保持企业技术远景洞察力,能够帮助CIO通过IT基础架构
数字化转型全面提升企业IT治理水平,降低IT治理成本。为企业提供业务快速开展、产品与服务交付的IT支持,更
好地支持业务目标达成,包括:促进业务敏捷性,加强IT资产与企业数据安全性,提升IT效能与生产力,优化对业
务的支持水平。
企业全面上云能够帮助CTO明确技术发展方向,企业如何从新技术中获益,为更多新技术的应用提供基础保
障;企业如何将技术与业务进行深度融合,帮助企业更加快速有效地跟进技术发展趋势;企业如何降低成本支出,
提升技术产出效能,通过新技术,快速开发可落地的实际企业应用。
企业全面上云能够帮助CDO巩固数据质量,保证数据来源的统一性、可靠性,为业务开展提供更好的洞察能
力,助力企业决策;提供尖端的数据库技术与数据接入工具,推动业务精益化并提供更好的数据管控与数据治理方
法;将机器学习过程融入当前已有的企业分析能力中,为决策者、核心业务流程提供更优质的数据获取方式。
再次,面对不确定的信息安全威胁,如何及时更新升级企业现有安全服务,建立安全防护策略,由被动型向预
测性安全感知模式演变?
企业全面上云能够帮助CSO建立立体多维度的安全防护体系,实现IT基础架构安全管控全面升级,规避潜在安
全隐患,建立安全防护策略,由被动型向预测性安全感知模式演变,及时更新升级企业现有安全服务,以最小的成
本代价,降低企业安全风险。借助大数据分析与机器学习手段,高效管理并监控企业风险,对企业的全局风险增进
识别能力,识别可能存在的风险,以及对企业潜在的影响,当达到安全风险阈值时,主动提示业务风险管理部门。
最后,企业业务主要的痛点与难点是如何聚焦在业务创新本身,如何使用最小的成本,最快的速度,在架构、
技术、安全上进行全面提升,在数字化转型过程中,“给飞行中的飞机换引擎”。
云时代的到来,影响到企业运营的方方面面,越来越多新的产品形态和商业模式变为可能,身处云时代的企业
领导者,都会受到深远影响。我们看到越来越多的企业正在使用云计算服务,享受云计算带来的业务变革和技术提
升的红利。云计算已经不仅仅是作为基础应用,它带来了“一切即服务”的蓝海,使得任何IT能力都可以变成基于
云的服务供企业使用。不断开拓新的市场,创造新的价值,满足新的需求。
过去十年来,全球企业在数字化转型方面进行了大量投资,数字化转型是增长最快的技术/服务集群之一。IDC
预测,到2023年,数字化转型将占全球信息化支出的一半以上。这意味着企业在数字化转型上的投资将有史以来
第一次超过在所有其他ICT项目上的投资总和。数字化技术在金融服务、制造业、零售业、交通运输等垂直行业取
得长足发展,数字化转型迅速成熟。其他垂直企业也正在取得更有意义的进展。无论他们处于何种状态,所有的行
业/垂直行业都在将数字技术整合到他们的业务流程中并不断重塑,以提供非凡的价值。
云计算是这一转型旅程必不可少的第一步,数字化转型中的战略、业务目标及挑战,企业可以由通过构建云能
力堆栈实现并带来收益,进一步攫取市场份额并保有当前市场地位,全面推动业务转型,快速拓展新业务,进入新
市场,提升企业创新效能,提高业务敏捷度,使服务与产品更快面向市场,为企业建立新的差异化竞争优势。
云计算对业务的支撑可以体现在如下四方面:
1 业务支撑
A
lib
ab
a
C
lo
ud
S
to
ra
ge
30 31
Alibaba Cloud
业务创新: 通过IT转型引领变革,带领业务创新实现增收。
在业务创新领域,企业通常会面对以下挑战:
云计算将从以下方面应对挑战:
云计算将从以下方面应对挑战:
· 利用云平台资源管理和高可用功能,减少计划内和计划外的停机时间。
· 利用云平台的高可用特性,优化灾备方案,提升应用高可用的能力,提升SLA水平。
· 优化核心资产的管理与部署,更好的保护企业无形资产。
· 利用云平台的监控与展示能力,统一管理混合云环境,并根据利用率及运行状态实现资源的灵活调配与故障
及时处理。
云计算将从以下方面应对挑战:
· 利用云计算的弹性和灵活,根据业务负载大小周期,动态调整业务场景的使用资源,保证业务场景的响应速
度,从而提升IT用户感受和满意度。
· 利用云计算统一资源治理架构,优化流程,自动化过程环节,缩短资源分配的周期,提升业务部门的满意度。
保障质量:转型后的IT确保应用系统稳定易维,安全合规。
在系统运维领域,企业通常会面对以下挑战:
优化成本: IT转型后降本增效,构建服务生态。
在成本控制领域,企业通常会面对以下挑战:
提升效率:转型后的IT提升产品交付速度,缩短交付周期。
在交付领域,企业通常会面对以下挑战:
· 如何支撑应用从传统架构向云计算架构转型;
· 如何支撑数据驱动的业务创新;
· 如何支撑混合云战略,避免出现影子IT(未被IT部门授权或批准的员工或团队使用的硬件或软件服务)现象;
· 云计算将支撑稳态与敏态双模应用。在此基础上,通过云计算环境实现应用的快速部署,为业务部门和开发
人员提供可靠一致,标准化的开发和测试环境。
· 通过云平台的服务包装能力,将数据服务能力包装成为IaaS、PaaS或SaaS服务。
· 通过云计算的混合云管理能力,实现混合资源统一管理。
· 如何提升关键应用场景的可用性和安全性;
· 如何优化灾备系统,扩大灾备覆盖范围;
· 如何快速发现问题,隔离问题;
· 如何提高资源利用率;
· 如何降低基础架构运维成本;
· 如何降低服务成本;
· 如何以服务的形式为业务部门提供更好的运行环境;
· 如何提升业务部门和开发人员使用基础资源和工具的感受和满意度;
A
lib
ab
a
C
lo
ud
S
to
ra
ge
32 33
Alibaba Cloud
2 服务目录
建设目标
服务目录的主要目的是为所有约定的IT服务提供一个一致信息源和建立其它服务管理组成的基础。本质上,它清
晰地定义了业务、研发部门从IT组织可得到的服务列表,以及按商业目标和需求定义的服务内容。服务目录在设计
之初,通常具备如下三点目标:
建设步骤
服务目录的主要目的是为所有约定的IT服务提供一个一致信息源和建立其它服务管理组成的基础。本质上,它清
晰地定义了业务、研发部门从IT组织可得到服务列表和按商业目标和需求定义服务内容。服务目录在设计之初,通
常具备如下三点目标:
建设意义
设计并实现服务目录,通过以上目标的制定,可带来如下的价值:
重点考虑内容
服务目录在设计时需要重点考虑的因素包括以下四点:
· 建立统一服务列表,其中包含服务的业务描述以及服务的申请方法;
· 提供计费计量方式及相应的服务级别;
· 一个覆盖云服务及产品全部服务请求的独立、综合的信息。
· 用户能够充分了解可供自己使用的服务以及如何申请这个服务;
· 用户在对服务有所了解的情况下,能够做出合理的决定;
· 辅助管理客户期望;
· 简化服务订购。
· 服务定义;
· 费用;
· SLA(服务等级协议);
· 如何订购。
· 服务定义:描述服务的详细信息、功能、优点、价值等信息,为服务请求者提供服务及组件的成本、计费等
信息;
· 自助门户:协同门户,实现跨项目、跨组织、跨部门的团队协同;
· 目录视图:提供业务服务目录及技术服务目录视图;
· 系统开发生命周期SDLC:通过系统开发生命周期(或DevOps支撑平台、技术库等)定义关键集成点及流
程,以支撑实现业务需求;
云计算将从以下方面应对挑战:
· 通过云计算技术整合现有资源,实现基础架构的模块化与标准化,提高资源利益率,降低运营成本。
· 通过云平台实现更精准的资源配置,提升效率,降低成本。
· 扩大自动化覆盖面,将运维人员从传统的重复劳动中释放,投入到高价值工作中,降低运营成本。
· 结合现有资产,合理规划与利旧,实现物尽其用。
A
lib
ab
a
C
lo
ud
S
to
ra
ge
34 35
Alibaba Cloud
1 IT治理现状
3 业务视角的上云价值
在传统的业务战略模型中,IT的通常扮演支撑角色。云计算的兴起,技术正在重新定位并越来越在战略决策中
扮演重要的角色,信息技术主要提供的不再是支撑能力,而是创造能力。云计算正逐渐帮助企业提炼信息技术现代
化能力,构建企业数字化核心技术体系,成为实现IT供给侧结构性改革的“新基石”。同时,不断构建完善高效敏
捷的数字化运营体系,强化“技术应用”与“业务战略”的不断融合,重塑 IT来实现管控效率提升,帮助企业迅速
回应技术对市场的影响以及相关业务挑战,成为企业发展战略的“新引擎”。
通过云计算重新构建企业IT信息化建设概念体系和运营模式的主要工作包括:
IT治理是公司治理的一部分(如下图*),是通过明确IT决策归属和责任承担机制,确保IT促进企业发展,并管
理与IT相关的风险。在IT治理的框架下,企业IT组织实施各项IT管理工作,除了架构管理外,还包括开发管理、测
试管理、质量管理、版本管理、生产运行管理、安全管理等组成部分。IT治理的水平影响的是企业IT的质量,架构
的质量、模型的质量、数据的质量,当然最终也影响业务的质量。
作为构建云计算的主体,企业云管理部门的终极使命是打破IT内部的壁垒,打破IT与业务的壁垒,用最快的时
间,最低的成本,最好的质量来实现业务的任意需求,创造业务新场景,最终支持企业转型为融合业务与技术的
“数字定义 ”生态圈经营体。
云的建设过程,是效率革命的过程,也是技术、组织、流程多方面适配业务变革的过程,赋予IT前所未有的参
与业务的 “机遇 ”。
· 确定企业全面上云战略,推动IT基础架构数字化转型;
· 通过云战略愿景、组织影响、财务影响、技术架构、安全、风险与合规等多个维度的结构化模型和经过验证
的方法,规划有效和实用的云战略,建立一套完整的云战略指导原则,确定云能提供的价值,保证整体云战
略与业务需求相匹配;
· 对现有资源进行进一步优化整合,确定上云路线图,优化人力配备,提升资产利用率与运营效率;
· 实施上云战略,通过云上服务目录和服务编排设计,实现IT基础架构的标准化与服务化,能够支持业务的发
展,实现应用层IT资源的灵活调度;
· 对应用/数据充分保护、统一管理,提供便捷、安全的业务体验,为打通全价值链及新业务运营保驾护航。
治理视角2
· 需求管理:灵活度量及监控服务需求以确保能力能够满足服务等级协议;
· 服务等级协议SLA:服务等级协议包含在服务定义中,SLA提供围绕各层级服务的可用性及关联费用详细
信息;
· 安全:包括提供基于角色的访问控制、单点登录、数据安全等功能;
· 服务计量计费:实现基于消费模式的业务使用计费模型,提供IT服务计量和计费功能,服务目录可以通过调
整消费行为管理IT成本;
· 服务管理:提供围绕服务设计、实施及运维的支撑流程以实现对服务的评价和监控服务的效率和性能。
A
lib
ab
a
C
lo
ud
S
to
ra
ge
36 37
Alibaba Cloud
公司治理
为确定组织目标和确保目标实现的绩效监控所提供的治理结构。
IT治理
在IT应用过程中,为鼓励期望行为而明确的决策权归属和责任担当框架。
IT管理
IT应用的执行管理,包括计划、实施、运营和监控优化等流程。
*来自《IT治理:一流绩效企业的IT治理之道》
2 企业IT治理所遇到的挑战
IT主要关注企业的IT投资是否与战略目标相一致,从而构筑必要的核心竞争力。IT治理要能体现未来信息技术
与未来企业组织的战略集成,要尽可能地保持开放性和长远性,以确保系统的稳定性和延续性。通过IT治理方面的
制度安排,能有效地推动IT战略与业务战略融合,提高IT投资回报率,降低IT风险。但同时,企业IT治理也面临着
诸多挑战:
账号与权限的风险
资源配置风险
成本管控的风险
安全风险
网络风险
· 未经授权的访问
· 本地账号依赖(对于本地的账号依赖不利于业务的扩展)
· 多租户多账号导致的管理复杂度
· 无法与外部合作伙伴共享资源(传统的身份验证机制或第三方多重身份验证可能不适用资源共享)
· 资源浪费
· 资源预配不足
· 管理效率低下
· 业务中断
· 预算控制
· 利用率损失
· 支出异常
· 过度预配资产
· 数据泄露或丢失
· 服务中断
· 不必要的网络成本
· 网络管理效率低下
· 业务中断
A
lib
ab
a
C
lo
ud
S
to
ra
ge
38 39
Alibaba Cloud
关注效能优化治理模式。
综上,通过业务上云,传统的IT治理转化为云治理。后者将大大减少企业对系统运维、IT消费数量、资源/服务
提供商等方面的治理工作,使得企业更关注于业务和组织的持续治理及优化本身。因此,我们认为云治理是IT治理
的进化形态。
分散雏形阶段的特点是:缺乏规划,分割管理、摸索建设。数据中心的建设往往就地取材,没有规划,专业性
不强;IT组织以建设任务为导向,常常随IT项目建设边使用边改造;运维专业化程度处于较低的水平,缺乏专门的
管理目标和管理手段。
企业对于IT资源的管理,在过去的二十年中,走过了从离散的雏形,到数据集中处理,到云数据中心三个阶段
(如下图)。
平台视角3
1 资源管理
项目一
开发
应用维护
系统维护
项目二
开发
应用维护
系统维护
项目三
开发
应用维护
系统维护
机房环境与网络
分散雏形阶段 云下数据中心/IDC
故障
管理
发布
变更
监控
管理
日常
作业
服务
请求
…
服务
请求
生产中心
客 户 服 务 与 运 行
应 用 维 护 和 监 控
系 统 与 平 台 软 件
网 络 与 安 全 管 理
机房环境与设备
灾备中心
系 统 与 平 台 软
件 网 络 与 安 全
管 理 机 房 环 境
与设备
统一运行监控 统一资源管理
机房 -AZI 机房 -AZII 机房 -AZIII 机房 -AZIV
故障
管理
发布
变更
监控
管理
日常
作业
服务
请求
…
服务
请求
云数据中心
云环境
云服务管理中心
企业IT治理的复杂度通常取决于如下几方面:
· 企业组织架构:如治理机构(如IT治理委员会等)的设置和权限的划分,组织内机构职权的分配以及各机构
间的相互协调;
· 管理成熟度:企业公司治理的成熟度是否足以支撑IT治理;
· 企业运维人员数量;
· IT消费数量:包括软/硬件,人工,以及第三方服务消费;
· 资源/服务提供商数量;
可见,在传统的IT格局下,企业规模越大,业务流程越复杂,IT治理的复杂度也会大大增加。如今,通过业务
上云,传统的IT治理转化为云治理,企业可以大大简化IT治理复杂度,加速IT治理过程。
企业业务上云通常分为项目试点、构建基础架构、应用迁移、持续治理四个阶段。
在项目试点阶段,主要工作包括评估云计算的收益,采用公共云解决特定的业务问题(例如电商、大数据、物
联网等)。此阶段无需治理;
在构建基础架构阶段,主要工作包括把公共云作为企业数据中心的延伸,建立可扩展的云安全、合规、运营体
系,并迁移少量应用系统作为试点。在此阶段,云治理主要关注访问控制和资源管理的轻量级治理模式;
在应用迁移阶段,主要工作包括做好在云上长期运营 IT 的准备,迁移现有应用到云(包括关键业务应用,甚
至整个数据中心)。在此阶段,云治理主要关注基于组织架构的企业级IT治理模式;
在持续治理阶段,企业开始注重优化业务模型和技术流程,云成为 IT 建设的默认项。在此阶段,云治理主要
3 治理视角的上云价值
A
lib
ab
a
C
lo
ud
S
to
ra
ge
40 41
Alibaba Cloud
云下数据中心(IDC)阶段的特点是: 整体规划,专业运维。数据集中存储、处理,应用和业务集中化;建设
依托有效规划,更加现代化,大规模数据中心引入“两地三中心”模式。引入运维流程框架,通过流程实现跨部门
的运维任务在各个专业部门之间的贯穿和协同。缺点是应用与基础架构耦合严重,不利于业务的快速增长和变革。
云计算阶段的特点是:应用与基础设施松耦合,资源服务化。公共云在逻辑上成为一个整体,要求运维组织不
再按照专业领域进行部门划分,而是按照云服务商设置划分。公共云“高可用性”有了基础级保障,运行维护工作
核心开始围绕服务和资源的合理提供、监管和调度。公共云还可以提供一体化的底层计算网络存储的资源管理(专
有云/公共云资源管理;裸金属服务器资源管理;计算资源管理;网络资源管理;存储资源管理,异构虚拟化平台管
理),如下图。
云运维
统一认证、单点登录、租户管理、运维分析、系统管理
网络 裸金属服务器 异构虚拟化资源 存储 计算资源
监控
基础资源监控
Mon i to r
应用性能监控
A P M
用户体验监测
C M D B
数据
配 置 维 护
配 置 发 现
配置建模
自动化
故障自愈
合 规 检 查
系 统 巡 检
系统部署
流程
服务目录
问题管理
知识库
服务台
事件管理
变更管理
流程引擎
除了资源管理,企业基于云平台还可以实现多种IT服务流程。
DevOps与应用生命周期管理
通过DevOps与应用生命周期管理,企业可以快速构建代码仓库、部署环境(开发/UAT/生产)、交付流水线
(Pipeline),以及运维监控组件,使企业更关注于应用开发本身,缩短产品交付周期。
虽然上面这样的架构在传统IT基础设施上也可以实现,但是与云平台结合的DevOps可以给企业带来更大的收益:
2 服务输出流程
IDE
源代码控制系统 构建和集成 仓储系统
测试
应用生命周期管理
集中化的运维监控中心
CloudMonitor(云监控)
可自由选择的应用开发平台
UAT 生产
成品管理
成品管理
发布计划
发布仪表板 可视化监控 & 追溯
· 更易于自动化
自动化是基础设施管理的一个重要方面。利用云实现流程自动化有助于提高自动化速度,使流程更加可靠、无
错误、健壮和高效,最终缩短上市时间。通过云实现IT现代化,实现快速数字化转型。云服务商通常会提供各种服
A
lib
ab
a
C
lo
ud
S
to
ra
ge
42 43
Alibaba Cloud
务(工具),使企业能够管理基础设施并使其现代化。自动化过程包括基础设施配置、构建、运行测试用例、监控
报告等等。
通过DevOps,服务资源的复制与备份过程可以自动化,比如,如果需要临时分离环境(创建生产环境的副
本)和负载测试,以测量应用程序的稳定性。利用领先的云提供商提供的各种工具,可以轻松地自动执行环境的复
制和备份。
云服务商通常都会提供一站式的监控服务,比如当任何基础设施行为异常时发出警报。DevOps可以触发自定
义警报和各种监视警报,使企业能够更有效地利用资源。
云服务商可以帮助企业快速部署环境,但是在没有DevOps的情况下定制它是一个挑战。DevOps专注于通过
构建自定义逻辑和编写功能来使用最新工具解决基础设施问题。
综上,在这个数字化和技术不断发展的环境中,云和DevOps很多时候是紧密结合在一起并携手使用的。这种
结合不仅增强了软件产品的性能,并使整个基础设施自动化,从而以更快的速度不断改进产品。
· 更方便的服务资源复制和备份
· 更有效的监控
· 更快速的开发迭代
资源编排管理
资源编排管理是云数据中心区别于传统数据中心的重要能力之一。资源编排是一种简单易用的云计算资源自动化
部署服务。用户可以通过使用Json/Yaml格式的模版描述多个云计算资源的配置、依赖关系等,并自动完成所有云资
源在多个不同地域以及多个账户中的部署和配置,实现基础设施即代码(Infrastructure as Code),如下图所示。
应用开发者
SRE
云
服
务
云
基
础
架
构
自动化
应用消费者 (业务条线 & 最终用户)
服务
公共云
CaaS
IaaS
PaaS FaaS SaaS
生命周期管理
计算 存储 网络 安全 业务 运营
专有云 公共云
IT Ops
与传统的基础架构相比,云服务商提供的资源编排的有如下优势:
基础设施即代码(Infrastructure as Code)。通过资源编排可以帮助企业最快速地实践DevOps中关于IaC
的理念,将准备资源所需要做的工作都通过代码来完成。
无论企业需要部署的环境是开发,测试还是生产环境,都可以使用同一套模板进行创建。指定不同的参数可以
满足环境的差异化。如果企业需要进行多地域的部署,使用同一套模板可以进行重复的部署,从而提高部署多地域
的效率。
在实践中,不同环境的细微差异往往带来非常复杂的管理成本,延长了问题诊断的时间,从而影响了业务的正
常运转。通过资源编排重复部署,可以将部署环境标准化,减少不同环境的差异,将环境的配置沉淀到模板中。再
通过类似代码的严格管理流程,从而保证部署的标准性。
· 基础设施即代码
· 可重复部署
· 标准化部署
A
lib
ab
a
C
lo
ud
S
to
ra
ge
44 45
Alibaba Cloud
平台视角的上云的价值可以从管理,运营,执行三个层面来得到体现。
首先,对管理层面来说,即从管理者的角度去看,云平台的建设将会给企业的管理价值和管理成本两个方面
带来巨大收益。总的来说,通过云技术的发展,必将带来管理价值的最大化和管理成本最小化。具体来讲:第
一,管理价值最大化:通过云技术,以信息系统集中应用为目标,合理处理信息化各种资源的集中和分布态势,
促进管理价值的最大化;第二,管理成本最小化:通过云技术,合理处理业务对信息化资源的需求,形成弹性和
可扩展的业务支撑能力,推进企业信息化资源的精细化管理。
其次,对运营层面来说,即从后期运营、经营相关的角度去看,云平台的建设必将为企业带来如下两点价
值:第一,业务高效协同:借助云技术, 实现业务与业务、业务与生产的信息流畅传输,促进纵横向的高效协
同;第二,业务高效处理:借助云技术高效计算、海量数据处理能力,实现企业对各类业务的高效处理,满足业
务信息及时处理、及时发布的需求。
最后,对执行层面来说,云平台的建设给企业的价值体现在如下方面:第一,生产收益最大化:借助云技
术,结合大数据分析技术,实现对海量生产数据的实时感知、实时采集、挖掘分析、实时优化,使生产装置实现
最大收益;第二,业务系统快速部署:借助云技术,提供标准、快速交付的IT平台,实现业务应用系统的快速部
署,满足业务系统对IT平台的灵活性、可伸缩性要求。
随着IT技术的不断发展,以及业务与IT日益密切的联系,云下数据中心面临的安全挑战与日俱增,并正在经历
着巨大的转变。
企业发展的初期,仅需要几台服务器和有限的机房环境就能满足基本的业务需求。随着企业业务的迅速发
展,为了满足上层应用的敏捷性与可持续发展,IT基础架构变得日益复杂,具有多层次、相互依存、分布式、高
度网络化等特性,产生的问题层出不穷,影响到上层应用的安全稳定运行。企业要想管理好自己的IT基础架构,
保证其安全可靠,就必须引入先进的工具和管理流程,管理复杂度的提升给企业带来巨大的压力。
3 平台视角的上云价值
1 云下数据中心所面临的挑战
1、管理复杂度提升
安全视角4
在IT技术迅速发展的同时,网络安全的威胁也与日俱增。从阿里云安全中心2019 年拦截的威胁数据我们看
到,过去一年整体安全态势有以下四方面:
2、严峻的网络安全威胁
· 挖矿病毒依然以% 的高占比成为2019 年的主要安全威胁;
· 2019 年日均发生2000 余次DDoS 攻击,与2018 年基本持平;
· 网络攻击中暴力破解依然是“低成本、高收益“的主流攻击手段;
· 电商等行业将面临黑灰产链条更加完整和专业的Web 攻击。
A
lib
ab
a
C
lo
ud
S
to
ra
ge
46 47
Alibaba Cloud
面对如此严峻的网络安全威胁形势,企业需要不断更新升级自己的安全防护技术和管理手段,才能确保在和黑
客们的持续斗争当中立于不败之地。
但与此同时我们也看到,企业对网络安全的认识普遍不足,相关技术、手段和安全人才往往跟不上,这也是
导致网络安全威胁日益严峻的重要原因之一。例如,挖矿病毒已经取代勒索病毒成为黑产获利的主要手段,由于挖
矿病毒所造成的危害并不像勒索软件那么直接,所以企业往往忽视或者不重视对挖矿病毒的防御,而实际上,挖矿
病毒窃取企业计算资源所造成的破坏不可小觑。
另一个导致网络安全威胁日益严峻的重要原因是企业对网络安全的不重视。很多时候,网络安全事件并不是
由新的威胁触发,而是之前的漏洞没有被消除。例如,三年前爆发的WannaCry勒索病毒目前依然是给企业带来危
害最大的病毒,这说明很多企业没有及时修复该漏洞,对网络安全不重视。
日益提升与复杂的业务需求,对IT基础架构的依赖性和优质服务需求等都要求业务的连续性和灾难恢复。数据
中心的正常运行时间和服务的可用性对于企业的业务的成功与否至关重要。以制造业为例,数据中心承载着很多非
常重要的应用,包括MES系统,IoT系统,人力与财务系统等。IT基础架构是作为整个系统的重要载体,如果IT基
础架构不可靠的话,工厂要停产,财务、客户的订单就都会出现问题。
当前,中国的移动互联网逐步成熟,人工智能、大数据和物联网技术迅猛发展,这一切都使得企业对于中高端
IT技术人才需求越来越旺盛。然而与此相矛盾的是,招聘一名技术娴熟的IT专业人员平均要6到12个月,更多的企
业难以在短期内招到满足IT技术发展需求的专业人才。IT人才的匮乏使得企业数据中心的安全运营面临重要挑战。
3、业务连续性与灾难恢复
4、缺乏技能娴熟的IT人才
云带来的安全价值是从云本身的规模化优势而来的,它能让安全从偏安一隅的隔离模式,变成集中管控、迅
速下发的神经中枢模式,从而增强企业威胁情报模型、更好地抵御攻击,以及加快安全事件的响应。如果企业能
用好云,能够改变企业信息安全的结果,让放在云上的业务系统,比云下更安全。
云下的安全防护技术通常已经过时,它完成了创建时要做的一切,但是它的增长空间不灵活,因此无法适应
当前网络风险水平。但是,即使企业确实想使旧的基础设施保持技术上的最新状态,要完成的检查和升级也要经
历很多的挑战,因为这方面对企业而言投入巨大。结果,大多数企业的安全防护技术趋于落后。
与此相反的是,公共云解决方案不断更新,并上线最新的安全功能。大型的云服务商的网络安全团队可以确
保最新的安全防护技术可以保障企业数据的安全。
由于具有规模效应,云服务供应商所具有的IT资源和优势是企业所无法比拟的,这使得云服务商可以轻松解
决一些企业自身难以解决的安全问题。例如,云服务供应商可以利用自己庞大的机房和服务器等资源为用户提供
低成本容灾构建方案,而企业如果自建容灾数据中心,其成本投入通常是巨大的。DDos攻击是网络安全防御中常
见的攻击手段,云服务商通常拥有巨大的带宽,可以帮助企业抵御DDos攻击对带宽的消耗,而普通企业通常不可
能购买如此巨大的网络带宽。
2 安全视角的上云价值
1、技术优势
2、资源优势
A
lib
ab
a
C
lo
ud
S
to
ra
ge
48 49
Alibaba Cloud
云服务商所面临的安全威胁在数量和严重程度上都远高于企业。在长期与各种病毒和网络攻击的博弈过程中,
云服务商也积累了丰富的经验,这些宝贵的经验使得云服务商通常能在第一时间将漏洞封堵住,甚至具有防患于未
然的能力。
而对于普通企业来说,经验的不足和知识积累与管理的不到位使得他们对于安全问题的处理能力远不如云服务
商经验丰富。
网安法第二十一条规定:国家实行网络安全等级保护制度,等保安全制度适用于境内所有信息系统。企业需按
照网络安全等级保护制度履行安全保护义务,按照等保安全制度申报完成网络安全等级评定,根据各级保护制度的
要求整改、建设信息系统,是企业应履行的义务,同时可发现自身系统的安全隐患及不足,并及时整改,进而可提
高企业整体的行业竞争力。
云服务商通常提供一站式等保安全解决方案,助力企业更高效、专业地完成等保认证。
IT运维负责处理系统运行故障,维护服务目录和应对服务请求,对系统进行计划和紧急的变更,其目的是保障
IT系统稳定运行,满足业务发展的需求。IT运维的内容大致可分为服务管理和资源管理两部分:
服务管理
面向业务部门,其核心目标是保障服务体验,并有效支撑业务提升,包括用户访问体验,业务交易监控,运维
服务水平与效率等。
随着企业的应用系统逐步迁移到云环境中,运维组织的管理模式逐步从传统的IT运维向云运维转型,从IT软硬
件系统服务转向系统稳定性保障、业务赋能,全面提升了IT的业务支撑能力。
在IT运维转型过程中,必须考虑深化应用ITSM,结合云服务的特点,对现有的IT运维流程进行优化提升,对
现有的工具进行升级,以确保服务继续满足预期。同时,在确定SLA关键服务等级协议时,要充分考虑角色与职
责、业务覆盖范围、绩效衡量、安全标准、数据所有权及管理等内容。
资源管理
面向IT基础设施,其核心目标是IT基础设施的高可用、性能、自动化,包括配置管理、监控和巡检、操作自动
化、操作审计等。
5、加速合规与等保优势
运维视角5
1 IT运维的内容和目标
3、人才优势
4、经验优势
上文提到了企业通常缺乏技能娴熟的IT人才。与之不同的是,云服务商通常是IT人才的聚集地,在对IT人的吸
引力上和招聘渠道上也具有无可比拟的优势。这使得云服务商拥有足够多优秀的IT人才来确保云的稳定运行,并及
时研发出预防和抵御新型安全攻击的技术手段。
A
lib
ab
a
C
lo
ud
S
to
ra
ge
50 51
Alibaba Cloud
2 IT 运维的现状与挑战
国内真正意义上集中式、大规模的数据中心(IDC),源于2000年开始的数据集中工程,已从银行业延伸到证
券、保险、电力、电信等行业。经过十多年的发展,已从建设分散雏形发展到集中数据中心,并逐步走向多活和混
合云环境阶段。
分散雏形阶段
在此阶段,IT运维缺乏整体规划,分割管理,在摸索中建设: 随着云计算的发展,IDC也从大集中逐步发展为区域集中式,再到分布式云IDC。分布式云IDC在计算能力、
容灾能力、可扩展等能力上均有优异的表现,但其复杂的架构也给IT运营提出了新的挑战。解决IDC运维的复杂
性,提升运维的敏捷性是关键。
混合云兼有公共云和私有云的优势,正在被越来越多的企业所采用。信息化架构的不断演变,使得运维管理要
兼容多种基础架构(传统物理基础架构,虚拟基础架构,云架构等),通过数字定义的方式向上层应用提供IT基础
架构资源服务,并对封装后的信息化基础架构服务和业务应用服务进行保障,驱动组织向主动优化、服务导向的运
维模式提升。
集中数据中心阶段
在此阶段,有了整体的规划,运维朝着专业化方向发展:
多活和混合云环境阶段
在多活和混合云环境下,应用与基础设施开始松耦合,资源服务化:
1、混合云下的应用与IT基础架构松耦合
2、IDC运维复杂度提升
3、混合云架构下的IT系统运维
· 数据中心的建设往往就地取材,没有规划,专业性不强;
· IT组织以建设任务为导向,常常随IT项目建设边使用边改造;
· 运维专业化程度处于较低的水平,缺乏专门的管理目标和管理手段。
· 数据集中存储、处理,应用和业务集中化;
· 建设依托有效规划,更加现代化,大规模数据中心引入“两地三中心”模式;
· 引入运维流程框架,通过流程实现跨部门的运维任务在各个专业部门之间的贯穿和协同。
· 信息部门在逻辑上成为一个整体,要求运维组织不再按照专业领域进行部门划分,而是按照物理/逻辑进行部
门设置划分;
· 信息部门“高可用性”有了基础级保障,运行维护工作核心开始围绕服务和资源的合理提供、监管和调度。
A
lib
ab
a
C
lo
ud
S
to
ra
ge
52 53
Alibaba Cloud
基础架构服务
LAP应用
应用开发平台、应用运行基础平台
数字定义(资源与服务、应用脱钩;按需配置交付)
其他
企业应用系统服务
OLTP应用 Mobile应用
资源
服务
资源
服务 服务
API
服务
API
资源
API
资源
API
物理基础架构 虚拟基础架构 大数据云架构
Linux Windows
对用户而言,只关注所提出的需求是否在可接受时间内得到处理,为达到这个目标,需要对包括人员、技术和
工具在内的一整套能力进行组织和规划,以确保向用户交付满意的服务。对于IT运维而言,满足用户服务性的要求
需要关注服务提供的时效性,用户的满意度,以及问题的解决率。
4、服务导向
用户
业务申请
业务使用
前端应用
核心节点
(后端与数据支持)
服务台
3 运维视角的上云价值
云上运维所带来的价值是驱动传统的人工运维逐步转向自动化运维。传统的企业数据中心运维包含许多重复的
运维任务,事件驱动的自动化场景,定时和批量的运维场景,跨地域的运维场景,需要审批的特殊场景等。通过云
上的自动化运维,企业可以通过模板来定义执行任务、执行顺序、执行输入和输出,然后通过执行模板来完成任务
的自动化运行,实现运维即代码,大大提升运维效率。
云上的自动化运维给企业带来的价值包括:
降低IT成本
自动化运维可以降低人工成本,提升运维效率,减少故障带来的经济损失,从而降低企业IT成本。
提高运维生产力
自动化运维减少了人工操作,不仅可以提高产出,还可以将运维人员从复杂的传统运维工作中解放出来,将其
知识和技能应用于更有价值的工作和任务上。此外,通过减少周转时间,每天可处理工作量也提高了。
A
lib
ab
a
C
lo
ud
S
to
ra
ge
54 5
5
Alibaba Cloud
高可用
IT基础设施的故障可能会使企业蒙受巨额损失,无论是金钱上,还是声誉上。运维优先要保障的便是高可用,
这也是自动化运维的一大目标。例如通过自动化备份和恢复机制,全天候系统监控和远程通信,以大幅降低网络故
障时间;或是通过备份的快速回滚,减少故障带来的损失。
更可靠
运维常常包括一些重复的工作,这也就是为什么它容易出错。当人为因素从这个过程中消除时,那些人为错误
也自然消失了,这对于具有多个操作系统的大型网络尤其有用。自动化运维可以明显提高可靠性,减轻运维人员繁
琐的手动任务。
性能优化
运维专家面临的另一个问题是,让执行任务和工作流程变得更快、更高效、具备更高工作负载。传统运维方式
想要满足这些需求是很困难的,而自动化运维工具则可以填补此类需求,在无需雇佣更多员工的情况下,最大限度
的提高性能。
IT 成本分析6
1 TCO分析—自建IDC
传统自建IDC的TCO首先要考虑直接成本,其中资本性支出Capex主要由硬件成本、网络成本、软件和服务
成本、基础设施成本组成,运营费用Opex主要由人力成本和运维成本组成。除了这些显性成本,还需要考虑规模
成本和风险成本等隐性成本,比如升级、迁移、扩容等与IT规模相关的活动引发的额外成本,再比如为了满足监管
与合规要求,防止数据丢失,提高系统可用性同样需要大量成本投入。最后,自建IDC的一次性资金投入,也是企
业需要关注的风险因素。各部分的成本进一步细分如下图:
自建 IDC
TCO
直接成本
升级和迁移
硬件、软件升级成本
应用和数据迁移成本
在机器规模下扩容单元化的网络成本
扩容带来的一段时间内设备闲置
安全合规建设成本
一次型资金投入成本
数据备份成本
高可用成本 / 容灾成本
扩容
监管与合规
一次性投入风险
数据丢失风险
业务可用性风险
风险成本
Opex
Capex
服务器、存储等硬件成本
网络设备、专线成本
软件许可证、服务成本
电力、空调、机房成本
运维成本(设备维护、系统管理和支持)
人力成本(培训、工作空间、薪资等)
规模成本
A
lib
ab
a
C
lo
ud
S
to
ra
ge
56 57
Alibaba Cloud
3 成本视角的上云价值
2 TCO 分析—云数据中心
与于传统IDC不同,云上数据中心的成本模型包括云运行成本和一次性安装成本,而最终目标结果—云上数据
中心的的总成本(TCO)为运行成本和一次性安装成本的加和。
其中,运行成本等于云基础设施成本加上云后的新增使用成本,每部分的详细含义如下:
云基础设施成本
前文所述,传统IDC和云上数据中心的成本核算具有不同的计算方式,但两者的区别不仅仅在于核算的方式。
在实践中,企业传统IDC有诸多成本方面的挑战:
成本模型中的另一部分—一次性安装成本等于建设成本和迁移成本的加和,每部分的详细含义如下:
建设成本
新增使用成本
迁移成本
· 服务器/容器
· 存储
· 网络
· 数据库
· 中间件
· 许可证
· 公共云网络连接
· 云安全工具
· 云监控和管理工具
· 云迁移工具
· 实施成本
· 数据传输
· 额外链接
· 监控收费
· 云上应用开发
· 企业支撑
· 云管理组织的架构的建立
· 应用迁移
· 运营模式变更
· 人才和技能提升
· 实现集中预算和内部核算机制
· 基础设施资源的消耗是波动的、周期性、或者完全没有规律的;
A
lib
ab
a
C
lo
ud
S
to
ra
ge
58 59
Alibaba Cloud
· 因为上面的原因,通常基础设施采购量是实际需求的2 - 3倍,需要数周/数月的时间进行采购。 结果就是,
基础设施的能力在大多数情况下都未得到充分利用;
· 较高的固定成本,导致总成本(TCO)既包含资本支出(CAPEX),又包含运营支出(OPEX);
· 资源的提供需要很长的时间,必须由特定的团队完成,造成额外的时间和人力成本;
· 基础设施资源的采购是一个耗时的过程,阻碍了业务快速创新,增加了创新成本。
相对的,云上数据中心从以下几个方面应对挑战:
综上,企业通过上云,改变了成本核算的模式(从CAPEX转化为OPEX),避免了资源的浪费,同时加快了
业务创新。
最后,为了充分优化云计算的使用成本,企业需要对应用程序的成本和收益进行调整并定期检查。必要的时
候,应用程序需要重构以在技术层面上充分利用新的功能,来达到增效降本的目的。
· 无需固定成本。企业只需要根据需求支付必要的基础设施成本;
· 按使用量付费。企业根据基础设施资源使用情况支付运营费用;
· 更快的创新。使用公共云服务商提供的快速迭代的创新功能,降低创新成本;
· 即时资源调配。云基础设施可以在数秒/分钟内配置完毕,提高了业务相应速度。
· 实例规模优化:以最低的成本合理确定实例类型的大小,以满足性能和工作负载要求;
· 实例定价模式优化:利用实例定价模型的组合来降低实例计算单位成本——预留实例与按需计算相结合。预
留实例定价可以潜在地节省成本;然而,大多数客户不希望被1年或3年的合同束缚住。
· 弹性与可伸缩性:使用自动伸缩功能来根据需求和使用情况(例如业务波峰/波谷工作量)对实例进行扩容或伸
缩操作;
· 智能消费: 识别并关闭未使用的实例,例如周末不运行的开发/测试实例;
· 监控:设置指标以持续监控和衡量利用率,以寻求成本优化机会。由于在云上启动实例非常容易,因此,为
了限制 “云蔓延 ”(一般指云实例或云服务的不受控制的扩散),清晰地看到服务的实际消费变得比以往任
何时候都更加重要。
4 云上总体成本持续优化
对于企业而言,可以从以下几方面进行持续性的云上成本优化。
公共云上应用程序总成本(TCO)
规模优化
实例定价
弹性与可伸缩性
智能消费
监控
St
or
ag
e
Cl
ou
d
Alibaba
6
0
61
Alibaba Cloud
全面上云的成功框架帮助企业的上云负责人,清晰化上云的推进和决策流程,对上云价值达成共识,实现内部
协调、业务有效、组织灵活、进程持续并产生可持续的业务价值。这一框架包括8个主要组成部分,企业可针对自
身情况进行周期上的灵活调整,但需要指出的是,这8个阶段的重要性并无明显差异。
云为每一家企业所提供的要素,包括灵活使用、容易扩展、高可用性和极致算力等等,都是面对数字经济中企
业所需要的,同时,云也能够确保符合企业的信息安全策略,特别是数据保护、审计功能、访问控制、日志记录、
监控以及网络和终端保护。
因此,在确定了企业上云评估流程和定制化的云成功框架之后,在规范监控、事件响应和审计的流程的支持
下,企业应当尽快将各种工作负载交由最合适的云来处理,这样可以提高工作效率,并把更多精力放在技术创
新上。
企业上云的主要流程往往从基础设施云化开始,完成服务器、存储、网络等硬件设备的云化,逐渐推进到业务
全面上云战略的必要性认知1
企业全面上云成功路径与实践
全面上云的成功框架
3
一系列针对组织内部的策略及行动,帮助上云负责人在内部形成上云旅程准确认知
A
lib
ab
a
C
lo
ud
S
to
ra
ge
62 63
Alibaba Cloud
系统、管理系统、工具软件,实现业务应用上云,产品研发上云常被放置在第三阶段,无论是硬件产品还是软件产
品,研发能力和流程,智能服务,都实现上云,第四阶段是制造和运营能力上云,包括生产设备、设计流程、资料
资源、协同办公、企业运营等方面的上云。
企业上云(包括互联网企业)战略可以被分为“ 尝试上云-核心上云-全面上云 ”三个上云阶段,从部分应用、
测试业务尝试上云,到数据库、关键业务系统等核心上云,到包括“前、中、后端”的基础设施、业务应用、产品
研发、制造和运营能力的全面上云,但对于相当多企业来说,上云是否要到“全面上云”的阶段仍然存在一定的讨
论,这一问题可以从两个层面来讨论:
1、技术应用层面:云计算无疑将改变信息技术(IT)产业,也将深刻改变人们工作和公司经营的方式。特别
是对企业来说,全面上云是一个技术代际迭代的背景下技术驱动的选择,驱动企业从基础设施上云,到大数据上
云,再到云上中台和云上智能,“新技术”的趋势下,全面上云不只是单纯让企业“上云”,更是让企业在云上创
造更多新的场景需求。
同时,随着越来越多的前沿技术(比如人工智能)在云上以服务化的方式通过API接口提供(尤其是技术的原
子能力),不在云上的企业获得技术赋能实现技术红利的难度将持续加大;
2、IT管理层面:准确来讲,这一层面的关键是“全站”,即完整的从传统IDC迁移到云上,如果停留在全面
上云阶段之前,这意味着IT团队要面临两套IT系统之间的鸿沟,不仅被迫维护两套IT系统,造成IT团队与IT能力的
割裂,而且因为业务分别部署在云上/传统IT,难以实现多元业务互联互通,业务协同。
动上云的负责人,可以从外部市场环境驱动、竞争对手驱动、行业发展方向驱动、业务内部战略驱动等层面,为
CEO呈现上云战略融入业务中所实现的价值,以及如何与业务形成一致性目标,采用方法与业务和组织就绪性保
持一致。以下是取得CEO支持时建议使用的驱动要素:
1、重要的IT基础设施选择:包括传统IDC退出、改变IT成本支出模式、对IT服务水平提出更高要求、改善业务
发展中的峰值承载能力、响应上一级管理者(如子公司向集团)的要求,这些因素会造成显著的成本量级、支出模
式、业务连续性及业务决策影响,是取得CEO支持时的常见且直接的因素;
2、上云的短期获利:弹性缩放应对峰值挑战、在短期内获得新的技术能力、改善客户体验和服务的水平、减
缓高速增长业务的IT需求增长、提高IT团队响应速度;
3、长期的云上获益:获得云上技术红利、为出海(全球化)做好准备、长期提高业务灵活性、构建业务部门
IT自主化能力、为新产品和服务做好准备;
4、云计算成为数字经济创新平台:云正在从单纯的基础设施走向“数字底座+数字操作系统”的融合,即除了
作为数字经济底座(数字经济基础设施)的价值,借助云端一体化发展,云已经具备支撑企业快速业务开发及上线
的能力,从而促进企业业务创新。
虽然在上云规划初期,CEO往往处于“上云无关者”的周期内,但取得CEO的支持仍然至关重要。企业中驱
企业全面上云优先战略的制定目标,关键是从技术愿景、业务需求和IT战略三个层面,找到与全面上云之间的
结合点和价值点,并在这三个层面产生不同的投资回报,同时考虑全面上云优先战略对企业财务情况和财务模型的
影响。
企业 CEO 的支持
全面上云优先战略
2
3
A
lib
ab
a
C
lo
ud
S
to
ra
ge
64 65
Alibaba Cloud
全面上云优先战略的制定中,需要避免三个误区:
1、上云在任何情况下价格都是最优:更高的经济性是上云的主要驱动因素,在制定全面上云优先战略时,
CFO可能会要求企业IT在任何情况下,上云都能获得最优的价格,但这并非如此,尤其是在上云迁移转换和应用
初期;
2、全面上云应当一切入云、一批入云:全面上云并非一次全部上云,某些业务驱动因素可能会导致选择混合
的、分次序的上云解决方案,全面上云是一个企业借助上云实现核心技术的互联网化、应用的数据化和智能化的
旅程;
3、忽略数字资产规划: 数字资产包括虚拟机、容器、应用程序、算法和数据等,上云是从物理设备到(虚
拟)服务的转变,上云的迁移策略制定过程中,许多企业容易忽略数字(IT)资产规划的建立、盘点和计量,而是
仅监控流程,由于云服务的计费分账机制建立仍然需要一定周期,这意味着IT团队将很难统计数字资产与业务收效
的映射关系,IT团队应当使用数字资产将业务成果映射到发布计划和技术工作。
制定全面上云优先战略的主要组成成员及架构应当包括:
1、企业CFO:CFO经常是CIO的管理者,即向下管理CIO,向上将IT作为自己工作的一部分向上对CEO负
责,肩负这一角色的CFO负担着两个责任:第一,企业财务、投(融)资的第一责任人;第二,将IT作为重要的投
资之一,纳入严格的成本管理中。
2、企业COO:全面上云必然对企业运营产生极大地影响,在将业务逐渐云化的过程中,COO将决定如何利
用云深度改造和优化现有业务,从而确保在制定业务和技术战略时,将云所供给的资源、能力作为战略发展的参
考。此外,COO一般会要求业务项目改造后有明确的成本效益和运营效果要求。
3、企业CIO:CIO需要说服企业管理层接受基于云计算可以重构垂直行业的业务流程和商业模式的巨大潜
力,因此CIO必须具备能将复杂的事情简单化,能一句话说清楚云计算给企业带来的新商业模式和结构重组价值。
4、上云办公室:CFO、COO和CIO从财务管理、业务运营和上云规划三个方面作为决策者制定全面上云优
先战略,但仍然应当建立混合三个团队的上云办公室,以推进企业全面上云的策略细节、规划步骤和落地执行。此
外,上云办公室内应当引入业务团队的负责人或高级别接口人,该角色一般不建议由COO团队代理。
全面上云本质上不是一个可以通过完全量化的指标来衡量的工作,但通过以下三个途径,CIO与CFO之间可以
就全面上云的TCO进行融合了准确量化和可信判断的分析。
1、使用云服务商所提供的TCO计算器,如阿里云的TCO计算器(
储、交换机、带宽、人工等方面对现有服务器集群进行TCO分析,并融合折旧年限和软件成本、年化资金成本、容
灾和迁移扩容成本等影响因素;
2、为主要IT支出设计3-5年的成本支出路线图:基于第一性原则,拆分IT支出中占比最大的主要成本来源,将
其与云上产品进行一一对应,结合其支出情况、折旧年限、规模复杂度等影响因素,设计可供对比的长期成本支出
路线图,以确定核心支出是否能够受益于云;
3、在进行全面上云的TCO分析时,如果可以说服CFO和COO参与到TCO和ROI评估中,应当将新的财务计
划与企业发展战略联合,充分考虑到云计算按需使用、按需付费、支出灵活的特点(特别是云服务支出入费用,企
业级客户通过长约获得优惠,比资产平摊费更低),以及从Capex到Opex的转换等方面的优势;
4、需要指出的是,并非所有的云服务都能带来CFO们所期望的弹性和按使用计费的特性,比如SaaS则一般
全面上云的 TCO 分析4
A
lib
ab
a
C
lo
ud
S
to
ra
ge
66 67
Alibaba Cloud
是按用户数来收费,并且需要签署长期服务协议,很难达成随用随停的目的,通过财务的手段实施上云战略层面的
操作,一个非常重要的工作是具备数据分析能力,将来自上云的原始数据碎片整合成有效的数据信息,融入公司战
略中。
数字化转型的事情,大部分都是组织内沟通与共识的事情,开展上云工作坊的主要目的是通过透明的沟通方
式,衔接不同组织之间的知识与行动,进而达成组织共识和共创行动计划。
以下流程可供参考:
全面上云战略应当选择卓越的云合作伙伴,以此尽可能获得来自于合作伙伴在产品、技术、能力和经验上的支
持,针对企业在云采用中我们提供了以下参考标准:
开展上云工作坊(Workshop)
选择卓越的云合作伙伴
5
6
阶段
方法
产出
用户与场景调研 创新工作坊 概念/原型验证 持续性迭代
1-2周 2-3天 1-2天 1-2月
设计思维 Design Thinking 精益用户体验 LEAN UX cycles
用户痛点、画像与旅程 最终方案落地诞生创意与解决方案 原型与验证反馈、迭代建议
上云工作坊的创新旅程 来源:ACRC分析
上云工作坊的共创流程 来源:ACRC分析
来一场
头脑风暴
持续监督,
将风险控制在
可承受的范围内
2 . 产生想法
1.
发
现
问
题
6
.
报
告
&
审
计
5 . 监督 &风险控制
4 .
实
施
方
案
3 .
设
计
方
案
将想法变成一个可以
进行评估和实施的方案
投入人力、物力、财力
等资源,过程伴随风险
对创新项目
总结和复盘
创新的
出发点
A
lib
ab
a
C
lo
ud
S
to
ra
ge
68 69
Alibaba Cloud
1、云服务商具有较强的服务能力:在数字经济时代,企业正在推动新的业务战略,包括全球服务、进入细分
市场、从线上到线下,这意味着云服务商必须要地域覆盖、服务深度、线上线下融合等方面提供支持。此外,分布
式计算、新一代云数据中心、服务的弹性伸缩等能力决定了云服务商能否服务好企业;
2、业务运行情况和规划:稳定的业绩增长和财务运行状况是最为重要的,云服务商必须要处于良好的财务状
况,具有长期顺利运营所需的充足资本。同时,云服务商的管理结构、风险管理策略以及长期的业务规划应当是准
确和被长期验证的;
3、支持能力与服务水平:服务水平协议(SLA)是其中的关键,保证云服务商能提供符合要求的服务并给出
清晰地性能和能力报告(最好由第三方认证)。需要注意的是,云服务商应当具有足够的控制权,来跟踪和监视提
供给客户的服务及对其系统所做的任何更改;其次,能够监视所用资源及其费用,避免产生超出预期之外的费用,
并尽可能提供灵活的计费与记账(分账)方式,帮助企业清晰化内部费用分配;
4、持续不断的产品技术演进:云计算仍然处于高速发展期,当前企业所获得的云上的产品、技术、解决方案
仍然有极大地演进和升级空间,因此云服务商的迭代能力决定了其是否能够长期为企业提供有效的新技术、新能力
和新成本价值的支撑;
5、长期的投资计划:无论是数据中心还是云操作系统、服务器、芯片、网络等重大核心技术研发,云计算必
然是一项需要长期投资支撑其发展的业务,尤其是在云正在向下定义数据中心硬件(尤其是芯片)的趋势下,长期
的投资计划不仅仅意味着业务持续发展,更在于云服务商的产品技术能力和持续成本优化可能;
6、安全合规及相关资质:符合政府、行业的安全合规和相关的国内及国际性资质。
上云战略不止是制定能够帮助企业上云和数字化转型的战略,更是对IT架构的重新调整,不仅包括产品、技
术、服务、财务与审计的调整,也包括组织和文化的变革。IT团队及紧密合作的业务团队必须一同勇于接受文化方
面的改变,以符合企业的制胜战略要求以及组织结构特点。
需要指出的是,仅仅拿出理想的战略和组织结构并不足够,必须培育企业文化来配合,如果坚持采用传统的工
作和思维方式,就会在前进的道路上形成阻碍。
所有级别和部门都要重塑文化,帮助个人、团队和组织实现发展,全体IT领导需要参加定制化的学习,学习如
何让文化行为与组织变革保持一致,当然,其中最重要的是由IT领导树立榜样,以身作则为起始。
企业应当准备好实施全新的运营模型,旨在更新和改进我们的IT解决方案和服务交付的方法,这套运营模型的
基本要素如下:
- 矩阵式组织,有垂直和水平解决方案栈,专业知识有侧重且可重复利用;
- 完整价值流,可以强化业务知识和业务协作,优化业务解决方案、数据和商业价值的实现方式,并将各部分
关联起来;
- 支持运营模型和交付服务持续改进和整合;
- 交互模型,说明如何完成工作、参与者之间的交接以及每个参与者的角色和职责;
组织变革与目标聚焦7
A
lib
ab
a
C
lo
ud
S
to
ra
ge
70 71
Alibaba Cloud
循序渐进的上云路线图(可供参考的流程图)8
治理
评估治理情况
设计治理策略
实施云上治理
监控信号
管理
运营体系建设
运维体系建设
安全管理体系建设
优化提升
维护
日常维护
重大项目保障
技能提升与组织培训
云服务门户
云原生
云原生架构设计
云原生化改造
云原生基础设施
启动
启动上云战略
上云价值分析
获得企业高层支持
开展上云工作坊
业务痛点/需求收集
清点数字资产
评估
整体经济性评估
合规性评估
组织能力评估
IT团队技能评估
云服务商SLA评估
第一个上云项目评估
规划
IT团队SLA目标设定
上云可行性分析
应用/负载/风险分析
业务、组织与架构规划
管理/流程优化
云选型与测试
待迁系统调研
设计
迁移计划与策略
云上架构设计
风险应对设计
技术与技能准备
管理/流程优化
实施
移模拟迁
动迁移行
与保障系统割接
测试功能/性能
务资源释放原业
理与优化迁移问题处
企业全面上云是一个复杂、长期且个性化的旅程,从启动全面上云战略开始,就充满着不确定性,在前三章阐述了启动全面上云战略、上云价值分析和全面上云成功框架之后,为了帮助企业上云负责人更好的理解以上内容,并将本白皮书后续内容更好的
应用于实践,我们在此提供可供参考的上云路线图,以供对白皮书内容更好的理解和使用。
St
or
ag
e
Cl
ou
d
Alibaba
7
2
73
Alibaba Cloud
在云计算出现之前,虽然传统IT架构模块之间的耦合度较高导致可扩展性很差,并存在大量的因为供应商、架
构设计、产品特性所导致的企业IT孤岛,但信息化建设仍然在企业发展中起到了至关重要的推动作用,并且,由于
许多企业的信息化历程往往倡导10~20年,这意味着无论从技术架构、系统构建、成本与预算管理,还是组织经
验、管理模式、知识技能等方面,已经形成了一套完整而坚固的体系。
客观来说,传统企业全面上云必然会面临阻碍,这其中最常见的阻碍包括云的安全性、成本问题、运维管理等
方面,但对于拥有复杂庞大信息化系统的传统企业来说,上述问题往往都只是点上的问题,为了能够更加系统的破
除传统企业全面上云的障碍,则需要全面的关注以下六个问题。
云计算既是数字经济的基础设施,提供算力、存储、网络等资源,更重要的是提供了可靠易用的云平台、全局
智能的大数据、云端一体的智联网和随时随地的移动协同,是以高经济性提供新技术的平台。
整体评估上云的经济性1
企业全面上云成功路径与实践
破除传统企业
全面上云的障碍
4
筛选出常见的传统企业全面上云障碍,并给出来自实践的建议
A
lib
ab
a
C
lo
ud
S
to
ra
ge
74 75
Alibaba Cloud
与此同时,随着数字经济转型进入深水期,越来越多企业将会选择全面上云,云计算的支出正在成为每一个公
司的标配,使用云计算的能力,是企业基础能力的重要组成部分和指标。同时,在同一套云平台下建立起企业间的
数据、技术和产品连接,简化系统架构和业务接口的复杂性,要远比在物理IDC及封闭技术体系上更加简单迅速。
这意味着,在互联网+传统产业的过程中,为了尽快与客户的业务系统、产品平台和技术体系接轨,企业必须尽快
上云。
业界的共识是云计算架构在经济学上更加经济。云计算是一种大规模分布式计算的模式,其推动力来自规模化
所带来的经济性。在这种模式下,一些抽象的、虚拟化的、可动态扩展和被管理的计算能力、存储、平台和服务汇
聚成资源池,通过互联网按需交付给外部用户。
在用户侧,对于云上的企业来说,第一,由于云服务商的边际成本的降低,可以以更加经济的方式获得基础设
施;第二,其个性化的每项增值业务,只要进行一个较低的边际投入,就可以展开,无须从头开发基础设施、平台
和软件;第三,由于新技术的采用具有不确定性但初始成本较高,云上则为用户提供了按需付费、以租代买的方
式,对降低企业的投资有较大的帮助。
云的经济性不仅限于上面所说的因规模经济和范围经济所带来的经济性,对于企业CXO来说,需要对其预测
的云计算经济性有一个明确的处理方式,无论是用于云迁移还是用于新应用。
2 创新的云采用方式提高经济性
1 业务改善带来经济价值
在考量云计算的经济性时,最重要的是认识到对云计算帮助各规模企业改善和发展他们的业务,而不是仅仅将
云计算的采用所带来的经济性局限在IT业务上。
在许多场景下,云计算可以更快、更有效地为用户提供优质基础资源,智能化协同工作,简化操作,缩短响应
时间,获得优异的整体体验。与此同时,云计算帮助企业改变商业过程,深度挖掘潜在的商业价值,为企业创新和
新消费、新经济是以数据为基础,算力和智能为手段的新阶段,云计算所提供的极致算力和智能(算法),为
数据价值的充分利用提供了可能,是数字经济基础设施。
随着数字经济转型进入深水期,越来越多的非互联网企业将会选择全面上云,云计算的支出正在成为每一个公
司的标配,使用云计算的能力,是企业基础能力的重要组成部分和指标。
这意味着,在互联网+传统产业的过程中,为了尽快与客户的业务系统、产品平台和技术体系接轨,企业必须
尽快上云。
颠覆开辟了道路。
VIPKID是知名的青少儿英语国际教育品牌,为了更好的用户体验,VIPKID用完课率来评估在线教室运行质
量。VIPKID承诺,若授课过程中网络多次出现卡顿等,外教可以选择结束课程,平台会正常支付老师课时费用的
同时,还要向学生赔偿相应的学时。
网络稳定运行对于用户体验有决定性影响。如VIPKID这样1对1授课的模式,授课更密集,对网络质量的要求
更高;况且,外教在北美,而学生在中国,天然的地域差距更是让网络稳定性、时延等面临着巨大挑战。
在云服务的广泛覆盖和全球网络互通优化的基础上,VIPKID实现了高清晰度的视频交互通信,保证网络顺畅
稳定与信息安全,在最高达万课程实时并发的环境下,网络延时少于200ms,同时让完课率提升到了%,
因网络原因而产生的投诉则下降到不足1%。
可以算一笔账,假设每天10万节课,客损从3000节降到500节,2500节/天x200元x365天=亿。这意味
着云计算每年为VIPKID节省近2亿元。基于云的业务改善为VIPKID带来了显著的经济价值。
A
lib
ab
a
C
lo
ud
S
to
ra
ge
76 7
7
Alibaba Cloud
但云计算的采用方式并非是简单地 “销售-购买 -自用”的 模式,创新的云采用方式能够有效实现业务创新,提
高云采用的经济性。其中一种方式就是借助云快速构建新模式,将云作为To C和To B业务创新的重要伙伴。
例如,企业借助云获得为中小B端企业提供数字化基础设施和服务C端客户的技术和产品能力,将云及云上技
术能力包装成为“创新服务的底座”,形成C(Cloud)2B(提供服务的企业)2B/2C(获得服务的企业或消费
者)的新模式。
直播云是好未来旗下专为教育领域提供在线教室的产品,在2020年新冠肺炎疫情期间,好未来面向全国星罗
密布的线下培训机构,推出“避风港计划”,将直播云全面免费开放,提供全面的线上直播授课解决方案支持,并
提供直播系统、课程内容、运营陪护等“伴跑”支持,帮扶了数万家教培机构。
虽然同样是“云”,但直播云并不是好未来将阿里云资源和能力的一次“转售”。在阿里云所提供的云资源和
能力的支撑基础上,好未来直播云融合其对教育培训机构线上教学、管理和服务的理解,从技术层面、产品体系、
服务体系、AI赋能四个层级,帮助那些系统建设、研发能力比较弱甚至毫无相关经验的教育培训机构快速实现直播
在线教学,而且能够为教学过程提供与一线品牌相近的场景工具和互动体验。
3 云上释放数字技术红利 企业获得更好经济性
云服务商通过核心技术研发,持续提升云服务的资源利用率,扩大云计算规模效应,为企业提供呢高性价比的
云服务,通过技术进步、资源优化和技术服务化,云服务商成为技术红利的主要释放渠道,持续降低技术应用与技
术创新的门槛。
与此同时,云提供了最稳定的技术基础架构,帮助企业能应对不断变化的业务形态、消费者需求和持续变化的
复杂经济体系,从而修炼业务内功。更进一步,云原生将更进一步释放云计算带来的红利,能够使用云上极致弹性
的资源交付能力,能够使用云上极为便捷的产品和服务,为资源效率带来极大提升,增强对应用和资源进行编排的
能力,并降低运维负担,提高开发效率。
在云本身依靠技术迭代、创新和服务模式所创造的基础设施红利之外,以云为基础,企业将更进一步获得数字
技术的红利,获得更好的经济性。
首先,在数字经济时代,数字技术所带来的红利往往不是来自于单点技术,而是“技术组合红利”,需要完整
的技术生态,形成技术组合,才能实现技术红利的商业变现。云上的数字技术及其生态的完整性都显著优于一般企
业,云上提供的数字技术,可以视作企业的技术“库存”,并在出现数字技术短板时按需使用,从而帮助企业真正
获得数字技术红利。
其次,数字技术的投入水平正在持续提升,即使企业在初期支撑起了大规模投资,往往会在迭代过程中因为高
昂持续投入而产生新的问题,但数字技术的发展正是在持续的“实践-迭代-再实践-再迭代”中实现的,这导致大
量企业的投入无法持续。此外,由于企业的团队能力、行业背景、技术经验等方面的差异,其所产出的数字技术在
大量投入下仍然与云服务商所的技术水平有一定差异,在云上直接获得技术并应用于商业获得红利,在时间周期、
应用效率、技术水平等方面有显著的经济性。
第三,数字技术具备普惠性,其红利的释放必然是面向最广泛的用户群体,最终通过广泛的市场服务实现,因
此在技术红利的生产结构中,最核心的事项就是市场交易,技术红利就是围绕市场交易这一核心事项进行时空重组
的结果。云以强大的覆盖能力和服务化特性,支撑企业利用数字技术提升商业服务能力优化高业务效率、降低人力
等成本支出。
第四,企业迫切需要释放数据价值,数据不仅是互联网与科技行业的技术红利释放的第一高地,更在传统企业
数字化转型中扮演重要角色,云上的数据技术能力已经在中国高速的互联网行业发展中得到验证,可以帮助企业在
持续爆炸式增长的大数据中,处理复杂、多样、海量的数据并使全量数据的分析、挖掘成为可能,数据价值能够得
到充分释放,企业同时获得经济价值。除此以外,云上包括人工智能在内的多种技术结合,能够更进一步释放数据
红利的价值。
A
lib
ab
a
C
lo
ud
S
to
ra
ge
78 79
Alibaba Cloud
确认核心云服务的 SLA 服务等级协议2
SLA服务等级协议(Service Level Agreement)是服务商与客户之间定义并具体达成了承诺的有关质量、
可用性、责任(以及赔偿)等内容的正式约定,在一定开销下为保障服务的性能和可靠性,并且这种开销成为驱动
提供服务质量的主要因素。
云服务商将会为客户提供一份预先定义好并广泛适用的SLA服务等级协议(以下简称SLA协议),通常情况
下,云服务商与客户签订的SLA协议规定了其想客户提供的云服务(如云服务器、云存储、云网络等)的服务可用
性等级指标及赔偿方案。SLA协议内容在其有效期内,一般不会做任何变动,如有云服务的延续订阅,则在续订期
开始时所确定的SLA协议将贯穿整个续订周期。
确认核心云服务的SLA协议是企业上云中至关重要的工作,这意味着企业确认了云服务商所提供的云服务的可
靠性、可用性等指标,同时包括出现故障之后的解决和赔偿方案,可以满足企业内部的相关要求。一旦确认云服务
商的SLA协议,则意味着云服务商交付的服务级别得到企业的认可。
因此,企业应当从如下几个方面确认云服务商的SLA协议,以确保核心云服务在支撑业务连续性上得到有效
保护。
确认云服务商的MTBF(平均故障间隔时间) 和 MTTR(平均故障恢复时间):
包括数据中心服务和云服务在内最常用的量化数值标识,MTBF同时被称为平均无故障时间、平均正常使用时
间,这一数值越高则证明云服务商所提供的SLA协议的服务水平越高;
MTTR指某个云服务从故障发生到故障修复的的平均修复时间,这一数值越短,则表示云服务恢复速度越快、
易恢复性越好,从故障到恢复运行所耗费的时间越短。
确认服务可用性承诺:
云服务的可用性通过MTBF和MTTR的计算得到,即云服务可用性= MTBF/(MTBF+MTTR),这一数值即
云服务商在表达可用性时的“X个9”的常见数值。
一般来说,云服务商会为每一项云服务作出不同的服务可用性承诺,如果某项服务未达到前述可用性承诺,客
户可以根据SLA协议相应条款约定获得赔偿。
需要注意的是,云服务商所做出的服务可用性承诺普遍包括除外情形,云服务商预先通知客户后进行系统维护
所引起的,包括割接、维修、升级和模拟故障演练、客户的疏忽或由客户授权的操作所引起的等情况。
确认云服务 “不可用 ”的定义:
不同的云服务有不同的不可用定义,这一定义并非简单地被标记为“服务不可用”或者是“无法连接服务”,
它必须有准确的定义,其中包括及不限于具体的故障状态描述、功能失效描述、无法连接服务以及上述状态延续的
时间。
以云服务器为例,常见的对服务不可用的描述如:当一台设置了出入允许规则的云服务器实例以TCP或者
UDP协议与任一IP地址的双向(出/入)都无法联通,且该状态持续一分钟以上,视为该分钟内云服务器实例不可
用。
确认SLA协议所规定的赔偿规定:
当云所提供服务达不到协议中所约定的可用性标准时,应当对客户因此产生的损失进行赔偿,SLA协议针对赔
偿方式、赔偿标准以及客户提出索赔的时限都应当做出详细说明,以便在产生纠纷时有据可依。
赔偿方式和赔偿时效是重要的关注点。云服务商的赔偿方式包括但不限于代金券、使用时长、服务费用减免和
A
lib
ab
a
C
lo
ud
S
to
ra
ge
80 81
Alibaba Cloud
折扣账单,应当在SLA协议中做出规定;其次,云服务商一般要求客户必须在协议规定的时限内向服务商提出索
赔,超过时限的索赔要求无效。
在企业全面上云过程中,SLA协议成为阻碍的主要原因存在如下三种常见情况:
- 云服务商的SLA协议与传统IT供应商的SLA协议的差异:云服务商的SLA协议仍然在演进优化过程中,传统
IT供应商的SLA协议在全面性、细节性和体系性上存在一定的优势,这往往为企业全面上云带来SLA协议解释上的
复杂性;
- 与传统IT供应商所提供的IT产品、解决方案不同,云服务商所提供的服务往往直接服务于业务部门(甚至是
某个应用),这意味着业务部门希望对云服务商的SLA协议有所管理和影响;
- 云服务商的SLA协议不仅具有规范的约束作用,同时也意味着需要可量化的指标来衡量IT部门的服务质量,
但是,签订这样一份企业内部的协议却是一件比较难的事情;
为了避免SLA协议成为企业全面上云阻碍,在以上对SLA协议的确认之外,如下两个行动非常重要:
首先,IT团队与业务团队可签订企业内部的SLA协议,在云服务的内容与标准上便达成了一致,企业内部的IT
服务也将更加标准化与规范化,这不仅让IT团队与业务团队的结合更加紧密,同时有机会将云服务商的SLA协议贯
穿到业务服务中去,业务人员就可以清楚地看到,支持某种业务系统的哪些资源存在瓶颈或受到哪些限制,清晰化
云服务商在出现问题时的明确责任归属;
其次,选择第三方云服务SLA监控服务或自主建立SLA监控体系尤为重要,且需要形成对内的说明体系,这一
体系应当包括不同云服务的指标(需要参考不同云服务的可用性说明)、主动或被动地数据收集方式及频次、数据
处理分析及记录、异常情况下的告警机制。此外,云服务商如果提供API方式去获得SLA协议所需要的监控数据,
则可以考虑通过第三方监控服务获得持续的报告。
从云计算市场诞生之初,从0到1完成第一个上云项目就是一个关键话题,但随着企业对云计算理解和采用的
程度不断加深,企业在选择上云项目的标准在不断变化:在云计算发展初期,不仅是第一个上云项目,大多数的上
云项目(或者称之为系统)都是由单个业务部门驱动的单个系统或应用的,将云单纯视为另一种IT资源的云化,即
“ C l o u d Hosting”。此时,上云与传统IT采用方法区别并不显著,或只是“影子IT”或暂时测试。
随着越来越多的企业IT团队将上云作为一项旅程和使命在企业中推动,他们不仅向业务部门提供经过IT批准的
云参考体系结构, 以便他们能够安全、受管治和透明地在其上进行创新,更重要的是,上云成为一项受到IT团队支
撑、保护、监管和统筹的工作,不仅确保了安全性、合规性、可靠性,更重新改变了从0到1完成第一个上云项目的
定义。
但是,这并不意味着第一个上云项目的选择、规划、实施变得更加容易,恰恰相反,第一个上云项目变成必
须全面思考的问题,以确保企业全面上云的旅程有一个恰好的开始。因此,第一个上云项目在选择时建议遵循以
下原则:
- 明确的云采用动机:包括但不限于基础设施的重要迭代,如关闭线下数据中心、IT支出降低、关键性技术支
持的中断等;技术与业务创新,如获取新的技术能力、改善产品与服务体验、全球化或其他原因驱动的服务需求;
- 短周期内的结果呈现:中长期的上云项目结果回报并非不可接受,事实上,大多数的上云旅程的回报周期
都长达数月甚至1~2年,但对于第一个上云项目来说,IT团队必须尽快获得认可,才能持续的推动企业全面上云的
旅程;
- 最小且独立的作用域:除非有明确的企业高层的命令,否则将第一个上云项目与企业的数字化转型、全局性
从 0 到 1,第一个上云项目3
A
lib
ab
a
C
lo
ud
S
to
ra
ge
82 83
Alibaba Cloud
业务转型等联系在一起是非常不明智的行为,将范围限制在最小且独立的作用域有助于获得核心动机(及来自利益
相关团队的支持)和可衡量的上云效果;
- 与IT架构的颠覆和重构无关:第一个上云项目是IT团队与业务团队在企业全面上云领域的重要合作机会,将
其与IT架构的颠覆和重构联系在一起,不仅会降低业务团队对上云的兴趣度和支持度,更容易降低IT架构受到负面
影响;
- 寻找最感兴趣的利益相关者:在评估第一个上云项目时,寻找最感兴趣的利益相关者与技术、能力、成本、
业务理由和成果等要素同等重要,IT团队应该预料到早期的云项目会让一部分人兴奋, 也会让另一部分人感到不
适,寻找敢于尝试、好奇心强、对数字经济有所感知的利益相关者不仅能够快速实现从0到1的第一个上云项目实
践,而且可以作为未来推动企业全面上云的内部价值传播者和布道官;
- 全面且正向的业务理由:IT团队必须谨记,第一个上云项目如果没有业务直接促进作用那么就等同于对业务
的产生负面影响,无论是业务成本降低、业务流程优化、新技术的创新性使用或是业务灵活性改善,对业务产生直
接促进作用非常重要,这将建立一个基线,帮助其他业务团队理解企业全面上云的价值;
- 选择财务情况相对清晰的领域:复杂的财务情况会导致第一个上云项目价值无法得到准确、显现的计算,从
而导致上云重新回到传统IT的成本中心的状态,从而无法获得继续支持;
- 数据和算力需求为主、独立IT系统可供选择:算力需求和数据容量的暴增有目共睹,传统IT的持续投资意味
着将成为数字经济时代的沉默成本,与此同时,这两部分的成本和复杂度都驱动其成为第一个上云项目,将算力和
数据移动到云是一种可靠的快速胜利。此外,灾备系统、测试等非生产系统、以及其他简单系统是尝试第一个上云
项目的推荐选择;
上云的价值正在得到广泛认知,但也存在着一定的误读,并导致部分团队的狂热,许多企业早期的甚至唯一的
上云拥护者往往将云认为是“解决一切IT技术、能力、资源和创新问题的灵丹妙药”,并对其在改善业务方面的表
现充满希望。
因此,在上云时评估业务痛点并收集需求清单的工作就显得尤为重要,在此建议从如下五个角度评估业务痛
点,以确认其成为上云旅程中重点关注的对象。
- 认清提出业务痛点的角色:评估业务痛点的第一步是与企业内不同角色进行调研对话,包括但不限于财务角
色、市场营销角色、客户服务角色(通常为销售)、人力资源与行政角色、管理层角色、产品与技术开发角色,他
们会提出基于其自身角色的业务痛点,如财务角色关注提高盈利能力、降低成本并改善合规性;
- 明确解决业务痛点后的结果:IT团队必须明确业务痛点解决后所能获得的业务结果,包括但不限于财务结
果、性能结果、敏捷性结果、组织及创新结果、客户体验结果等,这些结果应当有业务团队的明确承诺和数字指标
上的改善,比如在上云之后,业务团队全球客户服务网络的延迟性从秒级提升到毫秒级;
- 定位业务痛点与上云之间的关系:一定比例的业务团队会夸大业务痛点与上云之间的重要性关系,从而将业
务效果、敏捷性等结果与云密切相关,但能否快速响应和推动市场变化并非仅仅依靠上云实现,IT团队必须避免此
类“诱惑”,强调业务痛点通过上云得到明确改善,而非受到业务团队其他因素的严重影响;
- 数据和算力驱动改善的业务痛点:数据和算力驱动的业务痛点改善,包括工作负载表现的优化,是上云可以
直接产生的效果。IT团队必须明确业务痛点受限于数据和算力的可获得性,而非其他明确的限制性因素,这些可获
得性不仅包括数据和算力的资源储备充足度、易用性,也包括IT团队的支持响应速度。
评估业务痛点与收集需求清单4
A
lib
ab
a
C
lo
ud
S
to
ra
ge
84 85
Alibaba Cloud
收集需求清单是企业顺利全面上云的重要工作,在此过程中,以业务痛点的评估为基础,收集支持特定业务的
IT需求及资产的列表,以便在上云旅程中持续与业务团队互动,进行业务需求分析及支撑计划。
在收集需求清单时,建议将获得的需求分为以下三类:
第一类,急切需要解决的业务需求,如果该问题不能得到尽快的解决,则会产生显著的业务影响,降低企业业
务收入和客户服务水平,上云能够产生显著改善;
第二类,需要改善但短期内不会对业务造成显著影响的需求,该问题必须要得到解决,如持续上升的业务(或
IT团队)人力成本,但在短期内可以通过人力增加或自动化工具(如RPA等)进行解决;
第三类,是否需要改善仍然有待商榷的需求,处理这部分需求时IT团队必须与评估业务痛点紧密结合,避免虚
假的需求清单(与云无关的)成为上云旅程中的组成部分;
作为需求评估的补充,IT团队不应只面向内部客户(即业务团队)进行需求分析,外部客户的需求(包括引入
业务、开发、运营及管理等团队的讨论)是企业全面上云的重点,确保清晰的需求分析是实现全面上云价值最大化
的所需要得,并能够确保IT团队充分了解业务团队的业务成果目标及其所需要的IT资源与运营支持。
在长达二十年之久的信息化进程中,无论是互联网公司还是传统企业,在积累物理资产的同时,拥有并积累大
量数字资产,包括虚拟机、容器、应用程序、算法和数据等。
需要指出的是,在企业全面上云过程中所统计的数字资产,不包括传统物理资产和无形资产(如专利、商标
等)的数字化表达,数字资产是支撑企业业务及其流程、运营管理、系统运维、安全合规等信息化、数字化工作而
存在的技术与数据资产的总集。
在企业从信息化到全面上云的过程中,数字资产将从传统物理基础设施同步迁移到云上基础架构,由于企业全
面上云的主要驱动力往往来自于数字化转型,因此,这意味着IT团队在完成数字资产的整体迁移的同时,往往要面
对更高的对数字资产可用性、准确性和及时性的要求,形成双重压力。
清点数字资产并形成清单,同时将数字资产与其所支撑的业务进行一一对应,进而完成数字资产与业务的映射
关系,确保上云后面向业务的数字资产可用性,是企业全面上云的重要步骤,它确保上云后数字资产的不丢失、业
务应用资源的可用以及进一步对数字资产分析及合理化的充足准备。
数字资产清单的收集常被规划为三类:
基础架构资产:通常情况下被定义为提供基础IT能力支撑的数字资产,包括但不限于虚拟机、容器、网络架构
等,需要通过系统扫描和支撑业务的基础设施的统计,确保创建的所有基础架构资产都被登记在统一列表上,需要
注意的是,网络架构存在映射和依赖关系,也应当一并登记;
应用体系资产:无论是对内还是对外,应用体系都是直接面向“客户(或用户)”的数字资产,满足所服务对
象需求并接受其反馈,但应用体系资产并不仅仅包括前端的应用程序,更包括使其发挥作用的API、应用框架、中
间件以及应用架构,由于在上云过程中一般不涉及到算法,并不需要包括算法等数字资产;
数据资产:数据资产是企业产生量最大、产生最频繁的数字资产,每时每刻都在发生变化,但总体来说数据资
产处在持续高速膨胀之中,企业全面上云的很重要一步就是数据及数据平台全面上云,数据平台包括数据仓库、
数据湖以及数据中台体系。因此,数据资产清单的内容不仅应当包括数据,还应当包括数据支撑体系(如数据中
台)、数据依赖关系、数据变化流程以及企业数据管理政策规范;
清点数字资产与合规性要求5
A
lib
ab
a
C
lo
ud
S
to
ra
ge
86 87
Alibaba Cloud
数字资产清单的收集很难在一次流程中完成,IT团队需要和包括业务团队在内的所有相关方进行验证确认,同
时,尽可能使用自动化工具进行统计而非单纯的手工作业以确保能够收集到清单所遗漏的数字资产,与此同时,建
议遵循以下三个原则:
1、清点数字资产和安全合规性需求清点同步进行,在清点数字资产的同时完成安全及合规性要求的收集,并将
两者联系起来,这将帮助IT团队避免重复的安全合规调研工作,并帮助梳理、评估、管理和保护企业的数字资产;
2、清点数字资产同时下线“被遗忘”的基础架构和应用体系资产,清点数字资产的过程同时是抛弃已经被遗
忘的数字资产的过程,如长期闲置的虚拟机或操作系统镜像,在清点过程中可以借此降低维护数字资产的成本,并
避免将陈旧、冗余和无效的数字资产带入云端;
3、混合的、多步骤的清点数字资产方式:无论是从工作负载入手还是从资产管理入手,亦或是从财务报表开
始,都存在一定的不足,清点数字资产方式应当是多种方式的混合,常用的方法是首先从资产管理入手,并通过财
务报表进行比对和验证,在此之后通过工作负载开始对前面工作的成果进行验证,并列出业务关键工作负载的数字
资产清单以确保上云过程对核心业务不会产生任何负面影响,随后在基础架构资产、应用体系资产和数据资产的上
云过程中,不断与财务报表和当前版本的数字资产清单进行比对。
在对云的理解和云技能上严重匮乏,IT团队同样面临云技能方面得诸多短板。
不仅如此,据《云计算发展白皮书(2020)》指出云技能从粗放向精细转型,技能体系日臻成熟,随着云原
生的容器、微服务、无服务器等技能,越来越靠近应用层,资源调理的颗粒性、业务耦合性、管理效率和效能利用
率都得到了极大提高,但对IT团队的技能要求也越来越高。
企业必须要找到来自内部或外部的合适人选,使用正确的技能集合以优化其上云迁移,但这一人选并不仅仅是
一个人,而是应当包括五类具备关键技能的人员:
- 云计算基础设施相关技能,虽然云服务都基于在线服务和API,但具备基础设施管理、运维和架构经验,并
熟悉其在云上映射体系的技能,尤其是虚拟化、云存储和虚拟网络等方面的技术能力,这是搭建云计算基础设施的
关键。相关技能应当包括部署实施能力、性能优化能力、架构设计能力、云服务产品配置能力、业务迁移能力和云
服务产品对比能力;
- 完整支撑应用程序堆栈的技能,虽然不是每一个IT团队的成员都需要具备该技能,但是至少有一位团队成员
需要熟悉从底层资源(IaaS)到中间件及平台层(PaaS)完整支撑应用程序堆栈的技能,这不仅能够更好地支撑
应用程序迁移到云,也可以触类旁通的解决应用体系迁移问题;
- 数据架构设计、构建和支撑的技能,数据上云能够显著加速企业数字化进程,充分利用云上的分布式、高可
用、高性能等特点,设计数据存储架构并构建起数据存储及支撑业务的基础设施的技能尤为重要,这部分包括数据
存储技术、数据分析、数据可视化、数据变成、数据项目设计等技能;
- 在云上构建安全体系的技能,在企业全面上云旅程中,安全体系建设必须同步构建,才能够及时实现安全处
理,同时,IT团队必须有专门人员具备相关行业的安全协议和相关的法规的理解和执行能力,这意味着IT团队的安
全人员除了熟悉云服务商的DDoS防护、Web应用防火墙、网站威胁相关系统之外,要快速学习云防火墙、云监控
等技能;
上云技能与组织就绪6
1 全面上云的技能准备
越来越多的企业将他们的基础设施、应用程序和数据迁移到云中,许多企业全面上云旅程的主要负责人都将迁
移作为整个工作中的第一要务,但对于相当多的非互联网企业来说,当企业开始云迁移之后才发现,不仅业务团队
A
lib
ab
a
C
lo
ud
S
to
ra
ge
88 89
Alibaba Cloud
- 具备同时向IT和业务团队进行上云培训技能,培训技能常被上云负责团队所忽略,为了帮助IT和业务团队开
始上云旅程,必要的培训必不可少,包括上云理念、策略、规划、采用以及就绪等方面的IT技能培训,同时也应加
入让业务团队理解上云价值的沟通型培训。
企业全面上云的技能准备可以通过云服务商所提供的认证培训服务获得,并认证培养、挖掘专业人才,提升公
司的云上技术能力,在阿里云上亦提供相关服务,具体可参见:阿里云大学- 。
在企业全面上云的旅程中,组织话题贯穿整个生命周期,但在上云初期,规划恰当的上云组织架构,确保整个
企业的组织——而不仅仅是IT组织——的就绪,将为上云提供可靠的保障,同时避免大量经常出现的上云陷阱和难
题。
为了实施企业全面上云,应当建立专门的上云组织团队,贯穿整个上云旅程并在企业全面上云之后,转换成为
企业的云服务与云创新团队,这一团队的组成、职能和构建建议如下:
- 设置云治理专业岗位甚至小规模独立团队,从IT治理的概念迁移,云治理是在在企业全面上云过程中,为鼓
励期望行为而明确的决策权归属和责任担当框架,企业应当在上云伊始设置云治理专业岗位甚至小规模独立团队。
以确保可以正确评估、管理和监控上云的进程、风险及合规性,从最小化可行产品原则开始构建,持续从关注访问
控制和资源管理的轻量级治理模式,过渡到基于组织架构的企业级IT模式,并形成效能优化治理模式。
- 建立融合云策略和云采用职责的专业团队,云策略和云采用团队是上云中必不可少的组成,但与市场上流行
的独立构建方式不同,在此我们建议将云策略和云采用团队加以融合。这个团队将不仅负责定义上云驱动力、上云
路径、业务合作策略和上云价值结果,还将投入到如何将其付诸实施的工作中去,这将帮助这个团队在云策略与云
采用之间达成更实际的可行性与优先级的平衡。
但这一融合团队并非每个人都身兼两种角色,常用的方式是一部分人主要负责云策略但兼顾云采用,另一部分
人则与之相反,但团队的负责人应当横跨两个职责,在主要负责云策略的成员中,应当有业务团队的参与,但IT团
队仍然不应当缺席。与独立构建两个团队不同,融合团队将实现更及时的协作,并通过云采用过程中的反馈修正云
策略,以确保企业全面上云旅程的顺利展开。
- 清点数字资产与合规性的岗位应当长期存在,正如前述,数字资产清单的收集很难在一次流程中完成,IT团
队需要和包括业务团队在内的所有相关方进行验证确认,即使是在企业全面上云之后,为了确保云上数字资产的清
晰、准确,这一岗位应当长期存在并扮演重要角色。
- 与应用迁移和业务开发紧密结合的DevOps团队,DevOps理念强化软件研发运营全周期的管理,从软件需
求到生产运维的全流程改进和优化,结合统一工具链,实现文化、流程、工具的一致性,降低组织内部的沟通与管
理障碍,加速业务的流程化、自动化。这意味着,在上云初期即建立与应用迁移和业务开发紧密结合的DevOps团
队,业务团队和IT团队会有机会将部分业务负载跨越Cloud Hosting阶段直接进入Cloud Native,改变研发运营的
生产方式,打破组织壁垒,实现研发与运维的跨域协同。
- 明确一个稳定长期存在的云运维团队并确保低离职率,虽然许多互联网企业认为“谁构建,谁运维”,其运
维工作全部由开发人员完成,只保留极少的 核心角色专门响应和处理严重等级的故障,但是在非互联网企业中,云
运维团队仍然非常重要。
云上运维与传统运维有着本质上的区别,并非是运维物理资源向运维云上资源的变化,而是一种全新的以业务
为导向、以云的特性为基础的全新运维方式,运维将从IT运维转向云上新基础设施运营,运维人员面对的是一个无
法见到任何物理设备,脱离原有工具体系,(云)资源获取速度更快、颗粒度更细、种类更多元,并从硬件基础设
施进入操作系统、软件应用程序和云操作系统的全新环境。
因此,在云上,运维人员并不是没有价值,而是会变得更加重要,当前的运维工作不是AIOps 和运维自动化工
2 组织就绪为上云提供保障
A
lib
ab
a
C
lo
ud
S
to
ra
ge
90 91
Alibaba Cloud
具可以独立承担的,但需要指出的是,底层基础设施的运维工作确实可以委托给第三方公共云服务商统一负责,但
上层应用的运维工作还需要企业自己来承担。云运维团队将倾向于具备开发能力,尤其是产品能力,某种意义上将
是DevOps团队的一部分。
CEO的价值与角色转变:上云无关者-上云尝试者-上云决策者-上云倡导者
CEO是一个在企业中负责日常经营管理的最高级管理人员。一般意义上认为,作为公司的实际管理者和经营
者,IT 投资的政策和策略以及公司 IT 资源的流动、组合和重组只需要经过CEO审核、批准,而无需CEO进行过
多参与和干预, 即使是在互联网企业CEO往往具有技术背景(甚至是IT背景)的情况下,CEO对IT建设的参与度
也仍然偏低。
在云计算时代,云比传统IT与企业业务的构建、运营和增长的关系更加紧密,这意味着CEO在上云过程中必然
经历一个从无关到浅层参与到深度参与的过程。
上云无关者:CEO将上云看作是传统IT基础设施在技术上的升级迭代,简单的将上云理解为从物理基础设施到
虚拟化基础设施的转变,对上云过程中出现的新成本支出投以最主要的关注,并要求CFO较多的参与上云进程。
上云尝试者:通过外界及同行业信息的了解,对上云具有一定的理解和兴趣,愿意支持IT团队进行探索,尝试
将单个业务项目做上云改造,但仍然将云计算视为IT基础设施的一部分,即将这种改造认为是IT支出和服务方式的
改变,并要求业务项目改造后有明确的成本效益。
上云决策者:认识到IT基础设施的云化只是上云的第一步,认可云计算在企业业务上的巨大价值,决定借助上
云来推动企业核心技术的互联网化、应用的数据化和智能化,在将业务逐渐云化的过程中,决定利用云深度改造和
优化现有业务,成为企业上云的决策者,将业务团队和IT团队联合在一起推动上云进程。
上云倡导者:要求企业全面上云。在一定期限内100%业务上云,制定通过云上产品、技术和解决方案,加速
实现企业业务数据化、AIoT化(智联网)、移动化。在制定业务和技术战略时,将云所供给的资源、能力作为战略
发展的参考,向合作伙伴和客户倡导上云,并推动构建云上生态和产业链。
CFO的价值与角色转变:财务审核者-上云狂热者-上云战略参与者-新财务模型设计者
CFO经常是CIO的管理者,即向下管理CIO,向上将IT作为自己工作的一部分向上对CEO负责,肩负这一角
色的CFO负担着两个责任:第一,企业财务、投(融)资的第一责任人;第二,将IT作为重要的投资之一,纳入严
格的成本管理中。
但更重要的是, CFO应当将新的财务计划与企业发展战略联合,必须做到能够主动的评估当前的技术、财务
状况与公司的发展规划之间的有机联系,在这三者之间建立有序的链接,使公司上下协调一致,发挥最大职能。
这样的CFO是对传统CFO功能的一个突破——CFO现在已经愈来愈成为公司战略层面的重要架构,成为管理
层的紧要顾问。
财务审核者:受限于专业技能,CFO对云计算的理解速度和深度都处于“慢热”。由于IT建设长期采用项目制
并每年审核(极少的企业会制定3-5年的长期IT投资计划)IT支出和预算,CFO在上云初期会将云计算作为一般性
投资项目认知,并因为其新增支出的属性加以严格审核,这意味着CFO将只是作为财务审核者的身份参与到上云初
期进程中。
3 CXO的价值体现与角色转变
上云并非简单的IT投资,它所改变的除了企业的IT基础设施、数据基础,影响IT运维团队的运营模式与工作目
标,还包括企业的业务系统、信息系统、财务系统等系统平台,并对企业的业务运营、消费者触达、生态连接以及
内部的组织和运营模式产生深远影响,因此在上云进程中企业中的CXO(CEO、CFO、CIO)不仅需要起到非常
重要的推动作用,发挥其在上云中的关键价值,企业CXO自身也会经历角色的转变。
A
lib
ab
a
C
lo
ud
S
to
ra
ge
92 93
Alibaba Cloud
上云狂热者:由于自建数据中心及IT基础设施涉及到巨额的资金预支,一次采购长期占用大量资金,并持续贬
值,CFO往往会因为硬件、软件一次投入对现金储备的挑战而严格审核IT支持。在上云进程中,随着云计算按需
使用、按需付费、支出灵活的特点(特别是云服务支出入费用,企业级客户通过长约获得优惠,比资产平摊费更
低),Capex到Opex的转换会让CFO高度认可,并陷入上云狂热期。这意味着CFO将会要求快速实现从传统IT
架构向云的转换。
上云战略参与者:经历上云狂热期的CFO会之间发现,并非所有的云服务都能带来CFO们所期望的弹性和按
使用计费的特性,比如SaaS则一般是按用户数来收费,并且需要签署长期服务协议,很难达成随用随停的目的,
CFO将认识到,自己必须要亲自参与到上云战略中,通过财务的手段实施上云战略层面的操作,一个非常重要的工
作,是具备数据分析师的能力,将来自上云的原始数据碎片整合成有效的数据信息,融入公司战略中。
新财务模型设计者:创建一个财务模型用于准确全面反映任何云转换的商业价值的过程可能十分复杂,而且不
同组织的财务模型和业务模式往往不尽相同,但是为了更好的了利用云及云上的大数据、人工智能等技术红利,
CFO仍然应当从收入及成本增量、运营成本缩减、人员及软性成本减少、云投资收益等方面,设计新财务模型,以
更好地支出企业上云进程。与此同时,为上云设计的新财务模型能够在企业数字化转型过程中被复用。
CIO的价值与角色转变:上云诠释者(布道)-上云推动者(协调)-上云流程管理者-业务紧密合作者
随着云计算的采用,企业中越来越多的业务单元将拥有自己的IT采购流程,CIO将花费少得多的时间来担忧
IT基础设施的具体细节,但这并非完美的解决方案,IT资源和能力的配给并非只是单纯的“性能、容量和带宽采
购”,业务单元的负责人们会面对SLA无法满足最低要求、很难精确预测数据量和贷款卡需求、无法有效管理资源
(特别是网络)等问题,这些问题可能会导致长时间的宕机,并放缓应用响应水平,从而影响生产效率并产生不合
规和业务损失的风险,同时提高IT成本。
上云诠释者(布道):为了说服企业高层和内部协作者上云,CIO在上云初期必然会肩负起上云诠释者的角
色,成为最为积极的上云布道师,这其中的关键说服原则基于云计算可以重构垂直行业的业务流程和商业模式的巨
大潜力,因此CIO必须具备能将复杂的事情简单化,能一句话说清楚云计算给企业带来的新商业模式和结构重组价
值。
上云推动者(协调): 在这阶段,CIO的主要职责是确立新建IT计划的优先顺序,审核、协调与推进上云计
划,从业务优先级、应用复杂度、迁移难度、业务连续性要求等角度,制定包括系统、应用上云顺序在内的上云路
线图。CIO需要投入较大的精力在协调工作,并在复杂环境中持续推动上云。
云采用管理者:随着技术在企业运营中变得愈加重要,COO和CIO的角色将合并,业务单元及其服务提供商
之间的政策执行、技术布道和调解将成为CIO的关键职责。因此,在企业中CIO的角色演变成为运营职责,更多注
重内部咨询,更少涉及基础设施管理,成为拥有较强的云采用自主权的业务单元的云采用的顾问和管理者。
业务紧密合作者:CIO将技术调配战略与业务战略紧密结合在一起,可以在不同的业务单元上推动云与业务的
结合使用,以使其保持竞争力和创新性,具有优化、促进甚至是改进企业现有业务的能力,IT团队将有一部分成员成
为业务单元的核心成员,CIO自身也将成为业务紧密合作者,将云计算作为业务发展的关键驱动力之一。
St
or
ag
e
Cl
ou
d
Alibaba
9
4
95
Alibaba Cloud
企业云部门的终极使命是打破IT内部的壁垒,打破IT与业务的壁垒,用最快的时间,最低的成本,最好的质量
来实现业务的任意需求/创造业务新场景,最终支持企业转型为融合业务与技术的“软件定义”生态圈经营体。
云的建设过程,是效率革命的过程,也是技术、组织、流程多方面适配业务变革的过程,赋予IT前所未有的参
与业务的 “机遇 ”。
依据业务需求设定可用性等目标,确保未来云服务对外提供服务的管理流程,运营服务等级协议并支持合同满
足服务等级协议的要求。
设定提升 IT 服务质量的目标1
企业全面上云成功路径与实践
IT 上云蓝图规划5
来自于一线实践的内容,为上云负责人提供 IT 上云前的完整筹备 “清单 ”
1 服务等级管理流程
A
lib
ab
a
C
lo
ud
S
to
ra
ge
96 97
Alibaba Cloud
业务单元A
业务流程2业务流程1
SLA (s)
SLA (s)
支持小组 供应商供应商管理
合同
SLA (s) 服务ABCDE SLA (s)
业务流程3
业务单元B
SLM管理
业务流程5业务流程4 业务流程6
确定、协商、记录和约定S LR
中针对新的或变更服务的要求,
将其作为运营服务的S LA的一
部分
开发合作关系、对客户投诉和感
谢进行记录和管理
监控服务的运作情况、
撰写服务报告
比较、衡量并提高客户
满意度
对S LAs、服务范围进
行评估和汇报
服务报告
开展服务评估汇报、调
查所有SIP内部的改进
情况
对标准和模板进行记录
为服务目录提供帮助、
维护文件模板
服务目录
图 服务等级管理流程示意
服务等级管理应符合企业云部门的服务等级协议的结构,以保证企业业务需要得到及时响应。
有效管理业务满意度。加强对业务满意度的管理,明确改进方向。
未来云服务应通过内部技术团队、外部合作伙伴及外部供应商共同对外提供服务。
在服务等级协议达成一致后,应立即启动服务监控,并定期向业务方提供服务绩效报告。
定期评审会应组织行业单位人员共同参与,以评估过去一定时期内的服务成就及下一时期的服务目标。
服务等级协议须得到有效的监控,才可以对服务进行衡量及改善。
· 设计服务级别需求框架:
· 考核、测量和改善客户满意度:
· 审查和修订基础协议和服务范围:
· 服务报告:
· 在服务改进计划中,审查、改进服务:
· 业务连续性:RTO、RPO、其他
· 容灾服务支持:服务支持时间、问题响应时间、问题解决时间· 监控服务绩效:
在云服务SLA指标管理体系方面,通过对业务连续性、系统可靠性及系统运营服务等级的定义,来定义不同的
指标项去满足服务需求:
在业务连续性方面,通常会根据系统的RTO、RPO来衡量是否满足用户服务需求,根据业务连续性等级的不
同,会对RTO、RPO以及其他特殊的参考指标的要求共同去定义容灾指标。
2 SLA指标管理体系
A
lib
ab
a
C
lo
ud
S
to
ra
ge
98 99
Alibaba Cloud
对于容灾服务来讲,一般而言会定义服务的支持时间、问题相应时间和问题解决时间,再根据容灾级别和故障
级别定义具体的指标项。
· 整体服务水平:可用性、性能、满意度、服务支持时间、其他
· 故障处理效率:问题响应时间、问题解决时间
· 收集指针以确定初始服务级别。
· 将服务表现与期望的结果和基准进行比较,以确定具体的服务表现目标。
· 指标不会在云服务外部传达。
· 工具和范本简单,可以是手动进行。
· 生成服务表现指标,并传达给企业业务部门。
· 设计简单的服务表现检查方法
· 工具和模板内置于流程中,并作为日常工作的一部分进行更新,自动化程度不断提高。
· 启动常规报告和回馈程序。
· 服务确定级别差异并创建具体的改进行动计划。
· 调整服务等级目标,主要为了持续提升以满足业务部门的技术和业务目标。
· 服务表现的管理工具与系统数据连接,且大部分是自动化的。
· 绩效管理流程已投入运行。
· 实施改进措施,确定结果,确定新目标。
· 服务表现衡量系统到位。
· 连续测量和数据收集的过程是完全自动化的。
· 基于结果的奖励措施已经到位。
对于未来企业提供的云上服务,根据具体的服务级别,会对服务的可用性、性能、满意度、服务支持时间或者
一些服务的特殊指标要求去定义具体的指标项。
对于云上服务出现故障的时候,一般来讲我们会通过衡量运维人员的故障的响应时间以及对问题的解决时间两
个维度去定义服务的等级。
阶段一:基线
伴随企业信息系统的持续建设,各种业务应用会导致某种程度的技术债,并具有各自独特的属性。因此,云的
阶段二:实践
阶段三:提高
阶段四:优化
3 SLA目标设定
根据用户类型和请求类型去定义不同的服务指标。在云服务投入运营后,建议SLA服务水平等级应随时间推移
而变化,从基础水平开始,并逐步提高标准。
上云目标评估要素及可行性分析2
A
lib
ab
a
C
lo
ud
S
to
ra
ge
10
0
1
01
Alibaba Cloud
采用将因产品组合而异。
可借助企业全面上云方法论,通过上云适应性和评估模型及工具,收集企业应用多个维度的特征数据,并加以
分析以评估应用对云的兼容性、最佳着陆区和应用上云迁移路径。
需要收集的应用关键信息按其评估目的可分为业务目标评估、安全合规评估、业务运行环境评估和IT基础架构
评估。
进行业务目标评估所需要收集的业务应用特征数据(关键属性)有:
进行安全合规评估所需要收集的业务应用特征数据(关键属性)有:
进行业务运行环境评估所需要收集的业务应用特征数据(关键属性)有:
1 业务目标评估要素
2 安全合规评估要素
3 业务运行环境评估要素
· 上云收益
· 市场需求
· 可用性要求
· SLA等级
· 高可靠性要求
· 灾备要求
· 功能要求
· 用户数预估
· 业务增长预估
· 对用户的影响
· 组织结构支持
· 合作伙伴支持
· 物理安全
· 硬件安全
· 主机安全
· 网络安全
· 虚拟化安全
· 数据安全
· 账号安全
· 业务安全
· 安全监控
· 国家/地区合规要求
· 行业合规要求
· 企业内审合规要求
· 技术架构
· 硬件相关性
· 源代码是否可控
A
lib
ab
a
C
lo
ud
S
to
ra
ge
10
2
10
3
Alibaba Cloud
· 编程语言
· 程序模块耦合度
· 外部依赖性
· 应用扩展性
· 是否使用分布式架构
· 应用发布流程
4 IT基础架构评估要素
进行IT基础架构评估所需要收集的业务应用特征数据(关键属性)有:
· 部署架构
· 应用稳定性
· 使用虚拟化
· 存储设备使用
· CPU/内存要求
· CPU/内存使用率
· 网络延时
· 物理设备依赖性
· 操作系统上云兼容性
· 中间件上云兼容性
· 数据库上云兼容性
基于收集到的50多个维度的业务类和技术类的业务应用特征数据(关键属性),借助上云适应性和评估模型客
观地对客户现有的各个业务领域的应用系统进行量化评估,形成上云可行性评估报告。
评估报告的主要内容包括对于每个应用的上云可行性的简要描述,分析评估的结果以表格和散点图的形式呈
现。示例如下:
5 上云可行性评估报告
属性
应用程序云就绪性(仅套装软件)
权重和置信系数 适用性和放置值
权重
5
置信
5
本地数据中心 中性 公有云
无云版本 需要升级 支持当前版本
应用程序: 套装软件与否 3 5 套装软件 自定义 Web
应用架构知识水平 7 5 低 中等 高
应用代码复杂性/规模 8 10 高 低中 低
应用程序硬件依赖项 10 10 是 不可用 否
应用程序操作系统/平台的云适用性 6 5 非云兼容 需要升级 云兼容
应用规范和合同需求 7 10 高 中等 低
应用服务器云就绪性 6 5 非云兼容 需要升级 云兼容
业务关键性 8 10 非常高 中高 低
业务功能就绪性 9 5 否 是
数据库云就绪性 6 10 非云兼容 需要升级 云兼容
数据分类 6 10 高保密 内部 公共
A
lib
ab
a
C
lo
ud
S
to
ra
ge
10
4
10
5
Alibaba Cloud
适用性
组
织
颠
覆
性
高
低
高低
CRM
运维系统
电子邮件
业务流程
全球官网
SharePoint Team 站点 云存储
公司社区
SharePoint
单点登录
即时通讯
云架构 阶段 1 2 3 完成
主要
联系人
业务
驱动因素
适用性 影响 其他
解决方案1 领导 53% 53% 57%
解决方案2 领导 6% 32% 33%
解决方案3 领导 6% 32% 33%
解决方案4 领导 6% 32% 33%
解决方案5 领导 6% 32% 33%
其他机会项 框架步骤
云架构 阶段 1 2 3 完成
主要
联系人
业务
驱动因素
适用性 影响 其他
特殊情况 领导 6% 32% 33%
图:上云可行性评估结果示例
阿里云基于成熟的企业客户上云经验,提供上云可行性的快速评估工具供您使用。通过梳理在企业上云前普遍
需要关注和评估的问题点,给予企业评估建议报告,助力企业全面上云。
在上云评估阶段,通过上云可行性评估工具可以完成:
· 分析云下业务与技术的痛点,评估云上解决痛点的可行性,作为分类对接方案、人员的依据,为针对不同规
模、场景制定有效的迁移方案做准备。
· 以在线调查和评估报告的形式从IT基础设施、上云目标、业务环境和安全合规等维度详细评估,相比线下表
格更有利于迁移过程信息化管理和打通服务。
A
lib
ab
a
C
lo
ud
S
to
ra
ge
10
6
1
07
Alibaba Cloud
需要说明的是:上云评估越详尽,上云方案就会越具体,整个上云过程也会更快更标准。
获取阿里云企业上云可行性评估工具,前往上云能力中心开始评估(
submitAssessment)。在评估过程中,您还可以免费咨询阿里云企业上云专家获得支持。
IT 上云规划3
在进行上云规划过程中,要对现有负载及业务情况进行调研分析,可以通过工具和方法来收集应用程序的信
息,主要包括以下内容:
应用数据
主要包括所有应用程序组合的完整列表,以及技术和非技术属性。
我们可以从以下几个维度确定业务与负载上云优先级。
快速降低IT运维成本
将现有应用按照原样迁移到云平台上,利用基础设施资源及服务只做虚拟化部署,不需要进行技术架构和数据
架构的变更。
快速的帮助业务增长
基础设施数据
主要包括基础设施的架构、应用程序与基础设施的映射数据,工作负载的类型以及软件版本。
性能数据
主要包括应用程序的性能特征、服务属性以及日常的服务请求数量。
财务数据
主要包括与当前基础设施资产有关的财务成本和现行折旧时间表。
安全性和合规性信息
主要是对企业所在区域与网络安全需求相关的法律法规及相关政策进行分析、并遵循行业监管和组织内部对数
据安全、隐私保护和透明度的要求。
1 业务梳理
通过工具和方法,从业务的影响范围、组织范围、重要性、关联度,业务一致性要求、风险及监管要求、应用
体系架构、基础技术架构等多个维度,对企业现有的业务进行梳理。评估业务目前的运营状态,确定与未来的业务
运营需求的差距,结合发展趋势和领先实践,确定业务上云的规划目标和迁移路线图。
2 负载分析
1、现有负载及业务情况调研/分析
2、业务与负载上云优先级
A
lib
ab
a
C
lo
ud
S
to
ra
ge
10
8
10
9
Alibaba Cloud
把一个旧的原应用系统,或者已经迁移到云上的系统进行改造,对相关的组件、服务进行替换或者部分优化,
通过使用PaaS平台资源及服务,将原有的应用系统改造为云应用。
从旧系统投资中挖掘出最大价值
将现有核心应用重新设计成为松耦合、模块化的云原生架构。通过云服务的支撑能力提升系统安全性、可靠性
和高性能,并降低业务变革带来的成本。
首先是利用应用程序映射工具对应用进行关联依赖性分析,形成依赖树结构,然后是逐一对依赖分支进行识
别,确定不被其他应用程序依赖的应用程序,结合业务与负载上云优先级的规划内容,将这些应用程序划分到初始
迁移的应用组合中。对于有相互依赖关系的应用程序,要根据其业务的重要性和依赖关系进行识别并分组,形成后
续的应用组合。
3 应用及关联依赖分析,现状接口与依赖关系梳理
业务—对齐型组织
综合型组织
4 业务、组织与架构规划
1、与云相对应的组织架构
云服务 云服务 云服务
LOB 2 LOB 3LOB 1
云服务
LOB 4 LOB 5 …
云服务 …
云服务
基础设施 架构 数据 IT安全 其他 …
CIO
图:业务—对齐型组织模式
图:综合型组织模式
业务—对齐型组织概念
业务—对齐型组织缺点
业务—对齐型组织优势
· 云团队细分为与业务团队一致的组
· 大部分是联合交付模式,核心团队负责制定标准、选择平台和指导体系结构设计
· 需要强大的跨云治理和采用支持工具来嵌入和自动化风险、合规性和控制机制
· 跨业务部门的重复功能和角色会导致增加员工人数
· 支持专门定制的云基础架构解决方案
· 通过端到端业务一致性提高响应能力和成本透明度
· 促进业务单位和IT组织之间的明确责任和界限
· 减少对基础架构团队的依赖和需求
A
lib
ab
a
C
lo
ud
S
to
ra
ge
11
0
11
1
Alibaba Cloud
综合型组织概念 领袖型组织概念
领袖型组织优点
领袖型组织缺点
云服务团队需要具有可衡量,责任清晰的特质,并能够提高云计算运营管理的效率。
云服务团队是由一个云计算核心技术专家(COE)团队和相关功能团队组合而成。云计算运营团队为所有云
计算环境的决策和行动指明方向。
云服务COE模型定义了在团队角色跨域的云计算运营管理责任。
综合性组织优点
综合性组织缺点
· 云服务团队作为传统IT基础架构团队的扩展,创建支持混合基础架构的集成功能,提供公共、私有和现有内部
基础设施之间的连接
· 成立专门的云服务团队,直接向 CIO 报告,云被公认为业务的关键驱动因素
· 此类组织形态在面向产品和技术的企业(例如金融行业、技术型企业)中经常看到
· 一套标准、模式和设计——摆脱以应用程序为中心的方式,提高利用率
· 云业务流程推动正确的需求流程
· 为云服务部门提供机会,创造新的品牌和声誉
· 促进敏捷性和灵活性,以推动支持云的战略计划,创新和生成新的服务和产品
· 使云团队和其他IT职能之间的责任和组织接口更加清晰
· 需要大量资金来重组现有团队或从零开始构建、达到临界质量并过渡到可持续服务提供商
· 迫使云服务领导层专注于引导,而不是战略领导力
· 支持云服务而不增加新的组织结构,实现云服务的有机增长,具体取决于业务需求、风险和控制偏好以及保留
内部基础设施
· 受益于现有资本和人力资源的规模、稳定性和协同效应
· 降低整体投资风险,最大化遗留资产回报
· 新的云服务团队 可能受到传统治理的阻碍
· 在云服务管理流程上需要进行妥协让步
· 云服务团队缺少品牌和企业内部感知
领袖型组织
云团队云服务
基础设施 Infra
(DC + 网络)
LOB 1
IT安全 …
CIO
图:领袖型组织模式
2、建立云COE团队
A
lib
ab
a
C
lo
ud
S
to
ra
ge
11
2
11
3
Alibaba Cloud
云服务算运营COE可以不断地开发和实施创新的方法去构建,设计,部署前瞻性云计算基础架构,并追求最
大化的效益,同时满足运营水平协议需要,基于云计算环境,提供可靠的服务质量保证。
一个完整的云COE团队中,至少应包含四种成员角色。
云架构师
IT管控组织
云租户管理团队
遗留系统管理团队
应用与数据库团队
NOC 与 Service Deck
企业架构师
操作系统专家
网络专家
存储专家
服务器专家
安全领域专家
高层支持
生态系统
用户
核心团队
主管领导
架构师
分析师
管理员
支持工程师
图:云计算COE团队角色定义
· 负责云基础架构标准制定和执行
· 响应业务需求
· 集成、升级计划
· 容量和性能管理
· 配置与合规管理
云管理员
云分析师
云支持工程师
· 负责云基础架构的管理
· 部署和配置虚拟化组件
· 负责安全、配置、合规管理执行
· 监控并维护云计算环境的稳定运行
· 负责容量跟踪、分析、预报
· 性能跟踪、分析,汇报
· 负责安全、配置、合规管理执行
· 维护云计算环境的稳定运行
· 设计云虚拟机基础组件
A
lib
ab
a
C
lo
ud
S
to
ra
ge
11
4
11
5
Alibaba Cloud
· 监控并维护云计算环境的稳定运行
· 负责运行在云计算环境中系统及应用的日常操作
云平台选型主要从整体市场地位、整体能力、获得的专业机构证书与标准、产品生命周期的管理与发布、安全
合规、整体安全防护能力、合同、商务条款、SLA、基础设施情况、可靠性、性能、市场影响力、生态合作等方面
进行考虑,具体对比项目及参考评判标准请详见下表:
参考知名分析机构的能力分析报告,例如Forrester中国公有
云发展平台报告、Forrester Wave:中国全栈公有云开发平
台厂商评测报告等。
例如G20、双11、两会、十九大等全国性重大事件护航表现
参考Forrester Wave全球公共云服务安全评估报告
参考获奖情况,例如公安部护网最佳攻击团队奖、最佳防守
单位奖等
阿里云在亚太地区综合能力排名第一,拥有超过260款产品、243个行业解决方案和37个行业通用解决方案。
阿里云在全球21个地域的63个可用区为全球用户提供云计算服务,覆盖200多个国家和地区,在中国部署多达41个可用区
阿里云保护中国超过40%的网站,防御全国50%的大流量DDoS攻击,每天成功抵御50亿次攻击,全年帮助用户修复超
过833万个高危漏洞。阿里云先后通过国内外数十家权威机构的认证和审计,全力为客户构建和运行安全可控、可信赖、
兼具灵活性的云服务。了解更多关于阿里云安全合规能力的详细信息,请前往阿里云信任中心。
中国公有云象限
产品/解决方案体系完整度
数据中心部署情况
全球公共云服务安全评估
安全合规资质
重大事件护航能力
整体能力地位
基础设施
排名
产品/解决方案数量
全球/中国/可用区数量
排名
国家重点攻防演习行动情况 排名
安全资质认证数量及关
键安全资质满足情况
国内重大事件安全护航
次数、重要级别及规模
等综合评价
5 管理与优化流程,持续优化机制
企业全面上云,对企业IT来讲是颠覆性的革命,是一个从观念、体系、技术、组织等多方面进行变革,需要持
续的对管理流程进行更新和优化,实现资源整合以及分配的高效,敏捷,构建资源整合能力,服务开通能力,实时
洞察能力,弹性扩展能力;需要建立新的、高绩效的、敏捷的组织模式,以及新的项目交付方法、新的人才技能培
养与创新体系;需要从以业务流程为核心的系统与服务管理,向以数字化为核心的产品与资源管理转变。实现IT即
产品,IT即平台,IT即服务, 以个性化、体验为导向,灵活,简便,标准化的基础架构组件,实现千人千面的应用
组合。
6 云选型与测试
分类 项目 指标 备注
分类 项目 指标 备注
整体市场地位
国内的整体市场IaaS/PaaS份额 排名
参考知名分析机构最新的市场分析报告,例如IDC公共云服
务市场报告、Gartner IaaS和IUS市场份额分析报告等。
亚太的整体市场IaaS/PaaS份额 排名
参考知名分析机构最新的市场分析报告,例如IDC公共云服
务市场报告、Gartner IaaS和IUS市场份额分析报告等。
在IDC和Gartner报告中,阿里云在国内市场和亚太市场份额排名均列首位,全球市场排名第三。
1、云上产品选型
计算服务选型策略
A
lib
ab
a
C
lo
ud
S
to
ra
ge
11
6
11
7
Alibaba Cloud
目前,主流云服务商提供的计算服务主要是弹性计算服务和容器服务,根据各自服务的特点,可以从不同维度
对相应服务进行评价,具体如下表所示:
阿里云容器服务ACK提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟
Kubernetes认证服务提供商(KCSP);通过一致性验证,拥有提供专业支持和服务的资质
Gartner竞争格局分析报告、Forrester分析报告
集群规模:单集群最大支持节点数
支持构建集群联邦,支持联邦集群的应用和服务管理。
支持专有版、托管版、Serverless、边缘多种集群形态,适用不同业务场景
支持应用从容器实例弹性伸缩到Serverless容器服务,无需扩容虚拟机资源
针对运行中节点、容器实例支持动态安全检测,通知用户并提供修复建议
支持容器资源配额(如容器使用的CPU数、内存大小)配置功能
边缘端支持边缘节点服务(ENS),支持创建、加入、扩容、自动伸缩等功能
支持集群定制化选项,例如自定义镜像、自定义脚本、自定义节点名称、自定义集群本地域
名、自定义安全组等
支持应用生命周期管理,包括应用的创建、配置、修改、删除、伸缩等;应用配置信息应包
括实例数、资源配额、服务名、服务端口、环境变量、日志配置、存储配置、自定义容器
CMD参数等
支持标签化的编排调度策略,支持根据应用需求动态调度容器;支持多维度的调度策略选
择,例如资源维度(CPU、内存、GPU等)、可用性要求维度、应用的亲和性维度等
资质与认证
报告排名
集群管理
弹性伸缩
运行时安全
应用编排&调度
边缘
弹性计算
容器服务
分类 项目 指标
阿里云云服务器ECS基于弹性计算10年深厚技术积淀,技术领先、性能优异、 稳如磐石。单实例可用性达 %,
多可用区多实例可用性达 %,云盘可靠性达 %,可实现自动宕机迁移、快照备份;单实例最高可选
88vCPU,内存704GB,单实例性能最高可达到700万PPS网络收发包,35Gbps带宽;支持分钟级别创建1000台实例,
多种弹性付费选择更贴合业务现状,同时带来弹性的扩容能力,实例与带宽均可随时升降配,云盘可扩容。更多详细信息,
请参见云服务器ECS。(注:相关数据随阿里云产品更新而变化,此处仅供参考)
分类 项目 指标
弹性计算
硬件加速虚拟化技术 磁盘IOPS、网络PPS等
稳定性 单机稳定性、多可用区稳定性
通用计算实例性能
低载网络平均延时(us)
云盘读延时(us)
云盘写延时(us)
租户隔离
存储实例级别I/O QoS,网络带宽和PPS实例级别隔离
存储、网络转发卸载,不占用租户资源,租户侧资源和性能强隔离
弹性能力
资源管理:支持按量、竞价实例、SLB、RDS实例、实例生命周期
伸缩模式:支持多种模式(简单、步进、目标追踪、预测、定时)
多可用区扩容策略: 优先级、均衡、成本优化
全生命周期管理(实例创
建、部署、运维)
提供跨售卖方式、跨实例规格族、跨可用区等符合企业需求的不同策略(经济、平衡、高可
用等);自动部署托管、容量管理
规格丰富度
通用型、存储增强型、网络增强型、计算型、内存型、大数据计算/存储/网络增强型、高主
频通用/计算/内存型、GPU计算型、FPGA计算型、NPU计算型等
售卖方式 按量付费、包周付费、包年包月、预留实例、竞价实例
运维体验
支持对对云上资源大规模自动化运维,支持自动批量执行日常运维命令
运维操作模版化编排、支持云上资源批量复杂的自动化运维操作,包括运维任务定义、管理
和执行,适合事件驱动运维、批量操作运维、定时运维任务和跨地域运维等典型场景
A
lib
ab
a
C
lo
ud
S
to
ra
ge
11
8
11
9
Alibaba Cloud
分类 项目 指标
容器服务
化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。Gartner竞争格局国内唯一入选,Forrester报告国内排
名第一。更多详细信息,请参见容器服务ACK。
阿里云弹性容器实例(Elastic Container Instance)是 Serverless 和容器化的弹性计算服务。企业无需管理底层 ECS
服务器,只需要提供打包好的镜像,即可运行容器,并仅为容器实际运行消耗的资源付费。更多详细信息,请参见弹性容器实
例ECI。
阿里云块存储为云服务器ECS提供的低时延、持久性、高可靠的数据块级随机存储。快存储云盘基于多副本技术,提供
%的数据可靠性;单盘高达100万随机IOPS、 4000MBps顺序吞吐;单盘支持最大32TB,单台服务器支持
16块数据盘,自由配置随时扩容;快照实现简单高效的数据备份,支持云盘加密,满足合规要求。更多详细信息,请参见块存 储。
块存储
对象存储
存储服务选型策略
目前,主流云服务商提供的存储服务主要是块存储、对象存储、NAS等,根据各自服务的特点,可以从不同维
度对相应服务进行评价,具体如下表所示:
支持云盘以及快照加密能力,支持使用指定KMS密钥(BYOK)加密,保证数据安全性
支持针对云盘在线创建快照,支持针对任意快照时间点回滚
支持按照自定义策略定期执行快照功能,单云盘可保留快照数量
GB/T 37737-2019《信息技术云计算分布式块存储系统总体技术要求》国标测试报告证明
存储桶支持申请方付费
支持RTMP流直推转录
提供归档存储服务能力,历史归档数据1分钟内解冻
支持客户端加密功能
支持访问日志导出
支持实时日志查询
支持WORM特性,允许用户以“不可删除、不可篡改”方式保存和使用数据
支通过Cohasset Associates审计认证,符合美国证券交易委员会(SEC)和金融业监管
局(FINRA)合规要求
支持对象标签,对存储的对象(Object)进行分类,并支持针对同标签的Object设置生命
周期规则、访问权限等
支持传输加速,可加速跨地域上传和下载访问
支持跨多可用区冗余能力的存储类型,将数据分散存放在同一地域(Region)的多个可用
区;当某个可用区不可用时,仍然能够保障数据的正常访问
安全能力
数据保护
快照策略
资质认证
基础功能
容灾容错
安全合规
数据管理
分类 项目 指标
分类 项目 指标
整体地位 全球云存储魔力象限 排名
块存储
性能要求
支持不少于三种商业化产品类型,每种类型具备不同的I/O性能
支持在线调整性能级别,无需停机或迁移数据
单盘性能上限IOPS、吞吐量
磁盘读写延迟
支持实例级别存储性能限速,不同实例规格族与配置具备不同的存储性能
服务能力
单云盘最大容量
支持在线扩展容量,扩容期间无需关闭虚拟机、无需卸载云盘
售卖形态
支持多种售卖形态,例如随实例预付费、随实例按量后付费、单独购买云盘资源包、单独购
买按量后付费云盘
A
lib
ab
a
C
lo
ud
S
to
ra
ge
12
0
12
1
Alibaba Cloud
分类 项目 指标
对象存储
数据处理
支持从对象中选择内容进行select即时查询,支持CSV、JSON格式
支持原生图片处理服务,例如获取图片信息、图片格式转换、图片缩放、裁剪、旋转、图片添
加图片、文字、图文混合水印、自定义图片处理样式、通过管道顺序调用多种图片处理功能
支持文档处理(格式转换、文档预览)、视频截帧功能
阿里云对象存储OSS提供海量、安全、低成本、高可靠的云存储服务,提供%的数据可靠性。通过
RESTful API支持在互联网任何位置存储和访问,容量和处理能力弹性扩展,多种存储类型供选择全面优化存储成本。更多
详细信息,请参见对象存储OSS。
NAS
支持协议 支持NFS
权限管理
支持对文件系统文件和目录的ACL访问控制
支持对客户端按IP地址的访问控制
快照 支持文件系统快照
性能监控 支持对文件性能进行监控和历史数据统计
日志审计 支持对文件系统操作进行日志审计
性能要求
容量型单文件系统IOPS、吞吐量
性能型单文件系统IOPS、吞吐量
极速型单文件系统IOPS、吞吐量
服务能力 容量在线弹性扩展,不中断业务
售卖形态 支持多种售卖形态,包括按量付费和包年包月
安全能力 支持文件系统数据存储加密和传输加密
数据保护 支持文件系统备份
阿里云文件存储NAS,可共享访问、弹性扩展、高可靠、高性能的分布式文件系统。广泛应用于容器存储、大数据分析、
阿里云在全球19个地域部署了110多个接入点和1500多个边缘节点,可向企业提供优质的全球网络服务。基于安全隔离的专
有网络架构,提供优质、功能齐全的云上网络服务,例如网络地址转换、流量分发、公网访问等。同时,提供共享带宽和共
享流量包服务,服务器可以共享流量和带宽,优化网络成本。更多详细信息,请参见专有网络VPC。
阿里云负载均衡是将访问流量根据转发策略分发到后端多台云服务器的流量分发控制服务,支持TCP、UDP、HTTP、
NAS
分类 项目 指标
Web 服务和内容管理、应用程序开发和测试、媒体和娱乐工作流程、数据库备份,且支持冷热数据分级存储。更多详细信
息,请参见文件存储NAS。
网络服务选型策略
目前,主流云服务商提供的网络服务,可以从不同维度对相应服务进行评价,具体如下表所示:
云上网络
产品数量
性能、时延
网络环境隔离、逻辑隔离
自定义IP 地址范围、网段、路由表和网关等,按需对网络进行规划和管理
网络权限管理、网络访问控制
支持多种协议的流量分发
健康检查、多可用区部署、集群部署
性能保障实例、超大性能规格
排名
产品丰富度
网络质量
网络隔离
自定义网络环境
访问控制
协议支持
容灾保障
性能保障
全球企业级负载均衡网络
设备市场份额
分类 项目 指标
A
lib
ab
a
C
lo
ud
S
to
ra
ge
12
2
12
3
Alibaba Cloud
分类 项目 指标
云上网络
HTTPS协议的应用流量转发,通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。更
多详细信息,请参见负载均衡。
网络接入
传输安全 通信数据安全,无私密数据窃取风险,数据安全可靠
稳定可靠 设备级容灾、链路级容灾、接入点容灾
接入方式 物理专线接入、Internet接入、4G接入
阿里云提供高速通道、智能接入网关、VPN网关多种方式,帮助企业打通云上云下系统和数据,消除信息孤岛。为不同规
模、不同地域、各行业的企业机构提供云下网络(IDC、总部、分支、门店)到阿里云上安全、可靠、灵活的网络连接。更
多详细信息,请参见智能接入网关。
通过将云下IDC、门店、分支等接入和云上网络,阿里云还提供全球跨地域专有网络间互联,帮助企业快速构建合法合规的
混合云和分布式业务系统网络。更多详细信息,请参见云企业网。
分类 项目 指标
整体
数据库挑战者象限 排名
数据生态完备情况 产品、工具、服务体系化布局
金融级数据安全保障 资质认证
RDS
可用区资源 多可用区(至少两个可用区)
数据库资源规格 CPU核数、内核空间,最大规格要求CPU超过100核
分类 项目 指标
RDS
用户独有规格 可独有整台物理机器的独占型规格
存储空间 提供高I/O能力选项存储类型和数据多副本保存的存储类型
网络连接 支持云环境内网连接,支持公有外网连接
临时升级 支持临时升级资源规格,到期后自动降回原规格
实例回收站 支持实例回收站,在实例删除后一段时间内可通过回收站重建实例,数据保持和删除时刻一致
MySQL版本 支持主流MySQL版本,包含、、、
群组模式管理资源 支持群组模式管理数据库资源
在线升级存储空间 支持业务无中断在线方式升级数据库存储空间
迁移可用区 支持在同地域内不同可用区之间迁移数据库资源
性能洞察
提供MySQL实例负载监控、关联分析,通过实时会话指标诊断数据库性能糟点,并且能诊
断出具体SQL语句
实时数据库会话管理 支持通过页面结束数据库会话,支持下发数据库限流指令
空间分析
提供通过页面对数据库空间进行分析、发现异常空间增长表、数据库空间增长趋势和可用时
长预测
全量SQL分析 提供分析数据库全量SQL能力、TOP SQL分析
SQL优化建议 提供SQL语句优化解决方案,包括改写建议、索引设置建议
高并发更新 提供高并发更新能力,单行根据主键更新能力
数据加密 支持数据加密功能,支持透明数据加密、用户自带加密秘钥能力、轮转用户秘钥
存储盘加密 支持对数据存储盘加密、用户自带加密秘钥
国密算法SM4 提供使用国密算法SM4加密数据库数据
数据库服务选型策略
目前,主流云服务商提供的数据库服务,主要包括RDS、Redis、ADB for MySQL、数据库备份、SQL
Server等服务,这些服务从不同维度对相应服务进行评价,具体如下表所示:
A
lib
ab
a
C
lo
ud
S
to
ra
ge
12
4
12
5
Alibaba Cloud
分类 项目 指标
SQL Server
性能优化
支持以界面化展示实例中缺失的索引信息,导出创建缺失索引的脚本文件
支持索引使用率查询功能,包括已经存在的索引的使用率情况、索引的碎片率
支持实时TOP SQL和历史TOP SQL查询功能
支持TOP Objcets查询功能,展示SQL Server用户实例中对象级别(存储过程、函数、
触发器等)的性能问题
RDS SQL Server不仅拥有高可用架构和任意时间点的数据恢复功能,强力支撑各种企业应用,同时也包含了微软的
License费用,减少额外支出。更多详细信息,请参见云数据库RDS。
Redis
跨地域容灾 支持构建跨地域容灾架构
混合存储 支持磁盘缓存,提供冷热数据分离技术,单实例最高支持缓存大小
性能增强 社区版性能比较
规格指标 缓存规格、集群架构、QPS
监控告警 支持全架构监控、告警设置
端口号 支持端口号修改
访问控制 支持白名单、访问控制管理能力
审计日志
支持审计日志服务,内核层面记录所有更新操作,方便追溯,并支持高危命令记录,例如
flush all等
缓存分析 支持大Key缓存分析,能够定位大Key
持久化 支持RDB、AOF两种持久化模式,AOF支持落盘开关设置及增量备份开关设置
按时间点恢复 开启增量备份后支持按时间点恢复实例(克隆)
备份下载 支持RDB、AOF文件下载
可用区迁移 支持可用区一键迁移,灵活资源调配
公网访问 支持公网连接
分类 项目 指标
RDS
数据库备份
支持数据库备份,备份文件可长期保留;支持全量备份实例,支持通过日志增量备份实
例;支持手工备份;支持备份文件同步到异地
自动化库表级恢复 支持自动化备份,且备份粒度精确到库表
快照备份恢复 支持通过快照备份数据库,支持通过快照恢复数据库,且实现秒级恢复
等保三级 通过国家等保三级要求
阿里云关系型数据库RDS基于阿里云分布式文件系统和SSD盘高性能存储,RDS支持MySQL、 SQL Se rve r、
PostgreSQL和MariaDB TX引擎,并且提供了容灾、备份、恢复、监控、迁移等方面的全套解决方案。更多详细信息,请
参见云数据库RDS。
SQL Server
数据库版本 支持MircoSoft SQL Server Web版、标准版、企业版
数据库连接
支持多个只读实例统一的负载均衡连接地址;支持在只读实例负载均衡连接中,设置每个只
读实例的读请求处理权重
数据库可用性 支持SQL Server实例跨两个可用区(机房)部署主备实例,防范单机房故障
数据管理
支持SQL Server数据库用户信息管理,包括但不限于创建、删除账号,设置账号对数据库
的管理权限;支持SQL Server数据库用户数据管理,包括但不限于数据库创建、删除,数
据库字符集选择等
数据安全性
支持数据写入磁盘后,单独对磁盘进行加密设置
支持设置TDE数据落盘加密功能
支持设置SSL链路加密访问
支持对数据库连接后的SQL 操作行为进行数据审计,包括但不限于执行的账号、SQL 语句
及服务器IP
性能优化
支持磁盘空间分析管理,包括但不限于以图表形式展示实例的空间使用情况,如空间使用
率、数据日志比、TOP 5数据库空间占用等数据
A
lib
ab
a
C
lo
ud
S
to
ra
ge
12
6
12
7
Alibaba Cloud
分类 项目 指标
数据库备份
备份特性
支持通过备份工具自动备份到分布式存储
支持本地机房数据库备份并恢复到云数据库
支持备份源配置
支持目标存储配置
支持备份对象配置,支持整个实例、多个数据库、单个数据库、多张表、单表、视图、存储
过程、触发器等
支持备份频率配置
支持备份开始时间配置
支持增量备份开关配置
支持备份保留时长配置,到期自动删除
支持备份集转储到低频存储配置,备份集在标准存储中保留超过一定时间后转存到低频访问
存储
支持备份集转储到归档存储配置,备份集在低频访问|标准存储中保留多超过一定时间后转
存到归档冷备存储
支持备份计划运行信息查看
支持备份计划生命周期查看
支持全量备份任务列表查看
支持增量备份任务详情查看
全量恢复
支持MySQL逻辑全量恢复,支持、、、版本
支持PPAS逻辑全量恢复,支持、10版本
增量恢复 支持MySQL逻辑增量恢复
分类 项目 指标
Redis
代理访问 支持代理连接,兼容多Key命令
免密访问 支持信任网络免密访问,降低内网访问认证成本
云数据库Redis版兼容开源Redis协议标准、提供混合存储的数据库服务,基于双机热备架构及集群架构,可满足高吞吐、
低延迟及弹性变配等业务需求。更多详细信息,请参见云数据库Redis版。
云原生数据库
集群规模 支持大集群规模
单集群容量 单集群可支持不少于300个数据库实例(Database)
单集群容量 单集群可支持单库不少于1PB数据量
单数据库容量 生产环境单数据库支持1万张表以上
行列混存 支持表级别配置存储模式
全索引 支持智能全索引,任意列支持建索引
性能监控 支持细粒度的运行报表,包括访问量、每秒查询次数、慢查询、超时等指标
SQL兼容 兼容MySQL协议
查询性能
生产环境支持万亿级数据表查询
生产环境支持千亿级数据表关联分析
写入性能 单节点写入速度
阿里云云原生数据仓库AnalyticDB MySQL版,全面兼容MySQL协议以及SQL:2003 语法标准,可对海量数据进行即
时的多维分析透视和业务探索,快速构建企业云上数据仓库。产品规格按需可选,基础版成本最低,适合BI查询应用;
集群版提供高并发数据实时写入和查询能力,适用于高性能应用;弹性模式版本存储廉价按量计费,适用于10TB以上数
据上云场景。更多详细信息,请参见云原生数据仓库AnalyticDB MySQL版。同时可参阅云原生数据仓库 AnalyticDB
PostgreSQL 版。
数据库备份
全量备份
支持MySQL逻辑全量备份,支持、、、版本
支持PPAS逻辑全量备份,支持、10版本
增量备份 支持MySQL逻辑增量备份
A
lib
ab
a
C
lo
ud
S
to
ra
ge
12
8
12
9
Alibaba Cloud
分类 项目 指标
数据库备份
恢复特性
支持恢复时间点配置
支持恢复目标数据库配置
支持恢复数据库对象配置
支持同名表冲突处理功能,例如:遇到同名对象则失败(遇到同名对象,则恢复失败,用户
要手工处理目标数据库同名对象);遇到同名对象则跳过(同名对象不执行恢复,不同名对
象正常执行恢复);遇到同名对象则重命名(同名对象在恢复时会被重命名,恢复目标数据
库上原有同名对象不动)
支持恢复任务列表查看
支持恢复任务详情查看,包含全量结构前置恢复、全量数据恢复、全量结构后置恢复、增量
日志恢复步骤
阿里云数据库备份DBS为数据库提供连续数据保护、低成本的备份服务。DBS为多种环境的数据提供强有力的保护,包括
企业数据中心、其他云厂商、混合云及公共云,可实现实时的数据备份,在线数据发生变化时,数据库备份会获得变更的数
据,并将数据实时写入云存储,实现秒级RPO的数据备份。更多详细信息,请参见数据库备份DBS。
分类 项目 指标
整体
大数据数仓产品组合 排名
大数据计算性能 排名
成熟度和稳定性优越 商用时长
分类 项目 指标
架构 核心技术 自主研发,拥有核心技术
数据装载与管理
存储压缩 高效数据压缩存储,压缩效率和数据格式相关,压缩比;对冷数据支持归档操作
生命周期 分区级别的数据生命周期管理功能,过期数据系统自动清理
计算模型
SQL 参数化视图,支持传入任意表或者其它变量,定制视图行为
MapReduce
支持MapReduce单机调试;支持超多规模计算,最大Mapper支持个数,最大Reduce支
持个数;支持扩展MapReduce增强计算过程;支持MapReduce计算的多表输入和输出
图计算 支持面向迭代的图计算处理框架
Spark
在统一的计算资源和数据集权限体系之上,支持Spark计算框架,满足更丰富的数据处理分
析场景。
安全 细粒度权限控控制 支持列级权限控制
性能测试 TPC-DS测试 相同数据量、相同资源,相同测试集同等标准情况下,整体测试时间性能
集群资源 规模 单集群支持并行作业服务器规模,同一套服务支持多集群调度
授权合规 授权合规
具备国家颁发的软件著作权证书,具备自主知识产品证明
技术方案应具有不短于3年的实际应用案例
满足信息系统安全等级保护等级要求 (等保三级)
集成平台
数据集成
支持传输速率控制、并发控制
支持读取数据时数据过滤
支持脏数据监控
支持实时同步MySQL、Oracle等
支持复杂网络情况下对异构的数据源进行数据同步与集成
数据开发 支持智能代码提示,包括语法关键词、元数据信息等
大数据平台选型策略
目前,主流云服务商提供的大数据平台服务,可以从整体情况、架构、数据装载与管理、计算模型、安全性、
性能表现、集群资源、授权合规、数据集成平台等方面的不同维度进行评价,具体如下表所示:
A
lib
ab
a
C
lo
ud
S
to
ra
ge
13
0
13
1
Alibaba Cloud
分类 项目 指标
集成平台
数据开发
支持代码格式化、折叠、缩略图展示
支持以可视化的形式展现SQL代码的内部结构
支持代码全文检索
支持手动触发的手动调度模式(手动业务流程)
支持业务流程级别、节点级别的参数设置,即用不同的参数输入,运行获得不同的数据分析结果
支持SQL组件概念,将相同的SQL逻辑写成模板
支持发布控制,经过审核后方可将代码发布至生产项目,实现开发和生产环境隔离
支持大数据相关节点ODPS SQL、ODPS MR、Spark on ODPS、SQL组件等
支持数据集成节点
支持Shell节点、虚节点
支持机器学习节点
支持流程控制节点,包括判断分支、循环、遍历、赋值
支持跨租户依赖节点
支持其他引擎扩展(自定义节点)
数据资产管理
支持跨组织的元数据展示与授权,加速部门间的数据共享
支持云厂商自研大数据计算服务
支持数据资产搜索,可对资产名称、描述进行模糊搜索
数据服务
支持通过可视化配置,将各类数据库中的数据表快速生成API服务;对于复杂API,支持自
定义SQL查询语句,支持多表关联查询等能力
支持API注册,将已有的API统一注册到数据服务平台
支持统一服务总线,统一发布API,支持鉴权、流控等能力
分类 项目 指标
集成平台
数据服务 支持丰富的数据源,包括MySQL、Oracle、SQL Server、PostgreSQL、RDS等。
数据安全
支持数据安全等级自定义,包括绝密、机密、秘密数据等定义
支持根据数据安全等级,发现和定位敏感数据,明确其在数据资源平台上的分布情况,根据
定义的敏感数据类型自动发现敏感数据,并为其分级分类
支持数据访问审计,记录审计特权用户的访问记录,包括访问时间、执行操作等
支持数据脱敏,包含有敏感信息的数据库,在不限制用户访问的情况下,对敏感信息进行动
态遮蔽
平台管理
支持以工作空间维度管理对象、成员、角色与权限
工作空间支持设置管理员、开发、运维、部署、访客等角色
支持简单模式项目
支持标准模式项目
支持云厂商自研大数据计算引擎
阿里云飞天大数据平台是阿里巴巴10年大数据建设最佳实践的结晶。从丰富多样的大数据计算引擎,到高效易用的大数据研发平台,飞天大数
据平台拥有非常齐全的产品体系,满足各种业务场景下对大数据多方面的需求。飞天大数据平台刷新多项世界纪录,向世界展示中国能力,被
称为新一代的“大国重器”。同时对存储与计算进行极致优化,打破性能与成本的线性关系。更多详细信息,请参见飞天大数据平台。
流量产品选型策略
目前,主流云服务商提供的流量产品,主要有CDN服务和云通信服务,根据这类服务需求,可以从不同维度
进行评价,具体如下表所示:
A
lib
ab
a
C
lo
ud
S
to
ra
ge
1
32
13
3
Alibaba Cloud
分类 项目 指标
CDN
节点列表 服务节点分布在全球各区域和主要运营商的骨干和边缘节点
宽带证明 拥有充足的带宽资源和全球加速能力
宽带储备
拥有充足的带宽和设备处理能力,在必要时能实现及时高效的扩容,能够应对至少20T以上
的带宽突发需求,满足重要时期或重要事件的访问需求,并在突发大流量访问的情况下能够
保证服务质量不受影响
技术要求
支持全链路HTTPS、支持HTTPS无证书方案、支持企业级免费证书、支持HTTPS双向加速
支持图片鉴黄,自动检测通过CDN加速的图片是否涉黄,记录违规图片的URL供用户导出和
删除
回源支持多源优先级设置、私有Bucket回源授权、协议跟随回源
支持P2P技术CDN分发,以P2P技术为基础,通过挖掘利用边缘网络海量碎片化闲置资源而
构建的低成本高品质内容分发网络服务
拥有全站加速能力,自动分离动静态文件,通过最优路径选择和协议优化提升动态文件的传
输能力
支持四层协议加速,支持TCP和UDP协议加速
对海外到国内的加速支持专线隧道功能
支持WebSocket协议
具备静、动态内容分离技术,对网站静、动态内容分别采用相应加速技术进行CDN加速服
务,保证动、静态内容安全、有效的实现快速访问
动态数据回源实现基于运营商的负载均衡,即某一运营商接入用户优先回同一运营商源站
安全防护
对于网络安全事件从发现、到告警、再到抵御及事后处理的各项流程应具有明确规范,拥有
成熟的安全措施及应急方案
提供抗DDoS攻击解决方案,可以抵御SYN Flood、UDP Flood、ACK Flood、CC等多种
类型的DDoS攻击。必要时可对攻击流量进行清洗,并保证用户的正常访问不受影响
分类 项目 指标
阿里云CDN服务拥有超过2800全球节点、全网带宽输出能力达130Tbps、覆盖全球六个大洲,支持国内主流运营商,关键
性能指标业内领先,包括缓存命中率超过95%、响应时间达到ms级、加速视频时的视频流畅率超过95%。更多详细信息,
请参见CDN。
云通信
短信服务
资源能力(国内短信、国际短信)
平台并发能力
安全能力
注册资本
公司成立时间
从事短信业务时间
社保证明人数
财务表现(营业收入、短信业务收入)
行业项目案例
短信平台软件著作权
失信情况
增值电信业务许可证、电信网码号资源使用证书
相关认证
阿里云短信服务拥有强大的高并发处理能力,双11期间一天内发送6亿条短信,服务2亿用户。国内验证短信秒级触达,到
达率99%;国际/港澳台短信覆盖200多个国家和地区,安全稳定,广受出海企业选用。更多详细信息,请参见短信服务。
中间件选型策略
目前,主流云服务商提供的中间件服务主要包括分布式应用服务、消息队列、云总线(API)、应用实时监控
服务,这些服务可以从不同维度进行评价,具体如下表所示:
A
lib
ab
a
C
lo
ud
S
to
ra
ge
13
4
13
5
Alibaba Cloud
分类 项目 指标
分布式应用
服务
无缝迁移
支持开源Dubbo和SpringCloud框架,应用无需修改任何代码即可迁入,并且支持服务不
中断的迁移方案
混合云能力
支持混合云的应用部署和集群管理能力,包括管理用户自建IDC以及其他云厂商机器的能
力;支持在同一个控制台完成对混合云所有机器和集群的管理和监控,支持应用在混合云的
部署和完整生命周期管理
全链路灰度
在微服务的场景下,支持无代码侵入的全链路的灰度方案,自动对流量进行打标;支持控制
灰度流量仅运行在灰度环境中,并支持在灰度环境仅部署发生变更的应用
多环境逻辑隔离
支持在一个账号下通过命名空间隔离的方式实现多套环境并存,例如多套测试环境的并
存;命名空间支持服务名逻辑隔离,不同命名空间里的服务名可以重复但完全隔离,不引起
调用混乱,应用无法发现和调用其他命名空间中的服务。
软件著作全登记 获得国家软件著作权登记
阿里云企业级分布式应用服务 EDAS提供应用开发、部署、监控、运维等全栈式解决方案,同时支持 Spring Cloud、
Apache Dubbo(以下简称 Dubbo )等微服务运行环境,提供从创建到运行的应用全生命周期管理服务,包括应用的发
布、启动、停止、扩容、缩容和删除等服务。更多详细信息,请参见企业级分布式应用服务EDAS。
消息队列
消息过滤 支持消息的 Tag 过滤方式,提高消费者的消息投递效率并降低资源成本
多租户管理 集群支持多个虚拟实例管理,实例拥有独立的命名空间
消息类型
支持顺序消息,按照消息的发布顺序进行顺序消费(FIFO),支持全局顺序与分区顺序;
支持分布式事务消息,分布事务功能,既实现系统间的解耦,又保证数据的最终一致性
消息治理
支持全程追踪消息在生产者、消息服务器、消费者之间的流动轨迹,并将数据进行汇聚分析
后可视化输出
支持 Topic、Message ID、Message Key多维度消息查询
支持对已消费过的消息进行重新回放或清除堆积的消息
容灾能力 多地域部署,支持高可用互备
分类 项目 指标
阿里云消息队列提供低延迟、高并发、高可用、高可靠的分布式消息中间件服务,采用Region化、多可用区、分布式集群
化部署,确保服务高可用,可用性高达%,即使整个机房不可用仍可正常提供消息服务;同步双写、超三副本数据冗
余与快速切换技术确保数据可靠,数据可靠性高达 %;支持的消息类型涵盖普通消息、顺序消息(全局顺序
/分区顺序)、分布式事务消息、定时消息/延时消息。更多详细信息,请参见消息队列。
云服务总线
最大吞吐能力
在简单协议场景下,例如把已有HTTP服务开放成HTTP API,假定已有稳定服务加上网络
延迟响应非常快,例如≤1毫秒,单个服务请求消息大小为1KB字节,要求API服务节点每
CPU核QPS≥1000
最大处理容量 可水平线性扩展,可管理的产品自身服务节点总数≥1000,支持发布API总数量≥10万个
多协议适配 支持适配多种协议,包括REST Web Service、SOAP Web Service、Dubbo等
多个环境级联能力 支持一次发布实现多个产品服务集群之间接力发布,实现服务跨多个环境的快捷发布
阿里云云服务总线CSB提供平台化的应用集成和服务开放能力,帮助企业打通整合内外新旧业务系统,实现跨环境、跨归
属应用系统之间的互通集采用形成组合方案。更多详细信息,请参见云服务总线CSB。
应用实时监控
服务
基础架构监控 支持应用节点的基础性能收集,包括CPU、Memory、Disk、Network等
RPC框架支持
支持基于主流同步、异步调用框架,例如HSF、Dubbo、HTTP RESTful框架的分布式链
路跟踪
数据库监控 支持抓取SQL语句运行时长和错误,支持抓取绑定变量
消息队列监控 支持按消息topic维度展示请求数,响应时间和错误数
诊断能力 支持通过自动线程剖析定位慢调用方法
报警能力 支持默认提供应用各维度指标的报警
权限控制能力 支持租户级别应用隔离的能力
日志关联分析能力 支持根据业务关键字(如用户名)定位出相应的应用日志和应用调用链路
通过API接口提供应用
监控数据
支持通过API接口提供metric指标数据
A
lib
ab
a
C
lo
ud
S
to
ra
ge
13
6
13
7
Alibaba Cloud
分类 项目 指标
应用实时监控服务包含前端监控,应用监控和Prometheus监控三大子产品,涵盖浏览器、小程序、App、分布式应用和容
器环境等性能管理,帮助企业实现全栈式的性能监控和端到端的全链路追踪诊断。更多详细信息,请参见应用实时监控服务
ARMS。
安全产品选型策略
目前,主流云服务商提供的安全产品主要包括,WAF、DDoS防护、堡垒机、云安全中心等,这些服务可以
从不同维度进行评价,具体如下表所示:
分类 项目 指标
WAF
整体市场地位 排名
资质/认证 公安部安全产品销售许可证(WAF)
多协议、多版本防护
支持HTTP、HTTPS、HTTP2、Websocket协议;支持HTTP
HTTP2协议流量转发与防护;支持HTTP回源以及HTTPS强制跳转
支持非标端口的防护 支持常见非标端口防护
全量访问日志查询
支持网站全量访问日志的存储与在线检索功能;支持通过API接口将日志导出到本地或第三
方SIEM平台;支持最近一周的全量访问日志查询;支持基于源IP、URL关键字、Cookie、
Referer、User-Agent、X-Forwarded-For、服务器响应状态码、和是否为攻击属性等
属性的智能搜索和详情查看功能并提供日志下载功能
防扫描
支持短时间集中Web攻击的IP自动封禁、防目录遍历、并支持对时间、访问频率;支持封禁
时长的自定义设置;支持对常见扫描器的渗透测试拦截;支持无需修改代码修改的滑块验证
接入方式
智能防护引擎 基于深度学习引擎的智能防护算法,有效地防护传统正则引擎不能检测到的未知攻击
分类 项目 指标
WAF
主动防御能力
支持使用大数据智能算法能力对历史的流量进行自动学习分析,形成合法的白流量画像,实
现用户流量识别防护
IPV6地址防护 支持IPv6的业务安全防护、并支持接入网站一键支持IPv6
阿里云Web应用防火墙通过对网站或者APP的业务流量进行恶意特征识别及防护,将正常、安全的流量回源到服务器。避
免网站服务器被恶意入侵,保障业务的核心数据安全,解决因恶意攻击导致的服务器性能异常问题。更多详细信息,请参见
Web应用防火墙。
DDoS防护
资质/认证 公安部安全产品销售许可证(DDoS)
机房/带宽
清洗中心机房数量、支持BGP带宽资源;防护带宽资源,单机房带宽资源;支持机房自动
容灾、专线回源,国内平均访问时间延迟20ms以内
核心能力
DDoS最大防护能力不低于1Tbps
BGP带宽防护资源,保底防护能力大于600Gbps
CC防御能力大于100万QPS
接入能力
网站类业务:支持HTTP/HTTPS、 Websocket/ Websockets协议类型,支持HTTPS
协议、协议版本,支持80、8080、443、8443以外的非标准端口
非网站类业务:支持TCP和UDP协议;支持端口映射,即转发端口和回源端口可以不同
调度能力 支持CNAME自动调度、支持与CDN、WAF等服务结合使用
防护选项
支持智能AI防护
支持针对IP和域名的黑白名单、按区域封禁攻击流量、CC安全防护模式自定义、CC安全防
护规则自定义
支持HTTP协议精准匹配防护规则,可按 IP、URI、Cookie、Referer、User-Agent、
X - F o r w a r d e d - f o r、 C o n t e n t - T y p e、 C o n t e n t - L e n g t h、 P o s t - B o d y、 H t t p -
Method、Header、Params等HTTP头部字段进行精准匹配并过滤掉攻击流量
A
lib
ab
a
C
lo
ud
S
to
ra
ge
13
8
13
9
Alibaba Cloud
分类 项目 指标
日志服务
功能
支持csv、分隔符、正则表达式等文件采集
支持客户端对日志进行结构化解析,支持上传原始文件
支持syslog协议采集
支持MySQL、Redis、K8S、Windows Event、HTTP Status、系统 (CPU/内存/磁盘/
网络) 信息采集
数据加工
支持采集端进行数据加工
支持对采集字段名、内容等进行过滤
分类 项目 指标
云安全中心
入侵检测
支持检测Bash反弹、Powershell异常指令、进程异常写文件操作、进程异常行为、敏感文
件篡改、异常网络连接、应用入侵事件、DDoS攻击事件等
自动化攻击溯源 支持自动化定位攻击源、攻击链、入侵原因,并以可视化的形式展示
日志分析 支持全量日志分析(网络、主机、云产品)
安全大屏 安全大屏支持自定义选配场景
阿里云云安全中心是一个实时识别、分析、预警安全威胁的统一安全管理系统,通过防勒索、防病毒、防篡改、合规检查等
安全能力,帮助企业实现威胁检测、响应、溯源的自动化安全运营闭环,保护云上资产和本地主机并满足监管合规要求。更
多详细信息,请参见云安全中心。
分类 项目 指标
DDoS防护
防护选项
支持黑洞自助解除
支持弹性扩展防护带宽
阿里云DDoS防护服务以阿里云覆盖全球的DDoS防护网络为基础,结合阿里巴巴自研的DDoS攻击检测和智能防护体系,
向企业提供可管理的DDoS防护服务,自动快速的缓解网络攻击对业务造成的延迟增加、访问受限、业务中断等影响,从而
减少业务损失,降低潜在DDoS攻击风险。阿里云DdoS防护在全球建设DdoS清洗中心,防护网络总带宽超过10Tbps,每
天平均防护云上DDoS攻击2500次,成功防护1Tbps攻击。更多详细信息,请参见DDoS防护。
堡垒机
资质/认证 公安部安全产品销售许可证(堡垒机)
部署要求
支持系统盘与数据盘分离部署,操作系统存储在系统盘中、数据存在数据盘中,防止因操作
系统出现故障造成数据损坏
设备管理要求 支持自动收集设备IP、运维协议、端口号、账号、密码、与用户的权限关系,支持自动授权
身份认证要求
支持与GET、POST、SOAP发送方式的HTTP短信网关平台进行联动,实现短信动态口令
双因素认证机制
支持手机APP动态口令认证方式登录堡垒机,且新用户首次登录后需强制绑定APP动态口令
运维方式要求
支持使用本地的winscp/flashFXP/SecureFX等客户端工具登录堡垒机访问SFTP/FTP设备
支持直接使用登录堡垒机的AD/LDAP用户及密码直接自动登录到服务器
阿里云堡垒机支持集中管理资产权限,全程记录操作数据,实时还原运维场景,助力企业用户构建云上统一、安全、高效运
维通道;保障云端运维工作权限可管控、操作可审计、合规可遵从。更多详细信息,请参见堡垒机。
云安全中心
安全资质 公安部安全产品销售许可证
漏洞检测&修复 支持Linux软件漏洞检测&修复、Windows系统漏洞检测&修复
基线检查 支持Windows、Linux 主机基线检查,符合等级保护、CIS标准
云平台配置检查 支持云平台安全检查
二进制病毒检测
支持恶意进程(云查杀)实时检测、本地检测、云端检测
支持多AV引擎、机器学习、深度学习、安全沙箱等引擎检测能力
其他产品选型策略
目前,主流云服务商提供的其他产品和服务主要包括,日志服务、账号管理、云防火墙、MongoDB等,这些
服务可以从不同维度进行评价,具体如下表所示:
A
lib
ab
a
C
lo
ud
S
to
ra
ge
14
0
1
41
Alibaba Cloud
分类 项目 指标
日志服务
数据加工
对IP等字段提供地理位置信息
支持对字段进行脱敏
支持平台 支持多平台,包括Linux、Windows、AIX、容器K8S、嵌入式
配置管理 支持集中式配置管理
自动恢复 重启和升级时保证数据不丢,采集连续
SDK 支持C++、Java、PHP、Go等多语言
数据加工 支持解析、展开、跳转逻辑、变量赋值等数据解析能力
监控报警 支持便捷配置监控与报警
阿里云日志服务是行业领先的日志大数据解决方案,一站式提供数据收集、清洗、分析、可视化和告警功能。更多详细信
息,请参见日志服务。
账号
子账号管理
支持灵活的账号管理分配机制,允许同一个企业帐号下拥有多个用户组和子帐号,并可分配
不同权限以控制子帐号对云资源的访问
多租户隔离 不同部门、不同项目间的云端资源在管理上需互相隔离
账单管理 管理员可查看单个账号和企业总账号的历史资源消耗清单和余额信息
SSO单点登录 集成企业自有账号体系
阿里云访问控制RAM 支持建设子账号体系,帮助企业以更精细的粒度(资源对象级、API操作级)管理云端资源的访问权
限,实现最小授权原则。还支持根据请求源IP 地址、日期/时间、资源标签等属性创建更精细的资源访问控制策略。更多详
细信息,请参见访问控制RAM。
阿里云应用身份服务(IDaaS)是一个集中式身份管理服务,为企业提供统一的应用门户、用户目录、单点登录、集中授
权、以及行为审计等中台服务。IDaaS 支持 SAML、OIDC、CAS 等常见身份联邦协议,也可以与钉钉通讯录、AD、HR
系统等身份源打通,做到统一的身份权限管理和应用访问控制。更多详细信息,请参见应用身份服务。
云防火墙
部署 支持SaaS化部署,无需改变网络结构;支持内置系统冗余;支持性能平滑扩展
访问控制 支持防火墙安全控制,控制入流量和出流量的访问;支持支持基于域名的访问控制
分类 项目 指标
云防火墙
IPS 支持入侵防御(IPS)功能
日志 支持安全事件日志、流量日志和系统日志,保存6个月
流量可视化 支持互联网到业务的访问流量分析
流量可视化 支持业务主动外联分析
流量可视化 支持被阻断访问的分析
可视化 支持基于安全组的流量可视化
阿里云云防火墙是一款SaaS化云原生防火墙,帮助企业全面梳理云上资产的互联网暴露和风险情况,一键防护;提供IPS
虚拟补丁可智能防御高危漏洞;集成威胁情报,支持阻断主动外联行为、业务间访问关系可视,网络流量审计,是企业满足
等保合规需求的必备选择。更多详细信息,请参见云防火墙。
MongoDB
分片管理 支持Sharding
架构 支持集群、副本集能力
域名管理 支持域名访问
vpc免密 支持VPC内免密访问
秒级监控 支持秒级监控
版本覆盖 支持
数据加密 支持TDE数据加密、支持用户自带密钥,保障数据安全
审计 支持审计日志服务
只读实例 支持追加只读实例
按时间点恢复 支持按时间点恢复、克隆实例,保障数据最大可靠性
库表级恢复 支持库表级恢复
性能洞察 提供实时性能展示、性能趋势对比、回话管理、慢查询管理、索引推荐等综合管理能力
A
lib
ab
a
C
lo
ud
S
to
ra
ge
14
2
14
3
Alibaba Cloud
分类 项目 指标
MongoDB
阿里云云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构,具备安全审计、时间点备份等多项企业能力。更
多详细信息,请参见云数据库MongoDB版。
2、上云验证性测试
为了保证上云效果,需要通过专用的演练工具来执行验证性的测试,以便于提前发现问题并处理,以及应急预
案的正确执行。
阿里云的应用高可用服务(AHAS)就是这样一款具备验证性测试功能的演练工具。其主要功能特性介绍
如下:
· 一款专注于提高应用高可用能力的SaaS产品,提供应用架构自动探测、故障注入式高可用能力演练和一键
应用限流降级等功能,可以快速低成本地提升应用可用性。
· 可提供基于真实线上故障的高可用能力演练计划、实行与复盘服务、根据客户的应用架构智能推荐故障演练
场景。
St
or
ag
e
Cl
ou
d
Alibaba
14
4
14
5
Alibaba Cloud
企业全面上云成功路径与实践
迁移上云与云上治理
6
迁移上云的行动建议和实操指南,以及迁移之后如何构建云上 IT 治理、云上管理体系
迁移上云1
关键行为:
1 待迁系统调研
企业中现有的应用系统具有各自独特的属性,迁移上云时,会对云有各种不同的需求,导致云的采用将因产品
组合而异。对待迁移系统进行调研,掌握其现状是将系统迁移上云的至关重要的第一步。
指导系统调研的方法主要包括:
建立程序角色
目的:
· 基于技术和非技术属性构建每个应用程序的多维视图。
· 确定可以用于量化评估的特征值。
A
lib
ab
a
C
lo
ud
S
to
ra
ge
14
6
1
47
Alibaba Cloud
业务类关键属性
业务目标评估 安全合规评估
· 上云收益 · 灾备要求
· 市场需求 · 功能要求
· 可用性要求 · 用户数预估
· 业务连续性要求 · 业务增长预估
· 是否为关键/核心应用 · 对用户的影响
· 业务应用属性 · 组织结构支持
· SLA等级 · 合作伙伴支持
· 高可靠性要求
· 物理安全 · 账号安全
· 硬件安全 · 业务安全
· 主机安全 · 安全监控
· 网络安全 · 国家/地区合规要求
· 虚拟化安全 · 行业合规要求
· 数据安全 · 企业内审合规要求
技术类关键属性
业务运行环境评估 IT基础架构评估
· 技术架构
· 停机窗口
· 高可用
· 灾备架构
· 硬件相关性
· 源代码是否可用
· 编程语言
· 程序模块耦合度
· 外部依赖性
· 应用扩展性
· 是否使用分布式架构
· 应用发布流程
· 部署架构
· 应用稳定性
· 使用虚拟化
· 存储设备使用
· CPU/内存使用率
· 物理设备依赖性
· 操作系统上云兼容性
· 中间件上云云兼容性
· 数据库上云兼
容性
· 将范围内的程序数据规范化,以确定应用的角色。
· 与利益相关者验证假设和数据的规范化。
确定影响范围
目的:
关键行为:
关键行为:
· 为范围内的程序生成适应性频谱
· 先了解整个程序集,然后筛选出到可于云适配性量化评估的程序。
关键行为:
· 从各种来源收集数据,以建立程序和基础架构的统一视图。
· 确定云适配性量化评估范围内的程序。
规范化
目的:
· 对程序角色的特征数据应用适配性规则,以对所有评估范围内的程序量化分析。
· 通过基于重要性和数据质量可信度来配置适配性规则。
· 规范化本地和云评分以生成0-10的分数,其中0表示最不适合云实施,10表示最适合云实施。
适配性评估
目的:
· 为每个范围内的程序量化计算单独的本地和云适配性分数。
· 与IT领导人,程序使用者及开发者沟通合作,获取评估反馈。
1、业务类关键属性
2、技术类关键属性
A
lib
ab
a
C
lo
ud
S
to
ra
ge
14
8
14
9
Alibaba Cloud
应用系统清单
通常在进行云迁移期间,需要通过扫描工具收集应用系统清单,某些工具还可以创建网络映射和依赖项,以帮
助定义工作负荷的对齐方式。
如果企业系统非常庞大,应用之间耦合多,各系统的负责部门不同,人工收集的方式难免会有疏漏,难以完整
厘清所有应用系统以及系统间的复杂依赖关系。
应用系统清单很难通过一次性的盘点完成。我们强烈建议云COE团队邀请相关业务责任人和用户参与确认系
统清单的完整性,也可以使用一些网络流量和依赖关系分析来识别正在运行但不在清单中的应用系统资产。
阿里云提供针对企业上云场景提供应用发现服务(Application Discovery Service),满足企业在迁云阶段
的评估、规划、建设、迁移的需求评估。采用无侵入式采集技术,不影响在线业务的性能前提下从主机和进程两个
维度构建架构拓扑,自动分析识别主机和进程信息、资源使用水位以及各应用和组件之间的依赖关系。更多详细信
息,请参见应用发现服务。
2 迁移计划与策略
在应用系统迁移过程中,往往无法对所有应用都采用同一种迁移策略,甚至存在一些不能被迁移的应用,因此
需要使用云适应性评估模型(6R)进行评估,主要内容如下:
退役Retire
将要退役/结束生命周期的应用,其用户可能会迁移到其它应用上。
将新的应用系统直接部署在云计算环境中或将原有系统迁移到云计算环境中是两种主要信息系统的云化改造路
径,对其实现难度的评估是对应用系统进行云化改造风险与收益评估的重要手段。整个业务系统的云化分析过程需
要从包括基础设施支撑环境改造、操作系统平台变更、平台软件绑定分析、IP地址依赖性消除、API重构、模块化
改造、标准化改造、外部依赖条件等在内的多个层面和维度进行,准确评估业务信息系统云化改造的相关难点与痛
点,才能对信息系统云化改造有充分的认识和准备;
保留Retain
保留下来的应用,作为非云基础设施的一部分。
替换Replace
将会被其它应用(或者是应用集)所取代的应用,可以购买和使用商业软件或者第三方服务,作为一个服务进
行交付。
移植Rehost
应用组件是“云友好”,也就是说比较容易移植到云环境上,比如在虚拟化以后只需要很少的应用变化。
重建平台Replatform
应用组件不在云上或者不符合成本效益,因此需要对基础设施和平台进行调整。
重构Refactor
应用组件并不适用于云,并且/或者根据业务需求要进行特定的改变。
2、应用迁移方法1、应用迁移评估
A
lib
ab
a
C
lo
ud
S
to
ra
ge
15
0
1
51
Alibaba Cloud
新建系统及迁移系统都需要云平台的支撑:新建应用可以充分使用PaaS平台及基础设施资源及服务;迁移系
统需进行评估,根据评估结果确定应用迁移的实施方案,选择使用PaaS平台或基础设施资源及服务;
传统应用迁移到云环境策略主要根据应用的评估结果制定应用迁移的实施方案,主要从系统云化后对业务的价
值及资源消耗情况(如月结期间对资源消耗很高,月结过后资源消耗很小),以及系统技术层面评估迁移难度及风
险,从而制定系统迁移的最佳方案。
传统业务系统特点
传统业务系统多为大型单体应用,系统具有一个数据库,用于整个应用程序,同时具有复杂且较大的且不可重用
的代码库,本地进程内呼叫,用于外部通信的 SOAP;每次产品发布必须部署整个应用程序。
业务系统在每个运行时实例中保留的状态,紧密耦合,跨应用程序深度嵌入依赖关系;一个技术堆栈,适用于整
个应用程序,系统高度定制,具有有限的可重用性和多年来积累的大量技术债务;经常出现故障、问题或计划外停
机,影响应用稳定运行,服务器性能会遇到瓶颈,扩容难度大,影响业务的推广。
系统研发和应用技术支持运维的团队人数多,管理难度高,团队人员对采用旧技术栈的应用系统支持意愿差。
云上业务特点
云上业务系统采用大量粒度可扩展的服务化或微服务化架构,微服务架构是一种架构模式,它提倡将单块架构
的应用划分成一组小的服务,服务之间互相协调、互相配合,为用户提供最终价值。
每个服务运行在其独立的进程中,服务与服务间采用HTTP、消息传递或二进制调用等轻量级的通信机制互相
沟通。
每个服务都围绕着具体业务进行构建,每个微服务都有自己的数据源,实例无状态保留在分布式数据网格中,
并且能够被独立的部署到生产环境、类生产环境等。
另外,应当尽量避免统一的、集中式的服务管理机制,每种微服务可采用不同的技术选择,对具体的一个服务
而言,应更具业务上下文,选择合适的语言、工具对其进行构建。
应用迁移
在企业都在寻求实现跨渠道的数字能力之际,需要建立一个与之匹配的体系结构和交付范式,以促进数字产品
和服务的快速构建、测试和部署。在产品数字化改造过程中,我们建议将现有的传统架构应用全面转向云原生应
用,以充分适应不断变化的环境。实现产品数字化功能所需的速度和敏捷性包括:
· 开发 API过渡到可扩展并保持传统系统完整性的"微服务"架构和整合模式;
· 拥抱敏捷交付模式迭代构建、测试和验证功能和体验;
· 加快交付周期并缩短上市时间通过整合持续集成和开发(例如 DevOps)实践以及基于云的基础架构;
· 向以产品为中心的方法迈进交付和发布,重点关注客户经验。
工作负载优先级
在确定工作负载的优先级时,一些因素会加快/推迟应用程序迁移的时间线。这些因素会在模型中被加权来确定
迁移的优先级。
首先,需要明确对应用的工作负载进行排序的原因,在收集云应用适应属性、进行云的准备和迁移路线的选择
之后,还应基于业务线、应用的复杂性、关键性、业务需求、成本控制以及迁移到目标环境过程中的条件,进行工
作负载的优先级的排序。
3、应用迁移优先级规划
A
lib
ab
a
C
lo
ud
S
to
ra
ge
15
2
15
3
Alibaba Cloud
当对工作负载进行优先级排序时,有一些因素会对应用迁移的重要性起促进作用,还有的是会对迁移的时间成
本有强制性的抑制作用,对各个促进因素和抑制因素赋予权重,进而分析每个应用属于哪个批次。促进因素和抑制
因素分别包括:
促进因素:
图:迁移优先级规划
抑制因素:
· 消耗完CPU、RAM、或者存储容量
· 具有最小依赖性的应用
· 有限的服务器使用率
· 迁移的最短持续时间
· 有限的对终端用户的影响
过程输出物
在应用迁移的不同阶段,会存在不同的阶段,按照时间顺序和技术上的复杂程度具体分为:
· 批次1
以快速实现、最小化集成、最低依赖性为目标的简单、可行的迁移,主要针对非生产性的工作负载和简单的移植。
· 应用不能有停机时间
· 在云环境中没有应用的支持人员
· 应用版本的发布计划
· 遵从性规章
· 重构或者重建平台
促进因素
促进因素
CPU、RAM或存储容量空间不足
应用程序依赖性最小
有限的服务器利用率
最短的迁移时间
对最终用户影响有限
标准化的安全需求
易于快速迁移、最小集成、更少依赖的迁移
非PROD工作负载
简单的重新托管
工作负载实例
网络服务器
网络应用程序
简单的工作负载,技术复杂度低,但成本高
非PROD工作负载/一些是PROD
简单的重新托管/复杂的重新托管
工作负载实例
网络应用程序
协作
提高工作负载依赖性的复杂性
非PROD工作负载/PORD工作负载
简单的重新托管/复杂的重新托管/平台后置/重
构活动
工作负载实例
分析 ERP和
CRM
抑制因素
抑制因素
促进因素
输出
应用程序无法停机
在云环境中,该应用程序没有维护人员
应用程序版本发布计划
合规性管理
对应用程序进行重构活动或平台后置
抑制因素
Wave 2Wave 1 Wave 3
对每一项输入分配权重
详细的算法和逻辑来分析应用程序属于哪个Wave
A
lib
ab
a
C
lo
ud
S
to
ra
ge
15
4
15
5
Alibaba Cloud
迁移
· 批次2
简单的工作负载,具有低技术复杂性,和大的占用空间,主要针对非生产性的工作负载/一些生产性的和简单的
移植/复杂的移植。
· 基本服务"着陆区"
· 云服务治理
· 安全性、法律性与合规性
· 建立云COE
· 应用程序发现和依赖关系映像
· 应用适用性评估
· 应用程序迁移路径分析
· 业务案例
· 目标应用程序体系结构
· 迁移执行体系结构
· 迁移计划
· 基础服务MVC
· 设置目标基础结构
· 将应用程序移动到目标Cloud
· 批次3
增加工作负载依赖性的复杂度,主要针对非生产性/生产性的工作负载和简单/复杂的移植/重建平台/重构的。
工作负载优先级
对于大规模迁移,首先应基于云迁移方法论建立应用程序迁移COE,以受益于规模经济和效率。然后,可以采用
如下五个步骤,分阶段的制定迁移计划,完成应用迁移工作。应用迁云总体流程如下图所示:
阶段1:云基线
阶段2:应用程序组合评估
阶段3:迁移规划和体系结构
阶段4:基于敏捷的迁移冲刺
4、迁移计划
基本服务"着陆区"
云服务治理
安全性、法律性与
合规性
建立云 C O E
应用程序发现和依
赖关系映像
应用适用性评估
应用程序迁移路径
分析
业务案例
目标应用程序体系
结构
迁移执行体系结构
迁移计划
基础服务MVC
设置目标基础结构
将应用程序移动到
目标Cloud
工作台
自动化进程
应用程序集成
基础设施集成
运营集成
测试和验证迁移的
工作负载
冒烟和效能测试
获得 B U 验收
应用程序维护和支
持
监控性能
优化云工作负载
云基线
阶段1
应用程序
组合评估
迁移规划和
体系结构
迁移 集成
应用程序迁移 COE
测试验收 运行和优化
阶段2 阶段3
持续迁移演变 + 回馈
高度自动化 基于敏捷的迁移冲刺
更多手动
更少自动化
优先迁移清单 迁移应用
阶段5阶段4
迁移候选应用迁
移
阶
段
活
动
A
lib
ab
a
C
lo
ud
S
to
ra
ge
15
6
1
57
Alibaba Cloud
· 工作台
· 自动化进程
集成
· 应用程序集成
· 基础设施集成
· 运营集成
· 可用性。为业务系统提供不间断的网络连接和网络服务的能力,确保核心、重要和关键业务系统的高可用;
· 安全性。为满足等保等其他安全体系的合规性要求;
· 稳定性。采用稳定的网络架构和技术,确保稳定性;
· 扩展性。满足未来的性能容量增长、新技术和新功能的需求,可以应对突发业务做业。
· 企业多数据中心场景下(如典型的两地三中心),各数据中心的功能定位,所运行业务;
· 按数据中心功能定位映射到云上的不同区域或者同区域的不同可用区;
· 数据中心内部网络架构和网络分区梳理;
· 各网络分区内的应用分布和信息梳理,业务的互访关系梳理。
· 从应用角度考虑上云后应用的直接迁移,重构,新增等情况,按应用规划出云上的功能分区;
· 基于规划的云上功能分区,考虑云上是否可沿用原有网络分区或是需新增、裁减、整合网络分区;
· 按之前梳理的业务互访关系和上云后的应用规划整理出新的云上业务互访规划。
测试验收
· 测试和验证迁移的工作负载
· 冒烟和效能测试
· 获得验收
· 设置目标基础结构
· 将应用程序移动到目标Cloud
· 工作台
· 自动化进程
阶段5:运行和优化
3 云上架构设计
云上网络组网原则
云上网络组网的设计,需要遵循以下的设计原则:
网络现状梳理
网络设计的第一步,需要对云数据中心网络现状进行梳理;主要内容包括:
具体执行云上网络设计时,一个完整的设计,其主要内容应该包括如下几个方面:
网络规划
1、网络组网
A
lib
ab
a
C
lo
ud
S
to
ra
ge
15
8
15
9
Alibaba Cloud
1 地域选择 8 基于SLB的高可用设计
2 VPC选择 9 子网访问控制
3 VPC网段 10 互联网访问设计
4 可用区设计 11 多VPC设计——非互联网访问VPC设计
5 单VPC和多VPC网络的选择 12 跨VPC互访设计
6 多VPC网络的规划 13 主机访问控制
7 多VPC设计——互联网接入VPC设计 14 单VPC设计
表:网络设计的关键内容
阿里云企业级云上组网方案利用专有网络VPC、负载均衡SLB等网络产品,帮助企业用户构建一个支持多业
务部署、安全、可靠的云上网络。 更多详细信息,请参见企业级云上网络解决方案。
阿里云最佳实践
在阿里云上构建云上网络,需要提前规划云上网络的网段、交换机部署、路由策略等。更多详细信息,请参见
云上网络设计。
单VPC单账号
使用一个VPC,通过交换机划分
不同功能区
· 账号管理要求低(团队规模小)
· 安全要求低(基本安全防护要求)
· 可用性要求中(同城双活)
· 网络ACL
· 安全组
单VPC多账号
· 使用一个VPC,通过交换机划分不
同功能区
· 使用共享VPC创建多个业务账号
· 账号管理要求高(团队规模大且业务多)
· 安全要求低(基本安全防护要求)
· 可用性要求中(同城双活)
· 网络ACL
· 安全组
多VPC多账号
· 使用多个VPC划分不同功能区和安
全域
· 使用共享VPC创建多个业务账号
· 账号管理要求高(团队规模大且业务多)
· 安全要求中(需要划分安全域)
· 可用性要求中(同城双活)
· 网络ACL
· 安全组
· 路由策略
· 云防火墙
多地域负载/容灾
使用多个地域实 现异地容灾和负
载分担,并通过云企业网实 现多
地域互通
· 账号管理要求高(团队规模大且业务多)
· 安全要求中(需要划分安全域)
· 可用性要求高(同城双活和异地容灾)
· 网络ACL
· 安全组
· 路由策略
· 云防火墙
多环境隔离
· 使用多个云企业网实现多环境隔离
· 利用中转VPC实现不同环境的数据
中转
· 账号管理要求高(团队规模大且业务多)
· 安全要求高(不同环境间严格隔离)
· 可用性要求中(同城双活)
· 网络ACL
· 安全组
· 路由策略
· 云防火墙
· 第三方应用/数
据安全能力
方案组网 方案介绍 使用场景 安全防护
A
lib
ab
a
C
lo
ud
S
to
ra
ge
16
0
1
61
Alibaba Cloud
上云安全评估
定义与身份验证和基于角色的访问控制相关的最佳实践,包括单点登陆框架、角色与策略识别、AD整合机制
等。
识别应用程序在云上应遵循的数据保护和加密,包括数据生命周期管理、加密密钥管理、系统保护进程等。
验证网络架构并确保必要的分区和保护机制到位,包括VLAN隔离、安全组模板、VPN连接、最小特权访问定
义等。
评估用于提高云环境中平台服务(PaaS)安全性的附加要求,包括应用程序威胁建模、Web扫描工具、测试
数据消毒净化方法等。
评估潜在日志源,并完成分析和日志记录的方法,包括日志收集和存储体系结构、工具选择、日志生命周期管
理等。
回顾安全信息和事件管理(SIEM)需求并定义在云上实现它的方法,包括SIEM工具体系结构、脆弱性评估方
法、配置监控过程等。
加强基础设施安全的设计修补和更新过程,包括操作系统修补和硬化工具、存储硬化策略、数据库修补方法
等。
设计与实现一种增强安全体系结构的持续监测和改进模型,包括定期环境审核、安全测试设计和方法、新安全
产品的评估等。
2、安全设计
· 网络隔离(纵深防御)
· 安全加密(开启加密措施)
· 认证授权(最小权限)
· 监控告警
· 安全产品提供的安全防护能力:例如,WAF、云安全中心、RAM、KMS等。
· 云产品提供的安全防护能力(含红色的数据安全)。例如,VPC隔离、传输和存储加密等。
· 用户利用云产品能力进行的安全管理和安全监控活动。例如,日志透明化、云主机安全管理等。
· 启用云上基础防护措施
· 云上业务安全防护
· 云上应用安全防护
· 云上系统安全防护
云上安全设计
阿里云最佳实践
通过云产品的安全隔离和访问控制功能,实现网络、系统、应 用和数据不同维度的隔离以实现纵深防御;
基于云上安全问题,阿里云将云上安全防护体系框架分为以下