网络部 谭步律
2015年6月
IT集中化和云计算的变革与挑战
2
目录
云时代的IT新技术1
云时代网络工作的大变革2
3
总部网络部的探索(一级私有云)4
挑战的应对
3
过去,我们要大象快跑,现在,大象在转身,快or慢?
某著名企业时代综合实力极限
互联网时代综合实力极限
某著名企业企业 互联网企业
某著名企业企业
快速转型
某著名企业企业
慢速转型
某著名企业时代 互联网时代
?
某著名企业企业
转型迟滞
4
IT系统转型的发展方向:云化架构、迭代演进、开放能力
云化架构
小步快跑的迭代演进能力
• 业务快速发展、快速迭代,要求网
管识别并管理互联网业务,应用开
发模式敏捷迭代开发能力
系统架构的逐步演进
• 系统架构随技术、业务需求的变化
而逐步演进
基于性能管理系统建设的迭代演进
• 应用大数据技术,将网络大数据存
储好、处理好、运营好,逐步具备
大数据挖掘能力
分层全面的数据和服务开放能力:
• 开放数据访问接口,数据以订阅、
查询、推送等多种方式对外共享,
服务公司IT系统及外部合作伙伴
• 开放应用服务标准化接口,开放平
台开发能力,以支撑跨系统应用
系统充分解耦:
• 顺应企业级大数据中心架构规划,
应用与数据解耦
• 4+1系统充分解耦,公共能力组件
化,下沉为服务于应用的基础设施
迭代演进 开放能力
敏捷的高弹性云化架构:
• 逐步实现IaaS、PaaS、SaaS的云化架
构:首先实现基于私有云资源池的基础
资源云化部署,逐步实现平台及软件的
服务化,提供开放的平台开发能力及按
需开发的软件
• 集成架构开放化:逐步向高内聚、低耦
合转变
• 数据架构分布式、标准化:数据分布部
署,统一管控
• 基础设施层云化部署:支持平滑扩展、
提高资源利用效率
在网络硬件通用化、资源虚拟化、功能软件化、网络扁平化,互联网业务快速迭代,云计算大
数据等IT技术日益成熟的背景下,网管系统逐步向集中化演进:
• 敏捷高弹的服务扩展能力:数据、应用、服务可扩展,基础IT资源灵活调度,应用灵活组合
• 小步快跑的迭代开发能力:以敏捷迭代开发模式,支撑以大数据挖掘为核心的,面向客户感知、
业务精细化管理应用
• 分层全面的数据和服务开放能力:系统充分解耦,数据对外共享,应用服务接口标准化
5
x86架构
宿主操作系统
虚拟化层
操作系统
应用
应用
CPU 内存 网卡 硬盘
x86架构
宿主操作系统
虚拟容器
系统模版和库
应用
虚拟容器
系统模版和库
应用
Host Based Container Based
三
类
主
流
的
虚
拟
化
技
术
Hypervisor
Based虚拟化
是业界主流
技术,是核
心网云化/虚
拟化的首选
技术
x86架构
虚拟化层
服务
控制
台
应用应用
操作
系统
应用
操作
系统
Hypervisor Based
虚拟化技术:
通俗讲是在物理计算机(x86架构)上,通过虚拟化软件生成虚拟的计算机,供上
层应用使用。功能与资源分离与按需分配是主机虚拟化技术的实质特征
• 隔离度高
• 开销大
• 常见于单机系统
(VMWare
workstation)
• 隔离度低
• 开销小
• 已逐渐淡出(Linux-
VServer)
• 隔离度高
• 开销中
• 云计算主流方式
(VMWare vSphere、
KVM、XEN)
• VMWare、KVM、Xen是主要的三种虚拟化体系,在业界获得了广泛的使用,虚拟机的成熟性也得到了广
泛的验证,在虚拟化功能方面差距已经很小
• VMVare利用先发优势长期占据80%某省市场,但价格也是三者中最高的
• 基于开放性和成本的考虑,在NFV领域,传统某著名企业参与者更倾向于基于KVM开发虚拟化和资源管
理系统
CPU 内存 网卡 硬盘 CPU 内存 网卡 硬盘
虚拟化技术
6
架构角度——控制平面与数据平面分离,逻辑集中管理
业务角度——网络资源被抽象成服务,应用程序与网络设备
的操作系统解耦
运营角度——网络功能可编程实现,应用程序直接影响网络
SDN
SDN (Software Defined Networking) ——软件定义网络
一种新型网络创新架构,网络虚拟化的一种实现方式。其核心技术OpenFlow通过将网络设
备的控制面与数据面分离开来,从而实现了网络流量的灵活控制,使网络作为管道变得更加智
能,为核心网络及应用的创新提供了良好的平台。
“让软件应用参与到网络控制中,并起到主导作用,而不是让固定的协议模式来控制网络”
特点
1、向云服务转型,扩某省市场
2、管道延伸到企业,做大空间
3、灵活配置,缩短新业务上线时间
4、集中控制,优化流量模型,提升网络利用率
5、简化运维,提升效率
价值
然而……技术标准仍在完善,产业未完全成熟,技术发展方向仍在收敛。
7
CDN
CDN (Content Delivery Network) ——内容分发网络
在现有的互联网基础之上,通过在各处放置节点服务器所构成的一层智能虚拟网络,能够实
时地根据网络流量和各节点的连接、负载状况以及到用户的距离和响应时间等综合信息,将用
户的请求重新导向离用户最近的服务节点上。解决 Internet网络拥挤的状况,提高用户访问网站
的响应速度。
内容存储技术——一个是内容源的集中存储,另一
个是内容在Cache节点中的分布式存储。由于内容
的规模比较大,内容的吞吐量较大,因此,通常采
用海量存储架构。目前常用的存储技术主要有直连
附加存储(DAS)、网络附加存储(NAS)和存
储区域网(SAN)
内容分发技术——通过网络的构建减小IP骨干网络
的传输压力,将连接到IP网络上的内容迅速分发到
用户终端。包括分段分发技术和部分分发技术。
负载均衡技术——将网络的流量尽可能均匀地分配
到几个能完成相同任务的服务器或网络节点上进行
处理,避免部分网络节点过载而另一部分节点空闲
的不利状况,既可以提高网络流量,又可以提高网
络的整体性能
技术要点
8
NFV
NFV面向设备层面,通过虚拟化技术实现了网络功能和资源的解耦,更细粒度的划分
物理资源,实现物理资源按需分配
控制、承载
分离架构
全合一架构
业务、控制、承载
分离架构
程控交换机
软交换
IMS
NFV
控制、承
载合一
控制
承载
控制
承载
业务
实现集中控制,
承载就近部署
实现业务剥离,
支持更丰富的多
媒体业务
资源
网络功能、资源
分离架构
实现ICT融合,
支持业务自动
灵活部署、资
源共享
网
络
功
能
控制
承载
业务
从核心网演进视
角看NFV的实质
9
VNFMNFVO
VIM
EMS
虚拟资源层
VNF …VNF
分配资源
部署网元
网元功能管理
创建网络
网络部署指令
信息展示
资源信息上报
网络/网元
部署指令
资源信息上报
创建网元实例
网元加载
互操作
业务信令 业务信令
下行部署指令
交互指令
采集信息上报
业务信令
①
②
③
④
网络部署管理指令由NFVO输入,通过VNFM、VIM和EMS的配合实现资源分配和网
元部署,网元和资源信息由VNFM和VIM采集并分级上报
网元自动部署
物理资源层
网元部署指令
⑤
⑦
⑧
⑥
10
目录
云时代的IT新技术1
云时代网络工作的大变革2
3
总部网络部的探索(一级私有云)4
挑战的应对
11
IT系统困境-总部
烟囱多,设备多:仅总部网络部共有烟囱式系统70余套,硬件共计6000台,服务器中小型机占比67%。
利用率低:CPU 平均利用率低于20%的系统约24套,CPU平均利用率高于50%的系统共14套。
中国某著名企业目前的IT系统存在着诸多问题需要解决,传统的系统架构已经
成为业务发展的瓶颈。以总部IT系统为例,IT系统存在如下问题
传统IT资源系统1
现有云资源池系统2
资源池初具规模:共有南方基地、天津、北方信息港3个一级私有云,共计设备接近10000台,其中X86服务器
8500台(南方基地3100台,天津1400台,北方信息港4000台)。
利用率和虚拟化率低:南方基地已上线业务的服务器CPU利用率不到6%,内存利用率不到10%,资源池虚拟
化程度仅为%。
现有IT系统维护情况3
维护分散:总部网络部、业支部等部门均承担IT维护职责,不同部门的维护流程、维护标准和维护水平各异。
此外,烟囱式系统的维护存在大量共性工作,如:各系统均涉及服务器、存储、网络、安全等专业。 分散的人
力和手段造成维护资源的重复投入,多而不精。
软硬件维保费用高:由于烟囱式IT系统小型机比例高,设备上线时间长(平均时间超过4年),导致维保费用居
高不下,如:总部网络部2014年维保费用约6000万。
12
某省市资源池共104个(数据来源:计划部 2014年12月),存在过度分散、使用率偏低、自动化管理
水平不高等问题
IT系统困某省市
资源池整体使用效率低于资源分配率
服务器分配比例%,CPU利用率%,内存
利用率%;
资源池存储平均利用为%
资源池过度分散,难以实现规模效益
省公司资源池规模较小,其中最大资源池820台x86
服务器(江苏游戏基地),%的资源池(50个)
服务器规模在100-300台之间,%的资源池规模
小于100台
分类
X86服务器数量
(台)
存储/备份设备容量(TB) 网络设备数量 网络出口带宽
(Gbps) 小型机(台)
各省云资源 20622 54035 913 915 -
传统IT设备数量 36765 9200 - 10735
• 云平台管理:自动化水平有待完善,实现虚拟机资源自动化回收的云平台比例为%、实现网络自动
化配置的云平台比例为%。
现有云资源的管理形式分为两种:
– 分池管某省市多套云管理平台%(某省市)
– 集中管某省市一套云管理平台 %某省市)
13
IT集中化带来“十大变革”
IT集中化运营意义重大,能够助力公司高效低成本运营,但对现有管理架构、制
度和流程有颠覆性变革
组成集中化,规范化,专业化团队组织架构
云平台维护专业将更加细化,具备实际操作能力的专家级人员成为必需人员配备
云资源池独立进行IT资源采购,不与具体的业务捆绑项目采购
快速部署、通过资源冗余保障系统稳定性工程建设
运维转向与具体应用无关的横向维护,职责按照IT专业重新划分维护模式
基于虚拟资源的“虚拟结算”和“利用率考核”机制资源结算
上层应用与IT基础设施解耦,基于共享资源池,统一规划规划设计
用户只需关注业务实现,IT硬件、组网、安全策略等由云平台以服务方式提供IT需求
通过自主研发提高云平台运营水平开发优化
业务系统承担软件维保,云平台统一承担硬件维保,以降低成本维保服务
14
组织架构的变革
现有分散的IT维护架构(以总部为例)
IT集中化需要拉通分散在各部门的维护职责,成立面向公司各部门的IT运营维护中心
建立集中化、专业化的统一云管理团队,实现统一维护、管理和优化,按照SLA向上层应用提供的云计算服务
中国某著名企业已于2009年开启天翼云计算计划,成立了规模近100人的云计算公司开展集约化的运营
变革带来挑战,必须从公司层面推动和深化改革,才能运营一个高效的云服务平台,实现公司低成本高效运行。
网络部网络部
网管功能A 业务功能B
IT软硬件 IT软硬件
网管系统A维护
人员
业务系统B维护
人员
政政企分公司企分公司
邮件功能 门户功能
IT软硬件 IT软硬件
邮件系统维护
人员
门户系统维护
人员
业务支撑系统部业务支撑系统部
业支系统功
能A
IT软硬件
业支系统A维护
人员
互联网公司互联网公司
邮箱功能
IT软硬件
139邮箱维护人
员
IT集中运营架构目标(以总部为例)
网络部网络部
IT资源池(X86服务器,虚拟机、存储、网络、数据库、中间件、安全手段……)
IT集中运营维护中心
政企分公司政企分公司 业务支撑系统部业务支撑系统部
业支系统功能
互联网公司互联网公司
网管系统A 业务系统B 统一邮件系统 统一门户 业支系统A 139邮箱
业支系统A
网管功能A
网管系统A
业务功能B
业务系统B
邮件功能
统一邮件系统
门户功能
统一门户
邮箱功能
139邮箱
15
人员配备的变化
IT集中化需要组建一支具有自主维护、优化、开发的专家团队
云计算必须由自有专业人员掌控核心技术,服务外包模式应逐渐退出历史舞台
目前各部门IT维护人员各自为战,难以形成合力,急需具有虚拟化、分布式、数据库、存储和云安全相关技术,能够自
主开发优化的维护人员
服务器维护 网络维护 存储维护 安全维护业务维护
网络部IT维护单位
维护服务外包
服务器维护 网络维护 存储维护 安全维护业务维护
业支IT维护单位
维护服务外包
服务器维护 网络维护 存储维护 安全维护业务维护
其他部门 IT维护单位
维护服务外包
现状:
各单位IT人员各
自为战,难以形
成云计算技术合
力和规模优势
业务维护1 业务维护2
统一运营维护中心
服务器维护
网络维护 存储维护
安全维护 自主优化开发
16
项目采购的变化
云平台资源池提供统一的计算资源、存储资源、网络资源,为各业务系统按需分
配。IT资源的虚拟化和集中化,能够实现拆闲补忙,降低IT软硬件的整体投资;IT资源
的规模化,能够降低设备维保费用和维护复杂度
逻辑资源
物理资源
存储资源 网络资源
资源共享 按需分配 统一管理 动态调度
应用1
计算资源
资源管理资源管理
资源抽象
应用2 应用3 应用4
标准接口
1、IT设备忙闲不均,闲时浪费资源,忙时
影响业务感知且无法快速扩容
2、各类系统的硬件七国八制,难以形成规
模效应,维护难度和维保费用居高不下
传统IT系统 云平台系统
1、根据业务实际状况按需分配资源,提高系
统利用率,降低设备整体规模
2、规模化设备采购,促进产业链配合完成硬
件定制化,有效降低IT设备采购和维护成本,
降低维护复杂度
17
工程建设的变化
IT集中化能够提供充分的冗余保护,有效提升上层业务系统的稳定性,并
实现快速建设、部署和升级。
新建域
4 5
原有工作域(CPU:60%)
1 2 3
现有工作域(CPU:36%)
1 2 3 4 5
加入
IT系统快速建设、部署和升级
• IT资源的建设和部署可以按需进行,
不影响现有资源使用
• 可实现平滑升级,不影响业务系统
正常使用
云资源的冗余保护提升系统的稳定性
• 通过资源的虚级化和集中化,当部署业
务的虚拟机出现故障时,可以灵活的将
业务系统迁移至正常工作的设备之上,
实现业务系统“零宕机”
01 02
储存单元故障时自动从其它他单元保存备份
文件
组合
4
3
3
2
2
1
X
X
41
4
3
2
1
18
维护模式的变化
IT集中化带来维护模式的变化,一方面由原来的以业务系统为单位纵向分工,
转向按IT专业流程,另一方面由网络部工作流程转向跨部门流程。
需要建立跨部门工作流程
• 维护工作流程在上层应用和IT资源之间
建立界面,需建立跨部门流程
01 02维护人员分工更加细化
• 职责按照IT专业重新划分(服务器维
护、虚机维护、数据库维护、存储
维护、网络维护……)
• 维护人员面对单一的软硬件类型,
维护效率和专业化程度更高
统一邮件系统维护
业支系统维护
网管系统维护
19
资源结算的变化
传统模式将IT资源“画地为牢”,业务系统对IT资源为独占模式,难以解决硬
件设备忙闲不均的问题,极端情况下,即使设备长期低效运行也难以调整改善。
而IT集中化和云计算改变IT资源独占的现状,资源虚拟化可实现“拆闲补忙”。
云平台维护单位应建立面向业务系统的“虚拟结算”和“利用率考核”机制,可实
现过剩资源的回收复用
业务系统A 业务系统B
占用率90%
占用率20%
云资源池
占用率60%
占用率60%
业务系统A 业务系统B
动态调整
传统模式 云模式
20
规划设计的变化
使用云资源平台,需要将上层应用与底层基础设施充分解耦。业务应用对硬件
资源的规划从整体资源规划中剥离出来,纳入整个资源池的统一规划中,形成规模
优势,简化硬件维护,降低运维费用。
业务应用
IT软硬件
功能 功能
业务应用
IT软硬件
功能 功能 功能
扩容
扩容
业务应用
功能
扩容
IT软硬件
业务应用
功能
IT软硬件
业务应用
功能
业务应用
功能 功能
扩容
传统模式 云模式
21
IT需求的变化
在云资源池场景下,业务应用只需关注业务场景和业务实现,并根据应用规模
和发展预期提出IT资源申请,云平台统一提供硬件、组网和安全策略的服务,此外,
云资源池根据业务的实际资源占用情况和优化策略,动态、弹性的进行资源分配,
在满足业务需求的前提下,提高资源利用效率,提高资源服务质量
业务场景
业务实现
资源需求
计算资源
存储资源网络资源
安全策略
申 请
服 务
22
开发优化的变化
由于硬件的云资源化,业务系统的性能、安全等将由业务系统本身和资源池共
同保障。因此,对业务系统进行优化,一方面要求业务系统的设计、优化能充分利
用云资源的特点和优势,另一方面,要求在资源池内完善资源部署、调度机制,针
对业务场景优化资源参数的灵活配置
业务系统性能优化往往通过业务系统本
身的研发来实现
IT系统维护人员往往不承担业务功能研
发任务
业务系统的研发往往不涉及IT资源及中
间件的优化
资源池上构建的软件基础设施和资源管
理调度平台是保证云计算系统高效率、
低成本运行的关键
需统筹考虑各项应用进行具体方案的选
择、部署和优化
具备研发能力的运维团队自主研发和运
营实现高效运维
业务应用
IT软硬件
功能
IT软硬件
业务应用
功能
内存技术
数据库技术
线程技术
……
分布式计算
负载均衡
定制化硬件
……
23
维保服务的变化
基于云资源池的业务系统只需要购买应用软件的维保服务,而云平台的硬件资
源可统一购买基础软硬件维保,通过规模化降低维保服务费用
1、独立维保 独立维保与统一维保相结合
业务应用
IT软硬件
功能 功能
业务应用
功能
IT软硬件
业务应用
功能
响应速度
云模式
2、不堪重负 健康可靠
模块替换超期运行
24
目录
云时代的IT新技术1
云时代网络工作的大变革2
3
网络部的探索(一级私有云)4
挑战的应对
25
观念的转变
传
统
运
维
从底层数据中心(服务器、网络、存储)
等基础运维,到上层数据库、安全和产品
的应用运维,全面覆盖,受限于专业性、
规模化和等特点,运维投入与产出往往不
如人意
云
计
算
运
维
本质上是资源租用,业务应用更着力于产
品本身的开发、部署与维护,而基础运维
则通过规模化、标准化、集中化和自动化
提供统一的支撑解决方案
一种通过网络,以自动化、
按需分配的方式,从一个共
享的资源池中获取和使用IT
资源(包括计算、存储、网
络等)的服务提供模式。
云服务
资源统一管理按需分配
规模化:
云资源池的规模体现了云计算平台的能力,
但资源池达到了一定的规模才能使使高可用、
低成本的目标得以达成
标准化:
大规模设备场景下,需要在服务器选型、
网络设计等方面进行标准化,从而提高部署、
升级、迁移、扩容等工作的效率
集中化:
对云资源进行集中监控、集中支撑,统一
运行调度,建立专业化、高效能的支撑团队
自动化:
通过自动化、智能化手段,实现运维管理
的专业化、流程化和标准化
26
管理上的改变
组织建立 流程完善 系统支撑 服务提升
建立统一的IT支
撑团队,负责整个云
平台的运营与维护。
从基础运维、DBA、
安全和支撑平台等层
面完善云平台自身提
供服务的能力,同时
上层业务应用的顺利
运行提供保障
优化业务应用上
线流程,从业务系统
规划、研发、部署、
运维等各个环节入手,
发挥云计算优势,减
少和避免由云计算复
杂性带来的管理和技
术风险
建立完善的云平
台运维支撑系统,支
撑基础运维、故障监
控、资源分配等工作,
在系统的灵活性、可
扩展性、操作的便捷
性、安全性和自动化
程度方面不断提升
以业务为导向,
通过不断完善运维保
障体系,提升云平台
高可用性服务的保障
能力,确保业务应用
在安全、可靠的云平
台基础上得以开展
27
用户可以根据实际业务需要从资源共享池中选
择合适的资源,避免对资源不必要的占用,也
可以再不需要服务时,将资源归还资源池
资源规模可根据业务增长速度,通过
适时增加资源节点来提升服务能力,
资源扩充要求线性、平稳、可控
通过各层面的多副本容错
机制,以及节点同构互换
机制等保障措施,实现业
务服务的高可靠性
技术上的改变
按需服务
高可扩展性高可靠性
技术挑战
技术要点
云计算环境下大量采用
虚拟化技术,维护对象
规模大,技术难度高,
对性能和可靠性也有更
高的要求
虚拟化
虚拟环境下,分布式计
算、容灾、迁移等要求
使动态资源管控成为基
本属性,保证动态资源
条件下的服务可靠性对
运维提出了更高要求
动态性
业务应用由虚拟资源池
支撑,资源池对业务运
行状况进行监控,在优
化策略下对资源进行动
态调度
关联性
云计算环境下,大规模
物理资源和虚拟资源需
要被管控,通过自动化
手段实现资源的高效部
署,监控是满足业务及
时响应的必要条件
自动化
28
案例1:国外运营商
IaaS业务:依托传统IDC业务优势,逐步向VDC资源能力租赁业务转型
PaaS业务:将某著名企业运营商所独有的某著名企业能力对外开放
SaaS业务:发挥自身的网络及客户优势,主要采用与软件厂商开展合作的方式
2006年——整合美国、欧洲和亚洲的5个超级IDC,建立包含38个IDC的AT&T云服务网络;
2008年——推出Synaptic Hosting,向用户提供虚拟服务器、IDC代管架构、大规模运算服务;
2009年——推出Synaptic Storage as a Service,面向企业用户提供基于Internet的存储、分发
和数据检索等服务;推出Synapticpute as a Service(SM),为企业提供可定制的、高扩展性
的计算处理能力以及网络、服务器、硬件和存储服务
2007年——整合全球的IP基础实施及数据中心,准备开展云计算业务,包括Backup as a
Service(云备份)pute as a Service(CaaS)和Cloud Storage(云存储)等3项子业务;
2009年——面向面向大型企业和政府客户,不仅可提供虚拟服务器计算能力、物理服务器资源和
带宽,还可提供SaaS的开发、配置、安全甚至计费功能
2010年——与IBM联合发布Managed Data Vault业务,面向大型企业提供海量数据的备份和恢复服
务,推出企业级的云存储业务,可支持数据访问和存储方法的定制
通过收购Ribbit,开放语音
能力,提供语音通信开放
平台服务
推出Setten平台服务,提供全面性的操作系统、
储存及一系列应用托管方案,可实现通过互联
网连接公司网络、电子邮件、文件及各服务器,
模拟桌上环境与真实桌上计算机平台无异
推出网真解决方案SM、会议和协作类
SaaS服务,为用户提供电子邮件、即
时消息、在线服务、某著名企业设备、
IP呼叫、语音、视频、网络会议以及网
真服务
面向中小企业的综合性商业应用SaaS
业务——SingTel Marketplace平台,
按需提供托管类电子邮件、Web发布
和人力资源管理(HRM)等软件服务
29
案例2:国内运营商
• 希望利旧已有设备,为了保护前期的大量投资,本次项目需要利旧以前的硬件
设备。包括Dell的服务器、HP的存储、Cisco的交换机等
• 系统可靠性高,基于系统可靠性考虑,要求方案设计具备冗余能力,以提升系
统可靠性。同时,关键数据需要有备份机制,以便万一数据发生损坏可以快速
恢复
• 业务平滑迁移,整个CRM系统包括WEB应用、CSB应用、代理商门户、PPM/
报表、短厅平台、接口机等
业务挑战
• 采用物理机与虚拟机联合部署的方式,CRM业务系统全部在华为的虚拟云平
台FusionSphere上部署,数据库业务仍然基于小型机的方式来进行部署;
• 采用了关键节点双备份、网络双路径冗余、集群HA资源预留、关键数据进行
本地和第三方服务器双重备份等多种技术手段,确保整个系统的稳定可靠
解决方案
• 基于现有设备实施,保护原有投资;
• CRM服务器从51台减少到19某省市设备投资;
• 维护方便快捷, 管理系统覆盖80%的维护场景。
方案收益
河南某著名企业综合营帐业务实现云化
中国某著名企业河南
公司
亚信联创CRM
弹性云资源池
亚信联创CRM 业务云化
CR
M
监
控
CR
M
业
务
CR
M
监
控
CR
M
业
务
CR
M
业
务
CR
M
监
控
Linux Windows
30
目录
云时代的IT新技术1
云时代网络工作的大变革2
3
总部网络部的探索(一级私有云)4
挑战的应对
31
通过平台和团队建设打造高效云服务
一种通过网络,以自动化、
按需分配的方式,从一个
共享的资源池中获取和使
用IT资源(包括计算、存
储、网络等)的服务提供
模式。
云服务
通过统一管理为B/O/M/S四
个域提供按需分配的IT资源
和服务能力
资源统一管理按需分配
• 省资源池规模小,管理
分散,缺乏统一的运营、
运维视图
• IT设备异构厂家多,平
台集成管理和维护复杂
• 资源分配和操作的自动
化水平不足,无法做到
资源全生命理
云服务要求 现状问题
• 组织分散:分散进行运
营和运维,资源和经验
无法有效共享
• 流程不完备:缺乏规范
化和标准化管理流程,
各专业运营运维分工不
明确
• 人员对核心技术掌握不
足:自主开发自主运维
能力不足
云
服
务
要
求
和
现
状
问
题
打造专业
化运营维
护团队
建设标准
化、高效
率、自动
化云平台
措施
服务标准化:通过通用化的软硬件资源,
提供标准的计算、存储、网络服务
国际信息港一期:包括低档、MPP、
高档3类共4个厂商的7种型号不同服
务器。南方基地:共4个不同厂商服
务器 。各厂商设备接口和管理维护方
式不一致
行业内,开放数据中心委员会发布
《天蝎整机柜服务器技术规范》,中
国某著名企业作为决策委员会成员加
入天蝎项目,百度、阿里、腾讯、某
著名企业等参加编写,共同推动服务
器设备标准化。
管理集中化:通过资源的集中管理,实
现资源的共享和动态调整,满足多业务
需求
携程:通过统一Ctrip cloud管理携程
所有的开发、测试及生产环境和多呼
叫中心的基础设施
运营专业化:建立适应云服务模式的流
程,依托专业化团队和专业知识支持云
平台运营运维
阿里巴巴采用分层管理(技术共享+
业务运维)、分角色职责(架构师->
项目经理->系统工程师等)的运维组
织架构,确保了维护的专业性、体系
化和流程化。
32
计划部规划投资
业务部门
设计院
采购中心
业务需求
研究院技术预研
建设方案
招标采购
外部协作
IT集中运营
四大工作流
IT集中化的三大挑战——组织架构与流程
质量
分析
工具
开发
研发
优化
配置
优化
SLA
管理
运营支撑
监控
管理
维护
优化
异常
处理
日常
作业
业务
测试 运行维护
保障业务稳定
提升运维能力
资源
评估
资源
分配
资源
监控
资源
调度
资源
回收
资源调度
优化业务质量
完善管理手段
建设
方案
规范
制定
招标
采购
工程
实施
测试
验收
关键工作 配合工作专业工作 管理工作 研发工作
建设规划
IT集中运营涉及五类工作内容,共四条关键工作流。每个工作环节都需制定详细的跨
部门分工界面和操作流程。
33
IT运营维护人员数量测算模型
IT运维人员估计
基准参考:京东IT设
备的管理 600台/人
150人 10万台
需增配人员的因素:
• 我公司B/M/O/S各域业务繁杂,
复杂度高—与标准化云服务匹
配低
• 我公司自有人员的IT技能水平
较互联网公司低
• 我公司IT设备多厂家、标准化
程度较互联网公司低
• 管理的IT设备规模不断扩大
可简配人员的因素:
• 云平台自动化能力提升效率
• 人员技能和经验水平不断提升
辽某省市私有云:72台/人
18人 1300台设备
一级私有云:100台/人
南基地32人 3100台
IT设备集中运营运维模式人员估算
IT运维人数估算考虑关键
点
我公司现有水平业界先进水平
居中考虑现状和先进水
平,及关键因素。
总部云服务的运营运维
人数约为:500台/人
基准参考:google
IT设备的管理 1000
台/人 估算全球有
1000万服务器 自动
化水平高
人员配备原则:云服务人员角色设置完备,可根据管理规模和人员水平进行扩展和调整。
2016年底规划一级私有云发展到3w台物理设备,总计所需人数为30000/500约60人.
估算方法:借鉴业界互联网公司IT设备管理水
平,考虑我公司现业务复杂度、设备标准化程
度、人员技能等实际情况,未来所有运营运维
完全自主掌握的情况下,对人员需求进行估算
方法如下:
设备规模
设
备
管
理
人
员
数
量
百台 千台 万台
IT集中化的三大挑战——人员与技能
34
服务器维护 虚拟机维护 网络维护 存储维护
管理平台维护 物理安全保障监控值班
资源调度 业务管理配置管理
规划建设
质量管理需求管理 研发管理
技术研究
信息安全
数据库维护
架构师
关键岗位,初期应尽快到
位,要求熟悉云计算相关
技术,人数基本稳定。
专业岗位,初期应尽
快到位,要求熟练掌
握岗位对应科目的技
术,人数随设备总数
线性增长。
协调配合岗位,初期可空缺,由
各专业人员先行负担职责。要求
深刻理解云计算相关技术,对专
业知识要求高,人数基本稳定。
管理岗位,初期可空缺,制
定相应的管理标准,对专业
知识和管理能力的要求高,
人数基本稳定。
高技术研发岗位,初期可空缺,要求精通云计算领
域的相关技术,并且掌握数据挖掘等衍生技术,具
备独立研究和软硬件开发能力,专业技术要求极高,
所需人数随云平台建设的深入而增长。
硬件现场
维护
机房管理
资源分配
资源池软
件维护
硬件现场
维护
机房管理
资源分配
资源池软
件维护
硬件现场
维护
机房管理
资源分配
资源池软
件维护
属地一 属地二 属地N
……
属地现场岗位,
完成只有在属地
现场才能实施的
运维任务。
专业岗位,初
期属地负责,
集中化体系建
立后上移至总
部通过远程方
式完成。
软硬件维保 故障响应
需求响应配置实施
厂家一
软硬件维保 故障响应
需求响应配置实施
厂家二
软硬件维保 故障响应
需求响应配置实施
厂家N
……
初期厂家维护
服务中包含,
集中化体系建
立后上移至总
部通过远程方
式完成。
只能由厂家
人员担任,
购买厂家的
维保服务。
总
部
岗
位
属
地
岗
位
厂
家
岗
位
工具开发
IT集中化的三大挑战——人员与技能
IT集中化运维团队有总部、属地、厂家三部分组成,分为六类岗位,其中专业岗位
和高技术研发岗位随设备总数线性增长,其他岗位初期配齐后人数基本稳定。
35
总部关键岗位:C
总部关键岗位是指在IT运维集中化建设初期
就应当到位的非专业技术岗位。包括:机房
维护、管理平台维护、规划建设、物理安全
保障各1人,监控值班4人。其中监控值班岗
位初期可部分由其他岗位人员兼任,只需考
虑半岗。因此共计5人。
计算公式:C=5
总部专业岗位:T
总部专业岗位是指在IT运维集中化建设初期
就到位的非专业技术岗位。包括服务器维护、
虚拟机维护、网络维护、存储维护、数据库
维护各1人。共计5人。各核心专业岗位人员
可以兼任监控值班员半岗。属地数量增加后
各岗需再增加1人。
计算公式:T1=5;T2=10
总部协调岗位:I
总部协调岗位是在IT系统集中化建设中期加
入的协调性岗位,负责协调资源的分配进行
资源池的管理。包括信息安全1人,资源调度、
配置管理、业务管理各1-2人,人数受部署在
IT系统上的业务总数(B)影响,业务越多,
所需人员越多。
计算公式:I=B×+3
总部管理岗位是在IT系统集中化建设中期加
入的管理岗位。负责制定IT运维的相关标准
并保证标准的贯彻落实。包括需求管理1人,
质量管理1人,研发管理1人。后期人数基本
固定,不需要增加。
总部管理岗位:M
计算公式:M=3
总部高技术研发岗位:A
总部高技术研发岗位是指在IT运维集中化建
设后期到位的高技术岗位,负责进行IT运维
技术上的顶层设计、运维技术的研究和运维
工具的开发等。人员配备架构师1名,技术研
究2人,工具开发4人。岗位对人才层次需求
很高,可以最后考虑配置。人数基本不需要
增加。
计算公式:T=7
属地岗位:S
属地岗位是指在机房属地进行现场工作的实
际操作性生产岗位。初期资源分配和软件维
护工作都在属地进行,每职责设置岗位2人,
后期软件维护权限上交至总部,岗位可以精
简至只需1人。硬件现场维护和机房维护必
须在属地完成,人数不能精简,需分别设置
3人和1人。此外,每属地需1名负总责的管
理人员。岗位总人数受属地数目(J)影响。
计算公式:S1=8×J;
S2=7×J;S3=6×J
IT集中化的三大挑战——人员与技能
P(总部,2015)=C1+T1=10 P(团队,2015)=P(总部,2015)+S1=10+3×8=34 (其中J=3)
P(总部,2016)=C1+T2+I+M=21 (其中B<10) P(团队,2016)=P(总部,2016)+S2=21+5×7=56 (其中J=5)
P(总部,2017)=C2+T2+I+M+A=34 (其中B≈30) P(团队,2017)=P(总部,2017)+S3=34+5×6=64 (其中J=5)
IT运维团队岗位设置与系统建设情况、业务数目、属地数目都密切相关,可以通
过下述公式进行估算。根据实际建设情况,考虑设备数目等因素,还可以精细调整。
36
准备期:基本的集中化运维能力
人均维护约150台设备
成长期:良好的集中化运维能力
2016
天津 南基 信息港 设备规模:10000台
2015
2017
人均维护约300台设备
天津 南基 信息港 呼哈
设备规模:25000台
成熟期:领先的集中化运维能力
天津 南基
信息港
呼哈
呼哈二期 设备规模:50000台
人均维护约500台设备
总部10人
属地24人
厂家40人
总部21人
属地35人
厂家36人
总部34人
属地30人
厂家30人
2015-2017,用3年的时间实现IT集中化运维的团队建设,达到人均维护设备
500台的目标,建成具备领先水平的IT集中化运维能力。
准备期:总部维护人员以规划建设、平台运营和运维管理工作为重点
成长期:可远程操作的属地维护工作上提至总部IT维护中心
成熟期:总部团队人员需具备云平台开发优化能力,
以适应Dev-Ops的要求
共
计
94
人
共
计
92
人
共
计
74
人
IT集中化的三大挑战——人员与技能
37
IT集中化的三大挑战——运维手段
IT集中化将打破原有系统边界,需要建立一套全新的、适应云计算架构的运维手段
IT资源和业务系统的管理手段解耦,IT资源管理需要基于云资源池管理系统、运营管
理平台,故障管理系统、资源管理系统、性能管理系统等整合建立一套完整的云平
台运维手段
传统架构 OSS/BSS… OSS/BSS...
业务1 业务n…
业务平台n业务平台1
故障
管理
系统
性能
管理
系统
运维
管理
系统
云平台运维
手段
业务管理手段
集中化架构
支撑服务
资源
管理
系统
故
障
管
理
性
能
管
理
资
源
管
理
运
维
管
理
38
4
A
云管理平台
资源池平台
研发\测试\
优化平台
业务运行质量管理
业务需求管理
业务需求收集 业务支持优化
业务运行指标收集,SLA管理
总部直管一级私有云
技术管理
资料\进展\测试研发结果
等重要文件管理
配置管理
版本管理 备份保存
实验云环境
工具应用
自动化运维工具
自动化管理工具
工具开发
孵化-自动化
运维工具
维护管理 维保管理 系统自身管理
服务
器
虚拟机 存储 网络 数据库
后评估管
理
维保调度
日常巡检 系统自检
基础域
业务域
总部故障管理
总部性能管理
总部资源管理
总部网优平台
总部EOMS
动环机房监控系统
动力
空调
安防
机架猎头柜
外部安全系统
流量清洗
防病毒服务器
防ddos
web防火墙
防火墙
入侵检测 ids ips
安全管控(日志审计
)
资源管理
资源分配开通 资源状态\资源配置管理
告警管理
版本管理 备份保存
功能域
成
果
转
化
与
反
馈
投诉处理
投诉受理 投诉分析
手机应用
配置查询
故障告警工单响
应
安全系统
防病毒客户端
帐号授权管理
安全日志纪录
故障管理
各类告警 \ 平台自身告
警
故障关联定位
值班管理
故障预处理
故障预测
资源管理
资源评估 资源分配
资源变更 资产管理
资源状态查询
性能日志分析挖掘
平台性能指标分析挖掘
各类日志挖掘\关联\大数
据分析
监
控
预
留
预
留
预
留
IT集中化的三大挑战——运维手段
通过IT手段建设,实现云资源的智能动态调度管理,并逐步开展故障预测、自动化运维部署、日志大数据分析、
综合化的云安全管理、业务优化支撑等能力,为上层业务发展提供可持续支撑。
39
OpenStack+监控、日志管理等开源组
件
华为、亚信、华迪、hp等公司的自有
云管理软件产品
发展情况
• OpenStack是目前整体活跃度和推广
程度最高的开源云平台,逐渐涌现各
种商业版本。
• 自2014年起,OpenStack与服务运营
相关的模块进行大量优化,产品日益
成熟
• 互联网公司,包括京东、携程等研发
团队基于OpenStack开源框架及监控
运维开源组件(Zabbix、saltstack、
Elastic Serach&Logstash等)做了大
量的定制化开发,构建私有云平台
• 客户积累众多,行业IT经验丰富。
• 中国某著名企业全网某省市中约70%
采用集成商云管理软件进行云资源的
管理,部署局点多
功能
• 开源代码有利于二次开发,可借助其
门户、认证等模块进行定制化开发完
善运营运维流程,满足云管理平台需
求
• 产品基本功能完善,具备一定的通用
性,通过部分定制化开发即可符合需
求
• 较强的自动化运维能力实现,ITIL服
务流程支持。
成本
1. 定制化开发费用
2. 售后服务费
1. 软件产品费用
2. 定制化开发费用
3. 售后服务费
运维手段的发展路线:以现有两级架构的资源池管理平台为基础,随着人员技能的提升
(DevOps),逐步利用成熟的开源软件,针对现网需求进行平台的定制化设计和开发,建
立可运营、可管理、可运维的云管理平台。
IT集中化的三大挑战——运维手段
!
41
附录1:云平台运营管理的工作内容
专业的云管理服务团队需要从服务规划、运营、运维三方面开展工作,通过DevOps管理,
增强平台的集中化管理能力和人员专业领域技能水平
分类 工作项 主要工作内容 人员 平台支持
服务
规划
需求管理
1、分析业务需求,推动私有云平台支撑能力的完善,实现平台功能的迭代更新
2、根据IT资源的运营运维情况进行扩容需求的提出
需求分析能力
规划能力
资源使用情况运行
分析
架构设计与
产品管理
1、规划云服务产品,制定云平台技术架构方案 云管理技术专家 -
研发交付
管理
1、管理和协调研发机构,滚动推动技术方案和需求的落地
2、协调运营运维团队对系统功能和性能进行迭代验证,保障需求的落实 项目管理 -
运营
工作
服务目录管理 1、定义云平台为业务提供的服务内容和服务标准 配置管理员 服务目录管理
服务请求管理
1、受理业务部门提出的资源申请,严格控制资源申请额度,在保证业务正常运行的
前提下提升全网资源的使用率和整体运行效益。
1、对业务进行运营支撑,配合业务进行日常维护所需的测试、割接、资源监控调度
和资源分配优化等工作;
云化技术经验
IT技术专家
资源管理、计量管
理、订单管理
服务质量管理
1、云服务产品使用率分析,对产品的SLA水平和服务目录进行优化
2、分析资源使用情况报告,制定虚拟结算和对业务使用的考核机制 数据分析专家
产品分析、服务目
录管理、统计分析
运维
工作
运维与安全管
理
1、制定运维管理办法和安全管理办法,明确维护职责、工作要求及运维流程
2、制定私有云流程IT化需求,为私有云流程化管理打下基础 运维管理员 流程管理
监控管理
1、7*24小时监控,进行告警派单
2、提出监控对象、指标需求,完善平台监控管理能力 监控值班员
监控管理、告警派
单、问题管理
基础设施
维护
1、负责私有云服务器、私有云块存储、分布式文件存储、日志详单存储的日常维护
工作;
2、制定虚拟化资源维护管理方案,开展虚拟化系统的日常维护,针对业务运行情况
对资源进行迁移优化
计算、存储、网
络IT专家、虚拟化
专家
远程设备操作
虚拟化
管理平台
维护
1、开展私有云管理平台、资源池管理平台的日常维护,开展平台相关的操作配置、
版本升级、系统优化、割接升级等工作。 系统维护人员
系统管理、日志管
理
机房管理
1、依托属地进行机房设备的现场配合工作(故障处理、现场测试、硬件更换等);
2、负责完成资源池所在机房的动环监控和机房管理工作 驻场属地 -
42
附录附录22::ITIT集中化(云平台运营)管理框架集中化(云平台运营)管理框架
根据ITSS标准,云平台运营管理划分为六个管理域,即“云服务规划管理”、“云资源管理”、“云服
务交付管理”、“云运维管理”、“云资源操作管理”、“云安全管理”。
划分依据:以交付为主线、以服务和资源为重点、以安全为保障。
43
附录3:私有云资源池软件技术架构
私有云管理平台-实现用户自助门户、多
资源池统一运营和运维、资源管理,全
局认证鉴权和业务编排功能
资源池-资源池管理平台:基于
OpenStack技术架构,分为资源池平台
层和资源服务层
资源池平台层包含认证鉴权模块、资源池
运营管理模块、运维管理模块。对上和运
营管理平台进行管理信息交互,对下管理
资源服务。
资源服务层主要Follow openstack服务模块
的定义,包含了8种服务模块。对上为用户
提供OpenStack restful API服务接口,为
资源池平台层提供服务能力,对下管理资
源池软硬件资源。
资源池-资源层
Hyperv、KVM虚拟化、弹性块存储等资源软
件
资源池-硬件基础设施
X86服务器、路由器交换机等网络设备和部
分传统存储硬件设备。
私有云平台按照低耦合,高内聚,模块化的设计原则进行系统架构设计,实现对大规模设备,
多资源池的统一管理和平滑扩展