- 1 - Copyright © 2014 Neusoft Corporation
面向资源弹性调度与
运维自动化的
云资源池设计与规划
四月 21
东软集团股份有限公司
- 2 -
云计算发展解读
云资源池整体架构设计
面向资源弹性调度的云资源池规划与设计
面向运维自动化的云资源池池规划与设计
Q&A
提纲
- 3 -
Cost
Utilization
Consolidation
Scale
Availability
Predictability
IT agility
IT competitiveness
IT as a Service
BU charge Back
B
us
in
es
s
D
ri
ve
rs
Cost/ROI
DR/BC
Overflow/
Burst Cap
Server
Virtualization
Hybrid
Cloud
PODs
. Vblock
Private
Cloud
Transition Stages
Simple Application Sophisticated
Resource Provisioning
Orchestration
Security
Compliance
Acceptable SLAs
2 431
2
4
3
1
Evolving Customer Needs
Business Continuity is Critical!
3rd-Party Integration
• ITSM Workflow
• CMDB
Service Assurance
Service Delivery
SP Services
Infrastructure
Dev/Test
R&D
App Testing
Pre-production
Production
DR/BC
Demand Driven
Web Farms
Portals
Infrastructure Services
Critical Apps
By Function
By Department
By Application Type
- 4 -
Cost
Utilization
Consolidation
Scale
Availability
Predictability
IT agility
IT competitiveness
IT as a Service
BU charge Back
B
us
in
es
s
D
ri
ve
rs
Cost/ROI
DR/BC
Overflow/
Burst Cap
Server
Virtualization
Hybrid
Cloud
PODs
. Vblock
Private
Cloud
Transition Stages
Simple Application Sophisticated
Resource Provisioning
Orchestration
Security
Compliance
Acceptable SLAs
2 431
2
4
3
1
The Automation Threshold
3rd-Party Integration
• ITSM Workflow
• CMDB
Service Assurance
Service Culture
Metering/Billing
Service Catalog
SP Services
Infrastructure
Dev/Test
R&D
App Testing
Pre-production
Production
DR/BC
Demand Driven
Web Farms
Portals
Infrastructure Services
Critical Apps
By Function
By Department
By Application Type
Automation
Requirement
Man
ual
Del
iver
y A
bilit
ySe
rvic
e C
omp
lexi
ty/D
ema
nd
Automation Threshold
Inefficiency Tolerance Zone
- 5 -
Elements of Cloud Computing
• Self-Service Interface: Provides
ability for users to order and
track metered services
• Service Delivery Automation:
Automates provisioning and
meters usage of services
• Resource Management:
Resources are provisioned and
managed as per service needs
• Operational Process
Automation:
Automates operational
processes such as user
management, capacity
management, service level
management, service desk
integration, alerting…
• Lifecycle Management Lifecycle Management of Cloud Services
• Dynamic resource allocation
• Capacity management
• Resource utilization
• Performance management
• Maintenance
Standardized
offerings
Very fast
provisioning/
de-provisioning
of resources
Metered
usage
Web-based
front end
Automated
fulfillment
Broad
Network
Access
Rapid
Elasticity
Measured
Service
On-Demand
Self-Service
Resource Pooling
- 6 -
云计算发展解读
云资源池整体架构设计
面向资源弹性调度的云资源池规划与设计
面向运维自动化的云资源池池规划与设计
Q&A
提纲
- 7 -
私有云总体架构
7
私有云平台由私有云管理平台
和一个或多个资源池系统组成。
私有云管理平台:
• 运维管理平台
• 运营管理门户
资源池系统:
• 资源池管理平台
• 计算/储存/网络等资源
- 8 -
资源池体系架构
资源池管理平台支持对
资源池的管理
资源池系统通过符合私
有云标准规范的统一接
口,接收资源申请和操
作请求。
资源能力由各个不同资
源类型的子系统组成,
提供不同类型资源服务
- 9 -
资源池管理平台功能架构
资源池管理平台
OpenStack
接入调度子系统 资源管理子系统
告警策略管理 备份管理
资源调度
能力调度
计算能力调度
网络能力调度
存储能力调度
资源模板管理
私有云接口
解析消息 登录鉴权
功能分发
资源部署预处理 流量控制
缓存队列
性能
告警
采集
子系统
性能告警采
集
SNMP性能采集 性能代理采集 告警代理采集 硬件设备告警
任务管理
任务执行任务调度
性能
处理 性能阀值告警
性能预处理 告警
处理
告警预处理 告警重定义 告警过滤
OpenStack接口 本地资源管理
资源项/属性管理
资源变更管理
资源实例管理
资源关联关系管理
资源配置信息同步
告警接收 入库处理
其他能力调度
资源创建
资源变更资源操作
资源回收
性能后处理
告警后处理
资源视图管理
全局资源的容量 历史容量信息
分类资源容量
监控管理
采集任务管理 采集设备管理映射配置管理
系统管理子系统
系统管理
系统参数管理
运维报表管理
日志管理
系统监控
报表分类
报表绘制
报表输出
报表引擎
用户/角色管理
软件部署管理
告警策略管理
虚拟机子系统 X86子系统 小型机子系统 块存储子系统
分布式文件
子系统
日志详单类存储子
系统
备份子系统网络子系统
短信/邮件接口
4A/BOMC/网管接口
资源分区管理
拓扑管理
资源分区视图
资源状况管理
资源容量管理 资源计量管理
能力子系统
- 10 -
云计算发展解读
云资源池整体架构设计
面向资源弹性调度的云资源池规划与设计
面向运维自动化的云资源池池规划与设计
Q&A
提纲
- 11 -
资源弹性调度概述
资源资源
服务服务
(纵向弹性调度)(纵向弹性调度)
生命周期生命周期管理
资源能力
高级服务
(横向弹性调度)
- 12 -
资源弹性调度规划步骤
资源类型
资源能力
生命周期
管理
服务
高级服务
- 13 -
资源弹性调度-资源类型规划
根据业务应用类型确定资源选型
CEP
• 高可用性,确保响应高
吞吐量事件执行自动化决
策
• 高可扩展性,支持高吞
吐和峰值负载处理
• 低复杂性,支持高吞吐
事件处理
• 低数据容量,由于基础
事件短生命期而产生的
•低查询复杂度,支持低延
迟查询处理
• 低查询延迟,支持高吞
吐事件处理
•中等成本,基于CEP处理
重要度的考虑
•低易用性/互操作性,基
于基础事件可以(经常)
被废弃
OLTP
•高可用性,确保执行面向
客户的交易
• 高可扩展性,支持业务
增长场景和峰值处理
•中等复杂度,支持中等吞
吐交易处理
•中等数据容量,当BI基础
设施存储历史数据时
•低查询复杂度,支持中等
延迟查询处理
•中等查询延迟,支持中等
吞吐交易处理
•高成本,基于OLTP处理
重要度的考虑
•高易用性/互操作性,基
于交易要传输给BI基础设
施的考虑
BI
• 中等可用性,支持战略
决策的制定(复查,如果
运行报告是在同一信息系
统之外执行的话)
• 高可扩展性,支持数据
增长和峰值处理
• 中等复杂度,由于系统
规模大
•高数据容量,支持数据增
长
•高查询复杂度,支持分析
查询处理
•中等查询延迟,由于分析
类查询处理
•高成本,基于数据容量和
分析的重要度的考虑
•高易用性/互操作性,由
于频繁使用第三方工具分
析交易,以及与其它信息
系统的集成/联邦
Big Data
•高容量,并不是一个绝对
的概念,但是大数据需要
用特殊的数据管理技术来
存储和处理数据
•高速度,意味着 数据以
多快的速度产生就需要以
多快的速度来处理才能够
满足需求,也与数据保持
能力data retention(影响
数据容量)的考虑相关联
•多样性,包括表数据、层
次数据、文档、电子邮件、
仪表数据、视频、图像、
声音、股票交易数据、金
融交易数据等等
•高复杂度, 意味着需要
处理不同的标准、领域规
则、甚至存储格式
- 14 -
CEP类典型物理架构
- 15 -
OLTP类典型物理架构
- 16 -
BI类典型物理架构
- 17 -
Big Data类典型物理架构
- 18 -
资源弹性调度-资源能力规划与设计
虚拟计算资源能力项 vmware XenServer Hyper-V
Fushion
Compute
虚拟机创建 10 10 5 10
虚拟机删除 10 10 5 10
虚拟机配置修改 10 10 5 8
虚拟网卡VLAN配置 8 9 0 10
创建虚拟硬盘 10 10 0 10
虚拟机添加虚拟硬盘 10 10 5 10
查看虚拟硬盘信息 10 9 5 10
卸载虚拟硬盘 10 10 5 10
删除虚拟硬盘 10 10 0 10
获取虚拟机信息 9 10 5 9
虚拟机运行控制 10 10 5 10
虚拟机克隆 10 10 0 10
虚拟机模板创建 10 8 0 10
获取虚拟机模板信息 9 10 0 9
虚拟机模板删除 10 10 0 10
模板批量部署 8 10 0 10
虚拟化软件自动
分配虚拟网络信息
10 8 5 10
虚拟计算资源能力项 vmware XenServer
Hyper-
V
Fushion
Compute
性能监控 10 10 0 10
故障告警 10 7 0 10
CPU资源绑定设置 9 10 0 10
虚拟CPU资源预留 9 10 0 10
内存资源专享设置 9 10 0 10
虚拟内存资源预留 9 10 0 10
虚拟资源优先级设置 9 9 0 10
虚拟CPU在线增加 9 10 0 10
虚拟内存在线增加 9 10 0 10
虚拟磁盘网卡在线增减 9 10 0 10
存储I/O控制 10 7 0 10
网络带宽单向控制 10 7 0 10
网络带宽双向控制 10 0 0 10
虚拟机主机迁移 10 10 0 10
基于本地存储的虚拟机迁移 10 10 0 10
虚拟机快照 10 10 5 10
虚拟防火墙 9 0 0 10
虚拟机OS内应用进程监控 5 0 0 0
多用户分权管理 9 10 0 10
虚拟机备份接口 10 10 0 10
计算能力的比较及虚拟化产品的选型
- 19 -
资源弹性调度-资源能力规划与设计
计算能力的设计暨计算资源的纵向弹性调度
虚拟化产品选型
异构虚拟化的支持抽象层设计(OpenStack等)
虚拟化产品的高级特性支持(Proxy/Plug-ins)
不属于云计算范畴资源能力的支持(物理机)
元数据及数据模型的建立
资源能力的全生命周期
服务的发布
- 20 -
资源弹性调度-资源能力规划与设计
网络能力的规划与设计
网络能力规
划要素
支持的业务/租户规模
(VRF/VLAN/VXLAN)
稳定的物理网络结构
(扩容,网络虚拟化)
业务网与管理网分离
明确的手工维护与自
动运维的分工界面
(网络自动化,专网
与混网)
通用网络服务与业务专
用网络服务的分层控制
- 21 -
资源弹性调度-资源能力规划与设计
网络能力的规划与设计
网络出口采用硬
件防火墙,提供
基于3、4层的网
络通用安全防护
虚拟机之间的安全
防护使用虚拟化应
用防火墙,提供7层
的内容及安全防护,
有效隔离不同的虚
拟机,防止虚拟机
之间的安全风险
资源池(或主机)
的出口部分使用解
决入侵防御和负载
均衡需求
使用VSS/VDS/LS
控制虚拟化网络
- 22 -
资源弹性调度-资源能力规划与设计
经典KVM网络
- 23 -
资源弹性调度-资源能力规划与设计
经典Openstack KVM网络
- 24 -
资源弹性调度-资源能力规划与设计
VxLAN
- 25 -
资源弹性调度-资源能力规划与设计
存储能力的规划与设计
• 支持主流IPSAN/FCSAN设备
• 支持大云EBS
• 支持IBM SVC等专业存储虚拟化
• 兼容Openstack的Cinder块存储
接口
• 支持块分区管理
• 支持存储碎片化管理
• 支持存储设备性能及故障的监控
分区1
BC-EBS …
IBM SVC
EMC
VPLEX
…
分区N
BC-EBS
IBM SVC
EMC
VPLEX
…
块操作
OpenStack Agent
监
控
采
集
系
统
管
理
存储管理子系统存储管理子系统
资源池系统
- 26 -
26
弹性调度弹性调度
自动部署
镜像
云监控
VLB
API
• 用户可以将业务使用的镜像上传到
资源池镜像管理系统内进行统一管
理
• 监控业务应用运行的实时状态,具
备业务级弹性调度的基础服务能力。
镜像
• 系统对外部开放资源调度API服务
接口,支持业务应用调度资源。
云监控
• VLB服务作为业务弹性调度的一种
基础服务能力提供,并与业务自定
义镜像动态加载相结合,实现业务
应用的弹性扩展
API
• 系统根据用户提供的脚本自动部署
业务所需的应用软件
VLB
自动部署
其它服务
- 27 -
高级服务(横向资源弹性调度)
Service
(自动)
API
(业务系统判断
并执行)
Portal
(人工判断并执行)
展现形式
- 28 -
高级服务
案例:VM+VLB+云监控+镜像的资源弹性调度
云监控
镜像
选择预警虚拟机
对应的业务镜像
VM
根据模板及镜像
创建出新的VM
VLB
将新VM加入到
VLB成员列表中
VM
启动虚拟机
监控到CPU
持续超过70%
- 29 -
云计算发展解读
云资源池整体架构设计
面向资源弹性调度的云资源池规划与设计
面向运维自动化的云资源池池规划与设计
Q&A
提纲
- 30 -
自动化运维的构成
自动化
运维
统一资源管理
自动化部署
运维资源弹性调度
统一监控管理
(工单,服务流程、告警,性能)
大数据运维
- 31 -
运维资源的弹性调度
资源能力中规划的能力分为:
面向租户的能力
面向运维的能力
面向运维的资源能力只面向
运维人员提供对资源池资源
弹性调度。
运维资源需要与监控和策略
配合使用。
运维资源的弹性调度支持半
自动和自动两种方式
- 32 -
VMware分布式资源调度
(DRS)
功能
– 跨资源池动态调整计算资源
– 基于预定义的规则智能分配资
源
优势
– 使IT和业务优先级对应
– 动态提高系统管理效率
– 自动化的硬件维护
动态负载均衡和连续智能优化,保证所有应用需要的的资源
资源池Resource Pool
业务需求Business Demand
围绕业务进行组织和规划…而不是您的硬件!
- 33 -
通过VMware DRS动态获得硬件资源
负载分配规则设
定一次,永远有
效,自动执行
易于添加更多的
资源
避免业务繁忙时
段的过载
动态添加硬件
资源池
CPU 36GHz, Mem 58GB
优先级: 高
资源池
CPU 50 GHz, Mem 70GB
优先级:高
- 34 -
分布式电源管理 (DPM)
资源池
业务需求
下电
当整个群集需要资源减少时,整合所
有负载到少数几台服务器上
将不需要的服务器置于备用模式
当负载增加时,DPM自动将处于备用
状态的服务器唤醒
在确保服务级别的同时,最大限度降低
了数据中心服务器的耗电量
虚拟机没有中断或停机
- 35 -
利用 Update Manager 和 DRS 无中断地升级 ESX
VMotionVMotion
Update Manager server
大批量地升级 ESX 并且不影响任何
应用的运行,虽然 ESX 会重启,但
确保虚拟机永不停机
– Update Manager 升级整
个 DRS 群集
• DRS 群集中的每个 ESX
主机依次进入维护模式
• 虚拟机被 VMotion 到其
他ESX
• ESX 升级并重启
• 虚拟机重新 VMotion 回
来
• 下一台 ESX 重复以上步
骤
- 36 -
统一资源管理
虚拟主机 虚拟存储 虚拟网络
虚拟资源域
实体资源域
实体主机
实体存储
实体网络
CMDB
- 37 -
VMware HA
功能
– 当服务器故障时,自动重新
启动虚拟机
优势
– 经济有效的适用于所有应用
的高可用
– 不需要独占的stand-by 硬件
– 没有集群软件的成本和复杂
性
经济有效的适用于所有应用的高可用解决方案
X
- 38 -
统一资源管理-特性
满足云计算发展要求对于实体资源包括:物理机、存储设备、
网络设备等进行资产管理。对于包括虚拟机、操作系统、应
用软件、业务软件等进行资产管理。
实体与虚
拟资源统
一管理
根据资产的数据模型,支持资产间的关联关系管理。例如某
物理机上安装了操作系统、版本及补丁号等。
资产管理
关系管理
资源管理系统与自动部署系统对接,自动识别物理机配置信
息、安装的操作系统/应用系统/业务系统版本、补丁等信息,
以及物理上创建的虚拟机等信息。
资产自动
发现与更
新
资产管理支持资源视图、业务视图、CI项视图等查询和展示
资源,并支持资源关联关系钻取展示,全方位的了解资产情
况
多维度资
产展示
- 39 -
计算资源 CMNET带宽FC-SAN存储 分布式存储 公网IP
私有云各类资源分配情况展示,为扩容提供数据依据。
固定时间段内月均发生故障统计。 各类资源故障以厂商和类型进行统计
厂家更换备件数量 各类硬件更换数量
统一资源管理-辅助决策
- 40 -
统一资源管理-辅助决策(续)
资源池整体扩容的
辅助决策
业务系统资源扩容
的申请辅助决策
业务系统资源过剩
收回资源的辅助决
策
备品备件的辅助决
策
资源池扩容厂商及型
号选择的辅助决策
一一 二二
三三 四四
- 41 -
自动化部署
41
现象 本质
小李,明天
需要安装好
50台安装好
的物理机给
业务部门使
用?
集团公司要求8
号前所有的
Windows 7操
作系统都需要
打上SP3的补
丁
昨晚10台
BOSS的业务
系统升级,有
一台漏掉了,
导致BOSS业
务故障
小王,明天给我提
交一份报表,包括
所有的物理机的配
置,操作系统版本,
补丁号,安装的应
用软件版,业务软
件版本
的
资产管理中显示的
信息怎么跟实际的
不一致,谁又没有
按照流程处理,动
了这台机器?
这批HP
DL380的太
老了,需要
升级微码,
才能安装我
们的系统
小张,这批机
器10号前需要
全部安装操作
系统/Tomcat/
监控代理/计费
采集模块
人工已经难以满足业务本身对机器及业务上
线速度的要求?
有了完善IT运维制度还不够,如何保障
制度被有效的执行?
运维人员忙于各种系统安装配置、没
有更多经历关注业务如何发展
需要具备能真实反应生产环境的资产清
单,并且他不仅仅只包括物理机的配置
人工操作难免出错,如何避免/减少错误的发
生,降低故障率?
- 42 -
42
统一资源管理
• 能够真实反映生产环境
的资产及动态配置
• 资产管理能够涵盖设备
配置/操作系统/应用系
统/业务系统/补丁等多
层面精细化管理
• 资产管理与云平台无缝
对接
目标
自动部署
• 大批量自动化部署
• 操作系统的自动部署
• 应用/业务软件的自动
部署
• 补丁自动升级
• 软件仓库及版本的管理
• 应用调度流程管理
监控与管理
• 自动部署任务监控
• 资产配置一致性扫描与
检查
• 版本的一致性扫描与检
查
• 设备/应用/业务软件监
控
自动化部署-目标
- 43 -
操作系统安装 软件部署
软件调度管理
应用软件监控
管理员
物理机监控
资产库
物理机
应用软件
监控agent
软件仓库
管理员
1
1、软件发布
2、资产录入
3、制定操作系统
自动部署任务
2
3
4
4、提取操作系统版本
5、部署操作系统
6、更新资产库
7、返回安装结果并通知
5
6
8、性能/告警/开关机
9、制定软件自动部署任务
10、提取软件版本
11、部署软件
7
12、更新资产库
13、返回安装结果并通知
14、运行状态/启停
15、软件关联关系管理及调度
8
10
9
11
12
13
14
15自动化部署
-业务场景
- 44 -
自动部署-操作系统自动部署
软件库
Windows镜像
Redhat镜像
Suse镜像
OS Install
Server
DHCP
广播
FTP
下载
DHCP
广播
FTP
下载
DHCP
广播
FTP
下载
DHCP
广播
FTP
下载
OS部署总控Server
OS模板
以PXE(网络启动)方
式启动新增机器,从管
理节点获取IP
OS Install
Server
OS Install
Server
OS Install
Server
- 45 -
自动部署-软件自动部署特性
批量部
署
•批量:支持物理机和虚拟机的软件批量部署
•自动化:支持标准化的软件安装框架(标准打包、
安装接口,卸载接口,启停接口,监控接口)自动
安装
定制化
安装
•定制化:支持用户自定义的应用软件的安装
动态监
控
•动态监控:支持软件安装任务管理,查看任务进度
及结果,及自动消息通知机制
多软件
类型
•多软件类型:支持主流中间件的安装部署,包括
Oracle, Weblogic, Tomcat, MySQL, Glassfish,
Jboss, Hadoop。
•支持各类操作系统支持补丁的安装
- 46 -
设备
告警详情
拓扑
网管
告警 性能
自动部署-监控管理
监控agent/
应用软件
实时监控
告警标准化处理
告警级别重定义
应用软件监控采集
确认 通知 工程中
设备关联信息
清除
告警监控
重复告警
实时展示
监控上报
拓扑管理
拓扑展示
分组与钻取
拓扑过滤
拓扑导出
拓扑编辑
设备主动上报告警 性能阀值告警
SN
MP
SNM
P
告警
拓扑
应用监控
性能
- 47 -
自动部署-监控与管理特性
大规模:支持上万台服务器监控采集,通过分布式部署
方式,提高采集效率
大规模
监控采
集
指标定义:支持用户自定义采集指标,用户可以根据业
务需求灵活定义采集指标,不受操作系统限制
监控指
标可定
义
展示丰富:支持告警、性能和应用监控等独立功能的展
示,并支持网络的拓扑展示,可以将告警实时在拓扑图
上反映出来
监控展
示丰富
多样化通知手段:支持短信、邮件等通知手段,方便运维人
员及时了解系统情况 通知手
段多样
- 48 -
自动部署-版本管理关键因素
对业务、系统、软件、补丁等信息进行建模,针对版本管理
要求完善版本基本信息、校验信息、部署依赖关系、补丁关
系等进行建模,保证版本的可管理性。
完善的版
本数据模
型
软件如池时,需输入完整版本信息,上传安装包后系统会进
行版本信息比对,只有版本信息及安装包一致的情况下才生
效。
版本输入
一致性
软件部署作业批量部署软件后,安装脚本在安装目录生成软
本信息,系统比对所有安装版本信息,保证批量部署的软件
版本一致。
版本部署
一致性
定时或手动触发软件版本核对功能,系统通过部署的软件版
本信息以及其他关键信息与系统中版本信息比对,出现不一
致的情况则触发告警。
版本信息
核对
- 49 -
自动部署-版本一致性检查/巡检
版本信息元数
据文件
自动生成
软件管理系统
版本一致性检查
判断条件:
1、版本信息元数据文件是否存在;
2、版本信息元数据文件信息与配置
库信息是否一致;
3、检查指纹数据是否与初始值一致
安装完成后的
指纹数据(类
svn)
- 50 -
大数据运维
50
大数据
运维监控
指标数据
对接获取
指标数据
自学习和建模
单指标历史
基线分析
多指标
相关性分析
指标
异常预警
多数据源
数据采集
- 51 -
指标数据自学习功能
51
随时间推移和指标采样数据
的变化动态刷新
可灵活设定模型建立
自学习时间周期。
历史归档数据和持续采集的
指标数据自学习完成
相关指标采样数据进行自学习,
无需人工编写分析规则。
- 52 -
单指标历史基线分析功能
• 基于数理统计算法对任
意指标采样数据做变动
基线分析。
• 对周期性变化指标可自
学习和展现其周期变化
规律基线。
• 可搜索和查看任意被分
析指标的时间序列变化
曲线和趋势。
52
- 53 -
指标行为轨迹的自学习和阀值自动判定
• 单KPI的自学习和分析围绕其变动基线展开
• 阀值基于指标采样数据的波动规律自动判定
Time
KPI
Upper threshold
Lower threshold
V
al
ue
- 54 -
KPI周期曲线
Time
V
al
ue
Week 0 Week 1 Week 2 Week 3
upper threshold
lower threshold
Time
V
al
ue
Week 0 Week 1 Week 2 Week 3
upper threshold
lower threshold
现有模型
引入自学
习后模型
- 55 -
多指标相关性分析功能
• 基于大数据分析和相关算法可自学习指标间(多变量)因果关系。
• 对于被关注的指标数据,系统会自学习并识别各指标之间是否有相关性。如果有相关性,
系统能自学习其数据变化,识别出这些指标 之间“正常”的相关行为模式,并持续对其行为
进行跟踪并提供图形化的展现。
• 系统可搜索、选择任意数个指标并放在同一个时间序列图中查看这些指标的变化曲线和趋
势,包括选择任意指标的历史基线进行比对。
- 56 -
指标异常预警功能
KPI指标自学习
动态生成合理区间范围
异常发生 形成告警信息
- 57 -
KPI指标监控策略
资源池业务全景监控环境指标分类 基线 容忍线 KPI样例 策略
类别一 有容量限制 静态
对于容量类(如最大并发用户数
等)告警,可以只设定高容忍线
进程数
可设置多个超出时限,逐级升级告
警连接数
session总数
类别二
随时间单向递增
或递减
静态
对于资源使用量类指标(如磁盘
利用率、磁盘空间、数据库表空
间等),可以在指标变化趋势的
方向上设置单侧容忍线(上容忍
线或下容忍线)
磁盘使用率
设置上容忍线---可设置多个超出时
限,逐级升级告警
磁盘剩余空间
设置下容忍线---可设置多个超出时
限,逐级升级告警
磁盘可使用天数
根据历史使用数据,采用线性回归
算法,计算使用速率,从而估算空
间的剩余可使用天数。
表空间使用率
设置上容忍线---可设置多个超出时
限,逐级升级告警
类别三 周期性变化很小 动态
对于命中率、部分使用率、或者
响应类的通用指标,可以只设定
上容忍线或者下容忍线
数据字典缓冲区命中率(%)
根据历史数据,采用正态分布算法,
设置合理的超出时限
库高速缓冲区命中率(%)
SGA命中率(%)
读请求磁盘命中率(%)
写请求磁盘命中率(%)
响应时间
堆内存使用率
线程个数
类别四
指标波动与时间
相关,随时间变
化呈规律性波动
动态
对于大部分周期性的指标,可同
时设置上容忍线和下容忍线
CPU使用率
根据正态分布算法,设置周期变化
的阈值
内存使用率
网卡接收速率
网卡发送率
类别五
纳入KPI考核并
给出达标值要求
静态
对于KPI类指标,设置单侧容忍
线(高容忍线或低容忍线)
根据实际需要调整
可设置固定值,超出固定值则产生
告警
- 58 -
案例1:单KPI分析-预测资源的消耗时间
历史数据分析
对历史剩余磁盘空间分析
采用线性回归算法计算磁盘的消 耗速
率p
数据库表空间监控时,能看到剩余的表空间大小,可是
每天用多少呢?剩余的空间究竟能用多久呢?
预测
基于实时的剩余表空间大小、计算
的消耗速率p,来预测可使用的天数
D
根据实际使用情况精确预
测出使用天数,更有指导
意义。我再也不用自己估
算了~
- 59 -
案例2:单KPI分析-周期性数据的动态阈值设定
历史数据分析
对历史CPU使用率进行分析
利用正态分布法计算某时刻的上下阈值
自动识别周期性数据和非周期性数据
能够在周期性和非周期性间切换
CPU的使用率是周期性,阈值该设定多少呢?多少才是
最符合实际业务运行需要呢?
- 60 -
案例2:单KPI分析-周期性数据的动态阈值设定
60
决策辅助
显示相关的信息数据,辅助用户做后续的
处理决策
显示过去N个周期内,该时间段的CPU
数据
显示该设备最近的N条故障信息
显示该时刻内存、进程CPU使用数据等
监控&预测
基于KPI的基线自学习跟踪和预
警,过滤掉噪音预警
更安全实用了,告警更可
靠了~连问题分析处理时间
也大大缩减了!
- 61 -
案例3:多KPI分析-单设备KPI关联分析
历史数据分析
定义检测问题相关KPI的关联性
基于历史运行数据分析相关KPI的检测
临界值
Tomcat的堆内存使用率高,到底是什么原因造成呢?是
内存泄露了么?
堆内存使用率:高
垃圾回收时间:长
垃圾回收时间间隔:短
内存泄露
- 62 -
案例3:多KPI分析-单设备KPI关联分析
62
决策辅助
显示关联指标的实际运行情况
显示该tomcat的运行数据,辅助运维人
员定位运行在该tomcat的异常应用
监控
监控内存泄露相关的3项指标,根据
实际运行数据分析是否是内存泄露
直接精准定位了问题,并
且提供了有效的数据辅助
排查问题。
- 63 -
案例4:多KPI分析-多设备KPI关联分析
监控
相关KPI的实时运行数据
根据不同的KPI组合数据变化,判断问
题,发出告警并给出详细的告警信息
Tomcat的池中空闲连接少,什么原因引起的呢?都有什
么影响呢?
数据分析
识别KPI中间的关系,按照统计分析进
行分组
分析相关的KPI数据
设备关
机策略
Tomcat池中连接数少
设备关
机策略
检查主机磁盘的读/写率
设备关
机策略
高 低
Lsof手动排查
设备关
机策略
检查数据库主机的性能
IO读写
高
CPU使用
率高
排查数据库主机
磁盘高读写问题
排查CPU高负荷
问题
- 64 -
案例4:多KPI分析-多设备KPI关联分析
64
决策辅助
根据不同设备间的KPI指标关联分析,更
精准地定位问题
针对具体的问题,给出更有指导意义的
分析
太强大了!多层次联合分
析,更精准地定位问题并
且给出更有针对性地建议~
- 65 -
云计算发展解读
云资源池整体架构设计
面向资源弹性调度的云资源池规划与设计
面向运维自动化的云资源池池规划与设计
Q&A
提纲
- 66 -
Copyright © 2014 by Neusoft Corporation
Q&A