企业IT智能化统一运营管理解决方案
--企业IT系统监控运维管理平台
2
目录/Contents
业务背景概述01
解决方案概述02
业务背景概述1
44
IT运维趋势·我们正在走入万物互联的数据时代
运维在人类未来的生产生活中的
作用会越来越重要。预计到2020
年全球将有500亿到1000亿的 IT
设备,这些设备会承载无数的服
务,涵盖互联网、金融、物联网、
智能制造、某著名企业、电力网
络、政府等等的生产生活的方方
面面。
运维要做的是保障业务能够可靠
高速高效安全的运转,因为它会
直接影响到业务的收益和成本。万物互联&数据时代
55
IT运维重要性·运维是企业业务发展的基础保障
IT系统架构
机房环境
硬件设备
网络
中间件
业务
数据
系统
应用
IT监控运维
业务运营
人
员
方
法
流
程
工
具
可用性
成本
连续性
性能
体验
设备故障 系统异常
系统故障 系统变更
企业企业ITIT监控运维是企业业务正常与高效运转的基础保障监控运维是企业业务正常与高效运转的基础保障
系统监控
维修更新
业务保障
应用反馈
66
IT运维现状·被动救火式运维模式,业务风险高、运维人员疲于奔命
基础设施
网络
存储
服务器
虚拟化
数据库
中间件
业务应用 • IT设备规模大且分散、管理非
常困难
• 缺少可视化管理&自动化管理手
段
• IT环境异构、业务系统繁多
• 无法快速适应复杂环境设备
的监管
• 运维人员能力层次不齐,服务
范围广
• 缺少规范的、自动的IT运维流
程化管理
• 业务负载逐年增加,无法确定功能完整可用性
• 业务形态更加多种多样,部署环境愈加复杂
• 为了适应发展的需求,业务调整日趋频繁
• 大数据、云计算、物联网、人工智能等技术的
快速演进以及应用,对运维团队提出了更高的
要求
77
IT运维挑战·随着技术以及企业信息化与数字化的迅猛发展,给IT运维带来了全新的挑战
业务变化越来越快
系统变更越来越频
新系统上线越来越多
业务访问量快速增长
用户体验要求越来越高
业务处理时效性更高
业务中断容忍度更低
高层对IT部门考核更严……
系统架构越来越复杂
故障类型越来越多
系统负载更大、故障风险高
故障排查、修复更难
技术快速演进与新技术应用
人员技术能力与经验不足
人员成本越来越高
知识经验无法沉淀……
外部
挑战 挑战
规模更大 要求更高 变化更快 排障更难
&&&&
88
IT运维需求·企业对IT运维提出新的需求
运维视角
研发视角
业务视角
技术栈越来越复杂,越来越难于监控
各产品线频繁发布,各层面问题不断,传统的监控
系统无法提供问题定位能力
多种类型的监控、告警不统一,反而引出额外的关
注点
提供开箱即用的监控平台,不需要挤占研发成本
提供应用层面的监控能力,帮助研发团队提高业
务平台质量
提供基于日志、链路的监控、告警能力,从而能
无侵入的添加业务监控埋点
面对某省市场竞争,希望业务系统更加稳定、迭代
更加快速
提供业务监控、告警能力,从而及时获取业务增长、
业务异常情况
提供异常问题的全生命看、跟踪,从而评估业务损
失等后续改进措施
提供统一的标准,用于衡量业务平台的质量,
从而有针对性的提出规范
提供统一、开放、开箱即用的监控、告警平
台,减少重复投资、提高监控覆盖面,提升
整体运维质量,从而提高企业竞争力
企业视角
99
因此,构建智能化、主动式的IT监控与运维能力将成为企业的必然选择
被动救火式维护 智能主动式监控
定时粗略巡查
等待故障报告
人工故障处理
实时全面监控
分散维护系统 集中监控系统
自动故障处理
提前故障预警
随着业务对IT运维提出的要求越来越高,原来传统的被动救火式的IT运维模式已经不能
满足企业的要求,无法为业务的发展提供保障
只有借助当前先进的技术,构建主动巡防式的IT监控与运维体系,能够提前预防并智能
化处理系统的各类故障,才为业务的快速发展保驾护航,满足企业对IT的要求
高风险 低评价
离散化 人工化
低风险 高价值
一体化 智能化
解决方案概述2
1111
设计思路·通过体系化-自主化-自动化-智能化设计,助力IT 运营降本增效
企业IT统一智能运营管理平台
一期一期 二期二期 远期远期
业务网管 日志平台 Zabbix 大数据平台 机器学习平台
基于故障告警自动执
行修复命令
任务脚本执行…
基于趋势自动运维
基于趋势扩容缩容
……
基于历史重大事件的
自动运维
基于历史数据分析的
主动运维……
智能化自主化自动化一体化
基于告警及任务指令 基于技术与业务规则 基于机器学习模型
根据故障告警及所配置的任务等明
确的指令自动执行运维工作
基于趋势型等规则,根据指标数据
自动发现故障并自动执行修复工作
基于历史故障与日志等数据,通过自
学习模型发现潜在问题与风险并自行
处理
构建IT一体化运营能力
构建从基础设备、系统、业务的统
一监控,实现业务系统全面运营
CMDB 云管平台 工单系统
一期一期
1212
管理体系·构建面向业务的主动式统一运营理体系
构建统一IT运营管理体系,对基础设备、系统、业务进行统一运营管理,提供IT运维监控、业务可视化监控、业务端到端管理、
应用质量保障等多个领域的综合运维管理能力,促进中心IT运营降本增效。
统一资源管理能力
资源 数据 采集日志
统一监控管理能力
监控 规则 告警推送
统一运维操作能力
流程 工具 操作配置
运维人员
综合保障&精细化运维能力
业务级可视化运维 用户感知
统一运维流程管理能力
流程规范 流程监控
全流程业务管理能力
业务级运维管理管理人员
构构
建建
面面
向向
业业
务务
的的
数数
据据
驱驱
动动
的的
主主
动动
式式
运运
维维
• 以数据驱动运营管理,辅助
运营运维决策;
• 利用数据可视化技术展示综
合运营情况,提供统一运营
管理视图,掌握运营态势。
• 构建闭环运维管理,明确职
责分工,保障系统稳定运行;
• 固话化运维流程、实现运维
流程电子化、某著名企业化;
• 全链路质量管控,业务服务
实时监控与分析,保障业务
服务稳定运行。
• 对物理、逻辑、应用、业务
资源的全面管理;
• 实现对设备、数据、系统等
统一监控运营保障;
• 对日常运维操作通过编排,
任务定制形成操作场景,实
现自动化处理故障恢复。
决策人员
统一运营分析管理能力
运营分析
统一运维监控管理视图
管理视图综合视图 个人视图数据挖掘日常报表
流程管理 业务链管理
1313
建设目标·实现IT运维工作目标与组织业务目标的融合管理
组织 制度 工具
建设目标
• 统一监控
• 智能运维
• IT运营管理制度
• IT运营管理流程
• IT运营管理技术
规范标准
• ……
• IT服务台
• 服务支撑组
• 服务协调组
通过监控运维人员组织、制度及
工具的建设和完善,构建面向“设
备-系统-业务” 的主动式统一IT运
营管理体系,保障各信息系统稳
定性和业务的连续性,实现IT监
控运维工作目标与组织业务目标
的融合管理。
运维目标:系统稳定性、数
据完备性保障
业务目标:业务持续、稳定、
高效运转
1414
总体定位·利用大数据与AI技术,通过IT设备与系统运行指标数据的深度挖掘,实现智能化IT监控与运维
预防
•查找潜在风险,提供主动预防策略
预测
•构建模型,预测未来趋势
分析
•分析历史数据辅助根源问题分析
整合
•整合历史监控数据,辅助IT系统综合管理
监控
•监控当前IT系统整体运行的状态
企业IT统一智能运营管理
以大数据分析能力支撑的
智能IT监控运维管理平台
机器数据分析
传统
ITSM、
APM、
NPM、
SOC、
Cloud Management
保
障
业
务
、
降
低
风
险
、
提
升
效
率
构
建
智
能
化
运
维
体
系
自主化
智能化
多维度
精细化
一体化
可视化
1515
总体蓝图
IT统一智能运营管理 IT 物联网大数据云计算
智能故障分析
大屏
统一
监控
快速故障修复
信息推送与告警
故障报告数据汇集 深度分析发现故障/风险
数据分析 可视化展示 信息推送报表管理
资源管理 智能监控 运维流程管理 操作管理 运营分析
调整算法 查收报告整体监控信息配置 处理告警 处理故障 设置任务
数据采集
主动探测 告警、修复识别、预测实时任务 定时全面 多维智能
基础能力
CPUCPU、、存存
储储、、网络网络
资源数据资源数据
中间件中间件、、
数据库数据库、、
应用服务应用服务
企业IT统一智能运营管理方案基于大数据技术,参照ITSS 、ITIL等技术与行业标准,为企业(单位)注入业务化、规范化、智能化
的系统运营与维护能力,助力构建完善、科学的平台运维体系,以确保整个业务的高效运营。
统一门户
设备
网络
存储
主机
中间件
应用
日志
链路
业务
1616
总体架构·基于“统一技术+业务中台”架构设计,支撑“统一规划+分步实施“的建设模式
监管
对象
设备 网络 系统 中间件 业务/应用 日志…
后台 计算资源 存储资源 网络资源 标准接口
中
台
基础
能力
核心
能力
平台管理
组织管理 用户管理
角色管理 权限管理
配置管理 日志管理
运维管理中心
智能监控中心
资源管理中心
运营分析中心
告警管理中心
AI算法引擎 流程管理引擎
分布式框架 分布式存储
搜索引擎
分布式缓存
服务调度
流处理引擎
消息引擎
数据共享服务
前
台
统一
门户
PC端 某著名企业端 大屏
统一运维管控平台采用中台技术架构,整个架构核心由基础能力平台、核心能力平台及统一门户组成。
管理人员管理人员 运营人员运营人员 运维人员运维人员 普通普通人员人员
1717
功能架构
用户管理系统管理 权限管理 参数配置 流程管理 日志管理 消息管理
指标采集数据管理 数据清洗 探伤管理 数据管理 数据模型 算法管理
任务调度设置配置管理 清洗规则配置 监控模型配置 告警规则配置 诊断知识配置 运维知识配置
业务管理
监控应用管理
资源管理
监控系统管理
监控对象管理
监控设备管理
监控任务管理
监控管理
监控模型管理
监控记录管理
监控指标管理
告警消息管理
告警管理
告警事件管理
告警处理分派
告警规则管理
诊断任务管理
诊断管理
诊断知识确认
诊断结果确认
诊断知识管理
运维任务处理
运维管理
自动运维管理
运维记录管理
运维知识管理
故障处理管理
故障管理
人工故障登记
故障汇总管理
告警故障确认
监控告警处理应用门户 故障管理分析 运维任务管理 大屏监控 大屏监控 数据统计
1818
总体流程
系统具备智能化的IT设备与系统(故障/风险)智能化监控,及自主化运维能力,不仅可以及时发现各类故障以及潜在的故
障风险,还可以在确诊故障后进行主动的故障修复处理,实现IT运维工作的智能化与自主化。
监控数
据采集
指标数
据清洗
故障告
警监控
设备故
障告警
故障风
险告警
智能故
障诊断
故障原
因确诊
自动故
障修复
人工故
障修复
人工风
险确认
告警事件库
故障库
人工故
障处理
发现发现
故障故障
识别识别
风险风险
智能风
险诊断
故障原
因疑诊
人工执
行修复
任务任务
派送派送
自动执行自动执行
任务派送任务派送
任务任务
派送派送
确认确认
故障故障
按照给出的解决
方案执行即可
原因诊断,处理建议原因诊断,处理建议
原因诊断,处理建议原因诊断,处理建议
清清
洗洗
规规
则则
监监
控控
模模
型型
诊诊
断断
知知
识识
库库
机器学习素材库
自动生成监控等规则
指标数据库
诊诊
断断
知知
识识
库库
1919
统一门户·面向不同角色与场景,提供可视化的集中监控应用,全面感知系统健康度
统一门户以使用角色和场景展现统为主线,面向不同使用者特定场景,实现对业务、系统资源或能力的“可视”、“可控”、“
可追溯”,分角色分权限向决策层、管理、基层维护人员提供统一的运维视图。而数据可视化支持PC、大屏、手机等多端
展示,让不同人员可以实现随时、随地的可视化的平台运维管理。
01
统一门户
提升效率
02
数据可视
化,全面
感知
03
某著名企
业APP,
随时随地
高效办公
2020
资源管理·对系统资源进行全面、全过程规范管控,实现平台资源的可控、可视、可靠
平台资源管理中心通过构建CMDB,将企业/单位所涉及的资源数据集中、统一标准化管理,实现资源数据全生命唯
一性、准确性、完整性和可维护性,为IT运维提供准确的基础资源数据,为业务的高效运行与维护奠定基础。
Hypervisor
虚拟化网络 中间件存储服务器 数据库 进程资源
各类IT与系统资源对象
资源配置维护资源配置维护 资源自动发现资源自动发现
资源关系自动发现资源关系自动发现 资源关系维护调整资源关系维护调整
CMDB
标准化 唯一性 准确性 完整性
资源配置管理
资源基线管理
资源下线、报废
资源上线管控流程
资源状态变更管控
资源自动稽核
资源准确性稽核
资源合规性稽核
2121
智能监控-多维监控·从多个维度进行运行监控,保障应用与业务的可用和连续性
系统
A
系统
B
系统
C
系统
D
系统
E
系统
F
系统
…
主机
操作系统
数据库
中间件
应用服务
部门A
部门B
部门C
部门主管
业务骨干
技术专家
技术
业务
管理 T 从技术角度发现问题
从技术的角度来对系统运行
状态进行分析,识别、预测
并排除故障,保障系统可用。
B 从业务视角排除故障
从业务的视角来分析故障带
来的影响,排除故障,确保
系统业务的可用与连续性。
M 从管理视角分析风险
从管理的视角来检查使用状
态与分析问题和风险,确保
系统使用符合企业管理要求
与规范。
2222
智能监控-基础监控·对基础IT资源进行全覆盖实时监控,保障相关设备稳定运行
IT统一智能运营管理平台
Hypervisor
虚拟化网络
SNMP SDK
中间件
JMX/CLI
存储
SNMP/SMI-S
服务器
SNMPAgent
数据库
JDBC
新资源
协议
操作系统 网络流量 流量分析 硬件监控 存储监控
基础设施 系统层 中间层 应用层 业务层
vCente Nagios Cacti Zabbix PRTG…
对
象
内
容
层
级
工
具
对IT系统所包含的对象、
资源与内容进行细致的
分层与分类
全面连接、监控各类IT
资源与内容,全面采集
数据
不同类型资源使用不同
的监控与管理工具
通过精细化的数据采集,
实现对It系统的多维度、
全面监控与运维
2323
智能监控-应用系统监控·分类分层一体化监控实现系统全方位可视
建立统一的应用系统监控视图,实现贯穿物理层、逻辑层、应用层等运行状况统一监控;通过将关联运维数据(性能、
告警、日志等)整合,支持运维人员对于各IT应用系统的整体运行情况进行一屏监控。
监控范围
应用系统A 应用系统B 应用系统C 应用系统D 应用系统E 应用系统F …..
应用全景监控视图,实现系统全方位可视
应用进程
中间件
数据库
底层设备
多层级:
多数据源:
性能、告警、日志…
2424
智能监控-业务监控·构建服务链,实现对业务端到端全局监控,精准定位问题,保障业务稳定
业务业务//服务链服务链AA
业务业务//服务链服务链BB
业务业务//服务链服务链CC
业务业务//服务链服务链DD
通过构建服务调用链,实现对业务全局节点所涉及的应用和服务的实时监控与分析,及时发现业务故障、迅速定位问题,全面保障
业务可用性、及时性、准确性等,并大幅提升运维管理效率。
支持调用链数据采集方式,实现在系统内与系统间各个服务的数据采集
支持业务链数据采集方式,实现在不同系统间采集应用数据
提供图形化的界面来配置业务服务调用链关系模型(流程拓扑图)
2525
告警管理-智能化监控模型设计,统一告警策略配置,自动故障与风险告警
配置统一的事件告警策略,在监控过程中,一旦发现符合告警策略的事件,即会自动发出告警,并将告警事件进行统一管理与分析。
可以定义不同
事件/风险的
等级,然后根
据事件/风险
等级,设置不
同的告警策略
可以定义事件
的告警方式,
告警联系人员
范围,告警内
容等
可以集中配置、
更新、管理告
警策略
实时监控
监控模型库
故障告警
风险告警
系统
监控
数据
实时实时
数据数据
监控监控
发现故障发现故障
及时告警及时告警
识别风险识别风险
潜在问题潜在问题
告警事件库
状态
预测
趋势
预测
事件汇总事件汇总
事件汇总事件汇总
人为设置 机器学习
告警
事件
告
警
规
则
库
告警
方式
告警内
容模版
告警
联系人
人为设置
2626
告警管理-建立标准、细致的IT监控指标库,实现一体化、精细化IT监控
监
控
指
标
库
主机监控
CPU
使用率
内存
使用率
网络
写入I/O
…
磁盘
使用率
磁盘
写入I/O
网络
丢包率
前端监控
页面性
能监控
接口性
能监控
数据库/中
间件监控
mysql redis mongo nginx tomcat https
……
oracle
日志查询
应用
日志
应用错
误日志
组件
日志
服务器
日志…
…监控
2727
运维管理·基于ITIL标准,建立规范、标准化的运维管理流程
基于ITIL行业标准,结合企业自身信息安全、IT运维管理标准及制度,建立标准服务支撑流程,故障定级定界、配套应急响应流程,保障问题、故
障的有序标准化处理。同时,利用各类支撑工具和手段辅助故障与应急处理,实现故障的快速处理,并逐步形成运维知识库,不断管理和技术优
化提升运营服务能力。
应急响应流程服务支撑流程
工具&知识库监控工具 操作工具 集成工具 经验沉淀 标准方案 应急预案
2828
运维管理·构建智能化的监控分析能力,识别故障并预测风险,实现主动、智能的运维
智能化
标准化
算法化
模型化
建立故障识别模型
基于体系标准库建立定义故障的数
据模型
确定每个故障、风险、问题的识别
数学模型
可以从不同维度(技术/业务/管理)建
立多种故障识别模型
梳理故障指标体系标准
基于保障业务,确保系统正常
运行的目标,梳理出金阿卡指
标与故障体系标准
构建监控指标库
构建故障与风险类型库
构建事件、问题与任务类型库
设计故障分析算法
基于故障模型设计自动故障与风险分析的算法
创建IT监控与分析任务(监控的系统与内容)
设置自动化算法的执行与调度策略
自动执行算法,识别、预测故障与风险
基于实际效果技术优化、调整算法
2929
运维管理-自动运维·实现系统自动巡检,提升工作效率
将日常运营管理工作的常态操作与脚本通过技术编排固化形成自动化执行的操作任务,让系统自动执行、人工触发、或供第
三方系统直接调用等方式实现自动化操作处理,提升日常运营工作效率,让运营工作更轻松。
缩短操作执行时间,提高执行效率;
减少人工失误导致的系统故障;
提高运维自动化水平,减少人工投入,降低运营
成本。
降低了关键岗位的技能要求;
消除故障隐患、保证作业效率;
降低日常运维工作中人员的时间投入、精力投入。
自动化操作运营场景
命令
操作
服务
启停
集中
配置
系统
巡检
安全
检测
应急
切换
故障
预案
……
收到告警 匹配预案 执行任务 告警恢复
故障处理
验证通知
预
案
管
理
预案定义 预案编排
预案定时调度
预案手工调度
预案执行日志 预案管理(审批、权限、增删改查)
预案库
业调度&批量操作处理
3030
运维管理-自主运维·根据故障诊断结果,基于运维操作预案,实现自主化的运维作业与管理
故障
告警
&
日常
巡检
自主化运维
实时实时
任务任务
触发触发
运维作业预案
可自动执行
需人工执行
需人工确认
疑似诊断疑似诊断
故障确诊故障确诊
巡检任务巡检任务
重启设备
重启服务
执行命令
执行脚本
……
进行故障处理
自动运维作业
确认故障以
及产生原因
故障确诊故障确诊
对于已经确诊的问题,部分可由系统自动进行处理
对于无法由系统直接进行处理的问题,则会派发相应的任
务给到对应的人员,由维护人员进行处理
而对于无法确诊的问题或告警,系统也会派发相应的任务
给到对应的维护人员进行确认并处理
系统系统
自动自动
执行执行
自动自动
派发派发
任务任务
自动自动
派发派发
任务任务
按系统给出的诊
断解决方案执行
如确定是个故障
则需进行处理
故障确诊故障确诊
处理
方式
解决
方法
执行
脚本
故障
描述
经验沉淀
技术积累
人为设置人为设置
3131
运营分析·挖掘运维数据潜在价值,辅助维护与运营管理决策
基于统一运营管理的大量数据,构建运维数据集中管理,统一运营分析中心,通过各类型数据的关联分析,基于场景的运营分
析,挖掘数据在运营支撑方面潜在价值,实现数据变现,从而全面保障生产系统安全、稳定、健康,提升服务和客户感知。
企业IT统一智能运营管理
资源数据 监控数据 告警数据 故障数据 操作数据 日志…
设备故
障分析
健康状
况分析
系统性
能分析
设备质
量分析
服务质
量分析
故障预
测分析
3232
方案核心价值
被动式维护模式 主动式监控模式
离
散
一
体
局
部
滞
后
人
工
缓
慢
快
速
全
面
提
前
自
动
监控内容
故障发现
运维方式
故障处理
保障
业务
提升IT
价值
提升效率
降低成本
监控模式
THANKS