IT自动化运维平台建设解决方案
目 录
CONTENTSCONTENTS
2 平台解决方案
1 运维现状及分析
3 应用场景分析
4 资源需求
人工运维人工运维 自动化运维自动化运维 智能化运维
智能化运维
AIOpsAIOps
运维工作主要由人工完成,运维人
员负责机房、服务器选型、软硬件
初始化,服务上下线,配置监控,
盯监控等,基本上是遇到什么问题
解决什么问题。
自动化运维就是把、重复性、规律性的
工作都交给工具去做,具体来说有应用
系统维护自动化,巡检自动化和故障处
理自动化这三个方面;
自动化运维依赖于管理平台,最可终达
到提升运维效率的目的。
AIOps利用大数据和机器学习技术,
实现海量数据的异常检测和多维度
关联分析,它将增强或部分取代
ITOM 领域的三个重要能力,即监
测,服务管理和自动化;
进一步帮助 运维人员准确甄别系统
异常,快速定位故障根因,并对潜
在系统风险进行预警,以实现 IT
和业务的持续洞察和改进。
当前IT运维的整体发展趋势是向自动化迭代,并向智能化演化;
目前大部分组织的IT运维正处在从人工运维向自动化运维的发展阶段;
有部分组织已经基本实现了自动化运维,正在向智能化运维升级,而也已有少量企
业已经构建了初步的智能化运维体系。
IT运维的总体发展趋势1
Part
运维现状及痛点2
Part
承担了包括实体机、虚拟机、网络设备、数据库、中间件等万台主机和数通设备的基础作业维护和应用故障维护工作。
目前通过ZABBIX(监控)+业务网管系统(告警)实现监控收集、上报、处理的闭环流程。具体流程如下:
发生告警
值维监控
运维工程师
研发工程师
告警恢复
zabbix采集到的信息生成
告警,输出至业务网管
通过电话、微信方式通知
运维工程师处理
运维工程师分析处理,或
协调研发工程师处理
运维过程缺乏回溯:缺乏对运维操作过程的
管控。处理结果无痕迹,缺乏经验成果沉淀。
日常运维缺乏自动化:缺乏自动作业巡检任务
及故障处理脚本,日常维护作业依靠每个运维
工程师人为判断并执行脚本。
规范性
技术性
问题分析及解决思路3
Part
1
2
3
任务执行结果无法监控
定时任务执行脚本和配置均由各运维工程师控制,执
行结果无法监控,无系统化的统一管理配置
告警处理过程缺少监控记录
现阶段由运维工程师对告警信息进行定位分析,根据
故障分析结果进行处理。无系统化的根因和经验沉淀。
若发生人员流动,告警无法处理无法进行平滑交接
被动式的告警处理方式,非工作时间告警处理无法
保证在第一时间被处理
非工作时间告警处理传报响应慢
构建自动化运维平台
1.任务统一管理:
将的日常任务执行和配置通过自动化运维平台来统一管理
2.触发性任务实现自愈:
结合故障场景梳理和告警逻辑关联,实现对故障的自动
处理
3.部分重要指标实现优化:
针对部分故障没有发生,但是场景已经恶化的指标,自
动进行优化处理。
解决
思路
目 录
CONTENTSCONTENTS
1 运维现状及分析
2 平台解决方案
3 应用场景分析
4 资源需求
总体规划方案·利用大数据与AI技术,构建智能化统一运维平台,分
阶段实现IT运维的自动化与智能化
4
Part
统一智能化运维平台
数据整合 任务调度 规则管理 智能监控 智能诊断 自动运维
大数据能力 AI能力非结构化数据处理 数据建模/标注 机器/深度学习 规则模型
基于告警及任务指令 基于技术与业务规则 基于机器学习模型
智能化
运维
自主化
运维
自动化
运维
一期一期 二期二期 远期远期
根据故障告警及所配置的任务等明
确的指令自动执行运维工作
基于趋势型等规则,根据指标数据
自动发现故障并自动执行修复工作
基于历史故障与日志等数据,通过自学
习模型发现潜在问题与风险并自行处理
业务网管 日志平台 Zabbix 大数据平台 机器学习平台
基于历史重大事件
的自动运维
基于历史数据分析
的主动运维……
基于趋势自动
运维
基于趋势扩容
缩容……
基于故障告警自
动执行修复命令
任务脚本执行
……
CMDB 云管平台 工单系统
总体规划架构5
Part
数据
整合
数据采集 数据抓取 数据导入 数据过滤 数据清洗 数据标注
CMDB 日志平台 云管平台 大数据平台 机器学习平台对接
系统
告警数据告警数据 指标提取指标提取 数据导入数据导入 能力对接能力对接
基础
能力
任务调度 消息管理 规则管理 趋势识别模型 事件识别模型 机器学习模型
业
务
能
力
中
心
监控管理中心
监控对象管理
监控指标管理
监控任务管理
监控告警管理
运维作业中心
资源管理
参数管理
脚本管理
工单管理
任务调度中心
任务创建管理
任务调度管理
任务执行监控
任务执行报告
智能诊断中心
风险类别管理
趋势识别诊断
事件识别诊断
机器模型诊断
规则管理中心
技术规则管理
业务规则管理
规则作业管理
规则模型管理
运维分析中心
告警故障统计
运维作业分析
故障风险报告
系统优化建议
前端
应用
自动化运维门户 运维管理门户 企业微信 大屏监控
一线运维 值班主管 运维工程师 运维主管 主管领导
一阶段
二阶段
三阶段
总体应用蓝图6Part
统一智能化运维平台 IT 互联网大数据云计算
智能运维监控 创建运维任务 自动运维作业数据各项整合 深度分析&模型学习发现故障/风险
自主运维作业自主运维作业 风险综合评估风险综合评估 系统优化建议系统优化建议智能风险识别智能风险识别
数据整合 任务调度 运维作业 规则配置 模型识别
智能诊断识别、预测标准数据 任务调度 跟踪评估
机器学习
数据导入
指标载入
维护工程师 值班主管一线运维 运维主管
生成报告
日志平
台
工单
系统
Zabbix
Server
大数据
平台
机器学
习平台
业务
网管
CMDB
云管
平台
全面提升IT运维
效率,降低成本
保障业务连续性
降低技术性风险
落地智能化应用
推动智能化升级
全面精准风险评估
推进系统架构优化
自动化运维平台
Zabbix Server
值维监控 运维工程师 运维管理 职能管理
管理监督管理监督应用运维应用运维
告警同步告警同步
业务网管 工单系统
脚本下发脚本下发
执行命令执行命令
创建工单创建工单
工单状态同步工单状态同步
告警管理服务 脚本管理服务 参数管理服务 任务管理服务 工单管理服务
平台建设目标:实现高效、安全、规范化的运维与管理,提高工作效率,降低人工成本
规则引擎规则引擎
本期建设方案7
Part
告警管理服务
同步业务网管告警信息
脚本管理服务
实现自动化脚本集中管理
任务管理服务
设置定时任务并自动化执行;
责任人对任务执行结果进行确认。
工单管理服务
针对自动化任务需要沉淀的故障生成工单
参数管理服务
实现系统接口、邮箱配置等管理服务
流程引擎流程引擎 消息引擎消息引擎 系统管理系统管理
本期功能架构8Part
数据
整合
数据采集 数据抓取 数据导入
业务网管 Zabbix Server 工单系统对接
系统
告警同步告警同步 工单状态同步工单状态同步
基础
能力
用户管理 任务调度 消息管理 日志管理 系统管理 安全管理
业
务
能
力
中
心
监控管理中心
监控指标管理
监控配置管理
告警任务管理
告警列表
任务调度中心
创建任务
任务类型
任务删除
审批管理
告警统计
系统对接
运维作业中心
脚本导入
脚本导出
脚本新增
脚本编辑
脚本查询
关联参数
新建参数
参数编辑
参数删除
导出数据
工单生成
工单查询 任务克隆
任务调度
任务执行
执行监控日志
任务结果确认
任务统计
运维作业统计
运维作业分析
前端
应用
自动化运维门户 运维管理门户 企业微信 大屏监控
一线运维 值班主管 运维工程师 运维主管
脚本下发脚本下发 执行命令执行命令 创建工单创建工单数据采集数据采集
整体流程9
Part
①业务网管平台收集到告警信息后,将告警信息推送到自动化运维平台;
②自动化运维平台根据规则服务和调度配置,判断治愈方案;
③自动化运维平台调用zabbix server 发送执行指令,监控执行过程;
★对于需要生成故障工单的告警,自动推送至工单系统,工单系统处理完成后完成闭环处理结果。
数据流程10
Part
反馈执行结果反馈执行结果
自动化运维平
台发送指令
业务网管产生
告警信息
发送发送
告警告警
业务网管
工单系统
Zabbix
2 找到指令找到指令
未找到指令未找到指令
2
2
需生成工单需生成工单
被监控对象
发送执行指令发送执行指令
1
3
自动化运维平台
4
值维/运维
工程师
5 结果确认结果确认
执执
行行
后后
的的
指指
标标
获取权限获取权限3
4
角色分析11
Part
PC端 企业微信
管理
/职能
人员
告警推送
告警分析告警查询指令下发任务执行结果确认 脚本配置
新建任务脚本配置任务执行结果确认
告警推送
告警查询
执行任务审批执行过程管控执行结果查看执行痕迹查看
触发性任务 任务 /触发性任务
定时设置
值维/
运维工
程师
脚本管理方案12
Part
方案一 方案二
优点 缺点 优点 缺点
1、脚本固化,出错概率较低
2、对zabbix agent账号所需
权限较小,无需提前赋权
1、灵活性低,修改一次需要
再次全网服务器同步
2、脚本配置变更由运维工程
师控制,需单独赋权后作批量
部署
3、脚本存放在服务器端,有
被篡改的风险
1、脚本集中化管理可管可控
2、灵活高效:脚本需要调整
时,编辑后即时生效
3、风险高的脚本可先经管理
人员审批后配置
4、脚本执行过程详细记录,
可追溯
1、对zabbix agent账号所需
较高的执行权限,需提前赋权
Zabbix server发送指令的方式有两个方案:
方案一:执行脚本提前预置在各服务器端侧,作业平台与zabbix server进行指令通讯
方案二:执行脚本在自动化作业平台维护和配置,客户端通过接收zabbix server远程命令执行
★建议采用方案二:由自动化维护平台统一负责脚本管理,需要执行时远程命令的方式进行脚本执行。
功能设计-任务管理13
Part
任务管理主要针对任务,设置定时触发策略,并支持执行脚本的关联、执行任务的启用/禁用、执行结
果的确认等
功能设计-告警管理14
Part
告警管理中的告警信息来源于业务网管平台,支持执行脚本的关联、执行任务的启用/禁用、执行结果的
确认等。
功能设计-脚本管理15
Part
脚本管理实现脚本的统一管理,任务及触发性任务通过关联脚本并触发任务策略,实现脚本的自动化执行,脚本
类型支持:shell、bat、Perl、Python、pawershell。
功能设计-工单管理16
Part
当任务需要生成故障工单时,自动发送工单给工单系统,工单派发的同时,系统根据策略自动执行任务。
功能设计-参数管理17
Part
参数管理主要指系统变量等全局性参数管理。
企业微信能够快速收到任务的执
行情况:
任务开始执行:运维人员通
过企业微信能够及时获取所
设置或所触发的任务开始执
行的时间;
执行结果确认:运维人员能
够通过企业微信进行自动化
执行结果的查看并确认。
功能设计-企业微信端18
Part
目 录
CONTENTSCONTENTS
2 平台解决方案
1 运维现状及分析
3 应用场景分析
4 资源需求
任务业务流程19
Part
Zabbix
Server
自动
化运
维平
台
新建务
脚本配置
获取服务器配
置信息
脚本与执行
用户关联
定时任务设置
任务与脚本
关联
发送执行脚本
及执行
任务执行
结果确认
接收指令
执行过程监控
并接收执行结
果
Zabbix
客户端
接收执行指令 脚本执行
运维工程师
主管/值维/运
维工程师
任务应用场景1-磁盘清理20
Part
1.对服务器进行分批执行,可先10台服务器进行配置,待运行1个获取执行结果
2.对执行结果进行人工确认,无任何异常第二阶段逐步增加,后续分阶段扩展至全部服务器。
场景描述
日志、备份文件等根据业务需求超过保存,可通过脚本定时清理或迁移至目标服务器
业务流程
1.运维工程师梳理业务场景:各业务系统运维工程师梳理业务场景、执行脚本、执行、执行服务器、
执行预期结果;
2.云管平台提前配置服务器执行用户:需云管平台提前在各服务器配置agent执行用户并拥有执行权限;
3. Zabbix Server 提供API接收指令及令
4.自动化运维平台提供API接收zabbix server定时任务执行的结果反馈
执行计划
任务应用场景2-时间同步21
Part
1.对服务器进行分批执行,可先10台服务器进行配置,待运行1个获取执行结果
2.对执行结果进行人工确认,无任何异常第二阶段逐步增加,后续分阶段扩展至全部服务器。
场景描述
时间同步分为系统时间和硬件时间,时间准确性关系到话单及计费准确性。可通过脚本定时与时间服务器同步
业务流程
1.运维人员整理各服务器ntpd服务服务开启状态
2.云管平台提前配置服务器执行用户:需云管平台提前在各服务器配置agent执行用户并拥有执行权限;
3. Zabbix Server 提供API接收指令及令
4.自动化运维平台提供API接收zabbix server定时任务执行的结果反馈
执行计划
治愈型任务业务流程22
Part
业务
网管
自动化运
维平台
Zabbix
Server
脚本选择
获取服务器
配置信息
脚本与执行
用户关联
任务与脚本
关联
发送远程指令
任务执行
结果确认
执行过程监控并
接收执行结果
告警接收
规则判断 治愈 是
返回业务网管
否
告警推送
接收指令
Zabbix
客户端
接收指令 脚本执行生成告警
工单
系统
主管/值维/运
维工程师
生成工单
治愈型任务应用场景1-微服务重启23
Part
业务描述
Zabbix监控到微服务不能正常运行,自动化运营平台重启宕机的服务
业务需求
1.业务网管推送告警信息至作业平台:包含告警服务器ip、告警业务类型、告警联系人、联系方式、告
警级别,针对每一个告警进行治愈配置
2.运维工程师提供各业务系统部署服务器、部署路径,启动脚本,日志存放位置
3.自动化运维平台提供告警工单接收接口,业务网管告警信息推送
4.云管平台提前配置服务器执行用户:需云管平台提前在各服务器配置agent执行用户并拥有执行权限;
Server API:zabbix提供接口拉取脚本及接收执行指令
6.自动化运维平台提供API接收zabbix server定时任务执行的结果反馈
执行计划
1.治愈性告警第二阶段执行
2.对服务器进行分批执行,可先10台服务器进行配置,待运行1个获取执行结果
3.对执行结果进行人工确认,无任何异常第二阶段逐步增加,后续分阶段扩展至全部服务器。
治愈型任务应用场景2-主机进程重启24
Part
业务描述
Zabbix监控到服务器某进程不能正常运行,自动化运营平台重启进程服务
业务需求
1.业务网管推送告警信息至作业平台:包含告警服务器ip、告警业务类型、告警进程名、告警联系人、
联系方式、告警级别,针对每一个告警进行治愈配置
2.运维工程师提供各服务器被监控程序服务名、安装路径,启动脚本,日志存放位置
3.自动化运维平台提供告警工单接收接口,业务网管告警信息推送
4.云管平台提前配置服务器执行用户:需运管平台提前在各服务器配置agent执行用户并拥有执行权限;
Server API:zabbix提供接口拉取脚本及接收执行指令
6.自动化运维平台提供API接收zabbix server定时任务执行的结果反馈
执行计划
1.治愈性告警第二阶段执行
2.对服务器进行分批执行,可先10台服务器进行配置,待运行1个获取执行结果
3.对执行结果进行人工确认,无任何异常第二阶段逐步增加,后续分阶段扩展至全部服务器。
目 录
CONTENTSCONTENTS
2 平台解决方案
1 运维现状及分析
3 应用场景分析
4 资源和项目需求
功能模块 服务器 CPU 内存 磁盘 用途
作用平台web及微
信服务集群
web应用服务器1 8 32G 200GB
部署作用平台web服务及企业微信服务
web应用服务器2 8 32G 200GB
规则微服务集群
规则接口服务器1 4 16G 100GB
部署规则微服务接口及对外接口集群规则接口服务器2 4 16G 100GB
规则接口服务器3 4 16G 100GB
配置服务器集群
配置服务器1 4 16G 100GB
部署规则配置服务集群
配置服务器2 4 16G 100GB
数据库主从集群
数据库服务器1 8 32G 500GB
部署数据库服务,主从集群模式
数据库服务器2 8 32G 500GB
缓存服务集群
Redis缓存服务1 4 16G 100GB
部署redis缓存集群
Redis缓存服务2 4 16G 100GB
资源需求25
Part
THANKS