天津农村合作银行 IT 系统监控项目建设方案
一、项目背景
我行自 2002 年以来先后投产上线综合业务系统、现代化支
付系统、银行卡业务系统、农信银清算系统、个贷系统、社保系
统、财税关库行横向联网系统、支票圈存系统、指纹身份认证系
统、国际结算系统、客户服务系统等业务处理型计算机系统,以
及为内部管理服务的信贷分析系统、报表系统、反洗钱系统、非
现场稽核系统、征信系统等管理型计算机系统,并且事后监督系
统、贷记卡系统、财务管理系统、信贷管理系统、网上银行系统
等项目正在建设过程中。随着我行的业务发展和信息化建设的不
断深入,在主机系统、网络系统、操作系统、数据库和应用软件
等 IT 系统的数量和类型将会不断增加,使我行信息系统的管理
维护工作日趋复杂,对信息系统的稳定性、可靠性提出新的更高
的要求,同时,对信息系统的风险评估工作也日趋复杂化。
目前我行 IT 系统有 OS400 操作系统主机 7 台,AIX 操作系
统主机 12 台,Windows server 操作系统主机 27 台,数据库包
括 Informix、Sybase、DB2,中间件包括 MQ、CICS、TXDUE。
由于设备数量众多,无法做到实时监控,只能采用运维人员每
天 3 次手工登录查询错误日志的管理方式监控,这些手段操作复
杂,技术要求高。由于缺乏统一的、直观的监控方法,加之人为
因素的影响,对及时发现系统安全隐患和解决问题的时效性方面,
都造成一定的时滞,给 IT 系统的安全稳健运行带来了极大的风
险。
因此,如何更有效地利用现有的 IT 系统资源,建立高效、
规范的一体化信息系统监控管理体系,保证系统可靠性,预防突
发事件发生,查找系统性能瓶颈,提高系统运行效率和 IT 运维
服务水平,确保 IT 系统的稳定、安全运行是目前我行科技工作
面临的问题和考验。我们认为,通过使用专业的监控和运维管理
软件,对 IT 整体系统进行有效、实时监控与预警,及时发现 IT
系统的安全隐患,有助于解决 IT 系统存在的安全隐患和漏洞。
二、项目建设目标
项目将首先实现对 IT 基础设施包括主机的性能及可用性监
控、数据库的性能及可用性监控、中间件的性能及可用性监控以
及业务系统的性能及可用性监控,以此为基础建立 IT 服务流程
管理,借助业界领先的服务管理软件,根据我行的实际需求,并
结合行业最佳实践,构建全面、规范、高效、稳定的 IT 运维管
理平台。通过对监控数据的归集和分析,预先发现故障隐患,提
前采取措施,变被动式管理为主动式管理,提高 IT 系统服务管
理水平。
根据 ITIL 的原理,在充分分析我行科技工作现状和业界成
熟运维管理技术的基础上,借鉴其他银行的成功经验,本着高起
点、高标准、总体设计、分步实施的原则,确定总体建设目标:
1、建立集中的监控管理平台
负责收集和处理来自系统中的各类告警信息,并进行告警信
息的汇聚和根源分析,帮助运维人员找出故障发生的原因,快速
定位故障点;包含网络、主机、数据库及应用管理(系统软硬件
配置信息、系统性能指标、故障告警和日志管理)。
2、统一监控管理界面和多样的告警方式
通过美观、布局合理的图形化界面集中反映网络、系统、数
据库和应用的实时状态,通过手机短信、邮件以及页面等多种方
式进行告警。
3、开发丰富的数据报表分析系统
结合上述的各项功能,系统能够根据工作需要产生标准格式
报表,并能够按条件生成和调整各类报表,以满足 IT 系统管理及
科技风险审计评估等多种需求。
三、项目建设原则
为了使信息系统监控管理平台既适应当前我行的需求,又面
向未来发展的需要,系统应采用 “一体化建设”原则,即统筹规
划,统一建设的原则,保证整个系统顺利连通,并高效、稳定地
运行。在进行系统方案的设计中,将遵循以下原则:
实用性原则
监控系统体系框架的设计将适应系统运行管理体制和人员的
实际情况,满足现有的人工监控的内容要求,所建议的技术方案
和提供的产品是成熟的,具备方便的人机界面、易于使用。
可用性原则
监控管理软件的部署不应对原有的系统结构、安全策略等方
面做较大修改和调整,对原有系统性能影响最小化,不能对生产
系统自身的运行造成不良影响,不能干扰系统的正常运行;尽量
少的占用消耗原系统的资源、网络资源,被监控服务器的资源整
体消耗不超过 5%。
集成性原则
提供一个集成统一的管理平台,能够将系统管理、数据库管
理、中间件和网络通讯等系统,进行良好整合集成,统一平台。
健壮性原则
监控管理软件具有较强的免维护能力,能够长时间稳定运行,
自身维护要求简单,具有快速恢复功能。
开放性和扩展性原则
监控管理软件架构设计应遵循业界标准,并提供开放、灵活
的信息交互及管理接口,实现灵活的数据交换功能;提供灵活的
部署方式,在客户化、管理策略、事件关联、报警方式、报表生
成、信息展示、管理流程等方面可以按实际需求进行定制,并支
持用户的二次开发;监控管理软件具有较强的扩展性,能够在包
括管理范围、管理功能、管理对象数量等方面提供灵活、多样的
扩展能力;可以适应生产系统新业务、新技术的要求,适应于监
控系统未来发展的需要,并能与其他基于业界标准的软件进行集
成。
展示形式多样性原则
监控管理软件能够对收集的数据进行分析处理,生成技术、
管理维护等层面的相关报表、视图等,根据不同级别用户的实际
需求,提供灵活、多样的展示形式,并提供良好、易操作的自定
义功能。
四、监控项目功能与内容
根据需求,我们认为集中监控平台建设应实现以下基本功能:
1、 服务器监控
针对服务器进行监控,实现对主机系统的基本信息的采集和
运行状态的监控。对各类主机系统故障进行告警,并提供灵活的
告警展示。提供阀值定义功能,可以根据实际情况对不同的主机
系统进行不同的阀值定义;
2、 数据库监控
针对各系统中使用的各类数据库例如 Sybase、Informix 等进
行监控。能够监视数据库关键状态和性能信息,掌握数据库进程
运行状况,对关键事务进行分析;
3、 中间件监控
能够对 Tuxedo、CICS 和 MQ 中间件进行监控
4、 用户管理
通过对用户界面的相应定义,可以对用户进行管理,让不同
用户具有不同的权限和不同的用户界面。
5、 报表管理
建设覆盖所有故障和性能管理内容的统一的统计分析中文报
表系统是本项目的建设重点之一,报表及统计模块应具备很好的
扩展能力,统一在运维管理门户上进行展示,报表的生成和演示
可由第三方工具完成。
五、项目监控范围
序
号
类型 范围 具体描述
1 主机监视 7台AS400、12台
AIX主机设备、
监视服务器性能参数指标、
性能指标超限告警(仅OS
windows 服务器
27台
层面,不涉及应用)
2 数据库监视 DB2 、 Sybase 、
Informix数据库
监视数据库性能参数指标、
性能指标超限告警
3 中间件监视 Tuxedo、CICS和
MQ
监视中间件性能参数指标、
性能指标超限告警
4 网络监视 路由器、防火墙、
交换机
网络设备性能参数指标、
性能指标超限告警
5 报表系统 1(套) 根据IT管理岗位和技术岗
位具体需要,输出IT规划
和运营所需的各类报表,
例如周报、月报等。
六、产品及厂商分析
对于系统安全的监控主要可分为:硬件和操作系统层、数据
库和中间件层、应用层三个层面。目前市场上成熟的系统监控产
品还是很多的,主要有 IBM Tivoli、BMC Performance Manager、
HP OpenView、CA Unicenter 以及 netIQ APP manager 等等。通
过市场调查、前期技术交流和分析,我们认为能够满足我行需求
的软件分别为:IBM Tivoli、HP OpenView、BMC Performance
Manager。这些产品技术成熟,实施案例多,不但能够实现对操
作系统、数据库、中间件、应用数据实时数据采集进行集中监控,
对采集数据进行分析,产生不同维度报表对系统整体分析提供依
据。而且系统扩展性强,可以支持二次开发,为后续的应用系统
的监控提供了保障。在这些系统中还提供了流程控制、安全管理
等组件,为今后打造全面的、系统的 IT 管理服务平台打下了基
础。
七、系统设计构架
本系统采用统一监控,集中展现的方式实现对设备的监控。
监控服务器通过部署在各监控对象上的引擎收集信息,通过报表
服务器进行过滤、加工、整理,通过统一门户进行展现。
统一集中展现
监控服务器 报表服务器
。。。。。。。
被监控对象
八、项目建设计划
随着业务的不断发展,IT 建设也将不断发展,IT 服务管理
的建设也会有一个不断发展完善的过程。所以,我们将项目的建
设分为三期。
一期主要完成系统级的监控,包括对主机、操作系统、数据
库、中间件以及网络的监控。通过对这些设备的监控,及时
有效的提前发现问题,防患于未然,减少技术故障对业务的
影响。
二期主要完成对应用级的监控,包括对综合业务系统、各类
前置系统、各类管理分析系统等等。
三期建成包括设备监控、应用监控、安全监控、流程管理在
内的 IT 服务管理平台,全面提升我行科技产品研发的服务水
平。
九、项目一期建设周期及投资预算
为了保证项目的质量,根据 ITIL 软件开发管理流程,此
项目的建设周期约为 3 个月。
本项目投资主要包括软件部分和硬件部分,其中软件部分包
括监控软件平台及相应模块的使用费和实施费用,硬件部分主要
包括系统监控服务器,以及数据分析展示服务器。