XXXXXXX 政府门户网站维
护项目
运维方案
XXX公司
2017年 5月
目 录
第一章 运维方案 4
运维总体原则 4
整体性原则 4
有效性原则 4
可靠性原则 4
反馈性原则 4
防范预警原则 4
运维服务目标 4
项目运维服务方案 5
运维服务总则 5
安全性 5
稳定性 5
运维服务计划 5
启动阶段和运维体系的导入 6
正常服务阶段 6
收尾阶段 6
运维服务体系 7
IT服务体系的建立 7
IT运维体系的建立 10
系统运维制度建设 12
运维管理机制建设 13
项目沟通机制建设 15
运维保障机制建设 17
运维团队组织 19
组建团队 19
工作岗位设置 21
组织机构 23
人员安排 24
团队建设 26
运维协作环境 28
运维服务内容 28
网站内容保障服务 28
日常巡检服务 29
网站安全服务 32
技术支持 16
其它 18
运维服务交接 26
制定工作交接计划 26
启动交接 27
文档、流程、系统交接 27
运维对象调查及其内容再识别 27
交接工作总结会 27
运维保障服务方案 27
系统安全性保障服务 27
网络安全 27
信息安全 28
设备安全 28
数据安全 30
操作系统安全 32
数据库访问安全 32
系统稳定性保障服务 32
XXX网站 7X24小时网站监控服务 32
访问响应时间监控服务 33
系统故障处理保障服务 38
系统突发事件处理保障服务 39
处理方式 40
应对黑客攻击 40
突发事件紧急处理 41
内容发布响应保障服务 49
网站运维文档保障服务 49
响应时间保障服务 60
工作原则 60
应急处置工作要求 60
应急组织机构与职责 60
应急事件分级 61
应急响应 63
保障措施 68
信息发布 69
后期处置 69
宣传、培训和演练 70
附录 71
XXX专业的客服中心 73
日常工作管理保障服务 73
工作总则 73
服务时间 74
汇报管理 74
问题管理 74
知识库管理 75
服务记录管理 75
第二章 售后服务保障方案 76
售后服务组织机构 76
售后服务规范 77
售后服务方式及内容 79
呼叫中心(内含本项目运维组)79
邮件服务 79
服务网站 80
远程培训 80
投诉受理服务 80
售后服务流程及跟踪 81
售后服务流程 81
售后服务跟踪 84
售后服务保障措施 84
售后服务具体措施 84
售后服务应急措施 85
售后服务档案机制 86
售后服务监督机制 87
售后服务提交文档 87
售后服务承诺 88
第一章 运维方案
运维总体原则
整体性原则
我们将综合考虑 XXX目前所有门户网站相关应用系统的现状,提出整体的运
行维护策略,有效保障系统运行中各环节的不间断运行,并综合使用不同层次的
技术手段,为应用系统和系统依托的基础环境提供全方位的监控管理和服务。
有效性原则
将充分利用各种现代技术手段,选择一款功能丰富、技术先进的系统运维监
控软件,结合科学合理的运行管理机制,对系统的稳定可靠运行提供有效的保障。
可靠性原则
对维护工作中后续应用系统模块的开发设计中,应采用成熟可靠的技术和产
品,同时配合完善的项目控制规范和质量保证体系,保证互联网站的升级维护中
的严格的质量控制,保证系统开发和运行的安全可靠。
反馈性原则
实现运维中发现、需要解决的问题要及时反馈给信息系统的开发商进行完善,
利于优化机构、岗位设置,利于业务流程的改进。
防范预警原则
运维系统中应包含各种预案,争取实现在故障、问题出现时有章可循,在紧
急状态有应急措施,提高运维效率,将故障代价减小到最小。
运维服务目标
按照网站管理处要求,完成与 XXX网站运维相关的日常工作。
项目运维服务方案
运维服务总则
安全性
(1)XXX门户网站及内容管理平台应用的安全性
确保网站能够正常访问;确保网站群动态应用正常,并能够提供正常的服务。
(2)XXX门户网站及内容管理平台数据的安全性
确保数据库中的信息跟网站发布的信息一致;确保数据库数据正确,不被非
法破坏,并且及时做数据库和网站数据的备份,当意外发生时,网站能够及时、
完全恢复;未经许可,不得将网站数据泄漏给其它个人或组织;由专人负责,保
证数据的安全。
稳定性
(1)不间断服务
提供 7*24 不间断服务,专人值守,监控网站;意外情况下,及时通知信息
中心相关负责人,并做好各项应急准备。定期向信息中心相关负责人汇报网站运
营情况。
(2)访问响应时间
监控网站群访问速度,如访问相应时间过长,及时查找原因,并向信息中心
相关负责人汇报;监控网站群动态应用,对影响应用性能方面因素及时预警,并
提出相应解决方案,及时汇报给信息中心相关负责人。
运维服务计划
为了对此次维护服务项目提供良好的管理监控,并对项目中各管理组织之间
的持续运作建立恰当联系,我们把整个项目执行分为三个阶段:
1、启动阶段
项目前期的准备工作,包括服务管理制度流程的建立、人员的到位,运维体
系中各种因素的交接。
我方将在签订合同后的 5个工作日内,提供详细的项目实施工作计划(包括:
项目组成员、运维服务的内容、进度安排、应急预案等)。
2、正常服务阶段
正常的执行资产管理和运营维护。
3、收尾阶段
项目的总结移交并达到有序的结束。
启动阶段和运维体系的导入
在此阶段中,主要执行前期的准备工作,为尽快向客户提供高质量的服务打
好基础。
该阶段主要工作如下:
1、成立维护服务项目组,确定客户与 XXX公司的职责分配
2、相关人员提前到位,提供维护服务的准备工作
3、召开项目启动会议,明确工作范围,制定启动阶段计划
4、项目管理、运营维护等规章制度流程的确定
5、服务工具的安装、运维体系管理文件的草拟
6、与客户方人员一起讨论有关的工作计划和需求
7、系统维护服务实施方案的出台和审核
8、原来的服务商对 XXX 公司的知识、档案转移,XXX 公司进行签收,确保
服务的无缝链接
9、对客户的系统信息进行摸底大调查,建立和更新配置管理数据库
10、对现有系统进行分析,得出改进报告,提交用户
正常服务阶段
项目启动后,新的运维服务体系可以实现完成所有设备维护后,即进入正常
的服务阶段。在正常服务阶段,所有的工作将按照制定的计划进行,并提供服务
级别的承诺。具体的工作如下:
1、服务管理体系和流程的改进
2、正常的维护管理
3、风险评估
收尾阶段
此阶段开始于合同结束前 1个月(如合同继续延期续签,则本阶段工作主要
以总结为主)。这个阶段的主要工作是和客户充分沟通,移交服务期的工作,争
取继续合作的可能。并从此项目的服务实施过程中积极总结经验,以促进提高在
未来的项目中的工作绩效。
1、收集服务期中各部分的服务文档资料。
2、汇总、装订,提交用户并存档。
3、项目评估、总结。
4、向甲方或甲方指定的其他组织进行档案和知识转移,人员培训,确保系
统的稳定运行。
运维服务体系
IT服务体系的建立
XXX公司作为国内积极参与政府信息化建设的大型企业之一,长期以来积累
了丰富的技术支持和运维服务经验,始终视服务为企业生存与发展的生命线,优
秀的服务理念成为我们在激烈市场竞争中所体现的鲜明特色。
IT服务体系整体结构
只有高效、稳定、个性化的本地化服务模式才能满足用户随时随地的服务需
求;也只有迅速的维护响应才能真正保证用户的利益不受损害。因此我们在自身
服务体系的基础上,针对 XXX 政府门户网站内容管理平台运维项目,特定 IT 服
务体系,由响应体系、维护体系和质量监督体系构成,见下图所示:
图1:IT服务体系架构
1、客户需求
在服务协议规定范围内的任何服务请求,包括咨询、问题申报、投诉等。
2、响应体系
第一时间受理客户的需求,以最快的速度解决问题,保障客户系统尽快恢复
正常。
3、维护体系
对客户系统进行主动式服务,发现并解决系统隐患,优化系统性能,并提出
合理的改进和升级建议。
4、质量监督体系
为保障服务的质量制定相关的服务协议,通过满意度调查等方式评估服务的
提供是否正常。
IT服务体系最终都可以通过本次项目建设的 ITIL运维体系落实,响应体系
对应 ITIL 运维体系的“事件管理”,维护体系对应 ITIL 运维体系的“问题管
理”,质量监督体系则通过“运维管理”来实现。
响应体系
响应体系包含服务台和突发事件管理,主要任务是受理客户的服务需求,尽
快恢复客户系统的正常运行。
客户有问题可以通过热线电话、Email与服务台联系,服务台负责接听技术
服务电话、受理客户问题,进行记录,分类并转给相应的工程师处理。二线工程
师负责处理服务台分配的事件或问题,当二线工程师需要技术支持时,可以从公
司总部获第三方获得到技术支持和实验室环境支持。
故障级别 服务请求时间 响应方式、时间
一级故障 7×24 服务台接到服务请求后,即刻响应,服务人员
工作时间内马上到达现场,非工作时间 1小时
内到达,进行现场服务。
二级故障 7×24 服务台接到服务请求后,对于电话未解决故障,
15分钟内再次回应,提供电话技术支持,工作
时间内服务人员 1小时到达现场。
三级故障 7×24 服务台接到服务请求后,30分钟内再次回应,
提供电话技术支持,工作时间内服务人员 2小
时到达现场,或与用户协商
质量监督体系
为保障向客户提供的服务准时高效,质量监督体系是必须的。运维团队和客
户将按照合同的要求,共同制定服务协议书中的各项服务水平要求,以监督保障
所提供的服务质量。
质量监督体系的主要工具是满意度调查,衡量的标准即双方认可的服务水平
要求。
满意度调查制度及时了解客户对我们事件处理情况的重要手段。也是我们不
断改进、完善服务的渠道。
服务满意度调查制度同响应体系事件的调查制度一样,技术服务中心将协同
客户一起定期对提供的服务进行全面的满意度调查,以此来提高服务的质量。
满意度调查结果与服务工程师的当期绩效考核挂钩,作为工程师个人业绩评
价的参考数据之一。
IT运维体系的建立
ITIL 提供了一个概念化、模块化的优秀框架,与其说是解决方案,不如说
它更象理论。它提出了建立 IT 服务管理体系时要考虑哪些流程,提到了应该做
哪些,好处在哪儿,但并不详细介绍怎样去做,因此它本身不具备实际操作可能
性。
我们在长期的运维项目中积累的丰富的经验,根据 XXX门户网站的实际情况,
对 ITIL进行适当选取、适应和扩展:
(1)导入 ITIL是一个长期过程,运维运维初期,以“系统日常运行和支持”为主,
重点解决服务支持(ServiceSupport)流程,对发生的问题进行维护和处理。在
运维后期,运维的服务支持流程步入正轨后,再关注运维服务的长期计划和改进,
考虑服务提供(ServiceDelivery)。
(2)针对 XXX门户网站,运维的主要任务是解决发生的问题,对 IT基础架构进行
基本的配置管理,因此主要实现“服务台”、“事件管理”、“问题管理”和
“配置管理”,至于变更管理在实际运维中,暂时没有系统工具支持,放在后期
在规范流程,并用信息系统化实现。
(3)由于初期运维工作内容多,系统繁杂,人员少,为提高运维人员解决问题的
能力和效率,运维体系扩展加设“知识库”,以提高运维技术的积累、传承、利
用。
经过对 ITIL 体系进行适当选取、适应和扩展,从适合 XXX 门户网站,适合
运维团队完成任务目标为主,我们制定了个性化的运维体系,如下图所示:
图2:IT运维体系架构
个性化的 XXX门户网站运维体系设置“服务台”统一接受各种故障受理,包
括最终用户直接电话或邮件传来的求助信息和运维监控软件过来的自动报警信
息,然后服务台问题分析并归类,力求初步解决用户或系统的故障;不能在线解
决的需求问题,启动“事件管理”和“问题管理”流程,运维人员按照既定的流
程,在“知识库”和“配置管理”的支持下,解决故障,并把积累的经验知识归
入知识库。问题解决后,运维体系反馈于 IT 系统,促使其更好更稳定运行,并
促进其优化和完善。
其中,“知识库”和“配置管理”可以依托运维监控工具实现信息化作业,
而“服务台”、“事件管理”和“问题管理”则仍然依照对应的制度人工操作,暂
时没有信息化系统辅助运行,可以考虑在后期建设运维平台时优先实现。
所有的事件都应该基于影响度、紧急度和优先级进行分类分级,并提供相应
的解决方案和临时方案。
表1:系统运维故障级别定义
故障级别 服务请求时间 响应方式、时间
一级故障 7×24 服务台接到服务请求后,即刻响应,服务人员
工作时间内马上到达现场,非工作时间 1小时
内到达,进行现场服务。
二级故障 7×24 服务台接到服务请求后,对于电话未解决故障,
15 分钟内再次回应,提供电话技术支持,工
作时间内服务人员 1小时到达现场。
三级故障 7×24 服务台接到服务请求后,30分钟内再次回应,
提供电话技术支持,工作时间内服务人员 2小
时到达现场,或与用户协商
注:故障级别描述:
一级故障是指系统发生严重故障,业务发生中断,或虽然业务未中断但已经
无法保证及时、正确的情况,对用户业务的运行有严重影响。
二级故障是指对于系统发生的非严重故障,业务并未中断,业务仍然及时、
正确的情况,但性能有所下降。
三级故障是指系统发生轻微的故障,系统有警告信息等,对系统没有较大影
响的故障。
系统运维制度建设
在信息化运维中,制度建设是一道必要的保障。信息化不能一蹴而就,在信
息化发展到一定阶段,建设重点应该要从系统实施转向以应用运维提升为主,运
维质量保障、安全机制变得重要起来,这时除了技术的保障以外,制度保障越显
得重要。
对于 IT运维团队来说,可从以下几个方面来进行 IT运维制度化:
(一)转变运维观念,树立规范化意识。树立只有建立制度化的 IT 运维意
识,才能在日常繁杂琐碎的工作中有效的区分任务的优先级,将有限的资源投入
到最能满足“客户”需要的工作中。
为保证运维工作,把运维工作和制度化紧紧地捆绑到一起。运维工作很琐碎,
关键在于规范而不是创新。只有各级运维技术人员一丝不苟、老老实实按规范做,
才能够把事情做好。
(二)建立事件处理流程,强化规范执行力度。首先需要建立故障和事件处
理流程,利用表格工具等记录故障及其处理情况,以建立运维日志,并定期回顾
从中辨识和发现问题的线索和根源。建立每种事件的规范化处理指南,减少运维
操作的随意性,在很大程度上降低故障发生的概率。
同时,建立 IT 运维制度非常重要,但是有了制度还要有人去执行,要强化
执行制度比建立制度更重要的观念和意识。
运维管理机制建设
“三分建设,七分管理”,XXX 公司采用多重管理制度,并加强沟通机制,
力求完善建设 ITSM中的服务监督体系。
升级管理机制
升级管理是突发事件管理的重要组成部分。“事件跟踪”将记录从受理用户
问题到派单过程中相关人员所做的处理和建议,保证信息的正确传递,记录内容
将做为我们向用户提供服务及分析和衡量服务水准的依据。
我们将通过服务系统监控事件的全过程,直至服务结束。当出现的问题在承
诺时间内无法有效解决时,“事件跟踪”会自动启用逐级上报升级管理流程,该
流程旨在能真正起到督促问题快速有效解决的作用。我们将和用户一起共同制定
出适合 XXX业务需求的升级流程并指定相应的人员来监督流程的实施。
报告系统
我们将按 XXX信息中心要求定期提供标准报告。
(1)突发事件管理报告
确保用户的电话被接受、解决并记录,服务范畴之外的问题也会转至第三方。
突发事件管理着眼于解决问题的快速,解决问题的高质量,确保用户的满意度并
达到承诺的服务级别。突发事件的出现和解决方法将体现在定期的服务报告中。
(2)问题管理报告
我们将对重复发生的,主要的突发事件进行问题管理,诊断问题的真正原因。
问题管理着眼于获得系统的高可靠,避免问题的再度发生,赢得用户高满意度,
达到承诺的服务级别。经常出现及主要的问题,及相应的解决方法将体现在定期
的服务报告中。
报告内容包含重点问题分析、潜在服务隐患、优化建议等信息。
月、季度总结机制
我们每月、每季与 XXX信息中心召开总结会,共同讨论前一月或季度的服务
执行情况。会议时间建议在该月、季度结束后、下一周或每月 10 日之前,具体
时间可以与 XXX信息中心协商确定。会前双方应沟通和确定议程并在会前提供必
要的报表和报告。
会议主要回顾从上次会议结束到本次会议前一天,我们所提供的服务的绩效,
同时讨论和达成为改善服务必须采取的改进措施和行动步骤。
客户满意度调查系统
以目前的客户满意度调查表格为蓝本,与客户共同协商适用于客户的调查选
项、格式和方法。下表仅供参考,以和用户协商后的调查表为准。
表:运行维护满意度调查表
开始时间 结束时间
□好□较好□一般□差对主机设备使用评价
原因:
对网络设备使用评价 □好□较好□一般□差
原因:
□好□较好□一般□差对运维服务人员评价
原因:
□好□较好□一般□差对整体工作评价
原因:
评价人(签字):日期: 年 月 日
事件信息发布通知
对于机房的服务事件,例如:设备维护、线路维护、网络故障或主机故障等,
运维管理中心通知客户方,内容包括:
1、事件内容
2、事件类型(一般、紧急)
3、发生的时间段
4、影响范围(部分、全部)
5、客户应采取措施(如需要的话)。
投诉管理
(1)XXX 用户可以书面或口头形式对运维商提供服务的服务质量进行投诉。投诉
的受理和处理部门由双方事先约定;
(2)XXX用户可以书面或口头形式对运维商的各部门/各级员工进行投诉;
(3)运维商设立投诉专线受理甲方投诉;
(4)运维商在受理 XXX 用户投诉后的 8 个工作小时内向投诉方提供第一份书面形
式的投诉处理情况报告。
项目沟通机制建设
内部团队沟通
在每个角色组或在特定系统工作的所有角色中每天或定期举行简短的会议,
提供关键的或时间紧迫的系统和业务问题方面的更新和所需行动的更新。
客户可以根据需要浏览的相关信息和分阶段的操作统计数据,如正常运行时
间、客户访问次数、行为趋势、开放问题等等。
在为从发布到生产所作的最后准备工作中与开发和部署组队一起举行的由
开发组主持的会议。这一签收表示所有的开发组都已准备就绪。
实施阶段可以承担产品或系统的运行支持工作了,要分发和阅读(例如
e-mail的格式编写)定期状态报告,提交给 IT管理层,以及针对操作的关键绩
效指标方面的业务内容(例如,依照服务级别协议的量度、服务台日志统计、项
目目标实现进展等等)。
外部客户沟通
同其他任何项目一样,有效沟通是事关本项目最终能否成功的非常关键的一
个环节。鉴于项目本身的建设内容和牵涉到关系的复杂程度,沟通管理自然显得
尤为重要,为此,必须从项目的干系人以及他们之间的工作关系和社会关系出发,
详细分析项目所需的各种沟通环节,对其中最主要的沟通环节制定计划进行专门
的管理,避免项目因为信息沟通不足而陷入困境或造成不必要的损失。
沟通分为三个层面即:执行层面,主要是各干系单位的工作人员就一些具体
工作中涉及的配合问题进行沟通和交流;管理层面,主要是各干系单位的在本项
目及其子项目的项目经理及监理单位,沟通的内容主要是有关项目执行中的重要
事项、活动和决定;决策层面,主要包括业主领导、开发商领导、运维商领导等,
沟通的内容主要是对项目进展过程中间碰到的重大问题的协调、重大事项的决定、
重大事件的见证等。
为了实现充分沟通的目的,将主要设立如下沟通手段。
(1)会议或交谈
按需要组织会议进行沟通,或直接找相关的人进行讨论,注意记录沟通和讨
论结果。每次正式会议都要形成会议纪要,由项目组文秘做会议纪要,并分发到
有关人员手中。
(2)工作联系单
联系单将处理项目执行过程中重要事项的决定、变更或者项目问题报告的多
点沟通的一种正式的形式,一般在其他辅助手段沟通无效的情况下采用。联系单
上须明确所联系事项的内容概要、紧急程度及其解决请求。在出具的联系单中,
一般情况下主送业主或监理单位,抄送其他相关单位,并要求有关单位及时回复
或者解决。在接到需我们解决或回复的联系单后,我们也会在第一时间给出答复
或者采取行动。
项目实施期间所有收发的工作联系单都代表着项目执行过程中的重要活动
的书面依据,都将作为项目执行过程中的档案进行整理存档,在项目终验时移交
给业主。
(3)电话或电话会议
通过电话的方式进行信息沟通。对比较重要的事情,需要包括实施地点以外
的人员,则需要利用电话会议的方式进行讨论,沟通。实践证明,电话是点到点
沟通的最普遍和最常用的形式。
需要声明的是,对于项目中一些重大问题,仅仅通过电话沟通仍然是不够的,
在电话确认以后,仍然需要以备忘录、联系单的形式落实到纸面,作为对这些问
题的最后确认。
(4)书面报告、备忘录和传真
书面报告、备忘录和传真事点对点沟通的相对比较正式的手段,主要考虑用
于对项目过程中的一些重要事件或方案的描述、质询等。
(5)电子邮件
作为现代办公的一种常用手段,电子邮件系统也将成为项目组内部以及项目
组合外部沟通的一种非常重要而且高效的沟通手段,应该视为同书面报告和传真
具有同等的严肃性。
运维保障机制建设
选择了一个合适的运维商,只是运维项目开始的关键一步,如何确实保障项
目走向成功呢?我们认为需要针对 XXX门户网站运维项目成立专门机构,专人专
职,专款专用。
机构保障
建议双方联合成立运维领导小组,增强沟通协调,加强运维组织建设,建立
稳定的运维团队。
在 XXX政府门户网站内容管理平台运维项目启动阶段,我们就高度重视,并
组织人员组建了筹备机构,由丰富经验的资深咨询人员及熟悉政府网站运维的工
作人员共同组成工作小组,广泛研究国内外信息化系统运维经验,深入调研分析,
“尽我所能”,无私奉献我们在大型项目建设及运维经验。
我们在承担此项目后,将成立独立的部门,采用专职部门、专人专职、专款
专用等措施来保障该部门不同于公司其他的项目组织。
人员保障
(一)运维优秀人员
本次项目,我们将按照 XXX要求专门组建运维团队,使运维团队具备娴熟的
技术和广泛的专业知识,系统运维人员具备高超的技能和丰富的经验。
(二)核心人员备选
我们聚集了国内优秀的 IT人员、管理人员,对于进驻 XXX运维部核心人员,
建立备份替补机制,备份替补人员随时可以进入 XXX开始工作。
(三)凝聚人才的企业文化
我们一贯的企业文化,凝聚了大批优秀人才,使整体团队能保持工作激情,
传承知识,从而创造一个高效、团结、和谐的工作环境。
我们所有工作人员在企业文化的洗礼下,具有良好的职业素质和道德品质,
面对具有历史使命的工作任务,不会讲任何条件,作为战略合作伙伴,坚决服从
XXX信息中心领导,服务好 XXX政府门户网站内容管理云服务平台!
(四)规范管理规避人员流动风险
通过建立规范的软件开发管理、项目管理、IT 服务管理、运维管理等管理
体系,和科学的咨询方法等诸多知识体系,保障运维工作的开展,弱化个人能力
对整个运维项目的影响,把人员流失造成的风险降低到最低。
根据我们以往的经验可以证明,我们有能力使人员流失的风险在可控范围内。
(五)人员调动须经同意
本次项目的所有人员调离,都要和 XXX信息中心协商,经 XXX信息中心同意
后方可进行。
培训和技术保障
加强对运维人员的培训,提高技术保障能力,成功有效地实施和运营服务管
理流程。除此之外,培训还有以下几个方面的作用:
1、促使所有相关人员清楚和理解 ITIL计划和有关术语;
2、为相关人员提供讨论的平台;
3、为发现和减少可能的问题和不正确的实施方法提供了平台和知识;
4、帮助发现缺乏的技能并采取相应改进措施;
5、提供大量的培训流程所需的资源。
积极参与 XXX信息化建设
我们运维团队在完成运维任务的同时,将积极参与 XXX的信息化项目建设,
促进系统统筹规划,集中管理,利于运维交接,便于维护。
(一)参与统一规划管理
根据 ITIL 体系外围工作要求,IT 运维还要结合“IT 规划管理”和“IT 基
础架构”的工作,因此我们将积极参与 XXX信息中心的信息化建设规划,通过统
筹规划,设立信息化战略目标,制定信息化建设规范,解决系统结构不一、开发
混乱、成本居高、维护困难、信息孤岛林立、难以集中管理的局面。ITIL 体系
反馈于 IT系统,促进互联网站更好的完善和发展,同时也使运维更加轻松容易。
(二)参与其他系统建设
另外,IT 运维还要结合“业务管理”和“应用管理”的工作,我们将把业
务目标作为运维部门的战略目标,协调技术和业务发展之间的关系,积极参与业
务部门的需求分析、业务系统的开发建设、系统的测试上线等工作。
运维团队组织
组建团队
组建原则
(1)项目运维团队将提供 7*24小时应急响应服务能力,在遇到突发情况时
及时响应解决问题。
(2)项目实施人员具有良好的职业道德,不损害用户利益。
(3)驻场工程师配置具备完全的稳定性,不出现一个岗位角色频繁更换人
员的问题,以便保证工程师对系统的了解和认知,保证运维工作的质量。
(4)美工配置具有良好的网页及平面设计能力、丰富的网站制作经验,精
通美工软件 Photoshop、Illustrator等,熟悉、css、dreamweaver等。
(5)在项目实施过程中不随意变换所拟派的项目经理。
基于以上组建团队原则,本次项目的团队将由 XXX公司的政府网站运维技术
人员组建,科学地分析运维任务,拟定角色职责,设立工作岗位,组成运维机构;
再根据人员的技术组成,指定其角色和岗位,这样三定(定人员、定角色、定岗
位)后,形成的运维团队专人专职、人尽其才、角色交叉、技能备份,能高效、
可控地执行运维工作。
人员角色
IT 服务管理是以流程为中心的,针对每个流程,定义了一系列的角色,每
个角色被赋予特定的职责和任务,实现责权利的统一。一个角色可能需要多个运
维人员来承担,同样一个运维人员有时也可能承担多个角色。
(1)任务需求
1)网站应用系统日常维护
维护人员对所管理的网站应用系统进行每日巡检,包括对磁盘空间、系统日
志、系统资源占用、访问性能等的检查。
2)网站系统日常监控
对网站系统每天的运行进行监控,及时发现系统的故障,确保系统的可靠稳
定运行,并在日常监控的基础上进行安全事件积累、分析。
3)网站内容监控
维护人员每日完成对 XXX网站栏目、内容的巡检,对每日网站信息摆渡工作
进行监控,为网站信息发布提供技术咨询和技术支持,解答和解决网站发布系统
使用过程中出现的问题。
4)网站内容维护
完成 XXX网站主站页面、英文版及相关栏目内容的维护;公众互动板块各栏
目的维护;XXX网站内容管理系统用户管理等工作。
5)网站栏目调整
指导各单位完成网站栏目、图片和样式的管理,提供阶段性栏目或栏目内容
调整、程序修改、信息发布等服务。
6)数据统计
在对网站系统和内容进行监控的基础上,对网站访问量等基础数据进行统计,
提供每日统计报表,并根据实际工作需要,进行网站数据统计工作。
7)网站应用系统完善
针对使用过程中提出的网站应用系统改进和完善需求,及时响应小范围应用
软件调整的需求,不断完善网站应用系统。
8)网站系统安全测试
积极配合信息中心开展网站系统安全性测试工作,并协助对测试中发现的应
用系统问题进行改进。
9)网站信息系统调整
积极配合 XXX信息中心开展网站信息系统建设调整工作,包括实现网站信息
的分库存储、备份网站系统完善方案和测试系统建设、网站部分历史数据的梳理、
补充及信息中心根据网站工作需要提出的其他调整任务。
10)完成 XXX信息中心交办的与网站系统相关的其他工作。
(2)所需角色及职责
1)运维经理
职责:根据客户方的需求,协调资源完成客户方交办的各项工作
2)技术支持工程师
职责:对网络设备资源信息、服务器资源及网络带宽资源利用综合管理,进
行网络拓扑监管、涌塞监测、端口管理、路由管理、性能监视、流量分析、状态
监视、CPU,内存,DMA,I/O,DISK,进程等资源。
负责操作系统、数据库系统、应用中间件系统、邮件系统等基础系统软件进
行维护和监管,包括监控数据库系统、Web、文件、进程、Mail、应用中间件、
FTP、DNS、HTTP等。
3)流媒体工程师
职责:根据客户方的需求,编辑、录制视频并进行发布。
4)网站开发工程师
职责:对用户发现的系统中的 bug和小的系统调整进行程序修改和完善;对
现行互联网站中新增版块的需求,应协助进行需求分析,起草需求分析报告,然
后根据需求组成开发小组,完成模块的开发、上线工作;适当参与 XXX内部新建
互联网站的开发工作,了解系统的整体架构和设计开发的全过程。
协助信息中心进行新开发的互联网站的用户测试工作;对新增版块,完成模
块的测试,协助上线工作。
5)美工设计
职责:业务系统的页面美术设计改善,新增模块的美术设计。
6)中文编辑
职责:负责网站主站页面及相关栏目内容的维护。
7)英文编辑
职责:负责英文网站页面及相关栏目内容的翻译、维护的工作。
工作岗位设置
(一)管理岗
运维管理岗配置运维经理,主要职责为:
1)负责整个运维服务项目的具体组织和管理。
2)制作详细的运维方案,在运维过程中及时动态地调整方案,提高工作效率,保
证服务质量。
3)给各个管理小组分配任务,随时监控每个小组的运维管理情况,控制服务质量。
4)作为与用户间的接口,负责向用户汇报运维情况、变更需求等情况,并及时将
有关要求反馈给管理小组。
5)接受用户投诉和协调用户需求的变化,及时反馈制订应急计划,报告项目领导
小组和用户负责人。
6)召集季度总结会和工作协调会。
(二)技术岗
1)技术支持工程师
主要职责:
a)负责网站软、硬件平台日常运维。
b)负责网络设备、服务器、存储设备、安全设施等硬件平台的运行和监控。
c)负责服务器操作系统、数据库系统、应用中间件系统等基础系统软件的安装、
配置、和应用系统接口、运维及关闭。
d)负责维护数据报表系统的运行,管理数据库表,清除垃圾数据,按时数据更新,
产生临时报表。
2)中文编辑
主要职责:
e)负责网站主站页面及相关栏目内容的维护。
f)负责中文版网站主站栏目日常信息编辑、更新发布。
g)负责网站专题专栏选题、栏目策划,信息编辑发布工作。
3)流媒体工程师
主要职责:负责编辑、录制视频并完成在线发布工作。
4)网站开发运维工程师
主要职责:
a)负责软件开发等应用软件相关的运维工作。
b)负责对 XXX现有应用系统进行二次开发工作。
5)美工
主要职责:
(1)负责网站页面设计及专题、专栏页面设计工作。
(2)负责网站 LOGO图片设计制作、页面动画制作等工作。
6)英文编辑
主要职责:负责英文网站页面及相关栏目内容的翻译、日常信息维护的工作。
组织机构
在运维组织设计中,将重点考虑人员、角色、岗位三个因素。而本次运维项
目,XXX公司将综合职能型组织、矩阵型组织和项目型组织,建立组合型组织架
构,既有职能部门完成日常运维工作,又可以为完成各项临时小规模项目开发而
设立矩阵型组织或项目型组织。
XXX 信息中心和我们共同组建成立“运维联合领导小组”,由双方相关领导
组成,主要进行高层协调,制定战略、划清目标,保障运维工作顺利完成。
我们将按照组织机构的工作岗位及角色职责,统筹人力资源,抽调精兵强将,
组建专门部门“XXX 门户网站运维部”,下设工作台、硬件集成支持组、软件集
成支持组、软件开发支持组和内容维护组。“中国 XXX 门户网站运维部”实际派
驻不少于 4人在 XXX现场,属于“一线”支持人员。
疑难问题会商解决、小规模软件开发等将协调公司总部的其他人员参加,如
项目中心、研发中心的技术骨干、软件开发工程师等,属于“二线”支持人员。
个别问题还会涉及到第三方支持,包括原厂商、合作伙伴、其他专家顾问等,
属于“三线”支持人员。
“二线”和“三线”支持人员不派驻现场,仅是在运维流程需要的时候才参
与其中,流程结束,人员也将退出。
(一)故障分级支持
针对 XXX政府门户网站内容管理平台运维服务项目,我们将组建现场一线、
公司总部二线、外援三线不同技能和专业水平的服务团队,按照基于 ITIL 的服
务流程提供服务。
1、一线
服务台是面向客户的统一服务接口,负责受理客户提出的服务需求(包括故
障申告);负责对服务范围内的服务需求(包括故障申告)进行处理和任务分派,
并跟踪和反馈处理情况;派驻现场一线的技术支持人员接受故障任务分派后,进
行不同岗位的处理和协作。
2、二线
由公司总部技术专家、技术骨干、软件工程师组成,负责解决现场派驻服务
不能解决的问题。
3、三线
由第三方供应商、高级技术专家、顾问等组成,负责协助现场服务组处理故
障,必要时赴现场处理故障;主动发现、分析和解决问题;负责提供远程监控及
按需现场服务中的其他相关服务。
(二)技术结构全面
运维人员的技术掌握全面,涵盖软硬件整个层面。硬件方面掌握主流多种网
络设备、服务器设备、安全设施、存储器设备等;系统软件方面熟悉 Windows、
Unix、Linux 三大主流操作系统,Oracle、SQLServer、DB2 等大型数据库,
WebSphere、WebLogic、Tomcat、IIS 等多种应用中间件;软件开发方面深入掌
握 J2EE和 Net两大体系,精通 B/S开发,精通多种语言。
(三)关键角色备份
运维项目中主要涉及到的技术角色有“硬件集成”、“软件集成”、“数据管
理”、“内容维护”、“软件开发”、“软件测试”和“美工设计”等,在关键角色职
责方面,大部分都可以由 2人以上担任,即关键角色重叠备份,提高技术储备能
力和实际运维水平,同时也可以防范人员流动造成的部分技术空白风险。
人员安排
XXX运维团队人员安排如下:
序号 类型 人数 姓名 主要工作内容 经验 认证
1 运维经理 1 根据客户方的合理
需求,协调资源完成
客户方交办的各项
工作
6年工作经验,具
有政府网站运维
管理经验。
PMP认证
2 系统架构
工 程 师
(技术支
持工程师)
1 网站软、硬件平台日
常运维
7年政府网络、系
统、数据库、中间
件运维经验。
高 级 程
序员
3 系统架构
工 程 师
(技术支
持工程师)
1 网站软、硬件平台日
常运维
6年政府网站网
络、系统、数据库、
中间件运维经验。
网 络 工
程师
4 中文编辑 1 网站主站页面及相
关栏目内容的维护。
6年政府网站从
业经验,能够熟练
使用 XXX 网站信
息管理系统。
5 中文编辑 1 网站主站页面及相
关栏目内容的维护。
6年政府网站从
业经验,能够熟练
使用 XXX 网站信
CEAC 国
家 信 息
化 计 算
息管理系统。 机 教 育
认证
6 英文编辑 1 英文网站页面及相
关栏目内容的翻译、
维护的工作
5年相关工作经
验。
英 语 专
业八级
7 流媒体工
程师
1 编辑、录制视频并进
行发布
6年政府网站从
业经验,熟悉各类
媒体文件特性。
高 级 程
序员
8 网站开发
工程师
1 网站系统改版开发 8年网站开发经
验;具备基于 XXX
网站现有内容管
理系统进行二次
开发能力。
高 级 软
件 工 程
师证书
9 美工 1 网站页面设计及专
题、专栏页面设计
6年以上相关工
作经验。
网 页 设
计师,信
息 产 业
部 通 信
行 业 职
业 技 能
鉴 定 指
导中心
团队建设
人员培训和发展
IT 运维人员的培训与发展是 IT 运维组织充分挖掘人力资源潜力的一项重
要活动。培训的目的和作用是:
1、通过传递和交流知识(信息),提供给有关人员必要的技能,使其成功有
效地实施和运营服务管理流程;
2、加速实现持续服务改进计划的预期效益并最大化整体计划成功的可能性;
3、促使所有相关人员清楚和理解整体计划和有关术语;
4、为相关学习小组提供讨论的平台;
5、为发现和减少可能的问题和不正确的实施方法提供了平台和知识;
6、帮助发现缺乏的技能并采取相应改进措施。
培训的必要性
首先,从培训接受者的角度看,培训可能是对其前期工作成绩的奖赏或是长
期工作后的一种调剂。但实际上培训是提供高质量产品和服务所必不可少的一项
工作,它有助于员工理解组织和客户双方的需求,从而提高他们的工作效率和反
应速度。
其次,从组织的角度看,即使培训花费很大且很难计算投资回收,一个训练
有素和知识渊博的员工更能理解客户和组织双方的要求,并能更灵活、迅速和有
效地处理这些要求。
再次,从客户的角度看,服务人员的灵活性、反应速度、理解能力、移情程
度(认同和理解别人的处境、感情和动机)及产品和服务知识都是影响其满意度
的重要因素。因此,提供服务的组织必须使员工具有适当的技巧、知识和能力并
能跟上商业、客户和行业发展趋势和最佳实践。
最后,很明显,如果提供新的产品和服务给客户,就必须先使员工对这些产
品和服务有个全面清楚的了解。这只能,并且最好是,通过培训完成。
培训对象
确定谁应该接受培训很大程度上取决于这个人的工作任务和责任。通过分析
培训需求,发现不足,确定相应需要培训的人员,并根据实际情况制定培训计划。
确定接受培训的人员还需考虑组织和客户的业务需求。经常我们会犯的错误
是过度重视技术方面的培训而忽略了业务和客户。
此外,确定某人是否要接受培训或接受何种程度的培训还要考虑这个人所承
担的任务和责任。任务越多,责任越大,则他接受的培训应该越广泛和深入。比
如,服务台经理可能就需要接受全面的 IT 服务管理经理层次的培训以理解和确
保服务台职能与其它关键管理流程如变更管理、问题管理和配置管理之间的协调,
同时他还应该接受服务台专业级的培训以获得必要的发展和管理所需的技能。
培训计划
(1)培训要有计划。最好在持续服务改进计划中就制定整体培训计划。这
样可以确保整个培训活动是根据组织现状及业务和客户需求制定的,并提早安排
进行培训所需资源和解决培训过程中可能会出现的问题,此外,它也有利于员工
预先了解自己需要提升之处和需要参加的培训活动并提前做出安排,避免影响正
常工作。
(2)培训就像前面提到的“管理沟通”一样,不是“一劳永逸”。它要根据
情况的发展、客户需求和期望的变化做出相应的局部或全面调整。
(3)培训讲求的是实际效果,要避免“走过场”。为此,可以强行规定某些
员工在规定时间内必须通过某个级别的认证考试,比如 IT 服务管理基础认证、
专家认证和经理认证。
培训方式与内容
培训方式也是一个要考虑的关键问题。主要有五种:
1、外部培训课程;
2、内部培训课程;
3、程序化教学(计算机辅助教学、远程教学和电子教学);
4、讲座或研讨会(特别适合于针对某个特定主题的);
5、在岗培训;
到底采用哪种方式受到多个因素的影响,包括培训对象、业务需求和客户需
求等。
培训内容主要包括:
1、业务知识;
2、各种技能;
3、ITIL体系;
4、软技能(沟通、倾听和谈判等);
5、运维制度和工作守则等。
运维协作环境
为了保证网站运维的质量及响应时间,XXX信息中心向 XXX公司公司针对本
项目组建的运维团队提供以下协作环境:
(1)提供给服务商现有的网站运维相关资料、技术相关权限。提供运维项目基本
设备、技术资料及相关原厂服务。
(2)提供临时驻场工位 4至 5个、网络接入端口、接入方式、内外网接入设备等,
提供相应技术接口人协助驻场人员及相关人员工作。
(3)提供驻场人员服务期间入场权限、准入许可。包括入场权限、系统准入权限、
机房准入权限、网络接入权限、相应管理制度。
(4)提供招标方购买的第三方服务,协调第三方服务人员配合服务商进行系统故
障恢复。
运维服务内容
网站内容保障服务
XXX 公司应遵照现行的 XXX 网站内容管理系列制度及工作流程完成以下工
作:
(1)按照 XXX 网站内容管理规范,完善和改进 XXX 网站主站及 XXX 机关各子网站
建设和管理工作;进行 XXX网站的日常内容采集、加工、上传、分发、管理;完
成年度内不少于一次的网站改版工作;
(2)XXX 英文版网站内容维护,包括网站内容翻译、互动留言收集整理翻译、英
文信息发布等;
(3)公众互动板块各栏目的维护;
(4)XXX网站内容管理系统用户管理;
(5)实施《网站业务工作单》中指定的工作内容;
(6)XXX网站整体版面优化、结构调整的建议、策划和实施;
(7)国家重大节日、重大会议、重大事件期间的 24小时编辑响应服务;
(8)视频信息的数据发布工作;
(9)制作 XXX网站工作简报(每月)。
日常巡检服务
现场日常巡检服务是 XXX公司对 XXX数据库设备进行全面检查的服务项目,
通过该服务可使客户获得设备运行的第一手资料,最大可能地发现存在的隐患,
保障设备稳定运行。同时,XXX公司将有针对性地提出预警及解决建议,使客户
能够提早预防,最大限度降低运营风险。
日常巡检安排
公司安排定期(每月/每天/上午下午各一次)例行巡检和预防性维护,内容
包括:
(1)设备运行物理状态(每月/次);
(2)电源稳定性和线路检查(每天/次);
(3)系统性能检查(每月/次);
(4)逻辑卷检查(每月/次);
(5)内存交换区检查(每月/次);
(6)系统硬件诊断(每月/次);
(7)数据安全存储检查(每天/次);
(8)数据备份状况(每天/次);
(9)系统错误报告的分析、记录和清理(每天/次);
(10)及时更换损坏的或有潜在故障的部件(每月/次);
(11)设备物理检查(包括机体、风扇、风道及过滤器等)与清洁(每月/次);
(12)针对巡检工作应提交完善的巡检报告,并且存档、编辑成册,每月月初提交,
以便日后清查。
(13)XXX 网站数据库的巡检工作,XXX 网站数据库日常监控,每日至少 2 次,分
上下午分别进行。
出具巡检报告
提供故障报告等触发性报告。
1、日常巡检报告等日常报告。
2、周报、月报、季报、半年报、年报等总结性报告。
报告内容包括:检查内容、操作步骤、检查结果、操作人、操作时间、意见
与建议等。
硬件巡检列表(在用)
序号 设备型号 设备用途 数量(台)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
虚拟机巡检列表(在用)
序号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
软件巡检列表(在用)
网站安全服务
(1)XXX网站 7X24小时网站监控服务
(2)网站安全性检查
按照 XXX网站技术规范和安全管理规范,对网站应用软件、中间件以及数据
库进行日常安全性检查。
(3)网站服务器以及网络安全性检查
按照 XXX网站技术规范和安全管理规范,定期对服务器操作系统进行安全性
检查以及进行系统杀毒;负责 XXX内网论坛(discuz)安全;负责网页防篡改软
件(IGuard)安全。
(4)数据库备份及备份验证
按照 XXX网站技术规范和安全管理规范,对网站数据库进行定期备份以及备
份恢复验证,保证数据的安全性、准确性、完整性和可用性。XXX网站数据备份
及数据恢复,根据网站情况目前均采用本机进行数据备份及恢复。
XXX网站 7X24小时网站监控服务
监控原则
(1)我们将对系统进行 7*24不间断监控;
(2)监控岗保证一直有人值守;
(3)每日分别于上、下午对服务器进行巡检,并于当天提交运维监控报告;
监控方案
(1)网站访问监控
在网站访问监控功能中,系统监控内容包括网站名称、网址、监控类型、最
后检测时间、响应时间及本日产生的上传下载流量等。点击“查看”后可查看更
详细的网址监控项目,包括响应时间、连接数、网络流量,以及浏览用户在网站
提交的纠错内容等。
1)响应时间
每间隔指定时间 Ping 指定的网址,并从返回的值中计算指定网站的响应时
间。
监控详情:点击菜单“网站访问监控”-“网站访问监控详情”,系统在列表
中显示每个已经添加并指定需要监控的网址,并在列表中显示该网址的响应时间。
数据采集:系统按照在“监控网址管理”中的设置,按指定间隔 Ping 出该
网址的响应时间,并将数据保存至监控数据库中。
2)连接数
每间隔指定时间,取得指定网站的连接数。
监控详情:点击菜单“网站访问监控”-“网站访问监控详情”,系统在列表
中显示每个已经添加并指定需要监控的网址,并在列表中显示该网址的当前连接
数量。
数据采集:系统按照在“监控网址管理”中的设置,按指定间隔测试该网址
的当前连接数量,并将数据保存至监控数据库中。
3)网络流量
每间隔指定时间,取得并统计指定网站的网络流量,上传和下载流量分别显
示。
监控详情:点击菜单“网站访问监控”-“网站访问监控详情”,系统在列表
中显示每个已经添加并指定需要监控的网址,并在列表中显示该网址的累计网络
流量。
数据采集:系统按照在“监控网址管理”中的设置,按指定间隔测试该网址
的累计网络流量,并将数据保存至监控数据库中。
4)网站页面纠错
在特定(或全部)页面嵌入脚本,当浏览的用户发现页面内容有误时提交后,
管理员可以从此功能中发现有误的内容并根据实际情况修正。
监控详情:点击菜单“网站访问监控”-“网站内容纠错”,系统在列表中按
日期显示每个页面链接及提交的错误内容,以供管理员参考并更正。
数据采集:当浏览的用户发现页面内容有误时,可以通过选中内容然后按一
个快捷键(如 Ctrl+Enter)提交,页面直接保存相关信息至数据表中。
5)统计分析
针对网站监控中的各项指标进行统计分析,统计的条件包括时间范围、网址
及指标值范围等。
监控情况统计表:统计指定时段内,网站各项监控指标的监控值。
监控预警趋势表:统计指定时段内,网站监控指标的统计值及趋势走向,同
时以表格和图表形式展示。
监控预警统计表:统计指定时段内,全部(或指定)网站中,已经产生的
(邮件或短信)预警的次数。
6)监控网站管理
添加需要监控的网站,从网址或 IP 确定需要监控的网站页面。可以选择哪
些设备需要发送告警信息。预警级别分为两级,预警级别(蓝色)及告警级别
(红色),达到告警级别后系统将按设置发送邮件或短信对管理员进行提醒。
可以更改每个网址的序号,在网址访问监控界面列表显示时,以序号为顺序
升序显示。勾选“是否监控”并保存后,系统开始以指定的频率读取相关的监控
数值并保存。
(2)设备监控
在设备监控界面中,列表显示了全部设备的最近一次监控情况,包括设备名
称、IP、最后检测时间、各项监控数值及设备状态是否正常等。可以在左上方选
择不同的分组以关注不同分组的设备,也可以勾选右上方的“仅显示异常服务器”
以迅速找到运行异常的设备。
1)Ping返回时间
每隔一段时间,首先 Ping 设备判断设备是否能正常连接,以及连接所需的
时长等,较长的返回时间或无响应通常表示设备可能已经发生故障。
监控详情:点击菜单“设备监控”-“设备监控详情”,系统在列表中显示每
台已经添加并指定需要监控的计算机设备,并在列表显示该计算机设备的 Ping
返回时间。
数据采集:系统按照在“监控设备管理”中的设置,按指定间隔读取该计算
机设备的监控数值,并将数据保存至监控数据库中。
2)CPU使用率查询
每隔一段时间,检测目标计算机上 CPU的使用率情况。CPU使用率反映的是
当前 CPU的繁忙程度。
监控详情:点击菜单“设备监控”-“设备监控详情”,系统在列表中显示每
台已经添加并指定需要监控的计算机设备,并在列表显示该计算机设备的 CPU使
用率情况。
数据采集:系统按照在“监控设备管理”中的设置,按指定间隔读取该计算
机设备的 CPU使用率,并将数据保存至监控数据库中。
3)CPU负载
每隔一段时间,检测目标计算机上 CPU的负载情况。CPU负载指某段时间内
占用 CPU时间的进程和等待 CPU时间的进程数,这里等待 CPU时间的进程是指等
待被唤醒的进程,不包括处于 wait状态进程。
监控详情:点击菜单“设备监控”-“设备监控详情”,系统在列表中显示每
台已经添加并指定需要监控的计算机设备,并在列表显示该计算机设备的 CPU负
载情况。
数据采集:系统按照在“监控设备管理”中的设置,按指定间隔读取该计算
机设备的 CPU负载,并将数据保存至监控数据库中。
4)内存使用率
每隔一段时间,检测目标计算机上内存情况。内存使用率指已经使用的物理
内存与全部物理内存的比率。
监控详情:点击菜单“设备监控”-“设备监控详情”,系统在列表中显示每
台已经添加并指定需要监控的计算机设备,并在列表显示该计算机设备的内存使
用率情况。
数据采集:系统按照在“监控设备管理”中的设置,按指定间隔读取该计算
机设备的内存使用率,并将数据保存至监控数据库中。
5)磁盘空间使用率
每隔指定时间,检测目标计算机上磁盘空间使用率情况。
监控详情:点击菜单“设备监控”-“设备监控详情”,系统在列表中显示每
台已经添加并指定需要监控的计算机设备,并在列表显示该计算机设备的磁盘使
用率情况。
数据采集:系统按照在“监控设备管理”中的设置,按指定间隔读取该计算
机设备的磁盘使用率,并将数据保存至监控数据库中。
6)网络流量
间隔指定时间,检测目标计算机上网络流量情况,包括网络上传流量与网络
下载流量。流量可简略反映计算机的网络传输流量是否在正常范围内。
监控详情:点击菜单“设备监控”-“设备监控详情”,系统在列表中显示每
台已经添加并指定需要监控的计算机设备,并在列表显示该计算机设备的网络上
传下载流量。
数据采集:系统按照在“监控设备管理”中的设置,按指定间隔读取该计算
机设备的网络流量,并将数据保存至监控数据库中。
7)系统进程数
每隔一段时间,检测目标计算机上系统进程数量。系统进程数量表示当前监
控的计算机在运行中的进程,进程越多,通常占用的 CPU及内存资源也越多。
监控详情:点击菜单“设备监控”-“设备监控详情”,系统在列表中显示每
台已经添加并指定需要监控的计算机设备,并显示该计算机设备的系统进程数量。
数据采集:系统按照在“监控设备管理”中的设置,按指定间隔读取该计算
机设备的,并将数据保存至监控数据库中。
8)统计分析
针对设备监控中的各项指标进行统计分析,统计的条件包括时间范围、设备
名称及指标值范围等。
监控情况统计表:统计指定时段内,设备各项监控指标的监控值。
监控指标趋势表:统计指定时段内,设备监控指标的统计值及趋势走向,同
时以表格和图表形式展示。
监控预警统计表:统计指定时段内,全部(或指定)设备中,已经产生的
(邮件或短信)预警的次数。
9)监控设备管理
添加需要监控的设备,从 IP及端口唯一指定需要监控的设备,并加以描述。
可以选择哪些设备需要发送告警信息。预警级别分为两级,预警级别(蓝色)及
告警级别(红色,达到告警级别后系统将按设置发送邮件或短信对管理员进行提
醒。
可以更改每个网址的序号,在网址访问监控界面列表显示时,以序号为顺序
升序显示。
在列表中可以设置每个设备的分组信息,如“外网服务器”、“内网服务器”
或“网络设备”,以查看监控情况时能迅速查看及判断设备监控情况。
勾选“是否监控”并保存后,系统开始以指定的频率读取相关的监控数值并
保存。
(3)应用服务监控
监控指定应用服务(如 Apache、WebSphere 及 Tomcat 等)的运行情况,并
对无法连接的应用服务,以及监控指标超过指定阈值的情况进行邮件或短信告警。
对于 WebSphere的监控,很可能无法取得相关的监控项目值,在这种情况下
可能需要通过 TivoliPerformanceViewer工具来获得监控项目和数据。
(4)数据库监控
监控指定数据库实例的运行情况,并对无法连接的数据库,以及监控指标超
过指定阈值的情况进行邮件或短信告警。
日常检查监测表格
网站日常监测表格
监测时间:年月日星期一(8:30---17:00)记录人:
服 务 器
IP
服务器
功能
监测项目 检测方法 正常
范围
实测
情况
结果 备注
IE浏览
密码应有复杂度的要求,包括:
•长度至少 6位,支持字母和数字共同组成。
•在客户设置密码时,应提示客户不使用简单密码。
web应用
会话安全:
•会话标识应随机并且唯一。
•会话过程中应维持认证状态,防止客户通过直接输入登录后的地址访问登
录后的页面。
防止敏感信息泄漏:
•禁止在 Web应用服务器端保存客户敏感信息。
•应对 Web服务器设置严格的目录访问权限,防止未授权访问。
防止 SQL注入攻击:
•Web服务器应用程序应对客户提交的所有表单、参数进行有效的合法性判
断和非法字符过滤。
•禁止仅在客户端以脚本形式对客户的输入进行合法性判断和参数字符过
滤。
防止跨站脚本攻击:
•应通过严格限制客户端可提交的数据类型以及对提交的数据进行有效性
检查等有效措施防止跨站脚本攻击。
防止拒绝服务攻击:
应防范对门户网站群服务器端的 DOS/DDOS 攻击。可参考的应对措施包括但
不限于:
•与电信运营商签署 DOS/DDOS防护协议。
•防火墙只开启业务必需的端口并开启 DOS/DDOS防护功能。
•使用 DOS/DDOS防护设备。
•使用 IDS/IPS设备监控并阻断恶意流量。
•使用负载均衡设备。
数据安全
日志管理
•严格控制系统日志的访问权限,只有工作需要并通过审批的岗位人员才能
查看系统日志。
•定期检查日志,对其中可疑的记录进行分析审核。
•及时将日志备份到其他服务器或安全介质内。
灾难备份和恢复
•应建立重要数据的定期数据备份机制,至少每天进行一次数据增量备份,
并将备份介质存放在安全区域内。同时对备份介质的访问必须是经过申请和授权
的。
•应对系统数据进行异地的备份。
•应制订灾难恢复计划并定期进行测试,确保各个恢复程序的正确性和计划
整体的有效性。
应急数据备份
应在 XXX门户网站内容管理平台统一的应急预案框架下,制订针对不同事件
的应急预案,应急预案至少包括各类事件场景下启动应急预案的条件、应急处理
流程、系统恢复流程等内容。
应对门户网站相关人员进行应急预案培训。
应制订应急预案演练计划,定期对门户网站群应急预案进行模拟演练。
网站内容
应按 XXX信息中心网站管理处的要求对上网发布的内容进行审核。
确保网站发布的内容的正确、完整,同要求发布的信息一致;确保网站发布
的内容同发布系统中的信息一致;确保网站发布的内容不被非法篡改;由专人负
责网站内容的审核发布,保证网站内容的安全。
互动内容里若出现乱码、广告信息、非法信息、反动言论等,必须记录下相
关的信息,包括提交的时间、IP地址、内容等,便于做进一步处理。
信息发布内容不要添加不必要的外部链接。
各部门内容保障人员对本部门网站维护的内容信息,必须在本地保存至少 3
个月以上。
另我公司承诺在参与本项目过程中,对于 XXX信息中心提供的任何形式的任
何信息(包括技术信息和内容信息)均为保密信息,仅可用于完成本项目规定的
工作任务,除此之外,我方绝不出于任何目的、通过任何途径使用本保密信息。
非经 XXX信息中心书面同意,我方绝不就本项目的保密信息在任何媒体上出版、
发表声明、发布任何文件或其他书面或印刷资料。非经 XXX信息中心书面同意,
我方绝不将保密信息透露或复制给任何第三方。否则 XXX信息中心有权追究我方
由此产生的一切责任。
本项目终止或 XXX信息中心提出书面要求后,我方将立即销毁所有含保密信
息的材料及介质,不保留任何副本、摘录和其他部分或全部复制品,并销毁一切
有关的电子文档信息。
操作系统安全
超级用户的口令要求不能过于简单,长度不能小于 8个字符,且要求由字母
和数字组合而成。口令每月修改一次,修改后,形成密码文件,记入配置管理数
据库,且该文件只能由系统管理员访问。并且,超级用户将不允许远程登录。
高权限 oracle 用户,用户的口令要求不能过于简单,长度不能小于 8 个字
符,且要求由字母和数字组合而成。口令每月修改一次,修改后,形成密码文件,
记入配置管理数据库,且该文件只能由 DBA访问。
创建普通工作用户,该用户将用于日常操作检查等。
关闭 FTP服务,日常服务器将关闭 FTP服务,如果需要有文件上传,可通过
系统管理员进行上传,特殊情况将由系统管理员临时打开 FTP服务,文件上传完
成后,关闭 FTP服务。
数据库访问安全
数据库 DBA 用户的管理。针对数据库的两个超级用户 system 和 sys,口令
长度要求不能过短,至少大于 8个字符,并且字母数字相结合。同时,这两个超
级用户的口令每月修改一次,修改后的密码,形成密码文件,进入配置管理数据
库,且该文件只能为 DBA读取。
数据库查询用户的管理。为用户查询创建独立的查询用户,用户口令简单明
了,容易记忆,同时,要求该用户只能访问业务表,并且只有 select 权限,不
能访问任何系统表。
系统稳定性保障服务
XXX公司按照 XXX对网站稳定性的服务要求,采用人工或技术手段对网站系
统的相关指标(页面响应时间、CPU及内存占用率)进行实时监控,在网站系统
出现服务能力降低等异常情况时及时告警,并提供 7X24 小时不间断访问、访问
响应时间的全面保障措施。
XXX网站 7X24小时网站监控服务
(1)我们将对系统进行 7*24不间断监控;
(2)监控岗保证一直有人值守;
(3)每日分别于上、下午对服务器进行巡检,并于当天提交运维监控报告。
访问响应时间监控服务
网站访问
在网站访问监控功能中,系统监控内容包括网站名称、网址、监控类型、最
后检测时间、响应时间及本日产生的上传下载流量等。点击“查看”后可查看更
详细的网址监控项目,包括响应时间、连接数、网络流量,以及浏览用户在网站
提交的纠错内容等。
(1)响应时间
每间隔指定时间 Ping 指定的网址,并从返回的值中计算指定网站的响应时
间。
监控详情:点击菜单“网站访问监控”-“网站访问监控详情”,系统在列表
中显示每个已经添加并指定需要监控的网址,并在列表中显示该网址的响应时间。
数据采集:系统按照在“监控网址管理”中的设置,按指定间隔 Ping 出该
网址的响应时间,并将数据保存至监控数据库中。
(2)连接数
每间隔指定时间,取得指定网站的连接数。
监控详情:点击菜单“网站访问监控”-“网站访问监控详情”,系统在列表
中显示每个已经添加并指定需要监控的网址,并在列表中显示该网址的当前连接
数量。
数据采集:系统按照在“监控网址管理”中的设置,按指定间隔测试该网址
的当前连接数量,并将数据保存至监控数据库中。
(3)网络流量
每间隔指定时间,取得并统计指定网站的网络流量,上传和下载流量分别显
示。
监控详情:点击菜单“网站访问监控”-“网站访问监控详情”,系统在列表
中显示每个已经添加并指定需要监控的网址,并在列表中显示该网址的累计网络
流量。
数据采集:系统按照在“监控网址管理”中的设置,按指定间隔测试该网址
的累计网络流量,并将数据保存至监控数据库中。
(4)网站页面纠错
在特定(或全部)页面嵌入脚本,当浏览的用户发现页面内容有误时提交后,
管理员可以从此功能中发现有误的内容并根据实际情况修正。
监控详情:点击菜单“网站访问监控”-“网站内容纠错”,系统在列表中按
日期显示每个页面链接及提交的错误内容,以供管理员参考并更正。
数据采集:当浏览的用户发现页面内容有误时,可以通过选中内容然后按一
个快捷键(如 Ctrl+Enter)提交,页面直接保存相关信息至数据表中。
(5)统计分析
针对网站监控中的各项指标进行统计分析,统计的条件包括时间范围、网址
及指标值范围等。
监控情况统计表:统计指定时段内,网站各项监控指标的监控值。
监控预警趋势表:统计指定时段内,网站监控指标的统计值及趋势走向,同
时以表格和图表形式展示。
监控预警统计表:统计指定时段内,全部(或指定)网站中,已经产生的
(邮件或短信)预警的次数。
(6)监控网站管理
添加需要监控的网站,从网址或 IP 确定需要监控的网站页面。可以选择哪
些设备需要发送告警信息。预警级别分为两级,预警级别(蓝色)及告警级别
(红色),达到告警级别后系统将按设置发送邮件或短信对管理员进行提醒。
可以更改每个网址的序号,在网址访问监控界面列表显示时,以序号为顺序
升序显示。勾选“是否监控”并保存后,系统开始以指定的频率读取相关的监控
数值并保存。
设备访问
在设备监控界面中,列表显示了全部设备的最近一次监控情况,包括设备名
称、IP、最后检测时间、各项监控数值及设备状态是否正常等。可以在左上方选
择不同的分组以关注不同分组的设备,也可以勾选右上方的“仅显示异常服务器”
以迅速找到运行异常的设备。
(1)Ping返回时间
每隔一段时间,首先 Ping 设备判断设备是否能正常连接,以及连接所需的
时长等,较长的返回时间或无响应通常表示设备可能已经发生故障。
监控详情:点击菜单“设备监控”-“设备监控详情”,系统在列表中显示每
台已经添加并指定需要监控的计算机设备,并在列表显示该计算机设备的 Ping
返回时间。
数据采集:系统按照在“监控设备管理”中的设置,按指定间隔读取该计算
机设备的监控数值,并将数据保存至监控数据库中。
(2)CPU使用率查询
每隔一段时间,检测目标计算机上 CPU的使用率情况。CPU使用率反映的是
当前 CPU的繁忙程度。
监控详情:点击菜单“设备监控”-“设备监控详情”,系统在列表中显示每
台已经添加并指定需要监控的计算机设备,并在列表显示该计算机设备的 CPU使
用率情况。
数据采集:系统按照在“监控设备管理”中的设置,按指定间隔读取该计算
机设备的 CPU使用率,并将数据保存至监控数据库中。
(3)CPU负载
每隔一段时间,检测目标计算机上 CPU的负载情况。CPU负载指某段时间内
占用 CPU时间的进程和等待 CPU时间的进程数,这里等待 CPU时间的进程是指等
待被唤醒的进程,不包括处于 wait状态进程。
监控详情:点击菜单“设备监控”-“设备监控详情”,系统在列表中显示每
台已经添加并指定需要监控的计算机设备,并在列表显示该计算机设备的 CPU负
载情况。
数据采集:系统按照在“监控设备管理”中的设置,按指定间隔读取该计算
机设备的 CPU负载,并将数据保存至监控数据库中。
(4)内存使用率
每隔一段时间,检测目标计算机上内存情况。内存使用率指已经使用的物理
内存与全部物理内存的比率。
监控详情:点击菜单“设备监控”-“设备监控详情”,系统在列表中显示每
台已经添加并指定需要监控的计算机设备,并在列表显示该计算机设备的内存使
用率情况。
数据采集:系统按照在“监控设备管理”中的设置,按指定间隔读取该计算
机设备的内存使用率,并将数据保存至监控数据库中。
(5)磁盘空间使用率
每隔指定时间,检测目标计算机上磁盘空间使用率情况。
监控详情:点击菜单“设备监控”-“设备监控详情”,系统在列表中显示每
台已经添加并指定需要监控的计算机设备,并在列表显示该计算机设备的磁盘使
用率情况。
数据采集:系统按照在“监控设备管理”中的设置,按指定间隔读取该计算
机设备的磁盘使用率,并将数据保存至监控数据库中。
(6)网络流量
间隔指定时间,检测目标计算机上网络流量情况,包括网络上传流量与网络
下载流量。流量可简略反映计算机的网络传输流量是否在正常范围内。
监控详情:点击菜单“设备监控”-“设备监控详情”,系统在列表中显示每
台已经添加并指定需要监控的计算机设备,并在列表显示该计算机设备的网络上
传下载流量。
数据采集:系统按照在“监控设备管理”中的设置,按指定间隔读取该计算
机设备的网络流量,并将数据保存至监控数据库中。
(7)系统进程数
每隔一段时间,检测目标计算机上系统进程数量。系统进程数量表示当前监
控的计算机在运行中的进程,进程越多,通常占用的 CPU及内存资源也越多。
监控详情:点击菜单“设备监控”-“设备监控详情”,系统在列表中显示每
台已经添加并指定需要监控的计算机设备,并显示该计算机设备的系统进程数量。
数据采集:系统按照在“监控设备管理”中的设置,按指定间隔读取该计算
机设备的,并将数据保存至监控数据库中。
(8)统计分析
针对设备监控中的各项指标进行统计分析,统计的条件包括时间范围、设备
名称及指标值范围等。
监控情况统计表:统计指定时段内,设备各项监控指标的监控值。
监控指标趋势表:统计指定时段内,设备监控指标的统计值及趋势走向,同
时以表格和图表形式展示。
监控预警统计表:统计指定时段内,全部(或指定)设备中,已经产生的
(邮件或短信)预警的次数。
(9)监控设备管理
添加需要监控的设备,从 IP及端口唯一指定需要监控的设备,并加以描述。
可以选择哪些设备需要发送告警信息。预警级别分为两级,预警级别(蓝色)及
告警级别(红色,达到告警级别后系统将按设置发送邮件或短信对管理员进行提
醒。
可以更改每个网址的序号,在网址访问监控界面列表显示时,以序号为顺序
升序显示。
在列表中可以设置每个设备的分组信息,如“外网服务器”、“内网服务器”
或“网络设备”,以查看监控情况时能迅速查看及判断设备监控情况。
勾选“是否监控”并保存后,系统开始以指定的频率读取相关的监控数值并
保存。
应用服务访问
监控指定应用服务(如 Apache、WebSphere 及 Tomcat 等)的运行情况,并
对无法连接的应用服务,以及监控指标超过指定阈值的情况进行邮件或短信告警。
对于 WebSphere的监控,很可能无法取得相关的监控项目值,在这种情况下
可能需要通过 TivoliPerformanceViewer工具来获得监控项目和数据。
数据库访问
监控指定数据库实例的运行情况,并对无法连接的数据库,以及监控指标超
过指定阈值的情况进行邮件或短信告警。
系统故障处理保障服务
网站在运维过程中出现的系统故障,XXX 公司应进行紧急处理和故障修复。
在故障处理和修复过程中,XXX公司负责系统故障分析、问题定位并提供系统故
障修复方案,XXX认可后并执行系统故障修复方案,在系统故障修复方案中涉及
XXX购买的第三方服务,需 XXX负责协调第三方服务人员配合 XXX公司进行系统
故障恢复。
系统发生故障时,运维项目组应当快速给出解决方案并付出实施以解决故障,
但是当系统故障比较严重,致使段时间内无法恢复至正常运行状态的情形时,应
当快速执行应急临时解决方案,这些方案包括:
1、当数据库数据丢失,短时间内无法恢复所有数据,应当快速恢复至最近一段
时间可以恢复的最完整历史数据,首要保证系统能够运行,当系统运行成功后再
将数据恢复至完整状态。
2、当产品文件遭遇损坏无法继续执行时,需将产品原始目录的备份镜像进行恢
复,保证系统能够正常运行,如果此次操作导致的部分数据丢失问题,需尽可能
的找回原来的用户数据。
3、当问题比较严重无法继续提供服务时,可将测试环境作为生产环境进行切换,
继续对外提供服务。
4、当测试环境无法满足需求时,可修改页面将链接跳转至其他业务系统,以替
代本系统。
待故障恢复后,需要对故障的发生、处理过程和结果进行记录,并形成故障
报告,汇报给 XXX。并及时通知我公司售后服务部门,以便找出故障根源所在,
彻底解决此类问题,避免下次出现同样故障。
系统突发事件处理保障服务
进一步完善 XXX政府网站运维项目网络与信息安全突发公共事件监测、预测、
预警制度。要落实责任制,按照“早发现、早报告、早处置”的原则,加强对各
类网站网络与信息安全突发公共事件和可能引发突发公共事件的有关信息的收
集、分析判断和持续监测。当发生网站网络与信息安全突发公共事件时,按规定
及时向应急领导小组报告,初次报告最迟不得超过半小时,重大和特别重大的网
站网络与信息安全突发公共事件实行态势进程报告和日报告制度。报告内容主要
包括信息来源、影响范围、事件性质、事件发展趋势和采取的措施等。
处理方式
初步诊断,及时汇报
当在系统监控过程中发生报警,系统监控人员需第一时间搜集故障信息,初
步定为问题来源,然后按照应急预案中的内容首先向上级主管部分汇报,并告知
故障现象和初步诊断结果。该结果会报告给业务部门和运维项目组应急领导小组
作为决策依据。
判断级别、启动预案
运维项目组应急领导小组和相关业务部门根据监控人员汇总的故障信息和
初步诊断报告,定性问题和问题级别,启动相应的应急预案,成立故障解决工作
组,统一管理故障解决工作组成员并给予决策,协调督促相关部门给予相关支持
以解决故障。
严格执行节日值班制度
节日期间,做好值班人员的交代工作,同时保证所有机房工作人员及公司相
关人员的手机 24小时开机,随叫随到。
应对黑客攻击
XXX公司按照 XXX网站技术规范和安全管理规范进行应对黑客攻击,保证网
站防篡改系统正常运行且发挥作用,确保 XXX网站不被黑客攻破,防止黑客篡改
网站内容及数据的破坏。
XXX公司定期监控系统访问记录,及时查找异常访问记录并查找原因,消除
隐患;并及时修复不安全漏洞,消除隐患;定期出具服务器运行情况及被攻击情
况报告。
1、工作时间内,发现黑客攻击应在第一时间通知具体责任人。
具体责任人接到通知后,应详细记录有关现象和显示器上出现的信息,将被
攻击的服务器等设备从网络中隔离出来,保护现场。同时通知总负责人,召集相
关技术人员共同分析攻击现象,提供解决方法,主机系统管理员和应用软件系统
管理员负责被攻击或破坏系统的恢复与重建工作。视情况向部领导汇报事件情况。
2、非工作时间内发现的攻击事件,值班人员应首先立即切断被攻击外网服
务器的网络连接,并做好相关记录;然后通知具体责任人按流程处理。
突发事件紧急处理
页面被篡改、出现非法言论
1、工作时间内发现页面被篡改,应在第一时间通知具体责任人。
具体责任人接到通知后
(1)将服务器从网络中隔离,抓屏、保存非法言论的页面。
(2)修复网页内容、删除网站上的非法言论。
(3)网页修复后,对网站全部内容进行一次查看,确保没有被篡改的或非
法的言论后解除站点服务器的隔离。
(4)会同技术人员共同追查非法篡改、非法言论来源,尽可能确定信息发
布者。
(5)向总负责人报告情况,视情况向部领导汇报事件情况。
2、非工作时间内发现的篡改事件,值班人员应首先立即通知部部,请其切
断被攻击外网服务器的网络连接,并做好相关记录;然后通知具体责任人按流程
处理。
网站无法访问
发现网站无法访问的情况后,立即通知具体负责人。
具体负责人接到通知后,应及时确定故障原因。如因主机设备或软件系统故
障导致且不能在 2小时内解决,应及时启动备用网站。
服务器物理设备故障
(1)故障现象
服务器无法正常连接,且设备面板指示灯有异常提示(细节参考服务器随机
文档)。
(2)检查及处理方式
观察服务器指示灯信号,并根据设备随机手册查找故障说明。
处理方式——检查设备的网线、电源线、光纤线缆是否松脱。
如外接设备无松脱现象,应尽快联系设备售后服务机构现场处理,不得随意
拆卸设备部件自行维修。
网络设备/链路故障
注:此类故障发生几率一般较小,且通常会被总部先监控到。但当发生网站
无法访问的故障时,维护人员应先排除是否由此类故障的可能性之后,再进行下
一步排查工作。
(1)故障现象
互联网访问链路中断,网站服务器无法被外部访问到。故障现象是内网访问
网站正常,但不能通过互联网访问网站。
(2)检查及处理方式
检查服务器自身服务是否正常运行
在服务器控制台桌面(注意:指通过服务器设备直连的显示器、键盘、鼠标
等设备访问服务器)
打开 IE或其他 web浏览器,访问 ,如能正常显示首页,则表示服
务器自身服务运行正常,可能是网络故障引起。
在监控终端中,使用如下命令:
如果返回超时,则表明网络故障可能发生在机房,请联系运行处协助处理。
如果返回正常,则表明网络故障可能发生在上一环节,可能是前端的负载均
衡设备工作异常或网络链路中断,请同时联系运行处处理。
XXX网站不能正常运行
(1)故障分析
当前网络环境正常,但无法通过内、外网访问网站首页。客户端浏览器显示
网站无法访问之类的错误提示。
导致该故障的可能原因有:
服务未启动或启动了错误的 Apache版本。
系统自带软件防火墙或安全策略干扰
(2)检查及处理方式
检查服务器自身服务是否正常运行
分别登录到两台 Web 服务器(