翰纬 IT 管理研究咨询中心 [保 密]
助您实现卓越的 IT 运营。
翰纬 IT 管理研究咨询中心
业务连续性管理 BCM 简介
ITILv3 研究
翰纬 IT 管理研究咨询中心
地 址:上海市浦东新区蓝村路新都花园 2 号楼 10 层
电 话:021 5873 2485/3041
传 真:021 5873 0948
邮 编:200 127
电 邮:info@
网 址:
版权声明和保密须知
本文件中出现的任何文字叙述、文档格式、插图、照片、方法、过程等内容,除另有特别注明,版权均属上海翰纬
信息管理咨询有限公司所有,受到有关产权及版权法保护。任何单位和个人未经上海翰纬信息管理咨询有限公司的
书面授权许可,不得复制或引用本文件的任何片断,无论通过电子形式或非电子形式。Copyright © 2007 上海翰纬
信 息 管 理 咨 询 有 限 公 司 版 权 所 有
文档信息
项目名称: 业务连续性管理 BCM 简介 项目编号:
项目经理: 项目阶段:
文档名称: ITILv3 研究 文档编号:
文档起草人: 叶晶 起草日期: 2007-11-13
当前版本编号: 版本日期: 2008-1-4
相关文档:
分发名单
来自 From 日 期 电话/传真/Email
给 To 行 动* 截止日期 电话/传真/Email
*:行动类别:批准,复审,通知,存档,修改,其它(请指明)
版本记录
版本号 版本日期 修改者 说 明 文件名
前言
本文档用于个人 2008 年研究计划(参见文档“2008 研究计划 (Final)”)阶段性成果汇
报。目的在于围绕调查产品线,梳理 ITIL 调查产品可能用到的核心模型或评估方法。简介的编排结
构如下:
书籍定位
指出该模型或方法在 ITIL v2 或 ITIL v3 核心书籍中出现的位置;
理论起源及定义
追溯该模型或方法产生的根源,进一步理解模型或方法的抽象定义;
评估模型及指标
具体说明该模型或方法与调查产品的结合点,并归纳评价指标;
实施方法及应用实例
简要说明该模型或方法如何实施,并给出重点调查行业(金融、电信、政府、制造等)应用的
案例;
参考文献
列举引用的参考文献和重要的参考网站。
3. BCM / BS25999
书籍定位
Glossary
Service Strategy(P235), Service Design(P292), Continual Service Improvement(P193)
Service Strategy(P36)
Continuity( Communicating warranty)
Service Design
IT SERVICE CONTINUITY MANAGEMENT(P125)
IT Service Continuity Manager(P195)
Appendix F: Sample SLA and OLA Service Continuity Management(P254)
Service Operation(P77)
IT Service Continuity Management
Continual Service Improvement(P122)
IT Service Continuity Management
理论起源及定义
BCM 定义
ITIL v3 中的定义
OGC 官方发行的 ITILv3 中把业务连续性管理(BCM,Business Continuity Management)定义为:
负责管理可能严重影响业务的风险的业务流程。BCM 保障主要利益相关者的权益、声誉、品牌和创
造价值的活动。BCM 流程涉及到的风险降低到可以接受的程度,并为业务可能发生的中断的业务流
程做规划。BCM 为 IT 服务连续性管理设定目标、范围和要求。(服务设计)[1]
BS25999 中的定义
BCM 英国标准即 BS25999 把 BCM 定义为:BCM 识别组织潜在威胁和运营这些威胁所产生影
响的整体管理流程。如果潜在威胁变成现实,则可能导致损失,BCM 提供构建组织恢复的框架。这
个框架具备有效应答能力而维护关键利益相关者利益、名誉、品牌和创造价值的活动。[2]
GDS 网站上的定义
万国数据(GDS,Global Data Solutions)官方网站上对 BCM 的解释是:BCM 是对企业的潜在
风险加以评估分析,确定其可能造成的威胁,并建立一个完善的管理机制来防止或减少灾难事件给
企业带来的损失。业务连续性管理是一项综合管理流程,它使组织机构认识到潜在的危机和相关影
响,制定响应、业务和连续性的恢复计划,其总体目标是为了提高企业的风险防范与抗击打能力,
以有效地减少业务破坏并降低不良影响,保障企业的业务得以持续运行。业务连续性规划(BCP)
是实现 BCM 的基础环节和重要保障。[3]
BS25999 简史
(1)PAS56
PAS 是“Publicly Available Specification”的简称,是通常使用在正式标准发布前的标准。PAS56
是 BS25999 的前身,于 2003 年 3 月份由英国标准协会(BSI,British Standards Institution)发布,官
方名称为“业务连续性管理指南”。PAS56 文档在 BS25999 正式发布后撤销。[4]
PAS56 这份指南建立了 BCM 的流程、原理和术语。具体地说,PAS56 描述了建立业务连续性
管理流程过程中以及产出结果的活动,并提供了一系列最佳实践的建议。PAS56 为事件的预期和响
应提供了一个整体性的管理框架,同时也描述评价方法和标准。[5]
PAS56 通过下面这种组织方式大致描述了 BCM 组件的关系,如图 3-1 所示[12]。
图 3-1 PAS56 对 BCM 的组织
(2)BS25999-1
2006 年 11 月,BSI 发布了一套官方标准用来替代 PAS56,这就是 BS25999-1。它通过 BSI(附
属委员会 BCM/1/-/2)产生,由来自多个组织和行业实体的代表组成,其他群体则在开发过程中提供
附加参考。[5]
BS25999-1 实质上是建立业务连续性管理原则、术语和流程的指南。它覆盖了适用于建立连续
性管理流程的活动和交付物,也提供推荐的最佳实践步骤。它适用于所有组织,不管组织的大小,
不管是工业还是商业部门,它都会为任何负责管理业务连续性进程的人提供协助。[7]
(3)BS25999-2
2007 年 11 月,BS25999 第二部分由相同的附属委员会发布[5]。BS25999-2 是指“业务连续性管
理规范”,被内部和外部(包括认证机构)用于评估组织满足客户和常规需求的能力[7]。BS25999-2
标准是由全球 BCM 领域专家,就其学术面、技术面、实务经验和专门技术等方面,所发展而成的
管理系统标准及要求,适用于各种规模的工业、商业、政府公务部门和非营利组织。
BS25999 体系
BS25999 体系实际包括两个部分:BS25999-1 和 BS25999-2。
(1)BS25999-1: 2006 Code of practice for business continuity management
业务连续性管理作业要点,这个部分替代了 PAS56,很大程度上基于 PAS56 的内容[5]。这部分
主要作为参考文件,提供广泛性的营运持续作业要点,作为现行营运持续的最佳作业方法指南,但
不作为评鉴与验证标准[6]。
BS 25999-1 由 10 部分组成,总共跨度 43 页。主要的部分如下[5]:
范围
术语和定义
业务连续性管理概述
危机管理
规划
业务连续性
管理
共同管理
站点恢复
规划
技术恢复
规划
业务连续
性规划
工作区恢
复规划
人力资源
规划
管理危机
抢救和重建站点
照常营业
搬迁工作人员 关键的工作人员
业务连续性管理原则
规划管理
理解组织
决定业务连续性(BC)计划
开发/执行 BCM 响应
行使、维护和审核工作安排
在组织文化中植入业务连续性管理
(2)BS25999-2: 2007 Specification for business continuity management system
业务连续性管理系统规范,这部分针对最终可获得哪种认证[5]。这部分提供 BCMS 建立实施与
书面化的具体要求,包括建置组织 BCMS 所需要的 PDCA 管理架构及广泛的营运持续措施,同时作
为验证标准[6]。
BS25999-2 由 7 部分组成,跨度 18 页。主要内容如下[5]:
范围
规范性参考
术语和定义
规划业务连续性管理系统(BCMS)
实施和运营 BCMS
监控和审查 BCMS
维护和改进 BCMS
(3)BS25999 Toolkit
BS25999 工具包是用来帮助确保标准不仅被理解,而且确保它能够更加容易地在组织中应用。
通过包含大量基础的连续性构建模块,它能帮助启动 BS25999 与业务连续性机制联合。工具包的内
容由公认的业务连续性专家和行业代表创造。为了方便灵活和剪裁,绝大多数资料以 MS-Word 格式
提供。工具包中包括以下资料[11]:
标准的两个部分:BS25999-1 和 BS25999-2(PDF 格式)
一套 IT 紧急事件审计问卷
一份依赖分析文档,用来帮助识别关键依赖
一份 BCM 和 BS25999 标准指南
一份业务影响度分析问卷
一份审计业务连续性计划本身的问卷
一个业务连续性计划框架和清单
基于桌面风险分析系统的 EzRisk()文本
一份标准和他们好处的介绍
陈述:介绍业务连续性管理
评估模型及指标
SunGuard BS25999 自测工具
SunGard 推出了一款免费的基于调查的自测工具,它能告诉用户他们已有的业务连续性管理流
程和计划是否符合最近发布的业务连续性管理标准——BS25999。这一调查可以让用户从一些细节
方面思考自己所在公司的业务连续性管理活动,从而找出被忽略的一些不足的方面。BSI 提出的业
务连续性管理的新标准,BS25999,允许组织加强自身面对业务中断的弹性。运用这一标准需要对
所包含的问题有基本的理解,以便组织能够对“如何实施”制定计划。
提问集中在标准的五个主要领域:
业务连续性管理政策和程序管理;
理解组织;
制定业务连续性管理战略;
开发和实施业务连续性管理的响应;
演练、维护和审查。
所提的问题是标准各个不同方面的一系列简单陈述,你只需选择:是;否;不知道;部分符合。
是,说明你认为你所在组织的业务连续性活动已经完全做到了。
否,说明你认为你所在组织的业务连续性活动没有做到。
不知道,说明你不能够判断你所在组织的业务连续性活动是否已经做到。
部分符合,说明你所在组织已经开始但是没有完全做到,或者说只有部分业务做到了。
一旦您提交答案,你将能够与 BS25999 比较绘图测量你的回答——分数越高,越符合 BS25999
标准。
注释:D - 不知道;N - 否;P - 部分符合;Y - 是。
BCM 政策与程序管理
Q01 有定义好的符合记录原则的 BCM 政策来设立和管理业务连续性(BC)。
Q02 政策反映了业务的类型、规模、复杂度、地理特性以及关键程度。
Q03 政策考虑了组织的文化、依赖关系以及运营环境。
Q04 得到高层管理者支持的一项 BCM 程序正在实施。
Q05 有适当资历与权威的人为 BCM 政策与实施负责。
理解组织
Q06 已经运用业务影响分析(BIA)去识别组织内的业务关键活动。
Q07 BIA 确定了关键活动中断的影响、他们之间的依赖关系以及恢复的需求。
Q08 BIA 决定了关键活动在最大时间周期中必需恢复的最低级别。
Q09 已经采取风险评估(RA)来识别损失减灾和风险处理措施,用以减少中断的可能性,缩短
中断周期,并减轻其对组织的影响。
Q10 正在进行业务影响分析(BIA)以及风险评估(RA)。
Q11 业务影响分析(BIA)以及风险评估(RA)的范围和目标已经设定并得到高层管理者的批
准。
制定 BCM 战略
Q12 有文档化的关键活动恢复战略,定义了这些关键业务活动最大可承受的中断期限。
Q13 设计了确保基础资源可用的战略,例如:实施前提、技术、员工技能和福利、电子的和硬
拷贝的信息、产品和服务的供应。
Q14 有在紧急情况下管理与关键利益相关者以及外部各方关系的战略。
Q15 设定了战略范围和目标并得到高层管理者的批准。
开发和实施 BCM 响应
Q16 已经定义了事件管理团队(IMT)的结构来对事件进行有效的响应与恢复。
Q17 已经定义了事件管理与恢复地点。
Q18 有事件管理计划(IMP)记录程序,用来响应和管理在事件期间所有可能的问题,以便恢
复和业务连续(BC)。
Q19 有业务连续性计划(BCP)记录工作任务,以管理业务中断的直接后果和持续关键活动。
Q20 所有的计划都识别相关的沟通、角色、职责、基本任务以及相关的参照信息。
Q21 所有的计划都识别与利益相关者和第三方的有关沟通。
Q22 存在使关键活动优先恢复、他们的恢复时间表和恢复级别的计划。
Q23 清晰的定义了计划启动和终止。
Q24 每个计划都有已定义的文档所有者以及维护人。
Q25 设定了每个计划的目的以及范围并得到高层管理者的批准。
演练、维护与审查
Q26 有演练、维护、审查 BCM 协议的文档化程序。
Q27 这一演练、维护和审查程序与 IMPs 和 BCPs 的目的和范围一致。
Q28 演练程序用来验证系统、BCM 协议和基础架构、技术的恢复以及员工可用性和重置。
Q29 所有的演练都是计划使业务中断后的风险在演练执行期间或以后最小化。
Q30 每次演练都有清晰定义的目标和目的。
Q31 每次演练都被审查,以便评估目标和目的的完成情况。
Q32 每次演练的输出都记录在有建议方案和他们实施时间表的报告中。
Q33 BCM 维护程序保证任何可能影响 BC 的变更都被审查。
Q34 高层管理者应该从是否符合法律、标准、战略以及最佳实践等方面在恰当的时间间隔审查
BCM 的能力,以保证这种能力是持续合适的、足够的、有效的。
Q35 BCM 能力审查识别任何关于变更政策、战略、目标等方面的需求。根据测试结果,变更环
境和持续改进的许诺。
Q36 BCM 能力审查证实,BCM 战略反映了所有业务关键活动的优先级和需求。
Q37 BCM 能力审查证实,BCM 竞争力和能力被有效的实施,符合目标,并且是与组织面临的
风险级别成比例的。
Q38 BCM 能力审查证实,在一个有效的变更控制流程里面,任何在事故、运行和维护中证实的
改进都会合并到战略和计划中。
Q39 BCM 能力审查证实,有一个正在进行的针对相关员工的可以有效沟通的培训和认知程序。
Q40 BCM 能力审查证实,相关员工能够理解他们的角色和职责。
Q41 审查之后,任何对 BCM 有意义的变更都会跟相关各方沟通。
Q42 有一个针对 BCM 竞争力与能力、角色和职责的独立审计。
将 BCM 融入组织文化
Q43 将 BCM 融入组织文化的流程得到高层管理人员的支持。
Q44 有一个针对所有员工的正在进行的 BCM 教育以及信息和技巧的培训程序。
Q45 负责 BCM 员工能够使自己得到外部的关于 BCM 的信息,从紧急事件服务机构、地方当局、
调解员等处寻找指导。
Q46 响应技巧和竞争能力,包括在演练中积极参与,通过实际培训而得到提高。
备注:此中文版问卷由李魁提供初稿。
NISCC 电信恢复力自测问卷
NISCC(National Infrastructure Security Co-ordination Centre,国家基础设施安全协作中心)自测
问卷[13]。这份自测问卷作为风险评估演练的一部分,基于电信服务的弹性,由 NISCC 联合许多电信
提供商在客户和提供商之间交流讨论而成。它识别不同提供商可以向客户提供的不同服务,例如,
来自一个提供商的数据服务,来自另一个提供商的语音服务。另外,许多客户将会进入一个双重提
供者的关系(由多于一个的提供商提供相似服务),针对失效的可能性来致力于保证弹性和可用性。
在这个事件中使用了多于一个的提供商,这个问卷可以用于在这个问题上激发讨论:提供商如何协
作才能尽量减少和降低风险。
元素 引发的思考 问题
Q1:你有一份关键业务电信服务的完整清单,并有关键系统支撑
吗?
Q2:你能识别支持关键系统的电信服务吗?
至少你能用一个小标题唯一识别每个电信服务、电路或主干。例
如,主干 1。
Q3:你的组织和你的提供商可以同意这个唯一识别方案吗?
当你需要关于这个服务的紧急行动方案时,你们共同讨论这个相
同的事情就很重要。
服务
你所在组织使用的不
同电信服务。业务运营
的连续性将典型依赖
于这些业务关键服务
的可用性。
Q4:为了确保重要性或者危险程度(高级,关键任务;中级;低
级),你能识别业务关键服务吗?
Q5:你是否知道你的网络服务连接在提供商核心网络中的哪个位
置,他们如何连接的,以及一旦他们离开你的场所,他们如何采
取物理路径?
在你的假设和你提供商网络的外部边界之间的最大连接通常是提
供弹性的最复杂链接。
网络路
径
你的业务关键服务如
何连接在更大的电话
网络中。
Q6:如果你使用双重提供商,那么你是否确信这里没有物理路径
或者两个提供商共同的失效点?
Q7:在你自己的假设中,你是否具备将你的电信服务总是纳入提
供商轨道的能力?
Q8:是否有部分电缆,例如,暴露给外部的承包商或者其他超出
你控制范围的其他机构?
Q9:谁对 Q8 中识别出来的地区的安全性负责?
依赖性
在你的网络和供应商
核心网络两者中对提
供你的服务非常关键
的其他组件。
Q10:是否有任何第三方组件,例如可以在负责地区布置的 ADSL
路由?
Q11:你所有的服务都使你的位置在相同的电缆中吗?
Q12:他们都在相同的信道(duct)上吗?
多样性
单点故障,而单点(网
络)组件将影响多个关
键服务。
Q13:你的多个提供商共享一个信道系统吗?
还应当考虑到你所在组织的不同场所(premises)是否与提供商网
络的共同点连接?
Q14:你知道如果关键服务通过不同的网络组件发送,那么一个组
件失效将不会影响到全部关键服务吗?
独立性
不同的关键服务是如
何在你的场所之外而
通过提供商的网络发
送的?
Q15:你已经很明确地询问了这项服务吗?
Q16:当你定制新的服务时,你讨论你现有的服务来确保没有造成
关于分离或多样性的危险假设吗?
新的服
务
不应该假定管道提供
商有分离的保证。在电
信产业中对本地接入
电路(核心网络和客户
端之间)常见的做法是
由第三方提供(例如,
BT)。在这个案例中,
可能由不同提供商提
供的线路有一段共同
的路径。
Q17:你审查现有的需求来防止重复或者妥协吗?
Q18:你定期与你的提供商审查你的具体恢复力需求吗?网络结
构的变
更
你的提供商如何管理
他们网络基础设施的
变更。不应该假设提供
Q19:你从你的提供商那里收到了关于网络更新、提议工程停工期
商的网络是静态的。变
更不断地发生,不管是
暂时的(由于计划的工
程工作)还是永久的
(网络转型,包括引进
新的网络组件和删除
旧的网络组件)。随着
时间推移,分割的或者
单独的服务会因这些
变更危及,即便如此,
应该指出,提供商将通
常会跟踪这些变更,以
确保已经约定部分的
多样性/独立。
或者其他状态变更的通知吗?
Q20:你在你自己的地方提供备用能源吗?
Q21:你定期对它进行测试吗?
能源
网站丧失能源,不管在
你的地方还是在提供
商的网络中,这都是一
个对电信服务连续性
的重大威胁。
Q22:你能看见你提供商的紧急能力供应以及你的服务能源中断
的后果吗?
Q23:你有联系你的提供商的主要的和替代的方法吗?(例如,电
话、电子邮件)
Q24:你已经向你的提供商提供了你自己响应小组的替代联系资
料吗?
Q25:你与你的提供商讨论你的各个应急计划吗?
Q26:在诸如事故发生时,你期望你的提供商提供哪些常规更新?
在危机
中的联
系
在英国电信网络受灾
难性影响的事件中你
将如何与你的服务提
供商联系。
Q27:你是否请求在危机中联系这项服务?它包含在你的服务级
别协议(SLA)或者合同中吗?
实施方法及应用实例
BCM 实施方法
BS25999-1 提供了一套基于 BCM 最佳实践的综合控制集,并覆盖了整个 BCM 生命周期,如图
3-2 所示[2]。
图 3-2 BCM 生命周期
理解组织
由于企业的属性与类型不同,所处的环境也有很大的差异,为了要评估在发生危机时可能面临
的冲击,企业必须找出“什么才是企业赖以维生的关键?”这有可能会是 ERP、CRM,也可能会是 Email
或网络联机[10]。
在计划能够被写出来之前,你必须理解组织业务连续性管理的需求,这里有多种工具用于指导
这个活动。首先识别组织交付的关键产品和服务是非常重要的。业务影响度分析(BIA)识别支持
关键产品和服务的关键活动和资源,同时帮助识别当这些关键产品和服务不可用时造成的影响。另
一个有用的工具是风险评估(RA),这帮助识别组织潜在的威胁以及这些威胁发生的可能性。[2]
BIA 和 RA 等工具和手段找出关键服务及其依赖因素所能容忍的损失,主要包括分析企业自身
的业务和所依赖的业务环境,找出关键服务/产品及其依赖因素(资源、资产、活动等),以及识别
出该关键活动所能容忍的中断时间及业务所能容忍的最低服务水平等[8]。
另外最重要的,企业还必须要找出可接受的复原目标时间(Recovery Time Objective;RTO)。
举例来说,当一个人发生急性中风之后,若在三小时内没有经过紧急抢救治疗,就会造成难以挽回
的遗憾,这是人人必须把握的黄金时间。所以如何在可容忍的营运中断时间内进行应变,是企业要
去审慎评估的[10]。
制定 BCM 战略
在了解企业的关键营运流程与可能会发生的灾难之后,就可以根据企业的营运目标、资源与成
本来制订所要采取的因应战略,并且选择能够降低风险的措施[10]。这允许为每个产品或服务选择一
种合适的应变措施,因此组织能在中断时连续交付该产品和服务[2]。
在制定 BCM 战略时,需要考虑:采用适当的控制措施,降低威胁发生的可能或者发生之后的
影响;考虑预定的弹性恢复机制和缓建方案;在事件发生时和发生后,提供关键活动的连续性;分
析那些尚未被识别为关键活动的部分[8]。
将 BCM 融入组织文化
理解组织
演练、维护
和审查
制定 BCM
战略
开发 BCM
计划
BCM 程序
管理
开发 BCM 计划
当灾难事件发生后,可以把后续的过程分成三个阶段来看待:首先是应急响应阶段,从灾难发
生的几分钟到数小时之内;其次是业务持续阶段,在灾难发生的数分钟到数天之内,根据预先的准
备,在一定程度上保持业务,并启动恢复的计划;最后是恢复阶段,在灾难发生几周到几个月的周
期内,按照预先的准备,把业务全部恢复到原来的水平[8]。
开发并实施 BCM 响应计划这个阶段包括开发事件管理、业务连续性和业务恢复计划,这些计
划详细描述了在维护或者恢复运行事件中期和后期采取的步骤[2]。开发的业务连续性计划(BCP)中
必须包括人员职责分配、教育训练办法、计划启动条件、紧急应变程序、备援机制、灾难复原程序
等[10]。
一个好的 BCM 需要事件管理计划和业务连续性计划两者,尽管这两者并不是必须是单独的文
档。事件管理计划使组织来管理事件的初步影响,例如,员工疏散或者媒体响应。业务连续性计划
使组织来维护或者恢复 BIA 识别的关键产品和服务的交付。通用的和具体的计划都可能需要。通用
计划是核心计划,它能使组织响应大范围可能发生的情况,制定响应任何中断的常见元素。这些元
素可能包括调用程序、命令和控制结构、利用财政资源等。在通用计划的框架下,具体计划可能需
要与具体风险、网站或者服务相关联。具体计划提供一整套详细的工作安排,设计用来当这些不可
能证明足够时超越通用工作安排。[2]
演练、维护和审查
计划并不能被认为是可以信赖的,直到他们被执行并且被证明是可用的[2]。完成 BCP 之后,最
重要的就是要进行测试与演练,确保计划项目能够一一顺畅执行,在演练之后,还要针对有疏失的
地方持续加以改进,以确保 BCP 能够有效执行[10]。这使组织能够向外证明组织的战略和规划是完整
的、与时俱进的和准确的,同时识别组织改进的机会[2]。
演练需要包括:确定计划;排练关键员工;测试依赖于交付恢复的系统(例如,不间断的能源
供应)。演练的频度将依赖于组织,但是需要考虑变更的比例(相对于组织或者风险情况),以及先
前演练的结果(如果已经识别具体的弱点和造成的变更)[2]。理想的演练方式应该是在真实环境下
进行全盘演练。在资源有限的情况下,企业也可以进行模拟环境演练。对于一般性的业务,企业也
可以采用排练的方式演示计划的可操作性。此外,企业还应对 BCM 计划进行定期评审,发现问题
后及时调整和改进[8]。
组织不仅需要将计划实施到位,而且需要确保对他们进行常规审查并保持更新。其中,需要在
这些问题上特别注意:人员变更;组织功能或者服务的变更;组织结构的变更;供应商或者订约人
的详细信息;组织战略目标的变更。[2]
BCM 程序管理
上述四个步骤是对 BCM 构建项目的管理,需要调动资源、制定日程、跟踪策划和实施状况,
但更重要的还是 BCM 管理程序,要让 BCM 理念深入到每个相关人士的头脑中[8]。BCM 程序管理
使业务连续性能力采用适合于组织规模和复杂度的方式构建(如果需要的话)和维护[2]。
需要去培训那些负责实施 BCM 的人,那些负责处理中断事件的人,以及那些将受到计划影响
的人。这个培训和知晓能够以多种方式交付。在实施 BCM 时涉及到的人也可能需要更广泛的培训,
而那些不直接负责的人也许简单需要被告知。紧急情况规划学会(Emergency Planning College)是
国民紧急事务秘书处(CCS,Civil Contingencies Secretariat)的一部分,按风险评估和业务连续性管
理路线运行。[2]
将 BCM 融入组织文化
BCM 是一个持续的管理、协调与监督过程,BS25999 标准中强调,必须要让 BCM 深入成为企
业文化中之一员,才能达到企业永续经营的目标[10]。这个阶段使 BCM 能成为组织核心价值的一部
分,并向所有利益相关者逐渐灌输组织处理中断能力的信心[2]。通过相关技能的培训,加深企业管
理层对 BCM 的理解和认知。当 BCM 融入企业的核心价值观中时,BCM 的管理才能更加高效[8]。
BCM 管理是需要企业高层推动的。一个好的 BCM 管理框架能够让企业有足够的弹性来应对不
同的事件[8]。BS25999-2 提供了构建组织业务连续性管理系统(BCMS)所需要的 PDCA 管理架构,
如图 3-3 所示[6]。
图 3-3 适用于 BCMS 流程的 PDCA 模型
组织通过 PDCA 标准模式推动 BCMS,可结合现有的各方面管理系统,如 ISO9001(质量管
理)、ISO14001(环境管理)及 ISO27001(信息安全管理)等,达成全面管理整合的综效[6]。
BCM 应用现状
目前以金融、电信业进行异地备份/恢复的比例最高,高科技制造业者次之,服务业则仅有少
数实际落实,但随着企业对于永续经营的认知越来越深,有更多企业开始着手灾难回复计划[9]。2007
年业务连续性管理调查(CCS)报告中指出[14]:
73%的经理表示 BCM 在他们的组织中处于重要位置,其中已经启动其计划的经理中有 94%
同意 BCM 减少了业务中断。
尽管感知的重要性和显示的中断范围不同,调查开展 8 年以来,在 2007 年调查的 1257 位
经理中有超过一半的经理工作的机构没有具体的业务连续性计划(BCP)。
大于有 1/3 的机构表示在过去的一年经历的中断是由于 IT 能力丧失(39%)和人力丧失
(32%),同时受极端天气状况影响的中断在过去的一年从 9%上升到 28%。
有迹象显示业务在他们计划的方面得到改善:55%的调查对象有计划可能出现的常见问题。
这些计划与 2006 年相比将员工缺勤纳入更高级别,但是机构对于这种缺勤的可能持续期限
建立 BCMS利益方
业务连续性
需求和期望
维护和改进
BCMS
实施和运行
BCMS
监控和审评
BCMS
利益方
管理业务连
续性
Plan
Act Do
Check
仍不清楚,同时很多并没有考虑额外的家长-工人缺勤这类影响。
仅有一半有计划的组织进行了定期的和彻底的排练,尽管强有力的证据显示排练对确保计
划的成效是非常重要的。已经排练了他们计划的机构中有 80%揭示了需要加以解决的隐患。
尽管 81%的经理表示他们的机构能在一定程度上支持远程工作,如果 IT/电信基础设施还没
有部署和测试,这类显示的中断也许不会成为现实。
80%工作在所列的公司的经理将协作管控确定为关键的驱动力。这里也显示通过供应链,
通过公众部门程序合同(sector procurement contracts),并由客户从他们的关键业务提供商
那里要求 BCPs 证据,来推动计划。
政府在推动 BCM 上通过公众部门和更高部门继续扮演主要角色。国民紧急事务法案(Civil
Contingencies Act)似乎已经产生了一些影响,自 2006 年 5 月法案的规定全面生效,这种
趋势很可能会持续下去。
其中,值得注意的是,在这次调查中问到,组织如何评估他们的 BCM 能力。调查结果如图 3-4
所示。
图 3-4 评估 BCM 能力使用的方法
备注:Legislation 可能反映出国民紧急事务法案的影响。
BCM 应用实例
(按住 Ctrl 并单击鼠标点击查看)
独立投资管理公司 Baillie Gifford
BCM 实施超过 10 年,已经稳定地改进了他们的恢复计划,并在最糟糕事件发生后能如常迅速
持续业务的能力。
英国医药杂志 BMJ
去年 7 月 7 日 BMJ 英国伦敦总部遭遇恐怖袭击,BMJ 与 SunGard 可用性服务公司(SunGard
Availability Services)一起工作来确保业务功能连续并保持 160 年从不停产周刊的传统,尽管经历了
两次世界大战以及与位于中心伦敦相联系的其他困难。
食品和饮料联邦 FDF
FDF 的主要功能就是与国内和国际的大量观众沟通,包括政府、调解方、FDF 会员和媒体。通
过这种沟通,FDF 帮助确保英国食品和饮料产业随时了解关于英国或欧盟的调整事件,以使在食品
问题上的产业状况能被及时沟通。
英国保险公司 Gerling UK
与很多机构一样,Gerling UK 以前有内部备份机制,很多年都服务良好。但是,当公司经历相
当快速的成长期,需要一个可替代的方法变得清晰明显。Gerling UK 采用了 SunGard 可用性服务公
司的 TeleVault 解决方案。
Great Ormond 街道医院
1998 年医院采用尝试并负责地决定实施全面数据恢复计划来确保持续供应关键 IT 系统。很快
地医院里的 IT 用于运行三个主要功能,采用的是大型的 Sequent Hewlett Packard 和 ICT 系统。
法律公司 Irwin Mitchell
Irwin Mitchell 已经获得 BS7799 和 ISO27001 产业标准的资质认证,与 SunGard 可用性服务公司
合作。Irwin Mitchell 有在业务连续性(BC)计划中相当充分的记录,SunGard 是信息可用性解决方
案的倡导者和最主要的供应商。
Kingston 资产金融有限公司
Kingston 通过委托书、支票等收钱,通过他们的核心系统监控支付,所以没有电话系统、核心
系统和传真系统,这里将没有贸易。
Leicester 国会
国会总是识别在帮助它向 Leicester 人民提供可靠服务中扮演的关键角色技术。这反映在服务级
别协议中,IT 团队与所有部门一起 24×7 维护 IT 的可用性。
Severn Trent Water 软件公司
Severn Trent Water 的客户库由大量运营 24×7 的有效机构组成,Severn Trent Water 确保提供给
他们客户的软件方案和支持服务可用并没有中断。Severn Trent Water 有一个潜在的资源问题,意味
着公司将很难支持维护它的业务连续性计划所需的测试,同时支持每天的运营。
参考文献
[1] Glossary: Business Continuity Management.Service Strategy: 235, Service Design: 292, Continual
Service Improvement: 193
[2] Business Continuity. 2007-11-23
[3] 名词解释.
[4] BS25999 / BS 25999 NEWS.
[5] BS25999 Business Continuity Management.
[6] 蒲树盛.BSI 提供 BS 25999 营运持续管理系统(BCMS)专业验证服务.
[7] Standards direct international standards and documentation.
[8] 郭涛.业务连续性管理有章可循.中国计算机报,2007 年 08 月 27 日.
[9] 企业营运永续管理有标准可循.
[10] 新企业永续管理标准:BS25999.
[11] The BS25999 Toolkit.
[12] BS 25999 (BS25999) Standard for Business Continuity Management.
[13] CPNI: Good Practice Guide to Telecommunications Resilience
[14] Business Continuity Survey 2007 Report. Chartered Management Institute (CMI) .