省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
机房设备故障处理
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
目标
学习完此课程,您将会:
了解某公司设备分类
了解故障处理流程和方法
熟悉故障信息搜集
了解典型故障处理案例集
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
第第11章章 某公司机房及设备分类某公司机房及设备分类
第第22章章 故障故障处处理流程和方法理流程和方法
第第33章章 PONPON宽带业务宽带业务故障故障处处理理
第第44章章 语语音音业务业务故障故障处处理理
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
某公司机房分类
A类机房:
B类机房:
C类机房:
。
。
。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
某公司机房常见设备
一、接入设备:语音接入;宽带接入
二、传输设备:SDH、PDH、光电转换器
三、接入交换机:三层交换机、二层交换机、路由器
四、交换设备:程控交换机、软交换
五、配线架:ODF、DDF
。
。
。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
第第11章章 某公司机房某公司机房及设备分类及设备分类
第第22章章 故障故障处处理流程和方法理流程和方法
第第33章章 PONPON宽带业务宽带业务故障故障处处理理
第第44章章 语语音音业务业务故障故障处处理理
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
故障处理流程和方法
故障信息来源
故障处理流程
故障处理常用方法
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
一、故障信息来源
用户或客户服务中心的故障申告(电子工单)。
日常维护或巡检中所发现的异常。
网管告警系统的告警输出(中心机房)。
对接设备维护人员的故障通告(外线,各分公司申告)。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
二、故障处理流程
开始
收集并记录相关信息
能否判断故障
范围和 类别
确定故障范围和类别
是否为紧急
故障
定位故障原因
屏蔽隔离故障
排除故障
故障是否被排
除?
记录故障处理过程
及结果
联系厂家技术支持
人员
否 是
否
应急维护处理
是
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
故障处理流程
1、收集并记录故障信息
在故障处理的初期收集各种相关信息,可以帮助定位故障原因,提高维护人员处
理故障的效率。
2、确定故障范围和类别
在获取故障信息以后,需要对故障现象进行分析,确定故障的范围和类别。
3、定位故障原因
故障定位就是从众多可能原因中找出具体原因的过程。维护工程师使用各种方法
分析、比较各种可能的故障原因,排除不可能的原因,最终确定故障发生的具体
原因。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
故障处理流程
4、屏蔽/隔离故障
正确定位故障原因后,对故障进行屏蔽或隔离来恢复业务或避免故障范围扩大。
5、排除故障
排除故障是指采取适当的措施清除故障、恢复设备正常运行的过程,如检修线路、
更换部件、修改配置数据、复位单板等。判断是否需要到现场,
6、确认故障处理结果
在完成故障排除的工作后,还需要根据故障影响的范围,对受影响的相关业务进
行验证测试,来确认故障现象是否消失。
7、联系技术支持
如果在故障处理过程中遇到难以解决的问题,需要联系技术支持进行处理。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
收集并记录故障信息
信息收集的内容
故障发生时,需要第一时间收集故障信息。
主要收集以下故障信息:
故障发生的具体时间、地点。
故障现象的详细描述。
故障点设备类型及接入类型。
故障后已采取的措施和结果。
问题的级别及希望解决的时间。
用户及电信联系人信息。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
确定故障范围和类别
确定故障的范围
确定故障的范围就是确定故障处理的方向,也就是说在什么地方、顺
着什么思路去查找故障的具体原因。
确定是设备接入的所有用户出现故障还是部分用户出现故障:
如果是所有用户出现故障,进一步了解上端设备接入的其他设备或用户是否同
时出现故障。
如果是部分用户出现故障,进一步了解:
• 故障用户的业务类型,其他业务是否出现故障。
• 故障用户与正常用户的业务单板是否相同。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
定位故障原因
故障定位就是从众多可能原因中找出具体原因的过程。维护工程
师使用各种方法分析、比较各种可能的故障原因,排除不可能的原
因,最终确定故障发生的具体原因。
准确并快速的定位故障是故障处理过程中的重要环节:
有利于提高故障处理的效率。
有效避免盲目处理导致的故障扩大等人为事故。
为排除故障提供指导和参考。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
屏蔽/隔离故障
正确定位故障原因后,对故障进行屏蔽或隔离来恢复业务或避免故障
范围扩大。
常用的故障屏蔽或隔离的方法有:
手动重启系统。
进行主备倒换。
采用迂回路由,隔离故障设备。
如果是某项功能故障,可以使用命令关闭该功能。
如果是单个用户业务故障,可以将故障影响的用户转移到正常的端口。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
排除故障
排除故障是指采取适当的措施清除故障、恢复设备正常运行
的过程,如检修线路、更换部件、修改配置数据、复位单
板等。
屏蔽或隔离故障后,启动排除故障的工作。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
确认故障处理结果
在完成故障排除的工作后,还需要根据故障影响的范围,对
受影响的相关业务进行验证测试,来确认故障现象是否消
失。
要进行全面验证,保证故障现象完全消失且没有新的问题被
引入。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
三、故障处理常用方法
告警分析
性能分析
分段处理
仪表测试
对比分析
互换分析
配置数据分析
协议分析
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
告警分析
通过分析告警,可以定位故障的具体部位或原因,也可以配合其他方法定位故障原因。
告警信息是指设备网管告警系统输出的信息,通常以屏幕输出的形式提供给维护人员,
具有简单、明了的特点。
告警信息涉及硬件、链路、业务等各个方面,信息量大且全,是进行故障分析和定位
的重要依据之一。
告警信息包含以下内容:
告警的描述
告警发生的位置
告警发生的可能原因
告警的修复建议
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
性能分析
通过设备提供的性能统计手段,对发生故障的业务进行性能
指标的分析,定位故障原因。
多种故障的定位过程中都需要了解系统性能统计信息。针对
不同的故障类别,需要查看不同的统计信息,这要求维护
人员:
熟悉系统的结构和运行机制。
了解系统能够提供哪些统计信息。
了解如何查看、分析统计信息
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
分段处理
在故障现象复杂,可能涉及到多个环节时,使用分段处理的
方法逐个排除正常的环节,最终定位故障。
对进行分段处理工作的工程师有以下要求:
对设备的系统结构和原理有深入的了解。
对可能导致业务故障的各个环节全面了解。
熟练掌握环回操作。
熟练使用测试仪器。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
仪表测试
仪表测试法是指使用各种仪器、仪表取得实际的各种性能参数,对照理论的参数值来
定位和排除故障。
仪器、仪表以直观、量化的数据直接反映设备运行状态,在故障处理过程中有着不可
替代的作用。
常用的仪器、仪表包括:
万用表
光功率计
示波器
可调光衰减器
线路测试仪
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
对比分析
对比分析是指将故障的部件或现象与正常的部件或现象进行
比较分析,通过找出不同点来定位故障。
对比分析适用于故障单一的场合。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
互换分析
在更换备件后仍不能定位故障时,使用互换分析法定位和排除故障。
互换是指将处于正常状态的部件(如单板、光纤等)与可能故障的部
件对调,在以下情况下使用:
在更换备件后,仍然不能确定故障的范围或故障点时使用。
通过比较对调后二者运行状况的变化,确定故障的范围或故障点。
适用于故障复杂的场合。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
配置数据分析
配置数据分析是指通过分析设备的配置数据来定位问题,在新开局点
或更改配置后应推荐使用此分析方法。
数据配置错误或更改是引起故障的重要原因之一,配置数据分析是故
障定位不可缺少的一个方法。
例如:一台MA5680T下所有用户无法收看组播节目,通过检查配置数
据发现:组播源设置的TTL值太小,导致组播数据在MA5680T上转
发时,由于TTL值等于0而被丢弃。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
协议分析 (一般用不到)
协议分析是指通过信令跟踪、捕获数据包等手段对故障进行
分析的方法。
协议分析用于当接入设备和上层设备的对接出现问题时定位
和排除故障。
协议分析要求维护工程师对协议有深入的了解,掌握各种协
议报文的交互流程,从而能够从获得的报文中定位故障。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
小结
本章主要介绍了
故障处理的一般步骤和常用方法
小结小结
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
第第11章章 某公司机房及设备分类某公司机房及设备分类
第第22章章 故障故障处处理流程和方法理流程和方法
第第33章章 PONPON宽带业务宽带业务故障故障处处理理
第第44章章 语语音音业务业务故障故障处处理理
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
故障处理流程
开始
初步定位故障位置
检查光纤状况
检查设备状态
检查设备运行状况
检查设备数据配置
检查设备统计信息
检查上层设备状态
结束
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
初步定位故障位置
个别端口用户无法上网:
用户终端或者线路故障。
EPON或交换机端口故障。
数据配置问题。
整板用户无法上网
EPON单板故障。
光路问题。
整框用户无法上网
光路问题。
主控板或者是上行单板故障。
网络攻击。
BRAS设备下的所有用户无法上网
上行设备问题。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
检查光纤状况
在EPON业务发生故障时,通过检查光纤状况排除故障。
主要检查:
光纤是否插好。
光纤是否弯曲严重。
光纤是否有断线。
平均发送光功率是否正常。
接收光灵敏度是否正常。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
检查ONT状态
Power(主电源指示灯)
常亮表明电源供电正常。
熄灭
请检查电源连接是否正确。
请检查电源适配器是否匹配。
如果电源正常,所有指示灯都熄灭,请更换ONT。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
检查ONT状态
AUTH(EPON注册指示灯)
常亮设备认证成功。
熄灭设备认证失败。
检查MA5680T上是否添加了该ONT。
检查配置的ONT的MAC地址与ONT实际MAC地址是否一致。
LINK (EPON链路指示灯)
亮PON端口链路状态正常。
熄灭检查光纤是否插好(插得太紧或太松都会有问题)。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
检查ONT状态
LAN
常亮以太网端口的链路正常。
熄灭以太网端口的链路故障。
检查以太网端口的物理连接是否正常。
检查与以太网端口连接的物理设备是否正常。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
在线查询ONT状态
• 如果“Control Flag”为激活态,且“Run state”为up,说明ONT正常,说明用户上线且认证通过。
• 如果“Control Flag”为去激活态,ONT进行注册时被禁止,需要在EPON模式下使用ont activate命令激
活控制开关。
• 如果“Control Flag”为激活态,而“Run State”为down,则说明用户未上线。
• 如果ONT的“MAC”与实际的ONT不一致,会导致注册失败。
• 如果“Config State”为“Normal”状态,说明ONT配置恢复状态正常。
• 如果“Config State”为“Failed”状态,说明ONT配置恢复失败。有可能是ONT绑定了错误的ONT模板,
并对ONT进行了不支持的配置。可使用display ont capability命令查询ONT的实际能力,并重新绑定相
匹配的模板。
• 如果“Match State”为“Mathch”状态,说明ONT配置的能力集模板匹配。
• 如果“Match State”为“initial”状态,说明ONT实际能力与能力集模板的配置一致时,进入配置恢复阶段
的“初始态”。
• 如果“Match State”为“mismatch”状态,说明ONT配置的能力集模板匹配失败。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
检查设备运行状态
操作步骤
1、检查主控板的运行灯状态。 正常情况下:RUN ALM绿灯1s亮1s灭,周期闪烁,
ACT灯常亮。
如果出现异常,请检查主控板是否接触良好。
2、检查业务板的运行灯状态。 正常情况下:RUN ALM绿灯1s亮1s灭,周期闪烁。
如果出现异常,请检查业务板是否接触良好。
3、检查PON接口灯状态。 正常情况下:ONT在线时,PON接口的绿灯常亮 。
如果出现PON口灯不亮,请检查光口激光器是否打开。如果被关闭,在EPON模式下,
使用port laser-switch on命令打开。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
检查设备数据配置
操作步骤
1、检查ONT绑定的DBA模板。
A、使用display ont info命令检查ONT所绑定的DBA模板。
B、使用display DBA-profile all命令检查DBA模板的相关信息,确认绑定的DBA模板是否满足需求。如果不
满足,可以使用ont modify命令为ONT绑定合适的DBA模板。
2、检查业务流配置是否正确。
A、使用display service-port命令查询业务虚端口配置是否正确。如果不正确,请重新进行配置。
B、使用display ont port vlan命令查询ONT的端口VLAN配置是否与业务流对应。
• 如果是用户侧为untagged方式的业务数据,应该使用ont port vlan命令将ONT端口要
加入到业务VLAN,使用ont port native-vlan命令配置端口的Native VLAN与上行
VLAN相同。
• 如果是用户侧VLAN为tagged 方式的业务流,应该使用ont port vlan命令将ONT端口
加入到用户侧VLAN中。
3、检查VLAN中是否加入了上行口。 使用display vlan命令检查是否为业务VLAN增加了上行
口。如果没有增加请使用port vlan命令为该VLAN增加上行口。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
检查设备统计信息
1、使用display port statistics命令查询上行口的流量统计信息。 主要检查:
端口的发送、接收帧计数是否在增加,从而确定以太网端口在收发方向是否正常
工作。
是否有帧丢弃计数。如果有,可能是端口设置了流量抑制,或者对接设备发送的
流量超过了端口的能力。
是否出现了CRC错误计数,如果计数不断增加,应如下处理:
光口:检查光纤是否松动、两端光模块是否匹配(模块类型是否匹配、波长是
否匹配、传输距离是否匹配)。
电口:检查两端端口协商是否一致,网线和单板硬件是否正常(请更换以太网
板检查是否正常)。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
检查设备统计信息
2、使用display port statistic命令查询EPON端口的性能统计信息。 统计信息中包括
了端口收发数据的详细信息,通过这些信息可以判断端口是否正常工作。
主要检查:
PON端口的发送、接收帧和字节计数是否在增加,从而确定以太网端口在收发方
向是否正常工作。
系统端口的发送、接收帧和字节计数是否在增加,从而确定以太网端口在收发方
向是否正常工作。
是否有错误的帧和字节计数。如果有,可能是端口设置了流量抑制,或者对接设
备发送的流量超过了端口的能力。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
检查设备统计信息
3、使用display ont statistic命令查询ONT的性能统计信息。 统计信息中包括了端口
收发数据的详细信息,通过这些信息可以判断端口是否正常工作。
主要检查:
ONT端口的发送、接收帧和字节计数是否在增加,从而确定以太网端口在收发方
向是否正常工作。
是否有错误的帧和字节计数。如果有,可能是端口设置了流量抑制,或者对接设
备发送的流量超过了端口的能力。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
检查上层设备状态
在EPON业务发生故障时,通过检查上层设备状态排除故障。
如果MA5680T及所接终端都正常,则问题可能出在上层设备,请
检查上层设备的运行状态、数据配置。特别要关注上层设备和
MA5680T对接接口的状态和属性的兼容性。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
常见故障分类和原因分析
ONT不能正常注册
ONT光口不正常。
连接ONT的光纤故障。
ONT侧的光功率不在正常范围内。
没有添加ONT。
OLT端口配置的逻辑最远距离与实际不一致。
OLT端口没有使能自动发现开关。
添加ONT时配置的MAC与ONT实际的MAC不一致。
添加ONT时配置的Password与ONT实际的Password不一致。
OLT上已经存在相同MAC的ONT。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
典型案例-ONT长发光导致系统瘫痪
故障现象
发现某个PON口下面只有一个ONT在线。
故障分析
1、从局端看,某个PON口下只有一个ONT终端。
2、断开该终端ONT(要断开线路或切断该终端ONT电源),如果此时该PON口下其他用户都能正常工作,
一般可以断定是该终端ONT长发光或者该线路有一个长发光的1310nm的光源(属于恶意入侵系统)。
操作步骤
1、更换为正常的ONT或切断该终端线路。
2、验证发现其他ONT在线,问题解决。
总结
如果某个ONT的光模块故障,处于常发光状态,则会占用全部上行时隙,导致和此ONT位于同一OLT端口
下的其他ONT全部瘫痪。这类现象只有在ONT光模块出现异常或者个别用户恶意入侵系统才会发生。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
典型案例-OUI设置错误导致ONT注册不上
故障现象
添加ONT后,ONT配置及匹配状态一直为“initial”,无法正常注册。同时上报以下告警:!
EVENT MAJOR 2007-12-27 11:40:57 ALARM NAME :ONU can not supported
EXTEND-CTC PARAMETERS :FrameID: 0, SlotID: 1, PortID: 1, ONUID: 0
操作步骤
1、更换ONT,问题依然存在。
2、使用离线增加ONT和自动发现后确认ONT的方法增加ONT,问题依然存在。
3、检查ONT能力集模板配置,没有发现问题。
4、检查OLT设备OUI配置,发现OUI为“0x000000”。使用epon oui命令将OUI修改为
“0x111111”,问题解决。
总结
OUI为运营商标识,中国电信为“0x111111”。MA5680T旧版本不进行标识验证,新版本增加了
此功能,如果验证不通过,将一直处于“initial”状态。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
第第11章章 某公司机房及设备分类某公司机房及设备分类
第第22章章 故障故障处处理流程和方法理流程和方法
第第33章章 PONPON宽带业务宽带业务故障故障处处理理
第第44章章 语语音音业务业务故障故障处处理理
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
故障处理流程
EPON语音业务故障处理分为以下两种情况:
话机无馈电故障处理。
话机有馈电故障。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
话机无馈电故障流程
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
话机有馈电故障处理流程
开始
在OLT上是否能学到语
音VLAN的网络侧MAC
在ONU上
PING软交换IP
查看MG接口状态
检查上行设备数据配置,
故障点定位为上端设备
否
检查设备间路由
或ACL配置
是
是
否
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
话机有馈电故障处理流程
1、查看VOIP业务的VLAN是否在OLT及ONU上正常透传,通过
查看MAC地址命令查看故障用户是否能够学到网络侧的MAC
,如果能学到MAC地址,转步骤3;如果不能学到网络侧的MAC
,转下一步;
2、检查上行交换机及BAC等设备的数据配置是否正确,定位故
障点为上行设备问题;否则转下一步;
3、在ONU(MG)上是否能PING通软交换网关(MGC),如果
能PING通,转步骤5;否则转下一步;
4、检查OLT设备到的近端SR到远端SR及软件换之间的路由是
否正常,定位故障点为链路路由问题;否则转下一步;
5、查看MG接口状态是否正常,MG接口参数配置是否正确无误
,设备IP地址、端口号、协议类型是否与对端设备的配置匹配,
定位故障点所在;否则采用信令跟踪工具进行信令跟踪。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
常见故障分类和原因分析
打不通电话
电话和电话线连接不正常。
连接IAD的ONT端口配置不正确。
IAD没有正常注册到MGC设备。
IAD语音业务没有配置高优先级。
省信息产业服务有限公司市分公司 固网设备维护组 2012年5月
Thank you~