OptiX OSN 3500智能光传输系统 故障定位的基本思路与方法.docx
- 文档编号:23687329
- 上传时间:2023-05-19
- 格式:DOCX
- 页数:13
- 大小:50.90KB
OptiX OSN 3500智能光传输系统 故障定位的基本思路与方法.docx
《OptiX OSN 3500智能光传输系统 故障定位的基本思路与方法.docx》由会员分享,可在线阅读,更多相关《OptiX OSN 3500智能光传输系统 故障定位的基本思路与方法.docx(13页珍藏版)》请在冰豆网上搜索。
OptiXOSN3500智能光传输系统故障定位的基本思路与方法
目录
第1章故障定位的基本思路与方法1-1
1.1对维护人员的要求1-1
1.1.1专业技能1-1
1.1.2传输设备和网管设备的基本操作1-1
1.1.3传输常用测试仪表的掌握1-1
1.1.4局点组网情况1-2
1.1.5现场数据的采集与保存工作1-2
1.2故障定位的基本原则1-3
1.2.1先定位外部,后定位内部1-3
1.2.2先定位网络,后定位网元1-3
1.2.3先分析高级别告警,后分析低级别告警1-3
1.3故障判断与定位的常用方法1-4
1.3.1告警、性能数据分析法1-4
1.3.2仪表测试法1-8
1.3.3替换法1-8
1.3.4经验处理法1-9
1.4故障定位的过程1-10
1.4.1排除OptiXBWS320G外部设备故障1-10
1.4.2故障定位、排除1-11
1.5联系华为技术支持1-12
1.6获取最新的技术资料1-13
第1章故障定位的基本思路与方法
本章介绍了常见故障的基本处理思路和方法。
1.1对维护人员的要求
快速定位和及时排除光传送系统的故障,对维护人员的业务技能、操作规范等都有很高要求。
维护人员应做到以下应知应会:
1.1.1专业技能
1.熟练掌握DWDM的基本原理
参见《OptiXBWS320G骨干DWDM光传输系统设备手册》以及其它相关资料。
2.熟练掌握传输系统告警产生的原因
参见维护手册的告警与性能事件部分
3.熟练掌握常见告警信号的处理
参见维护手册的告警与性能事件部分。
1.1.2传输设备和网管设备的基本操作
1.传输设备基本操作
参见《OptiXBWS320G骨干光传输系统维护手册系统维护部分》以及网管操作手册。
1.1.3传输常用测试仪表的掌握
传输常用测试仪表包括:
光功率计、SDH测试仪、光谱分析仪、通信信号分析仪、光谱分析仪等,使用方法参见各测试仪表的使用手册。
1.1.4局点组网情况
●熟悉本局点的组网情况。
●熟悉本局点的业务配置、波长分配、ODF子架尾纤走线、单板版本和机房设备的摆放。
●熟悉本局点的设备运行状况。
●加强对工程文档的学习,并作好工程文档的维护工作。
1.1.5现场数据的采集与保存工作
在进行故障处理前,要求维护人员首先要采集、保存现场数据,包括以下几个方面:
●采集并保存系统告警及性能数据。
●采集并保存各网元及单板的配置数据。
●采集并保存各网元及单板的运行状态数据。
●采集并保存网管的操作日志。
1.2故障定位的基本原则
故障定位关键是:
将故障点准确地定位到单站。
故障定位的一般原则可总结为三句话:
先外部,后内部;先网络,后网元;先高级,后低级。
1.2.1先定位外部,后定位内部
在进行OptiXBWS320G系统的故障定位时,应该首先排除外部设备的问题。
这些外部设备问题包括光纤、接入SDH设备和掉电等问题。
1.2.2先定位网络,后定位网元
传输设备出现故障时,有时不会只是一个单站出现告警信号,而是在很多单站同时会上报告警。
这时我们就需要通过分析和判断来缩小导致故障的范围,尽快将故障定位到网元,一旦将故障定位到网元后,我们就可以集中精力,通过数据分析、硬件检查、更换单板等手段来排除该站的故障。
1.2.3先分析高级别告警,后分析低级别告警
我们在分析告警时,应首先分析高级别的告警,如紧急告警、主要告警;然后再分析低级别的告警,如次要告警和一般告警。
1.3故障判断与定位的常用方法
对于一般性的硬件故障,一般采用“①分析,②环回,③换板”的方法:
当故障发生时,首先通过对告警事件、性能数据和信号流向进行分析,初步判断故障点范围;接着,通过逐段测量光功率和分析光谱,排除尾纤或光缆故障,并最终将故障定位到单板;最后,通过换板或换纤,排除故障问题。
对于较复杂的故障,需要通过表1-1所示的方法进行故障定位和处理。
表1-1复杂故障的定位和处理
常用方法
适用范围
操作特点
告警性能分析法
通用
全网把握,可预见设备隐患;不影响正常业务。
主要依靠网管分析。
替换法
故障定位到单板,或分离外部故障
简单;但对备件有需求。
仪表测试法
分离外部故障,解决对接问题
具有说服力;对仪表有需求。
经验处理法
特殊情况
操作简单
1.3.2告警、性能数据分析法
当OptiXBWS320G系统发生故障时,一般会伴随有大量的告警事件和异常性能数据的产生,通过对这些信息的分析,可大概判断出所发生故障的类型和位置。
使用告警、性能数据分析法,最关键的问题就是如何及时、方便、全面、确切和真实地获取故障信息。
故障信息的来源一般有两个渠道:
●通过网管查询传输系统当前或历史的告警事件和性能数据;
●通过观察设备机柜、单板的运行、告警灯的闪烁情况。
这两个获取故障信息的途径各有优缺点,下面分别介绍:
1.通过网管获取告警、性能信息,进行故障定位
通过网管获取故障信息,定位故障的特点是:
●全面:
能够获取全网设备的故障信息。
●准确:
能够获取设备当前存在哪些告警、告警发生时间,以及设备的历史告警;能够获取设备性能事件的具体数值。
●如果告警、性能事件太多,可能会面临无从着手分析的困难。
●完全依赖于计算机、软件、通信三者的正常工作,一旦以上三者之一出问题,通过该途径获取故障信息的能力将大大降低,甚至于完全失去。
注意:
(1)通过网管获取告警或性能信息时,应注意保证网络中各网元的当前网元运行时间设置正确,倘若网元时间设置错误,将会导致告警、性能信息上报错误或根本不上报。
(2)在维护过程中,对某网元重下配置后,应特别注意将该网元的网元时间设为当前时间,否则网元会工作在缺省时间里,而缺省时间并不是当前时间。
2.通过设备上的指示灯获取告警信息,进行故障定位
OptiXBWS320G系统上设计有不同颜色的运行和告警指示灯,这些指示灯的亮、灭及闪烁情况反映出设备当前的运行状况或存在的告警。
在机柜顶上,有红、黄、绿三个不同颜色的指示灯和一个蜂鸣告警器,注意蜂鸣器的告警声可通过主控板上的ALC告警切除开关切除掉。
机柜顶部指示灯可帮助维护人员及时了解整个设备的工作情况,当柜顶的红灯亮时,表示设备检测到有紧急事件发生,如光纤断或单板不在位等;当黄灯亮时,表示设备检测到有主要告警事件发生。
不过需要注意的是,只观察机柜顶的告警指示灯,可能会漏过设备的次要告警(如果是次要告警,机柜顶指示灯不亮而是单板告警灯闪烁),而次要告警往往预示着本端设备的故障隐患,或对端设备存在故障,不可轻视。
OptiXBWS320G系统单板上一般都有红、绿两个指示灯,主控板上还有一个黄色的Ethernet通信状态指示灯。
绿灯为单板运行灯,通过不同频率的闪烁次数表示单板不同的运行状态;红灯为告警指示灯,通过不同频率的闪烁次数表示不同级别的告警。
通过这些单板指示灯的闪烁情况,我们可以大致定位故障的类型和位置。
如发生故障时,检查发现子架中单板的绿色运行灯进入快闪状态,则可判断故障的原因可能是配置丢失,此时可通过重新下发配置数据排除故障;如检查发现单板的绿色运行灯进入慢闪状态,则可判断故障的原因可能是单板邮箱总线故障。
设备和单板指示灯所能表示的故障信息是比较有限的,因此仅仅通过观察设备、单板指示灯的明亮和闪烁情况,进行故障的分析和定位,其难度相对来说较大,且定位难以细化、精确。
但该方法也有优势——维护人员就在设备现场,不依赖任何工具,就可实时观察到哪块单板有什么级别的告警,而且在现场进行各种操作都比较方便。
因此,通过观察设备上指示灯的闪烁情况并结合相关仪表的使用,维护人员应能对设备的基本故障进行分析、定位和处理。
同时,要求维护人员平时要熟练掌握各单板告警指示灯的不同闪烁情况所代表的常见告警,以此做为日后判断、定位故障的基础。
各单板指示灯的详细信息参见:
●《OptiXBWS320G骨干DWDM光传输系统维护手册告警与性能事件部分》
●《OptiXBWS320G骨干DWDM光传输系统设备手册》
注意:
(1)设备指示灯仅反映设备当前的运行状态,对于设备曾经出现过但当前已经结束的故障无法显示。
(2)设备每种告警对应的指示灯闪烁情况,可以通过网管软件进行重新定义,甚至于可以将某种告警屏蔽掉。
(3)单板告警指示灯闪烁方式上报的告警级别与单板检测到的最高级别告警相一致。
下面通过举例,对告警、性能数据分析法给予说明。
图1-1告警、性能分析例图
开放式OptiXBWS320G系统组成点对点的组网结构时可以分解为图1-1所示结构。
A站到B站SDH业务中断,B站SDH接收无光或接收到大量误码,则从A站SDH发送端开始逐段分析告警性能:
●先对A站对应的TWF板告警和性能进行分析,如果TWF板接收无光告警或接收光功率过低时,则故障点可能出在A站SDH的光发送端或SDH到TWF板的尾纤,或是TWF接收端。
●如果TWF板输入光功率正常,再检测输出光功率是否正常,如不正常则故障点在TWF板。
●如果TWF板的输出光功率也没有问题,观察A站M32板的输出光功率是否有很大的变化,如果A站上的波数比较多的话,丢失其中的一波不会使功率发生大的变化,所以需要把M32板的MON口信号接入MS2板(把故障波长设置为监视),查询是否发生掉波告警。
由于M32板主要工作器件是无源器件,损坏的可能性不大,而且损坏只影响一路信号的可能性就更小了,所以发生单路信号故障时损坏器件的单板不太可能是M32板。
如果MS2板检测到该波信号丢失,最可能出故障的地方是连接TWF板和M32板的尾纤。
●WBA板和WPA板均有输入、输出光功率检测功能。
如果WPA、WBA板出现故障,受到影响的业务不会仅仅是其中一波,所以故障出在WBA或WPA板的可能性极小。
●B站的RWF告警和性能分析方法同A站TWF板分析方法。
3.两种获取故障信息途径的比较
从上面的介绍可以看出,通过网管与通过观察设备指示灯这两个途径获取设备故障信息,各有其优点。
因此,在实际的故障定位过程中,这两种手段要结合起来使用。
排除故障时,需要网管中心的维护人员与各站的设备维护人员共同参与,一般由网管中心的维护人员协调指挥,各站的设备维护人员密切配合,统一行动。
两种途径的比较如表1-2所示。
表1-1通过网管和指示灯获取故障信息途径的比较
项目
网管
设备指示灯
主要使用者
网管维护人员
设备维护人员
定位作用
指挥
配合
告警信息
全网、大量、确切
单站、少量、模糊
历史告警
有
无
告警时间
可以看到
无法知道
性能事件
可以看到
无法知道
计算机、软件、通信
完全依赖
无关
4.告警、性能分析法的局限性
●在组网、业务以及故障信息比较复杂的情况下,伴随故障的发生,可能会产生大量的告警和性能事件;由于告警和性能事件太多,使得维护人员无从着手分析。
●某些故障发生时,可能没有明显的告警或性能事件上报,有时甚至查不到任何告警或性能事件。
这种情况下,告警、性能分析法是无能为力的。
1.3.3仪表测试法
1.概述
“仪表测试法”一般用于排除传输设备外部问题以及与其它设备的对接问题。
2.仪表测试法应用
●光谱分析测试
用光谱分析仪测试单板的MON口输出信号的光谱,直接从仪表上读出光功率、信噪比,分析光放大板的增益平坦度。
将得到的数据和原始数据比较,是否出现比较大的性能劣化(原始数据见工程文挡)。
M32、D32、WBA、WPA等单板的MON口,均可以在线测试主信道光谱。
如果受到影响的业务是主信道的所有业务,则可以重点分析WBA、WPA的光谱;如果受损的业务只是主信道中的一路业务时,重点分析M32和D32的光谱。
●光功率测试
虽然从网管上的性能数据中可以得出各点的光功率,但是为了得到精确的值,用光功率计再次测量该点光功率也是非常必要的。
注意:
当M32的输出光功率、D32的输入光功率、WBA或WPA的输入和输出光功率异常时,如果断开线路进行测试,将会中断所有业务,所以不到万不得已的情况,不可以随意测试主信号的光功率。
3.仪表测试法小结
通过“仪表测试法”分析定位故障,说服力比较强。
缺点是对仪表有需求,同时对维护人员的要求也比较高。
1.3.4替换法
“替换法”就是使用一个工作正常的物件去替换一个怀疑工作不正常的物件,从而达到定位故障、排除故障的目的。
这里的物件,可以是一段尾纤、一块单板、一个法兰盘或一个衰耗器。
“替换法”适用于排除传输外部设备的问题,如光纤、法兰盘、接入SDH设备、供电设备等;或故障定位到单站后,用于排除单站内单板或模块的问题,举例如图1-2所示。
图1-1故障解决图例
上图中的TWF板上报R-LOS告警,而SDH接收没有发生告警,则可以调换尾纤A和B,观察TWF/TWC板和SDH告警情况,如果TWF板仍然有R-LOS告警,则可以判断SDH的发送模块或TWF板的接收模块有故障;但如果TWF板没有告警,而SDH设备产生R-LOS告警,则说明A纤故障。
注意:
测试时首先把TWF板和SDH单板激光器自动关闭功能屏蔽。
替换法的优势是可以将故障定位到较细的位置,且对维护人员的要求不高,因此是一种比较实用的方法。
但该方法对备件有要求,且操作起来没有其它方法方便。
插拔单板时,若不小心,还可能导致板件损坏等其它问题的发生。
1.3.5经验处理法
1.概述
在一些特殊的情况下,如:
由于瞬间供电异常、低压或外部强烈的电磁干扰,致使设备某些单板进入异常工作状态。
此时的故障现象,如业务中断、ECC通信中断等,可能伴随有相应的告警,也可能没有任何告警,检查各单板的配置数据可能也是完全正常的。
经验证明,在这种情况下,通过复位、插拔单板,单站掉电重启,重新下发配置等手段,可有效地及时排除故障,恢复业务。
2.经验处理法小结
但建议该处理故障的办法尽量少用,因为该方法不利于故障原因的彻底查清。
遇到这种情况,除非情况紧急,一般还是应尽量使用上面介绍的方法,或请求支援尽可能地将故障定位出来,以消除设备内外隐患。
1.4故障定位的过程
对于OptiXBWS320G传输设备的故障定位来说,不管对于哪种类型的故障,其定位过程都是大致相同的,即首先排除接入SDH设备的问题,然后将故障定位到单站,接着定位单板或尾纤出现问题,并最终将故障排除。
本节讲述的是在一般的故障处理过程中应该使用的办法,将故障定位到单板或尾纤并最终排除故障。
1.4.1排除OptiXBWS320G外部设备故障
在进行OptiXBWS320G系统的故障定位前,首先得排除外部设备的问题。
这些外部设备问题包括光纤、接入SDH设备和掉电等问题。
1.接入SDH设备故障的排除
方法1:
把SDH设备光口收发自环,检查该设备告警情况。
如果依然存在告警,或采用仪表测试还是有误码,则说明故障发生在SDH设备上,注意收发自环时加装大小适当的光衰减器。
方法2:
在OptiXBWS320G系统的波长转换板输入口、波长转换板输出口挂误码测试仪表进行误码测试,在对端站把相应波长转换板输出口用尾纤短接到相应波长转换板输入口,测试24小时。
如果没有误码,则故障在接入的SDH设备。
方法3:
在条件允许的情况下,把接入的SDH设备直接接到光路上传输,然后在SDH设备侧挂表测试,看是否发生误码,如果发生误码,则故障在SDH设备。
方法4:
开放式OptiXBWS320G系统配置有波长转换板,这些单板均有B1误码检测功能,首先检查波长转换板是否监测到B1数值,如果有则OptiXBWS320G接收的信号已经产生误码,再检查对端站波长转换板监测到的B1数值,看与波长转换板的B1数值是否相同,如果相同说明OptiXBWS320G系统没有新增加误码,整个OptiXBWS320G系统运行正常,所以问题出在SDH设备。
2.线路光纤故障的排除
当光功率明显下降时,单板必然有信号丢失告警,单板红灯每秒闪烁三下。
为进一步定位是单板问题还是光纤问题,可采取如下方法:
方法1:
使用OTDR(光时域反射仪)仪表直接测量判断光纤是否发生故障。
但需注意,OTDR仪表在很近的距离内,有一段盲区,无法准确测试。
使用OTDR时要将尾纤和设备分开,否则OTDR的强光可能会损坏设备!
方法2:
测量告警单板的接收光功率和对端站相应单板的输出光功率,若对端站单板发送光功率正常,而本端接收光功率异常,则说明是光纤问题;若单板发光功率已经很低,则判断为该单板有问题或其输入光功率不正常。
方法3:
使用替换法。
若有一根光纤是好的,则可用替代法判断是否的确是光纤的问题。
3.供电电源故障的排除
如果一站点登录不上,且与该站相连的单板均有输入信号丢失的告警,则可能是该站的供电电源出现故障,导致该站掉电引起告警。
若该站从正常运行中突然进入异常工作状态,光功率突然下降、某些单板工作异常、业务中断、登录不正常等情况,则需检查传输设备供电电压是否过低,或者曾经出现过瞬间低压的情况。
1.4.2故障定位、排除
故障能否及时排除取决于能否准确的定位故障点。
而进行故障定位最常用的方法就是“告警性能分析法”,即通过网管逐站进行告警性能分析,查看各站的光功率,与已经保存好的性能数据(正常情况下)比较,分析差异,定位出可能存在故障的尾纤或单板。
如果条件允许,可以用仪表测量一下光功率,如果确实出现异常,通过替换法更换损坏的单板或尾纤,再通过性能分析查看故障是否恢复。
1.5联系华为技术支持
在日常维护或故障处理的过程中,如果遇到难以确定或解决的问题时,请您联系华为公司客户服务中心。
同时,您在向华为工程师反馈问题的时候,请注意收集以下信息:
●局点的详细名称;
●联系人的姓名、电话号码;
●故障现场的联系人、联系电话;
●故障发生的具体时间;
●设备类型及组网类型;
●问题的级别及希望解决的时间;
●故障发生后已采取的措施和结果。
1.6获取最新的技术资料
您可以从华为技术有限公司的技术支持网页上直接获取最新的技术资料,帮助您分析和处理故障。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- OptiX OSN 3500智能光传输系统 故障定位的基本思路与方法 3500 智能 传输 系统 故障 定位 基本思路 方法
![提示](https://static.bdocx.com/images/bang_tan.gif)