WH500220 UMG8900应急维护指导书.docx
- 文档编号:3665040
- 上传时间:2022-11-24
- 格式:DOCX
- 页数:20
- 大小:69.76KB
WH500220 UMG8900应急维护指导书.docx
《WH500220 UMG8900应急维护指导书.docx》由会员分享,可在线阅读,更多相关《WH500220 UMG8900应急维护指导书.docx(20页珍藏版)》请在冰豆网上搜索。
WH500220UMG8900应急维护指导书
WH500220
UMG8900应急维护指导书
(cover)
ISSUE1.0
模板使用说明:
(NotesHeading,F10)
1.本模板为培训手册写作专用模板。
模板中蓝字字体为该段落应选取的样式,红色字体为模板的使用说明。
(NotesText,F8)
2.套用该模板时,请按正确步骤加载模板。
3.建议直接用该模板建一个新文件来进行写作。
写作时一定不要删除文中的分节,直接将封面、课程说明、正文、小结等几部分内容直接拷贝到相应位置,并删除该位置的示例内容,再套用相应的样式。
样式说明:
(NotesHeading,F10)
4.本模板中标题号、页码为自动编号,不需要修改。
5.表格和图形编号会在章内自动重新编号,正文中的表格和图形编号需要手动插入“交叉引用”。
6.NotesText为自动编号。
若不需要编号,需要手动取消编号。
(NotesText,F8)
7.页眉中左侧的课程名称需手动修改;右侧的章节名称及编号由原来的“交叉引用”改为“域”,会自动更新。
设置好后就不再需要插入和更新。
样式
快捷键
样式
快捷键
标题1(Heading1)
Alt+1
表格题注(TableDescription)
F5
标题2(Heading2)
Alt+2
表头(TableHeading)
F6
标题3(Heading3)
Alt+3
表正文(TableText)
F7
标题4(Heading4)
Alt+4
说明内容(NotesText)
F8
正文(Normal)
F2
特别说明(NotesHeading)
F10
正文项目(ItemList)
F3
图题注(FigureDescription)
F11
自动编号(ItemStep)
F4
图文本(FigureText)
F12
模板中样式与快捷键对应表:
8.强烈推荐大家使用快捷键,真的又快又方便。
9.请将该模板放到Microsoft\Template下,只有这样快捷键才能生效。
目录(TOCHeading)
课程说明1
课程介绍1
课程目标1
相关资料1
第1章紧急事故与应急维护流程2
1.1紧急事故的界定2
1.1.1设备类事故2
1.1.2业务类事故3
1.2应急处理过程3
1.2.1总体处理流程3
第2章设备类事故处理5
2.1排除机柜供电故障5
2.1.1判断机柜供电是否正常5
2.1.2检修供电系统然后加电重启5
2.2排除主控框运行故障6
2.2.1判断主控框供电是否正常6
2.2.2检查OMU单板是否故障6
2.2.3检查其它单板是否故障7
2.3排除中心交换框运行故障7
2.3.1判断中心交换框供电是否正常7
2.3.2检查MPU单板是否故障8
2.3.3检查其它单板是否故障8
2.3.4检查级联系统是否故障8
2.4排除业务框运行故障9
2.4.1判断业务框供电是否正常9
2.4.2检查MPU单板是否故障9
2.4.3检查其它单板是否故障10
2.4.4检查级联系统是否故障10
2.5排除扩展控制框运行故障11
2.5.1判断扩展控制框供电是否正常11
2.5.2检查MPU单板是否故障11
2.5.3检查其它单板是否故障12
2.5.4检查级联系统是否故障12
2.6排除业务模块运行故障13
是否为修改配置数据引起13
2.6.1恢复正确的配置数据13
2.6.2复位该业务模块所对应的单板13
2.6.3更换该业务模块所对应的单板14
第3章业务类故障应急处理15
3.1全局业务阻塞的处理15
3.1.1全局业务阻塞的处理流程15
3.1.2检查硬件设备是否正常16
3.1.3检查承载网运行是否正常16
3.1.4备份配置数据17
3.1.5排除配置数据错误17
3.1.6排除主机过载引起的紧急情况18
3.2局部业务阻塞的处理18
3.2.1局部业务阻塞的处理流程18
3.2.2检查硬件设备是否正常19
3.2.3检查承载网运行是否正常19
3.2.4备份配置数据19
3.2.5检查该UMG8900是否正常注册19
3.2.6检查UMG8900与MGC之间的通信是否正常20
3.2.7检查目的信令点是否可达20
3.2.8是否为修改信令数据引起20
3.2.9恢复正确的信令数据20
3.2.10恢复正确的中继数据20
3.2.11转对端交换局处理事故21
课程说明(标题1,ALT+1)
课程介绍(标题2,ALT+2)
本课程主要介绍UMG8900设备在发生紧急事故的情况下,如何迅速判断事故原因,排除故障,快速恢复系统或设备的正常运行,并将事故损失降到最低。
本课程的主要内容如下:
第一章介绍紧急事故的分类;第二章针对事故种类和场景进行判断,采取应急措施;第三章介绍如何搜集故障信息,采集哪些故障信息。
(正文,F2)
课程目标(标题2)
完成本课程的学习后,您应该能够:
(正文,F2)
●了解UMG8900设备的应急维护方法(ItemList,F3)
●掌握UMG8900设备的应急维护措施
相关资料(标题2)
《UMG8900应急维护手册》
紧急事故与应急维护流程(标题1,Alt+1)
紧急事故的界定
所谓紧急事故,是指突然发生的、影响面广、涉及范围大、并对网络的安全运行与服务质量造成严重后果的设备或网络事故。
常见的现象包括:
●大量用户无法使用语音业务;
●大量用户通话过程中出现频繁掉话;
●频繁出现单通、双不通、串话、杂音等现象;
●大量用户不能做主叫或不能做被叫;
●大量用户无法进行数据业务;
●数据业务使用不正常、速率慢、时断时续;
●系统的CPU占用率过高。
为便于紧急事故的处理,我们可以从两个方面对与UMG8900有关的紧急事故进行界定:
●按事故影响到的设备功能进行界定,即判断本次事故是否为设备类事故;
●按事故影响到的业务范围进行界定,即判断本次事故是否为业务类事故。
设备类事故
设备类事故表现在UMG8900整机或者主要部件运行发生了故障,导致在网络中发生了功能完全丧失或大部分丧失的恶性事故。
在故障定位的过程中,当出现以下任何一种情况时,我们称本局UMG8900发生了设备类事故:
●所有机柜全部掉电;
●主控框掉电;
●业务框掉电;
●中心交换框掉电;
●OMU主备单板故障;
●业务模块瘫痪。
业务模块瘫痪是指某个业务模块发生了功能完全丧失的恶性事故,主要表现为该业务模块所对应的主备用单板或者负荷分担的单板的运行均出现了故障或“宕机”。
业务类事故
业务类事故表现为UMG8900提供的业务出现全局或部分阻塞。
全局业务阻塞
全局业务阻塞是指本局UMG8900发生了长时间的、全局范围内的业务中断或呼叫阻塞事故。
在故障定位的过程中,当出现以下任何一种情况时,我们称本局UMG8900发生了全局业务阻塞事故:
●全部媒体网关均不能正常注册,如无法注册到媒体网关控制器MGC、注册后又立即断开等;
●在UMG8900接入的用户终端中,全部用户终端均发生呼叫阻塞,如无法呼入、无法呼出等;
●UMG8900提供的所有中继电路不能正常使用,如TDM电路全部故障、无法呼入、无法呼出等。
局部业务阻塞
局部业务阻塞是指本局UMG8900发生了长时间的、局部范围内的业务中断或呼叫阻塞事故,其常见的表现形式有:
●部分媒体网关不能正常注册到媒体网关控制器MGC,如无法注册、注册后又立即断开等;
●在UMG8900接入的用户终端中,部分用户终端均发生呼叫阻塞,如无法呼入、无法呼出等;
●UMG8900提供的部分中继电路不能正常使用,如TDM电路部分故障、无法呼入、无法呼出等。
应急处理过程
总体处理流程
应急维护以快速恢复设备的正常运行与业务的正常提供为核心指导思想,其总体处理流程如图1-1所示。
应急维护的总体处理流程
写作说明:
1.章节小结一定要有,而且要新起一页。
2.章节小结可以不用胶片,直接用文字来表述。
3.小结不一定非要在章节结束才有,一个相对独立的内容讲解完后就可以有一个小结。
设备类事故处理
设备类事故表现在全部机柜掉电、机框掉电、OMU主备单板故障等,通过查看系统告警、单板指示灯等方法可以判断。
对于硬件类故障产生的告警,比如单板温度致命告警、单板电压致命告警、风扇框通讯故障、配电框通讯故障等,请按照相关告警联机帮助介绍来处理有关紧急和重要告警。
排除机柜供电故障
判断机柜供电是否正常
机柜全部掉电或综合配置机柜掉电必然导致主机设备瘫痪。
维护人员可通过以下方法判断机柜的供电是否正常:
●若机柜配电框面板上的“RUN”运行指示灯(绿色)点亮、并每秒钟闪烁1次,则表示机柜的供电正常,即配电框的进线电源正常、配电框的内部电路正常。
●若机柜配电框面板上的“RUN”运行指示灯(绿色)熄灭,则表示机柜的供电不正常,即配电框的两路进线电源全部失压。
检修供电系统然后加电重启
机柜供电不正常一般是由于机房的供电系统发生故障而引起,在这种情况下,维护人员应按照以下操作步骤进行恢复:
在机房的供电系统恢复正常之前,为防止意外,请断开机柜配电框面板上的所有电源开关(SW1~SW6)。
立即检修机房的供电系统,比如机房的空气开关是否跳闸等。
在机房的供电系统恢复正常之后,请对机柜执行加电重启操作。
----结束
排除主控框运行故障
判断主控框供电是否正常
由于主控框内配置有OMU、TNU等重要单板,因此,主控框掉电将直接导致框内的重要单板不能使用,从而导致主机设备瘫痪。
维护人员可通过以下方法判断主控框的供电是否正常:
●若主控框内各单板的面板指示灯均被点亮,则表示主控框的供电正常。
●若主控框内单板的面板指示灯均没被点亮,则表示主控框的供电不正常。
如果发现为电源模块故障,可按照如下方式尽快处理电源问题,恢复系统。
确认提供整框的-48V电源是否有问题,检查机柜上部的配电盒以及配电柜,是否工作正常。
检查电源线路是否正常。
通过万用表测试电源输出是否正常。
如为单板电源模块问题,请更换单板。
----结束
检查OMU单板是否故障
OMU单板作为整个设备的管理控制中心,采用主备方式工作。
如果主OMU单板发生故障,设备会自动倒换到备OMU单板,不影响设备运行,如果主备板都发生了故障,则会导致设备无法正常运行。
当出现以下任何一种情况时,维护人员即可判断主控框内OMU单板的运行已经处于瘫痪状态:
●主备用OMU单板面板上的“RUN”运行指示灯熄灭或常亮。
●主备用OMU单板面板上的“ALM”故障指示灯点亮。
●在本地维护终端上运行MML命令DSPCPUR,查询主备用OMU单板的CPU占用率在长时间范围内接近100%。
当确定OMU单板发生故障后,请更换故障的OMU单板,有关OMU单板更换的详细操作,请参考《HUAWEIUMG8900通用媒体网关部件更换》相关部分内容。
检查其它单板是否故障
主控框内除OMU单板外的其它单板如果发生故障,根据单板的具备功能不同,可能会局部影响设备的运行,造成局部业务中断。
当出现以下任何一种情况时,维护人员即可判断主控框内该单板的运行已经处于瘫痪状态:
●该单板面板上的“RUN”运行指示灯熄灭或常亮。
●该单板面板上的“ALM”故障指示灯点亮。
●该单板的CPU占用率在长时间范围内接近100%。
当确定该单板发生故障后,请更换有故障的该单板,有关该单板更换的详细操作,请参考《HUAWEIUMG8900通用媒体网关部件更换》相关部分内容。
排除中心交换框运行故障
判断中心交换框供电是否正常
由于中心交换框内配置有MPU、TNU、BLU等重要单板,因此,中心交换框掉电将直接导致框内的重要单板不能使用,从而导致与之相级联的业务框、扩展控制框瘫痪。
维护人员可通过以下方法判断中心交换框的供电是否正常:
●若中心交换框内各单板的面板指示灯均被点亮,则表示中心交换框的供电正常。
●若中心交换框内单板的面板指示灯均没被点亮,则表示中心交换框的供电不正常。
如果发现为电源模块故障,可按照如下方式尽快处理电源问题,恢复系统。
确认提供整框的-48V电源是否有问题,检查机柜上部的配电盒以及配电柜,是否工作正常;
检查电源线路是否正常;
通过万用表测试电源输出是否正常;
如为单板电源模块问题,请更换单板。
----结束
检查MPU单板是否故障
MPU单板作为整个设备的主处理单元,在中心交换框内位于前插7、8槽位,采用主备方式工作。
如果主MPU单板发生故障,设备会自动倒换到备MPU单板,不影响设备运行,如果主备板都发生了故障,则会导致设备无法正常运行。
当出现以下任何一种情况时,维护人员即可判断中心交换框内MPU单板的运行已经处于瘫痪状态:
●主备用MPU单板面板上的“RUN”运行指示灯熄灭或常亮。
●主备用MPU单板面板上的“ALM”故障指示灯点亮。
●主备用MPU单板的CPU占用率在长时间范围内接近100%。
当确定MPU单板发生故障后,请更换故障的MPU单板,有关MPU单板更换的详细操作,请参考《HUAWEIUMG8900通用媒体网关部件更换》相关部分内容。
检查其它单板是否故障
中心交换框内除MPU单板外的其它单板如果发生故障,根据单板的具备功能不同,可能会局部影响设备的运行,造成局部业务中断。
当出现以下任何一种情况时,维护人员即可判断中心交换框内该单板的运行已经处于瘫痪状态:
●该单板面板上的“RUN”运行指示灯熄灭或常亮。
●该单板面板上的“ALM”故障指示灯点亮。
●该单板的CPU占用率在长时间范围内接近100%。
当确定该单板发生故障后,请更换有故障的该单板,有关该单板更换的详细操作,请参考《HUAWEIUMG8900通用媒体网关部件更换》相关部分内容。
检查级联系统是否故障
中心交换框提供交换与级联功能,通过TNU、NET、BLU单板与主控框、业务框、扩展控制框实现级联功能。
当出现以下任何一种情况时,维护人员即可判断级联系统已经处于紧急事故状态:
●FE级联网口LINK指示灯频繁出现闪断。
●LMT上有级联网口故障告警频繁上报。
●中心交换框主备的BLU单板不停复位,启动失败。
当确定级联系统发生故障后,可以尝试从以下几种方法处理故障:
●级联网线的质量有问题、与网口接触不良,需要更换网线、保证与网口接触良好。
●与设备相连的LANSwitch芯片出现问题,需要更换LANSwitch。
●先拔掉BLU上的TDM光纤,如果BLU单板能正常启动,说明是TNU的级联部分频繁倒换引起的BLU复位,这是由于时钟信号不稳定导致,需要更换NET单板或CLK时钟板,保证系统提供稳定的时钟。
也可能是TNU单板故障,需要更换TNU单板。
排除业务框运行故障
判断业务框供电是否正常
由于业务框内配置有MPU、TNU等重要单板,因此,业务框掉电将直接导致框内的重要单板不能使用,从而导致业务中断。
维护人员可通过以下方法判断业务框的供电是否正常:
●若业务框内各单板的面板指示灯均被点亮,则表示业务框的供电正常。
●若业务框内单板的面板指示灯均没被点亮,则表示业务框的供电不正常。
如果发现为电源模块故障,可按照如下方式尽快处理电源问题,恢复系统。
确认提供整框的-48V电源是否有问题,检查机柜上部的配电盒以及配电柜,是否工作正常;
检查电源线路是否正常;
通过万用表测试电源输出是否正常;
如为单板电源模块问题,请更换单板。
----结束
检查MPU单板是否故障
MPU单板作为整个设备的主处理单元,在业务框内位于前插7、8槽位,采用主备方式工作。
如果主MPU单板发生故障,设备会自动倒换到备MPU单板,不影响设备运行,如果主备板都发生了故障,则会导致设备无法正常运行。
当出现以下任何一种情况时,维护人员即可判断业务框内MPU单板的运行已经处于瘫痪状态:
●主备用MPU单板面板上的“RUN”运行指示灯熄灭或常亮。
●主备用MPU单板面板上的“ALM”故障指示灯点亮。
●主备用MPU单板的CPU占用率在长时间范围内接近100%。
当确定MPU单板发生故障后,请更换故障的MPU单板,有关MPU单板更换的详细操作,请参考《HUAWEIUMG8900通用媒体网关部件更换》相关部分内容。
检查其它单板是否故障
业务框内除MPU单板外的其它单板如果发生故障,根据单板的具备功能不同,可能会局部影响设备的运行,造成局部业务中断。
当出现以下任何一种情况时,维护人员即可判断业务框内该单板的运行已经处于瘫痪状态:
●该单板面板上的“RUN”运行指示灯熄灭或常亮。
●该单板面板上的“ALM”故障指示灯点亮。
●该单板的CPU占用率在长时间范围内接近100%。
当确定该单板发生故障后,请更换有故障的该单板,有关该单板更换的详细操作,请参考《HUAWEIUMG8900通用媒体网关部件更换》相关部分内容。
检查级联系统是否故障
业务框提供业务处理功能,通过TNU或者NET单板与中心交换框实现级联功能,
当出现以下任何一种情况时,维护人员即可判断级联系统已经处于紧急事故状态:
●FE级联网口指示灯频繁出现闪断。
●LMT上有级联网口故障告警频繁上报。
●中心交换框主备的BLU单板不停复位,启动失败。
当确定级联系统发生故障后,可以尝试从以下几种方法处理故障:
●级联网线的质量有问题、与网口接触不良,需要更换网线、保证与网口接触良好。
●与设备相连的LANSwitch芯片出现问题,需要更换LANSwitch。
●先拔掉BLU上的TDM光纤,如果BLU单板能正常启动,说明是TNU的级联部分频繁倒换引起的BLU复位,这是由于时钟信号不稳定导致,需要更换NET单板或CLK时钟板,保证系统提供稳定的时钟。
也可能是TNU单板故障,需要更换TNU单板。
排除扩展控制框运行故障
判断扩展控制框供电是否正常
由于扩展控制框内配置有MPU、NET等重要单板,因此,扩展控制框掉电将直接导致框内的重要单板不能使用,从而导致业务中断。
维护人员可通过以下方法判断扩展控制框的供电是否正常:
●若扩展控制框内各单板的面板指示灯均被点亮,则表示扩展控制框的供电正常。
●若扩展控制框内单板的面板指示灯均没被点亮,则表示扩展控制框的供电不正常。
如果发现为电源模块故障,可按照如下方式尽快处理电源问题,恢复系统。
确认提供整框的-48V电源是否有问题,检查机柜上部的配电盒以及配电柜,是否工作正常;
检查电源线路是否正常;
通过万用表测试电源输出是否正常;
如为单板电源模块问题,请更换单板。
----结束
检查MPU单板是否故障
MPU单板作为整个设备的主处理单元,在扩展控制框内位于前插7、8槽位,采用主备方式工作。
如果主MPU单板发生故障,设备会自动倒换到备MPU单板,不影响设备运行,如果主备板都发生了故障,则会导致设备无法正常运行。
当出现以下任何一种情况时,维护人员即可判断扩展控制框内MPU单板的运行已经处于瘫痪状态:
●主备用MPU单板面板上的“RUN”运行指示灯熄灭或常亮。
●主备用MPU单板面板上的“ALM”故障指示灯点亮。
●主备用MPU单板的CPU占用率在长时间范围内接近100%。
当确定MPU单板发生故障后,请更换故障的MPU单板,有关MPU单板更换的详细操作,请参考《HUAWEIUMG8900通用媒体网关部件更换》相关部分内容。
检查其它单板是否故障
扩展控制框内除MPU单板外的其它单板如果发生故障,根据单板的具备功能不同,可能会局部影响设备的运行,造成局部业务中断。
当出现以下任何一种情况时,维护人员即可判断扩展控制框内该单板的运行已经处于瘫痪状态:
●该单板面板上的“RUN”运行指示灯熄灭或常亮。
●该单板面板上的“ALM”故障指示灯点亮。
●该单板的CPU占用率在长时间范围内接近100%。
当确定该单板发生故障后,请更换有故障的该单板,有关该单板更换的详细操作,请参考《HUAWEIUMG8900通用媒体网关部件更换》相关部分内容。
检查级联系统是否故障
扩展控制框提供呼叫控制消息处理,通过NET单板与中心交换框实现级联功能。
当出现以下任何一种情况时,维护人员即可判断级联系统已经处于紧急事故状态:
●FE级联网口指示灯频繁出现闪断。
●LMT上有级联网口故障告警频繁上报。
●NET单板不停复位,启动失败。
当确定级联系统发生故障后,可以尝试从以下几种方法处理故障:
●级联网线的质量有问题、与网口接触不良,需要更换网线、保证与网口接触良好。
●与设备相连的LANSwitch芯片出现问题,需要更换LANSwitch。
●可能是NET单板故障,需要更换NET单板。
排除业务模块运行故障
当维护人员确认系统发生了业务模块瘫痪的紧急事故后,应立即按照如下的基本思路来进行处理。
是否为修改配置数据引起
恢复正确的配置数据
复位该业务模块所对应的单板
更换该业务模块所对应的单板
记录故障处理信息
----结束
是否为修改配置数据引起
一般情况下,维护人员不能修改UMG8900的公共参数、模块参数、与对端的协商参数等重要配置数据。
如果维护人员不合理地修改了这些配置数据,某些单板可能会出现无法加载或反复加载的现象,从而导致该单板无法正常运行。
在这种情况下,维护人员可使用LSTLOG命令来查询系统的日志信息,查询有关SET、MOD等命令的操作记录。
恢复正确的配置数据
若维护人员不合理地修改了上个步骤所描述的配置数据,请立即恢复正确的配置数据,或在华为公司技术服务人员的指导下恢复正确的配置数据。
复位该业务模块所对应的单板
在维护人员没有错误修改配置数据的情况下,若系统发生了业务模块瘫痪的紧急事故,为快速恢复设备的正常运行与业务的正常提供,维护人员继续如下操作:
对该业务模块所对应的单板执行硬件复位操作,然后观察该业务模块的运行是否恢复正常。
更换该业务模块所对应的单板
在对该业务模块所对应的单板执行硬件复位操作后,若该业务模块的运行仍然未能恢复正常,请尝试通过更换该业务模块所对应的单板来排除故障。
业务类故障应急处理
业务类事故表现在UMG8900全局或者大范围业务使用发生阻塞,可以通过大量用户投诉、告警等发现。
按照紧急情况发生时故障的现象,初步判断是全局业务阻塞还是局部业务阻塞。
全局业务阻塞包括的情况如下:
●由病毒引起的大面积的全局业务受到影响
●硬件线路、电源等导致的全局业务中断
●话务量大时的全局业务阻塞
局部业务阻塞包括的情况如下:
●某种业务的故障、某个局向的用户故障
●某块单板上用户的故障(可以根据分配的用户地址来判断)
全局业务阻塞的处理
全局业务阻塞的处理流程
当维护人员确认系统发生了全局业务阻塞的紧急事故后,应立即按照如下基本思路来进行处理。
检查硬件设备是否正常
检查承载网运行是否正常
备份配置数据
排除配置数据错误
排除
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- WH500220 UMG8900应急维护指导书 UMG8900 应急 维护 指导书