NE40E产品故障处理指导.docx
- 文档编号:28844975
- 上传时间:2023-07-20
- 格式:DOCX
- 页数:44
- 大小:222.08KB
NE40E产品故障处理指导.docx
《NE40E产品故障处理指导.docx》由会员分享,可在线阅读,更多相关《NE40E产品故障处理指导.docx(44页珍藏版)》请在冰豆网上搜索。
NE40E产品故障处理指导
一、硬件类
1.1单板无法注册故障处理
1.1.1备用主控板无法注册的定位思路
常见原因
本类故障的常见原因主要包括:
单板在启动时间内。
备用主控板上电失败。
备用主控板加载的系统软件大包和主用主控板不一致。
备用主控板的EPLD和大小系统未升级。
备用主控板内存未插好或内存故障。
备用主控板CF卡故障。
故障诊断流程
详细处理流程如图1所示。
图1备用主控板无法注册故障诊断流程图
故障处理步骤
说明:
请保存以下步骤的执行结果,以便在故障无法解决时快速收集和反馈信息。
操作步骤
1.检查单板是否处于启动时间内
单板从加电到完成注册需要一段时间,这段时间叫做启动时间。
MPU的启动时间一般在3分钟之内,如果是升级系统软件后重新启动设备,启动时间不超过5分钟。
如果没有超过单板启动时间,则需要等待。
如果超过单板启动时间单板仍然无法注册,请继续执行步骤2。
2.确认备用主控板是否上电
在用户视图下,通过poweronslot?
命令查看显示信息是否为“
如果显示信息出现备用主控板槽位号,说明备用主控板没有上电,此时需要确认单板所在的槽位供电是否正常,具体方式可通过单板边上的空槽位查看未注册单板,如果单板线路板上的灯亮则说明槽位供电正常。
如果槽位供电不正常,请联系华为技术工程师解决。
如果槽位供电正常,而设备上仍显示单板未上电,则为单板电源模块故障,需要更换单板。
如果备用主控板供电正常,而单板仍然无法注册,请继续执行步骤3。
3.确认备用主控板加载的系统软件大包是否和主用主控板一致
连接备用主控板的Console口中,查看Console口信息反馈项中的“Thestartfileis”所指定的系统软件大包文件是否和主用主控板一致。
如果系统软件大包不一致,处理步骤请参见“系统软件大包与主用主控板不一致导致备用主控板无法注册”。
如果系统软件大包一致,而单板仍然无法注册,请继续执行步骤4。
4.升级备用主控板的EPLD
在用户视图下,使用upgradempuby-testbusslot-idstartupmbus_epld和upgradempuby-testbusslot-idstartupouter_epld命令升级备用主控板的EPLD,升级完成后如果单板仍无法注册,请继续执行步骤5。
说明:
在NE80E/40E系列中的X1和X2设备上升级备用主控板EPLD的命令为:
upgradempuby-testbusslot-idstartupmpu_epld。
5.升级备用主控板的大小系统。
在用户视图下,使用upgradempuby-testbusslot-idstartupbootrom和upgradempuby-testbusslot-idstartupbootload命令升级备用主控板的大小系统,升级完成后如果单板仍无法注册,请继续执行步骤6。
6.确认备用主控板内存是否插好
由于主控板有二个内存插槽,只有一条内存时需要将内存插在标号为0的槽位,主控板才能上电运行。
插好内存后,如果单板仍无法注册,请继续执行步骤7。
说明:
在NE80E/40E系列中的X1和X2设备的主控板上使用的不是内存而是贴片DDR,故此步骤的故障排除方法在该设备上不适用。
7.确认内存是否故障
a.在主用主控板侧,使用board-channel-checkdisable命令将板间通信检测关闭。
说明:
该命令在设备正常情况下,不会对业务产生影响。
b.将备用主控板下电后,将备用主控板拔出。
等待30秒后,将刚拔出的备用主控板的console口连接至电脑的COM口,并将此板重新插入机框,使其上电。
当控制平台打印到“PressCTRL+Ttostartsdramfulltestinxxseconds!
”信息时,按“Ctrl”+“T”对单板的内存进行全检。
检测完成后,若内存有故障,会给出错误的信息(包含有fail字样),此时需要重复拔插内存操作,若多次尝试后仍不能恢复则需要更换内存解决。
说明:
在NE80E/40E系列中的X1和X2设备的主控板上使用的不是内存而是贴片DDR,故此步骤的故障排除方法在该设备上不适用。
说明:
如果终端上没有信息显示出来,则说明内存有故障,也需要做一下拔插内存操作,若多次尝试后仍不能恢复则需要更换内存解决。
8.处理完内存问题后,如果单板仍无法注册,请继续执行步骤8。
9.确认CF卡是否故障
说明:
在NE80E/40E系列中的X1和X2设备的主控板上只有一个CF卡,故此步骤的故障排除方法在该设备上不适用。
将单板拔出后,对CF卡进行一次插拔操作,应包括在单板内侧的CF卡。
拔插CF卡后,如果单板仍无法注册,请继续执行步骤9。
10.请收集如下信息,并联系华为技术支持工程师。
上述步骤的执行结果。
设备的配置文件、日志信息、告警信息。
1.1.2接口板或交换网板无法注册的定位思路
常见原因
本类故障的常见原因主要包括:
单板在启动时间内。
单板型号与系统软件版本不匹配。
单板上电失败。
单板的EPLD和大小系统未升级。
新单板未插紧
故障诊断流程
详细处理流程如图1所示。
图1接口板或交换网板无法注册故障诊断流程图
故障处理步骤
说明:
请保存以下步骤的执行结果,以便在故障无法解决时快速收集和反馈信息。
操作步骤
1.检查单板是否处于启动时间内
单板从加电到完成注册需要一段时间,这段时间叫做启动时间。
LPU的启动时间在不需要更新系统软件和相关文件的情况下,不超过5分钟,如果LPU需要更新系统软件和相关文件,启动时间不超过10分钟。
SFU的启动时间在不更新系统软件和相关文件的情况下不超过2分钟,如果更新系统软件和相关文件,不超过5分钟。
如果没有超过单板启动时间,则需要等待。
如果超过单板启动时间单板仍然无法注册,请继续执行步骤2。
2.确认单板型号是否与系统软件版本匹配
不同系统软件版本支持的单板类型不同,本版本的单板支持列表请参考《HUAWEINetEngine80E/40E路由器硬件描述》的“单板”一章。
完成上述检查,如果单板仍无法注册,请继续执行步骤3。
3.确认单板是否上电
在用户视图下,通过poweronslot?
命令查看显示信息是否为“
如果显示信息出现单板槽位号,说明单板没有上电,此时需要确认单板所在的槽位供电是否正常,具体方式可通过单板边上的空槽位查看未注册单板,如果单板线路板上的灯亮则说明槽位供电正常。
如果槽位供电不正常,请联系华为技术工程师解决。
如果槽位供电正常,而设备上仍显示单板未上电,则为单板电源模块故障,需要更换单板。
如果单板供电正常,而单板仍然无法注册,请继续执行步骤4。
4.升级单板的EPLD
在用户视图下,使用upgradelpuby-testbusslot-idstartuplpu_epld和upgradelpuby-testbusslot-idstartuplpu_epld2命令升级接口板的EPLD。
在用户视图下,使用upgradesfuby-testbusslot-idstartupmbus_epld、upgradesfuby-testbusslot-idstartupsfu_epld1和upgradesfuby-testbusslot-idstartupsfu_epld2命令升级交换网板的EPLD。
升级完成后如果单板仍无法注册,请继续执行步骤5。
5.升级单板的大小系统。
在用户视图下,使用upgradelpuby-testbusslot-idstartuplpu_bootrom、upgradelpuby-testbusslot-idstartuplpu_bootload命令升级接口板的大小系统。
在用户视图下,使用upgradesfuby-testbusslot-idstartupsfu_bootrom和upgradesfuby-testbusslot-idstartupsfu_bootload命令升级交换网板的大小系统。
升级完成后如果单板仍无法注册,请继续执行步骤6。
6.如果是全新更换的单板出现无法注册的问题,请将单板进行一次插拔,看是否注册成功,如果仍不能注册成功,请继续执行步骤7。
7.请收集如下信息,并联系华为技术支持工程师。
上述步骤的执行结果。
设备的配置文件、日志信息、告警信息。
1.1.3子卡无法注册的定位思路
常见原因
本类故障的常见原因主要包括:
子卡上电失败。
子卡未插紧。
故障诊断流程
详细处理流程如图1所示。
图1子卡无法注册故障诊断流程图
故障处理步骤
说明:
请保存以下步骤的执行结果,以便在故障无法解决时快速收集和反馈信息。
操作步骤
1.确认子卡是否上电
观察子卡上的指示灯是否亮,若没有亮,则说明子卡没有上电,此时需要查看子卡是否插紧。
请注意将子卡完全推入槽位,并将子卡的螺丝拧紧。
如果子卡上电正常,但仍然无法注册,请继续执行步骤2。
2.拔插子卡
如果子卡仍无法注册,请继续执行步骤4。
3.请收集如下信息,并联系华为技术支持工程师。
上述步骤的执行结果。
设备的配置文件、日志信息、告警信息。
1.1.4相关案例
单板告警灯亮并打印日志SRM/2/TMLINEERR
单板时常出现红色告警灯亮,并打印日志SRM/2/TMLINEERR。
故障分析
1.设备打印如下告警,分析告警产生原因,发现由于2号板有丢包导致设备打印告警信息。
2.Jul31200815:
54:
01TZ-XQ-01%%01SRM/2/TMLINEERR(l):
LPU2occurlineerror!
ErrorCode=2.2!
Jul31200815:
53:
01TZ-XQ-01%%01SRM/2/TMLINEERR(l):
LPU2occurlineerror!
ErrorCode=2.1!
3.执行displayinterfaceinterface-typeinterface-number命令查看2号板各接口信息,发现接口GE2/0/0的流量接近线速。
显示信息如下:
Last30secondsoutputrate:
968093056bits/sec,209961packets/sec
4.通过查看接口下的配置,发现设备上配置了端口镜像,GE2/0/0做为观测端口,GE2/0/1、GE2/0/2为镜像端口。
a.在GE2/0/0所在接口视图下执行displaythis命令,发现设备上配置了端口镜像。
b.[HUAWEI-GigabitEthernet2/0/0]displaythis
c.#
d.interfaceGigabitEthernet2/0/0
e.undoshutdown
f.port-observingobserve-index2
g.#
return
h.执行命令displayport-observingslot命令,查看referenceslot字段,获取镜像端口所在的槽位号。
i.[HUAWEI]displayport-observingslot
j.slot2
k.observe-port:
GigabitEthernet2/0/0
referenceslot:
2
l.执行命令displayport-mirroringinterfaceslotslot-id,获取镜像端口号。
m.[HUAWEI]displayport-mirroringinterfaceslot2
n.------------------------------------------------------------------------------
o.InterfaceLocal/RemoteCARTypeIn/OutWithLinkHeaderInstance
p.------------------------------------------------------------------------------
q.GI2/0/1Local-PortIn--
r.GI2/0/2Local-PortIn--
------------------------------------------------------------------------------
发现故障原因是由于将两个端口的流量镜像到一个端口,导致端口流量过大,产生告警和丢包。
若配置接口镜像是为了对镜像端口的流量进行监控管理,则可以通过减少镜像端口或将流量镜像到其它端口的方法解决。
操作步骤
1.根据配置镜像的原因,可以选择取消观测端口或者减少镜像端口的方法来消除故障现象。
2.取消观测端口
a.执行命令system-view,进入系统视图。
b.执行命令interfaceinterface-typeinterface-number,进入接口视图。
在本故障案例中,应进入观测接口的接口视图,即接口GE2/0/0。
c.执行命令undoport-observingobserve-indexobserve-index-number,删除端口镜像。
3.减少镜像端口
a.执行命令system-view,进入系统视图。
b.执行命令interfaceinterface-typeinterface-number,进入接口视图。
在本故障案例中,应进入镜像端口的接口视图,即接口GE2/0/1或GE2/0/2。
c.执行命令undoport-mirroring{inbound|outbound},删除端口镜像。
4.检查单板告警灯恢复正常,设备上不再打印日志。
案例总结
将多个端口的流量镜像到一个端口,可能会使观测端口的流量到达线速,并产生丢包。
在配置前需要关注端口流量问题。
NE80E/40E主控板从1G内存扩容到2G内存后仍然是1G
NE80E/40E主控板需要从1G扩容到2G,主控板上插有A厂商生产的1G内存条,现需要再插一根1G内存条进行扩容。
插入B厂商生产的1G内存条之后,发现主控板内存仍然是1G。
故障分析
说明:
该案例在NE80E/40E系列中的X1和X2设备上不适用。
1.在插有A厂商生产的内存条的主控板上重新插拔B厂商生产的内存条,执行displaymemory-usage命令仍然显示内存为1G,排除B厂商生产的内存条没有插好的问题。
2.更换另外一根B厂商生产的内存条,执行displaymemory-usage命令仍然显示内存为1G,排除B厂商内存条本身的问题。
3.将主控板那根A厂商生产的内存条拔掉,在主控板上插上两根B厂商生产的1G内存条,使用displaymemory-usage命令查看内存正常显示为2G,故障排除。
由于NE80E/40E主控板以前是1G内存,因业务需要再扩容1G内存。
新扩容的内存与主控板上原有的内存无法兼容,导致新扩容内存无法识别,更换为同一厂商生产的内存条后内存能够正常显示。
操作步骤
1.将主控板那根A厂商生产的内存条拔掉,在主控板上插上两根B厂商生产的1G内存条。
完成上述操作后,执行命令displaymemory-usage查看内存显示为2G,故障排除。
案例总结
在扩容时需要保证一块主控板上的两根内存一样,即同一主控板上的两根内存条为同一厂家生产的。
TCAM芯片故障导致所有MPLSTunnel状态Down
网络环境
某区域网络为双平面设计,正常情况下,主平面故障时业务自动倒换到备用平面。
某次发现承载网业务全部中断,经检查承载网与骨干网之间的主/备Tunnel全部Down掉,导致该区域下节点到其它区域节点的LSP都无法建立,业务中断。
故障分析
1.主/备Tunnel均通过1槽位单板连接。
执行命令displayinterfacetunnelinterface-number,查看其它Tunnel的状态,发现通过其它槽位连接的Tunnel没有任何故障。
2.当前网络中使用的是ISIS协议,执行命令displayisisroute查看1槽位单板路由协议的运行状态,发现1槽位ISIS协议运行正常。
由于RSVP和LDP协议均需要查找FIB表,因此可初步判定为协议在查找FIB表项时出现故障。
3.由于控制层面下发FIB表项是向所有接口板同时下发的,执行命令displayfib,查看其它接口板的FIB表项是否正常。
由于其它接口板的FIB表正常,可排除控制层面下发FIB时出错。
因此可初步定位为保存FIB表项的TCAM芯片出现了硬件故障。
操作步骤
1.更换1槽位业务单板,更换后故障消失,业务恢复。
案例总结
通常情况下,导致查找FIB表项故障的原因有两个:
控制层面下发FIB时出错;
保存FIB表项的TCAM芯片出现硬件故障。
由于采用新背板导致NE80E/40ESFU板不能注册
四块SFU单板同时在位时都可以注册,拔掉21和22槽位两块后,剩余的2块SFU单板也不能注册,导致业务板也无法注册。
故障分析
说明:
本案例只在16槽位设备上支持。
SFU单板在NE80E/40E系列中的X1和X2设备上不支持。
1.执行命令displaydevice,查看单板的在位情况。
由于拔掉21和22槽位SFU单板,导致剩余2块SFU单板也无法注册。
Devicestatus:
Slot#TypeOnlineRegisterStatusPrimary
--------------------------------------
1LPU/SPUPresentUnregisteredAbnormalNA
2LPU/SPUPresentUnregisteredAbnormalNA
17MPUPresentNANormalMaster
18MPUPresentRegisteredNormalSlave
19SFUPresentUnregisteredAbnormalNA
20SFUPresentUnregisteredAbnormalNA
23CLKPresentRegisteredNormalMaster
24CLKPresentRegisteredNormalSlave
2.执行命令displayversion,查看背板版本。
3.
4.HuaweiVersatileRoutingPlatformSoftware
5.VRP(R)software,Version5.30(V300R003C06B325)
6.Copyright(C)2000-2008HuaweiTechnologiesCo.,Ltd
7.uptimeis0day,6hours,35minutes
8.
9.BKP0versioninformation:
10.1.PCBVersion:
CR52BKPCREVA
11.2.MPUSlotQuantity:
2
12.3.SRUSlotQuantity:
0
13.4.SFUSlotQuantity:
4
5.LPUSlotQuantity:
16
查看PCB字段,背板类型为BKPC,要求SFU单板优先安装在21或者22槽位。
说明:
BKPA单板的交换网同步时钟是从主控给出的,BKPC单板的交换网同步时钟是从21、22槽位的网板给出的,如果21、22两槽位没有网板,设备则无法找到同步时钟,因此无法注册。
所以在有两块网板时一定要优先插在21、22两个槽位上。
操作步骤
1.更换槽位,将19、20槽位的SFU单板更换至21、22槽位。
2.完成上述操作后,执行命令displaydevice,查看单板的在位情况,发现所有单板均正常注册。
案例总结
若只有1块SFUF板,则该SFUF板必须插在21或22号槽位,这样LPU板才能注册;若插在19或20号槽位,所有的LPU都无法注册。
若有2块SFUF板,则必须插在21和22号槽位,这样能保证交换网时钟源的备份。
说明:
若将其中1块网板在19或20槽位,虽然LPU板能注册,但此时系统会打印19或20号槽位的网板无法注册,并提示更换成21或22号槽位。
系统软件大包与主用主控板不一致导致备用主控板无法注册
网络环境
备用主控板无法注册。
故障分析
通过Telnet登录设备,使用displaystartup查看主用主控板加载的软件大包。
MainBoard:
Configuredstartupsystemsoftware:
cfcard:
/V600R002C00.cc
Startupsystemsoftware:
cfcard:
/V600R002C00.cc
Nextstartupsystemsoftware:
cfcard:
/V600R002C00.cc
Startupsaved-configurationfile:
cfcard:
/vrpcfg.cfg
Nextstartupsaved-configurationfile:
cfcard:
/vrpcfg.cfg
Startuppaffile:
cfcard:
/paf-V600R002C00.txt
Nextstartuppaffile:
cfcard:
/paf-V600R002C00.txt
Startuplicensefile:
cfcard:
/license-V600R002C00.txt
Nextstartuplicensefile:
cfcard:
/license-V600R002C00.txt
Startuppatchpackage:
cfcard:
/patch.bat
Nextstartuppatchpackage:
cfcard:
/patch.bat
使用PC连接备用主控板的Console口,查看Console口信息反馈项中的“Thestartfileis”所指定的系统软件大包文件,发现和主用主控板不一致,导致备用主控板无法注册。
操作步骤
1.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- NE40E 产品 故障 处理 指导