Quidway S6500 硬件问题处理指导书V10.docx
- 文档编号:12542100
- 上传时间:2023-04-20
- 格式:DOCX
- 页数:16
- 大小:28.67KB
Quidway S6500 硬件问题处理指导书V10.docx
《Quidway S6500 硬件问题处理指导书V10.docx》由会员分享,可在线阅读,更多相关《Quidway S6500 硬件问题处理指导书V10.docx(16页珍藏版)》请在冰豆网上搜索。
QuidwayS6500硬件问题处理指导书V10
产品名称Productname
密级Confidentialitylevel
QuidwayS6500
内部公开
产品版本Productversion
Total11pages共11页
QuidwayS6500硬件问题处理指导书
(仅供内部使用)
Forinternaluseonly
拟制:
S6500维护组
日期:
2006-05-30
审核:
日期:
审核:
日期:
批准:
日期:
华为三康技术有限公司
Huawei-3ComTechnologiesCo.,Ltd.
版权所有XX
Allrightsreserved
修订记录Revisionrecord
日期
修订版本
修改描述
作者
2006-05-03
1.00
初稿完成
S6500维护组
2006-05-30
1.01
修订部分文字错误
S6500维护组
目录
1综述5
2硬件问题排查方法5
2.1从日志、系统记录中能打印、记录的硬件故障5
2.1.1►log日志中显示cam错误类信息:
5
2.1.2►启动过程中,串口打印下列任何一条信息:
5
2.1.3►系统温度告警信息:
6
2.1.4►电源告警信息:
7
2.1.5►风扇告警信息:
7
2.2转发ASIC芯片异常检测方法。
7
2.2.1►使用命令查看转发ASIC状态(注意查看所有单板的状态)7
2.2.2►如果没有发现任何异常信息,那么使用复位芯片来尝试是否能恢复,如果能恢复,则说明6500转发ASIC芯片有问题,具体方法为:
8
2.2.3►如果以上均没有发现异常或者不能恢复业务,那么可能有其它原因:
8
2.3系统管理类硬件异常8
2.3.1►主控板启动提示内存检测异常:
8
2.3.2►主控板BOOTROM其中自检信息任何一项不是OK:
9
2.3.3►主控板启动到解压缩后长时间无法进入命令行:
9
2.3.4►主控板反复重启9
2.3.5►业务板无法加载,无加载信息9
2.3.6►业务板加载成功后不久又重启,周而复始出现10
2.3.7►业务板异常重起,不定期再次重启:
10
2.3.8►IPC异常类问题处理10
2.4网络流量异常问题的排查方法:
11
2.4.1►丢包或网络延迟问题(A类单板):
11
2.4.2►丢包或网络延迟问题(非A类单板)12
2.4.3►电口无法up13
2.4.4►SFP光口直连不up14
2.4.5►GBIC端口无法正常显示光模块信息14
QuidwayS6500硬件问题处理指导书
关键词:
S6500硬件维护
摘要:
指导开局、用服人员定位、维护设备用。
缩略语:
缩略语
中文解释
说明
A类单板
CXE芯片系列单板
FT48/FT48A,GB8U/GB8UA,GT8U/GT8UA,FS24/FS24A,FM24/FM24A。
非A类单板
BCM芯片系列单板
除了A类板之外的所有单板
1
综述
该指导书针对6500系列产品日常出现的一些硬件故障的现象以及判定方法做相关总结,提供一些基本的现场分析和排除手段,为判定是否为硬件问题提供必要排查指导。
同时规范返修件处理过程和信息记录,以便单板返修定位。
2硬件问题排查方法
如果设备出现故障,怀疑单板有硬件问题,请先行收集displaydiag信息,然后进行一些基本的操作。
不要轻易复位、更换单板!
如果情况特别紧急,也必须保证先收集displaydiag信息。
2.1从日志、系统记录中能打印、记录的硬件故障
6500在软件对一些硬件故障进行了检测,可以通过告警等信息显示出来。
这类故障有如下几种:
►log日志中显示cam错误类信息:
%Aug2206:
14:
292005QuidwayDEV/5/DEV_LOG:
ServiceboardCamDetect
Error!
TheCamNumberis:
1
这个信息表示CAM存在错误。
看到这个错误信息,请立即检查网络是否存在环路。
如
果没有环路,那么可以确认单板存在问题。
►启动过程中,串口打印下列任何一条信息:
BoardEthInitERRinSysmint
BoardDrv_SysMInitERRinSysmint
BoardDrv_DevInfoInitERRinSysmint
BoardulBalInitERRinSysmint
BoardCXECreateERRinSysmint
BoardGetBridgeMacERRinSysmint
BoardGetVRPMacERRinSysmint
BoardCreateGBICERRinSysmint!
BoardDrv_PortStat_InitERRinSysmint
BoardRxTx_InitERRinSysmint
BoardDrv_FL2_InitERRinSysmint
BoardL3Drv_FORWARDERL3_InitERRinSysmint
BoardDrv_QSS_InitERRinSysmint
BoardSRPUSWTDetectErrorinHDDI
这些信息表示单板初始化出现错误,无法完成模块注册。
请检查设备型号与软件版本是否一致,如果一致,那么基本可以判定是单板硬件问题。
►系统温度告警信息:
严格讲这个不能算硬件故障,但考虑到温度过高对系统有巨大的硬件伤害,也将此现象作为硬件故障一种类型。
%Sep814:
33:
412005QuidwayDEV/5/DEV_LOG:
Slot=0;
BoardtemperatureistoohigherinFrame0Slot0,TypeisLS83SRPC
请查看系统温度是否正常:
Systemtemperatureinformation(degreecentigrade):
----------------------------------------------------
BoardTemperatureLowerlimitUpperlimit
0901080
4661080
温度过高一般是由于防尘网长时间没有清洗导致,可以通过清洗防尘网解决。
其它问题需要根据实际情况判定原因。
如果是风扇停转导致问题,请按照(2.1.5)风扇故障的方法进行处理。
如果是读出温度为“error”,则需要检测单板上是否使用有问题的光模块。
一般情况下单板温度应该在60度以下,如果单板长时间工作在60度以上,也存在一定的隐患,需要按照上面的步骤进行处理。
►电源告警信息:
%Sep814:
33:
412005QuidwayDEV/5/DEV_LOG:
Slot=0;
ap1.3.6.1.4.1.2011.2.23.1.12.1.1:
powerIDis1
请检查电源是否正常。
插拔看是否能恢复。
如果不能恢复,则只能更换。
►风扇告警信息:
%Apr2901:
46:
162006QuidwayDEV/5/DEV_LOG:
Slot=0;
Fan1failed
#Apr2901:
46:
212006QuidwayDEV/2/FANSTATECHANGETONORMAL:
Slot=0;Trap1.3.6.1.4.1.2011.2.23.1.12.1.7:
fanIDis1
检查风扇是否插入牢固。
如果插拔风扇框后还无法恢复,且使用手在机箱右侧感觉没有出风,或者系统温度明显升高,请通过更换风扇框解决。
2.2转发ASIC芯片异常检测方法。
在硬件故障中,A类单板该类问题目前发生概率比较高。
判断方法为:
►使用命令查看转发ASIC状态(注意查看所有单板的状态)
Slot0:
infomationofModuleRxTx
DebugRxTxmemallocison!
Addressofrecovercounter:
1617054,reservedmemory:
FF80000
ShadowofSwichChip0:
ed59208,resettimes:
0(重点观测点)
ShadowofSwichChip1:
e43b084,resettimes:
0(重点观测点)
…………………………..…………………………………………….
如果在重点观测点发现数据在不断增加,为3分钟增加一次以上,那么硬件工作状态异常,但不一定就是硬件有缺陷或者故障,可能是网络环路或流控攻击等导致,需要联系二线人员分析进一步原因。
►如果没有发现任何异常信息,那么使用复位芯片来尝试是否能恢复,如果能恢复,则说明6500转发ASIC芯片有问题,具体方法为:
逐一复位各个单板上的芯片,其中6506、6506R主控板有两个ASIC芯片,FT48单板也有两个ASIC芯片,其它单板均为一个芯片,具体复位芯片命令为:
[6506]en
[6506-testdiag]resetswitchengine槽位号芯片号
芯片复位命令对业务没有负面影响。
复位一个芯片后,请立即检查业务是否恢复!
不要将所有芯片都进行复位后,再检查业务,这样无法判断是复位哪个芯片恢复,也就无法判断哪个单板芯片工作异常。
出现这一类的故障,请不要直接更换单板,咨询二线确认问题的进一步原因,然后再做处理。
►如果以上均没有发现异常或者不能恢复业务,那么可能有其它原因:
如果检查配置没有问题,检查相应的软件信息(ARP、MAC、路由、CPU等)是否正常,如果一切正常,可以采用更换端口,单板割接,主备倒换等方法确认是否硬件问题。
2.3系统管理类硬件异常
►主控板启动提示内存检测异常:
Starting.....
RAMLine....ERROR
以上信息表示内存单元自检出现错误信息,需要检查是否内存条插入不牢固导致。
可以将内存条拔出,然后再插入,确认是否恢复正常。
如果无法恢复,则可以判定内存条存在问题,需要更换同等规格类型的内存条。
►主控板BOOTROM其中自检信息任何一项不是OK:
60X_SDRAMDatalinesselftest.............................OK!
60X_SDRAMAddresslinesselftest........................OK!
60X_SDRAMfastselftest...................................OK!
PleasecheckLEDs.....................LEDsselftestfinished!
Switchchipselftest......................................OK!
CPLDselftest.............................................OK!
TheswitchMacaddressis.....................00E0.FC13.0AE0
任何一项自检提示不正确,表示该单板存在硬件异常,需要更换单板。
►主控板启动到解压缩后长时间无法进入命令行:
重新启动,在BOOTROM中删除配置文件,然后检查启动文件是否与产品类型一致,如果一致,复位重启依旧出现无法进入命令行情况,即可确认硬件有问题。
另外注意,如果升级系统app文件时没有采用bin加载,请删除该文件再使用bin模式加载文件,确认是否可以正常。
►主控板反复重启
重新启动,在BOOTROM中删除配置文件,然后检查启动文件是否与产品类型一致。
如果一致,复位重启依旧出现反复重启的情况,即可确认硬件有问题。
另外,如果升级系统时,.app文件时没有采用bin模式加载,也可能造成类似问题。
请删除该.app文件,然后使用bin模式重新加载.app文件,检查该主控板是否可以正常启动。
►业务板无法加载,无加载信息
使用displayboot检查加载文件是否正确,是否在flash中存在。
如果存在,且其它业务板已经加载成功,那么基本可以判定该业务板有问题,需要进一步更换槽位测试。
如果在其它槽位依旧无法加载且无加载信息,基本确认业务板BOOTROM启动过程有问题,需要更换单板。
同样,如果升级系统时,.app文件时没有采用bin模式加载,也可能造成类似问题。
使用bin模式重新加载.app文件,检查该业务板是否可以正常启动。
►业务板加载成功后不久又重启,周而复始出现
如果是软件版本是1XXX、2XXX、3XXX系列,建议先在主控板上收集诊断信息。
然后更换业务板槽位,重新启动。
建议更换槽位时,拔掉该单板上所有连接的网线,然后检查启动文件是否与产品类型一致。
如果启动文件于产品类型一致,并且其它槽位单板已经加载成功,即可确认硬件有问题。
同样,如果升级系统时,.app文件时没有采用bin模式加载,也可能造成类似问题。
使用bin模式重新加载.app文件,检查该业务板是否可以正常启动。
►业务板异常重起,不定期再次重启:
%Sep814:
36:
502005QuidwayDEV/5/DEV_LOG:
Slot=0;
BoardstatechangetoFAULTinFrame0Slot4,TypeisLS81GB8U
如果为1XXX、2XXX、3XXX版本请检查重起原因,查看方法是:
[6506-hidecmd]_displayresver
请将显示信息保存下来,供研发分析。
如果是0XX系列版本,则建议先下发[6506]undomonitorinnreboot-lpu,再观察是否还会重启,并
收集诊断信息,供研发分析。
2.3.1►IPC异常类问题处理
故障现象:
无法对业务板进行控制或者调试。
例如,使用displayinterface无法查看业务板端口详细收发报文统计信息,displaycpu无法查看业务板信息,跨单板操作不成功等。
处理步骤:
第一步,使用命令收集无法控制的业务单板任务状态信息:
[6506隐含模式]taskinfs业务板槽位号async
第二步,使用命令收集主控板单板任务状态信息,方法为:
[6506隐含模式]taskinfs主控板槽位号async
第三步,如果主控板为SalineceI/II,使用命令查看底层ipc信息:
[6506-testdiag]debugipc主控板槽位号
如果业务板为非A类单板,命令为:
[6506-testdiag]debugbcmipcstaget槽位号
第四步,如果主控板为SalineceI/II,可以使用命令复位主控板IPC物理芯片:
[6506-testdiag]reset9785
复位后,检查是否可以管理控制业务板,如果恢复则说明是原先IPC物理芯片有异常,可以不更换单板。
2.4网络流量异常问题的排查方法:
►丢包或网络延迟问题(A类单板):
对于A类单板,软件做了很好的监控机制题。
如果是硬件问题,只要处理到第一步即可判定出问题的原因。
第一步:
检查芯片是否存在复位,如果存在,请检查芯片复位原因。
第二步:
检查cpu是否高,stp、vrrp是否在切换,ospf是否稳定、网络协议是否正常等。
第三步:
使用debug命令检查芯片报文转发情况:
【6506诊断模式】debugqedis槽位号芯片号
如果发现如下错误,需要判定是网络侧流量导致,还是芯片故障导致:
CXE-16discardcounters:
INQoverflow:
0
ALFIFOoverflow:
0
Bufmemoverflow:
0
RLIdiscard:
12312312---->这个有大量统计一般是由于网络流量大导致。
RLEdiscard:
1283976---->如果这个数值很大,可以通过执行rdramdisable命令解决。
MC_BC_limitdiscard:
0
TTLscoping:
0
WFHBD:
2634313245---->端口限速或CPU遭到攻击导致
MACerror:
2342432---->MAC层存在错误报文,常见原因是流控攻击或端口半双工导致。
第四步:
检查端口状态,是否存在半双工,端口是否存在大量错误报文,物理链路等是否正常。
►丢包或网络延迟问题(非A类单板)
第一步:
检查cpu是否高,stp、vrrp是否在切换,ospf是否稳定、网络协议是否正常等。
查端口状态,是否存在半双工,端口是否存在大量错误报文,物理链路等是否正常。
第二步,检查单板内部互连端口是否正常,特别是HG。
【隐含模式】bcm槽位号芯片号ps
[Quidway-testdiag]bcm41ps
speed/linkautoSTPlrninter
portEnalinkduplexscanneg?
statepausediscrdopsface
ge0Enup1GFDSWYesForwardNoneFAGMII
ge1Enup1GFDSWYesForwardNoneFAGMII
ge2Endown1GFDSWYesForwardTXRXNoneFAGMII
ge3Endown1GFDSWYesForwardTXRXNoneFAGMII
ge4Endown1GFDSWYesForwardTXRXNoneFAGMII
ge5Endown1GFDSWYesForwardTXRXNoneFAGMII
ge6Endown1GFDSWYesForwardTXRXNoneFAGMII
ge7Endown1GFDSWYesForwardTXRXNoneFAGMII
ge8Endown1GFDSWYesForwardTXRXNoneFAGMII
ge9Endown1GFDSWYesForwardTXRXNoneFAGMII
ge10Endown1GFDSWYesForwardTXRXNoneFAGMII
ge11Endown1GFDSWYesForwardTXRXNoneFAGMII
hg0Endown10GFDSWNoForwardNoneFAXGMII
如果出现Endown,则表示单板内部互连hg无法up,硬件故障,需要更换单板。
第三步,查看是否存在大量内部转发错误报文统计。
该类统计只表明端口流量较大导致拥塞丢包,不说明硬件存在问题,
[Quidway-testdiag]bcm槽位号芯片号show/c/erdisc
a、端口ACL规则丢弃。
例如端口没有启动LACP,接收到LACP报文自动丢弃
[SW6506-testdiag]bcm41show/c/erdisc
GRFILDR.ge2:
59,374+17,9139,058/s
GRDROP.ge2:
59,374+17,9139,058/s
b、出端口HOL动作丢弃,如上CPU报文流量太大,在CMIC口产生HOL:
[SW6506-testdiag]bcm41show/c/erdisc
GHOLD13.ge2:
88,264+43,9338,849/s
GRDROP.ge2:
1,082,842+43,9338,849/s
c、报文找不到出端口丢弃,如报文没有匹配到正常的L2表、vlan表、modid:
[SW6506-testdiag]bcm41show/c/erdisc
GRDROP.ge2:
1,082,842+43,9338,849/s
►电口无法up
第一步,先通过其他端口,确认网线是否正常。
如果是网线问题,更换网线。
第二步,在本交换机上找另外一个空端口,并且将两个端口的模式配置为一致,通过网线将两个端口互连。
如果空余端口和其他端口可以正常UP,但是与该端口无法正常UP,可以判断该端口存在异常。
通过shut/undoshut命令,尝试是否可以恢复。
如果仍然无法恢复,而且单板是FT48,请执行phyreset命令,对相应端口操作。
如果恢复,可以通过将phymonitor命令打开,问题解决。
如果仍然无法解决,可以确认是端口的硬件损坏,需要更换端口和更换单板。
第三步,如果上述步骤确认单板的硬件正常,故障原因就是对接问题,请分别调整互连设备的端口配置模式,找到最终匹配的配置。
►SFP光口直连不up
第一步,首先通过光功率测试确认光功率是否正常。
如果光功率异常,可以判断是光模块或光纤存在问题。
请尝试更换光模块或光纤解决问题。
第二步,在本交换机找另外一个空端口,并且将两个端口的模式配置为一致,通过网线将两个端口互连。
如果空余端口和其他端口可以正常UP,而与该端口无法正常UP,可以判断该端口存在异常。
通过shut/undoshut命令,尝试是否可以恢复。
如果仍然无法恢复,而且单板是FS24或FM24,请执行phyreset命令,对相应端口操作,如果恢复,可以通过将phymonitor命令打开,问题解决。
如果仍然无法解决,可以确认是端口的硬件损坏,需要更换端口和更换单板。
第三步,如果上述步骤确认单板的硬件正常,故障原因就是对接问题,请分别调整互连设备的端口配置模式,找到最终匹配的配置。
2.4.1►GBIC端口无法正常显示光模块信息
第一步,检查该端口业务是否正常。
同时使用displayenvironment查看是否能正确读出温度信息.查看其它端口是否也无法读出模块信息,检查是否存在非华为推荐的光模块插入单板
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Quidway S6500 硬件问题处理指导书V10 硬件 问题 处理 指导书 V10