数通低端交换机故障基本定位指导书0306AWord文档格式.docx
- 文档编号:15289966
- 上传时间:2022-10-29
- 格式:DOCX
- 页数:11
- 大小:29.57KB
数通低端交换机故障基本定位指导书0306AWord文档格式.docx
《数通低端交换机故障基本定位指导书0306AWord文档格式.docx》由会员分享,可在线阅读,更多相关《数通低端交换机故障基本定位指导书0306AWord文档格式.docx(11页珍藏版)》请在冰豆网上搜索。
日期
修订版本
描述
作者
关键词:
低端交换机
摘要:
在低端交换机出现故障影响业务时,快速故障定位和实现紧急恢复并采集必要信息供研发定位问题
缩略语清单:
参考资料清单:
第1章低端交换机应用紧急恢复方案
1.1方案说明
低端交换机应用紧急恢复方案,是针对低端交换机在运行过程中或者操作过程中可能出现的紧急问题,如设备僵死、接口故障等而制定的操作指导,其目的是在设备发生故障时,提供紧急维护的手段。
本方案中同时提供了一些预防措施,使得在故障发生前及时发现故障的苗头,在故障发生后,降低故障对系统的影响。
1.2出现某方向报文不能转发
1、查看ARP表项(MAC),确认是否有该方向的ARP(MAC)表项;
2、查看相应接口状态、物理和协议是否都up,接口是否收到大量错包;
3、确认对端设备是否修改了配置导致两端协商出现问题。
4、进行镜像抓包,做简单的报文分析。
1.3日常维护检查项
物理链路检查项。
端口检查项:
方法:
用displayintface命令查看端口信息
双工和速率模式是否协商正确
更改模式进行协商
InputError统计是否增长
主要检查线路状态
OutputError统计是否增长
检查双工状态
流量是否超过接口带宽或限制带宽
进行合理优化
软件故障检查项.
检查项目
命令行
备注
查看接口工作状态
[Quidway]displayinterfce
正常工作接口链路层协议应该为UP
查看链路是否接通
[Quidway]pingx.x.x.x
链路层协议UP的链路都应该能够Ping通对端。
通用检查项.
CPU利用率
[Quidway]displaycpu
正常情况下,CPU利用率小于50%
内存使用率
[Quidway]displaymemory
正常情况小于60%,S3026系列小于70%
设备上调试功能
[Quidway]displaydebugging
正常运行时应该全部关闭
设备上的日志信息
[Quidway]displaylogbuffer
正常情况下没有端口大量UP/Down的信息,没有环路告警,没有大量的stp状态切换的告警,没有大量病毒告警,没有IP冲突,Ip和mac移动告警,没有路由断链告警,没有大量的VRRP切换告警
检查配置的合理性
<
Quidway>
displaycurrenet-configuration
去掉不必要的三层接口、镜像、流重定向、vlan;
不要用trunkvlanall。
互联的端口pvid的一致性
查看当前配置和保存配置
[Quidway]displaysaved-configuration
[Quidway]displaycurrent-configureation
确保当前配置和保存配置一致,配置可远程登时必须要有密码
查看isolateuser-vlan的配置
[Quidway]displaycurrent-configuration
检查用户是否有模拟Isolateuser-vlan的配置,如果有,修改成端口隔离或者正确的isolatevlan的方式
检查配置端口的vlan配置
尽量避免端口上trunkall的配置,减小不必要的vlan内广播报文影响带宽,甚至冲击交换机cpu
检查接口工作状态
[Quidway]displayinterface
检查各个接口是否正常UP
检查设备上任务状态
[Quidway_hidecmd]displaytask
没有任务处于suspend状态(S3552除SAM任务外;
3526除FrWl外)
检查设备上STP运行状态
[Quidway_hidecmd]displaystp
检查端口STP状态是否正常,确保配置STP的接入层交换机接用户端口配置成边缘端口,并建议启动BDDUguard,启动的STP的二层网络建议配置根桥和备份根桥
检查接口报文统计
如果错误包很多,查找原因
网络连通性检查
[Quidway]pingx.x.x.x
[Quidway]tracertx.x.x.x
能够正确的到达目的的
查看系统运行版本,运行时间
[Quidway]displayver
[Quidway]_displayver
没有公告过停用的版本,产看总的运行时间,和用户确认没有出现过自动重启
查看当前系统时间
[Quidway]displayclock
要求系统时间和当前时间差值在10分钟之内,便于对照日志信息
查看boot-loader里面指定的启动文件
displayboot-loader
dir
要求指定的启动文件在设备的文件系统中存在
查看防病毒acl配置
查看配置文件,要求配置防病毒ACL
检查环回检测状态
[Quidway]displayloopback-detection
确保不存在环路端口。
查看配置,无特殊情况,关闭交换机设备互联口的环路检测受控功能,打开接用户端口的环路检测。
路由检查项.
检查分项目
检查方法
路由表
[Quidway]displayiprouting-table
根据网络设计目标,对于给定的目的地址判断是否能有合适的路由
通过检查网络中多台设备路由表,检查网络中是否有路由环路等恶性路由故障
OSPF路由协议
[Quidway]displayospfpeer
检查邻居状态是否稳定在FULL状态
路由隐患检查
检查配置与路由表
协议检查:
如网络中是否使用相同的ospfrouterid
路由汇聚:
汇聚于发布时有无可能导致路由环路,应该精确发布之应该发布的路由
转发检查项.
查看硬件路由表项
[Quidway]displayhwfib
正常应该小余16条,如果发现大于16条,建议优化组网配置,将路由减少(仅3526E适用)
查看动态路由协议配置
[Quidway]displayospf
[Quidway]diplayrip
在S3526E如果启动了动态路由协议,建议配置路由过滤(只发布路由,不引入路由,避免路由条数过多)
转发稳定性
[Quidway]disipstatistics
观察是否有大量的丢包现象
常见转发业务检查项.
S3526EFC
查看mac地址个数
[Quidway]displaymaccount
正常的二层网络,mac地址个数不应该超过4K
查看arp表项和IPFDB表形
[Quidway]displayarp
[Quidway]displayipfdball
正常情况下,arp表项应该全部包含在IPFDB表项中,IPFDB表项中仅多三层接口的IP(仅3526E适用)
VRRP
[Quidway]displayVRRP
检查VRRP主备状态是否稳定正确
抽查接入设备ARP表是否正常
查看异常堆栈信息
(S3050)
[Quidway_hidecmd]_dismemC0700000300
(other)
[Quidway_hidecmd]_dismem80500000300(3026C)
正常情况下没有异常堆栈信息
查看各个端口上CPU的报文
displayswitchpacket
Cpu占用率高;
连续几次disswpack查看各个端口上送CPU的报文情况,正常情况不应该超过200个/S
S3552/S3528
查看文件系统是否有异常文件
disptask-switchreserved
dispexception20verbose
正常情况下文件系统中应该没有exception.log、taskswitch.log
查看驱动的关键全局变量
[Quidway_hidecmd]ipshowv
正常情况下显示的g_bNSFULL应该为0,否则说明路由表满,可能存在软件转发,导致cpu占用率高
查看端口ACL下发情况
[Quidway_hidecmd]_drv_qosshowportruleportnumber
可以显示ACL在端口硬件芯片的下发情况
1.4说明
由于低端交换机本身在网络中所处位置是转发数据的角色,维护工作应以日常维护为主,尽量在故障发生前解决问题。
第2章低端交换机数据采集指导
2.1采集基本信息(必须)
1、[Quidway]displaydiag
❑该命令用于搜集交换机基本信息是否正常。
请执行两次,中间间隔10~15秒。
在紧急恢复业务的情况下,请务必采集此信息。
然后,再考虑重起设备。
4、物理指示灯状态及相关电缆连接状态。
5、组网图。
组网图信息非常重要,务必反馈。
6、问题复现条件和操作方法。
7、如果可能,请收集对端设备的配置、版本和相关信息。
8、如果用其他设备替代华为设备运行正常,则需要收集其他设备的相关信息。
2.2收集信息如下
故障
收集信息步骤
收集的相关信息
挂死
1、从上行设备能否ping通故障识别的管理地址。
能ping通的话,尝试能否Telnet进行收集信息;
2、不能Telnet故障设备时,从Console能否进行查看故障设备并收集相关的信息;
3、当这两种方法均不能进行查看故障设备时,请优先恢复业务,然后收集相关信息并致电800。
discpu
disdia(两遍)
STP
1、如果STP状态不正确,查看端口UP/Down状态以及配置;
2、查看STP状态;
3、请先收集相关的信息并致电800。
disstpbrief或者
disstpinterface
1、如果VRRP状态不正确,如:
双Master,检查互连设备间的链路,重点是走VRRP心跳报文的;
2、请先收集相关的信息并致电800。
disvrrp
disvrrpstatistics
链路聚合
1、针对链路聚合不正常,先查看链路是否正常。
用disinte/ge<
端口>
查看几条链路的速度和双工是否进行了强制;
2、如果进行了上述的相关配置,请先收集相关的信
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 低端 交换机 故障 基本 定位 指导书 0306