数通产品日常维护指导书Word文档下载推荐.docx
- 文档编号:20728759
- 上传时间:2023-01-25
- 格式:DOCX
- 页数:19
- 大小:216.30KB
数通产品日常维护指导书Word文档下载推荐.docx
《数通产品日常维护指导书Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《数通产品日常维护指导书Word文档下载推荐.docx(19页珍藏版)》请在冰豆网上搜索。
详细的诊断、操作步骤参见各章节详细内容。
同时华为公司为客户提供24小时技术支持热线:
800-830-2118。
如果您在问题处理过程中遇到疑难问题,请拨打技术支持热线,我们的工程师回以饱满的工作热情和扎实的技术水平协助您处理问题。
参考资料清单:
《用户命令手册》
《华为数据通信产品故障信息收集方法》
第1章设备运行环境维护
数据通信产品的稳定运行一方面依赖于完备的网络规划,另一方面日常的维护和监测,发现设备运行隐患也是非常必要的。
本章主要给出华为数据通信产品的日常维护建议,包括设备日志监控、单板运行状态监控、端口流量监控等。
1.1设备基本运行信息检查
设备运行信息主要是指日志、单板运行转态、路由条目等,下表列举了一些常用的检查项目,可以在进行设备日常维护时参考。
表1-1设备基本信息
序号
检查内容
检查方法
备注
1
软件版本
[Quidway]displayversion
如果是双主控设备,要求主备用主控板版本一致
2
调试开关
[Quidway]displaydebug
正常运行时应该全部关闭
3
日志信息
[Quidway]displaylogbuffer
4
系统时间
[Quidway]displayclock
应该与实际时间相差小于10分钟
5
配置文件
[Quidway]displaycurrent
[Quidway]displaysaved
运行配置需要与保存过的配置相同
端口描述
查看配置文件
业务端口都应该有明确的描述信息
登陆安全配置
需要配置“登陆用户认证”与“特权用户认证”
说明:
(1)表2-1中应用“displaylogbuffer”命令收集的日志信息为“最近”发生的事件,“以往”发生的日志信息会自动写入硬盘。
表1-2路由相关信息
OSPF邻居状态
[Quidway]displayospfpeer
邻居状态应该正常
IS-IS邻居状态
[Quidway]displayisispeer
BGP邻居状态
[Quidway]displaybgppeer
路由条目统计
[Quidway]displayiproutver
主要关注路由条目统计值
(1)表2-2中只列出了部分动态路由协议的邻居转态监控方法,如果实际应用中还有其他协议,请参考《用户命令手册》,原则就是要确保邻居状态正常。
表1-3软硬件运行状态
接口状态
[Quidway]displayinerface
正在使用的接口应为UP,未用接口应为down
系统告警
[Quidway]displayalarmrecordall
应该无异常告警。
本次给出的为NE80/40的告警查看命令,其他产品参考《用户命令手册》
单板运行状态
[Quidway]displaydevice
各单板工作状态正常
电源工作状态
各电源模块工作状态正常
风扇工作状态
各风扇模块工作状态正常
6
查看单板备份状态
[Quidway]displayswitchstate
系统应该处于“实时备份”状态
(1)表2-3中给出的系统状态监控命令是针对NE80/40产品的,其他产品请参考《用户命令手册》。
1.2端口流量信息监控
网络业务是不断发展的,相应的设备符合也随着业务量的增大而增大,而且网络上存在大量的病毒报文,我们需要对网络上的流量进行监控。
一方面可以发现异常、非法流量,采取相应的限速和病毒查杀等操作;
另一方面,如果发现网络上的正常流量已经几乎达到设备性能极限,就需要考虑升级或者扩容了。
设备端口流量信息的统计方式主要通过两个手段:
通过网管系统监控;
按时对设备的端口数据包收发进行监控、统计。
如果通过网管系统监控,我们可以比较容易的得到设备的端口流量信息。
大部分的网管系统都提供流量监测功能,可以输出端口流量曲线。
结合流量分析软件,我们还可以知道数据流量的组成,如果发现过多的非法报文,我们可以根据报文的“源IP”、“目的IP”、“协议类型”等特征设置限速或者访问控制。
如果无法借助网管系统,只能通过在设备上应用“displayinterface”命令,记录5分钟平均流量统计(回显信息中包括这个信息)的方式来监控端口流量。
我们建议在每天的不同时段记录该统计值的结果,主要是针对“业务忙时”进行统计,这样可以起到与网管系统类似的作用。
以上提供了常用的设备运行环境维护方式,对于不同的网络,关注重点不同,总之我们需要在确保设备单机运行正常的情况下尽量提升整网的运行质量。
如果在设备维护过程中遇到疑难问题,请拨打800技术支持热线,由“技术支持工程师”协助您解决问题。
第2章常见故障分析、处理建议
本章内容旨在提供日常维护中遇到的问题分析思路和步骤,其中涉及的“专用名词、术语”和具体的维护、配置命令需要参考数据通信基本原理书籍和“用户手册”。
本章内容不可能包含所有设备维护和业务开展中遇到的问题,主要对常见故障和典型问题进行分析,包括:
详细的诊断、操作步骤参见各章节详细内容,如果拨打800技术支持热线,需要提供网络基本信息和故障信息,具体的信息收集内容和方法参见“第四章”。
2.1设备互联问题诊断
当我们进行数据通信设备调试时,首先需要解决的问题就是直联设备之间的互通。
直联设备之间的互通完全是链路层方面的内容,与上层路由协议不相关,由于链路层协议类型众多,而且涉及中间传输设备也是多种多样,本维护建议不可能对每一种链路层协议都作分析,这里选取最常用的“以太网互联”和“PPP链路互联”,给出问题诊断建议步骤。
2.1.1以太网互联故障诊断
以太网互联是我们最常见的工作内容,遇到的问题相对较少,但是如果三层设备之间插入“以太网交换机(LSW)”问题会变得复杂,这里我们给出一台PC机通过LSW与上行路由器子接口互通的模型来进行可能遇到的故障分析。
图2-1以太网互联拓扑图
在上述网络拓扑中,LSW与PC机互联的端口需要配置为untag接口,LSW与路由器互联的端口需要配置为tag端口。
在LSW上每个端口还需要配置“默认Vlanid”,对于untag端口,“默认Vlanid”与端口所属Vlan一致;
对于tag端口,理论上我们可以任意指定“默认Vlanid”,但是需要注意与路由器的配合。
对于路由器来说,需要在与LSW互联的端口上配置子接口,每个子接口默认终结一个Vlan的数据。
需要注意的是,所有子接口都终结带有tag标记的报文,具体终结哪个Vlan,通过子接口下配置Vlanid来对应;
主接口终结不带tag标记的报文(对应LSW上“默认Vlanid”对应的Vlan)。
图2-2以太网互联故障诊断步骤
在保证LSW和路由器的配置均正确基础上,查看路由器上的ARP表项,查看是否有PC机IP地址对应的ARP表项(ARP表项不是自动发现的,需要在路由器或者PC机上Ping对端地址触发ARP表项的建立),如果没有,需要检查互联网线的线序和质量(标准五类双绞线有两种线序。
一般情况下PC机与路由器直联需要使用交叉网线——两端线序不同;
PC机与LSW直联需要使用平行网线——两端线序相同)。
如果路由器上存在PC机对应的ARP表项或者网线完好,但是PC机与路由器还是不能相互Ping通,请拨打800技术支持热线,由“技术支持工程师”协助您解决问题。
2.1.2PPP链路互联故障诊断
PPP互联经常使用在串口、E1、POS接口互联的情况,最常见的问题就是:
端口状态物理层Up,但是链路层转态为Down。
对于这种故障可以按照以下步骤进行诊断:
图2-1PPP链路互联故障诊断步骤
首先检查互联设备的端口配置,需要注意的是接口链路层协议封装、时钟和IP地址配置。
对于时钟配置,在背靠背连接情况下(中间不经过传输设备或者协议转换设备),两端设备需要一端配置为“内部时钟”、一端配置为“链路时钟”;
如果中间经过传输设备,端口时钟需要根据传输设备的时钟提供情况而定(对于E1链路,传输设备一般是透明传输方式,不为终端设备提供时钟)。
IP地址的配置会影响到PPP的IPCP协商过程,任何一端不配置IP地址,两端链路层都不会进入Up状态。
确保两端设备配置正确后,需要查看两端设备的端口PPP协商状态,除去验证以外,PPP的协商分为两个阶段:
LCP,IPCP(如果设备支持MPLS转发,还会有MPLSCP阶段,这里我们只考虑普通IP转发情况)。
如果中间链路正常,两端设备的LCP协商阶段就会正常通过;
如果两端都配置了IP地址或者正确的配置了地址分配,IPCP阶段也会正常通过,IPCP协商阶段通过后,端口链路层就会转换为Up状态。
具体的协商过程可以通过打开PPPdebug开关的方式看到。
对于PPP链路,还可以通过端口自环的方式检测物理端口的状态。
最简单的方式是“物理自环”(对于光接口来说,需要注意端口的发光功率和接收功率域值,避免发光功率过大,损坏光模块),如果查看端口转态显示物理层Up,链路层Down,并且有“发现环路”的提示,则表示端口是正常的(正确实现物理环路检测,需要将时钟配置为“内部时钟”)。
对于不支持“环路检测”功能的设备,可以通过自环后清空端口计数统计的方式来检测(一定要保证这个顺序,因为插拔电缆或尾纤时会造成一定数目的错包,影响检测结果)。
如果一段时间之后,端口收发包数目相等,并且没有接收到错误报文,则可以说明端口是正常的。
利用“打环”方式检测链路是最常用的链路诊断方式,对于中间经过多跳传输设备转接的链路,我们可以通过逐跳“打环”测试,定位故障设备或者链路。
以上简述了以太网互联链路和PPP互联链路的故障诊断步骤,如果经过上述步骤仍不能解决问题或者定位故障设备,或者涉及其他链路类型的设备对接可以拨打800技术支持热线,由“技术支持工程师”协助您解决问题。
2.2普通IP业务互通性故障诊断
普通IP业务互通性问题是我们应用数据通信设备时最常见的问题,同时IP互通性也是其他业务能够正常运行的保障。
本节我们对普通IP业务互通性故障进行简要的分析,并提供诊断建议。
我们假设网络中两个终端之间不能完成正常的网络层互通(不能Ping通),遇到类似问题需要分别在两端的终端及中间路由设备上按照如下步骤进行排查:
图2-1普通IP业务互通性故障诊断过程
普通的IP业务是基于分组转发的,不面向连接,每一跳设备按照自身的路由表完成“单跳转发”,设备之间几乎没有联系,除“目的”和“源”两个终端以外,其他设备只需要完成本跳转发即可。
数据包在整个转发过程中都是按照“最长匹配”原则,按照“最正确”的路径被逐跳转发的,在两个终端上,数据包一般情况下与“默认路由”被转发到“网关”,所以首先需要确认的是终端上的网关配置(普通终端在进行数据包转发的时候也是遵循“最长匹配”原则的,如果在终端上配置了更明细路由,数据包将按照更明细路由被转发到不一定是网关地址的下一跳。
在Windows操作系统中查看路由表的命令为:
DOS提示符下“routeprint”命令)。
不同的终端配置“网关”的方式不尽相同,具体方式可以咨询相应的设备提供商。
图2-2终端与“网关设备”互通性故障诊断过程
终端正确的配置了网关之后,我们需要检测终端与“网关设备”之间的互通性,因为一般情况下终端与“网关设备”之间会有二层网络,主要的检查内容有:
网线的线序、网线质量、二层设备的Vlan配置、MAC地址与端口的对应关系等。
比较通用的方式是在“网关设备”上查看终端IP地址对应的ARP表项。
如果“网关设备”上没有对应的ARP表项,需要在二层设备上进行抓包,分析报文内容;
如果“网关设备”上存在对应的ARP表项,但是终端无法Ping通“网关设备”,请拨打800技术支持热线,由“技术支持工程师”协助您解决问题。
图2-3“全路径”互通性故障诊断过程
保证终端与“网关设备”之间的互通性之后,我们来检测整个路径的互通性。
常用的检测命令为“tracert”,该命令可以逐跳的显示出整个路径所经过的转发设备。
一般情况下,问题会出在最后一个“可达设备”上。
当然由于目前网络上各种病毒比较泛滥,大部分网络设备上都配置了软件防火墙,拒绝ICMP报文。
这样会影响“tracert”命令的正常工作,我们可以采用基于其他协议的命令进行链路检测,比如“telnet”,当然这些命令的执行返回结果没有“tracert”直观,并且“telnet”的目的地址需要手工逐跳指定(需要有网络拓扑和IP地址信息作基础)。
如果终端之间能够“tracert”全路径可达,但是特定业务无法正常开展,最有可能的原因是中间设备上配置了特定的ACL过滤规则,需要对“全路径”上的设备逐一进行配置检查。
除了ACL过滤规则以外,还有可能的问题就是中间链路MTU值问题,有部分业务报文均是“大包”(对于通过Ethernet接入的终端,链路层最大MTU值为1500Byte),并且不允许分片,如果中间任一链路的MTU值小于1500Byte,这种业务不能正常开展。
对于MTU问题,我们可以应用Ping命令指定数据包大小(需要同时指定“禁止分片”。
Windows操作系统中Ping命令应用“-l”参数指定数据报文大小;
“-f”参数指定“禁止分片”)的方式来逐跳检测,需要注意的是不同的设备、不同操作系统指定数据报文大小的含义可能不同,对于Windows操作系统和华为数据通信设备而言,指定的数据报文大小为ICMP“净荷”,对应的IP数据包大小需要在此基础上加28Byte(8ByteICMP报文头,20ByteIP报文头)。
以上过程为定位基本的IP数据转发链路MTU值方法,对于应用了MPLS等技术的链路MTU值定位方法,我们在后续章节中介绍。
以上过程是通用的“普通IP业务互通性问题”定位步骤,如果在确认了以上设备和配置均正确之后,仍然不能完成终端之间的互通,请拨打800技术支持热线,由技术支持工程师协助您定位问题。
2.3静态路由问题故障诊断
静态路由是我们经常使用的互联手段,尤其在接入层设备上,是最主要的完成网络互通的手段。
如果我们在应用静态路由时遇到问题,可以按照如下步骤来进行故障诊断:
图2-1静态路由故障诊断步骤
首先我们要确保静态路由在设备上进行了正确的配置,在普通的IP转发条件下,静态路由配置有两个要素:
“目的网段”和“下一跳地址”。
需要注意的是“下一跳地址”的配置,虽然几乎所有的数据通信设备都支持静态路由的迭代,但是为了便于维护,我们建议静态路由的下一跳配置为本设备直联端口对端设备的IP地址。
图2-2静态路由是否生效的诊断
正确的配置了静态路由之后,路由条目是否生效取决于下一跳的可达性。
按照上一步的静态路由配置建议,只要对应的直联端口UP(需要物理层和链路层都达到UP状态),路由条目就可以生效(直联设备之间的互通问题请参考“3.1设备互联问题诊断”)。
我们可以通过“displayiprouting-table”命令来查看设备路由表信息,我们可以看到生效的路由条目都会在路由表中显示。
图2-3确认转发表中有正确的转发条目
一般情况下,如果路由表中显示一条路由条目是生效的,那么在对应接口板的转发表中也会有相应的转发条目。
对于NE40使用二层板的情况,需要在相应的Vlaninterface上配置“propertyrouting”命令才能将下一跳出口为该Vlaninterface的转发项加入到对应接口板转发表中。
因为静态路由的目的网段一般是在多跳之后,而路径上的每台设备只能保证“单跳转发”正确,所以在确认了本设备转发表正常后,需要应用“tracert”命令对“全路径”进行可达性检测。
如果tracert返回结果中表示已经可以抵达下一跳设备,那么就可以证明本设备是没有问题的,问题一般会出现在最后一个可达设备上。
由于数据访问是需要保证双向IP可达的,并且应用静态路由完成网络互通时,各设备之间不需要交互任何路由信息,所以我们在进行静态路由故障诊断时需要格外注意“回程路由”的问题。
只有来/去双向路由信息都具备,才能保证业务的正常互通。
我们在逐跳排查故障,应用Ping命令时,需要注意“源地址”参数的应用,默认情况下Ping命令添加的“源地址”为本设备出口IP地址,这样对于“回程路由”来说,对应的目的网段也应该是这个“出口IP地址”。
一般情况下,我们关心的并不是这个“出口IP地址”,同时也为了更有利于问题定位,通常会应用“-a”参数来更改Ping命令的“源地址”。
以上过程是通用的“静态路由问题故障诊断”步骤,如果在确认了以上设备和配置均正确之后,仍然不能完成终端之间的互通,请拨打800技术支持热线,由技术支持工程师协助您定位问题。
2.4OSPF协议故障诊断
OSPF协议是我们在组网过程中应用最广泛的IGP路由协议,协议的工作过程基本上可以分为如下几部分:
●设备之间建立OSPF邻居;
●邻居之间传播LSA,同步LSDB内容;
●设备根据自身LSDB内容进行路由计算;
其中最后一部分涉及OSPF的核心算法,比较复杂,而且不同设备的实现细节也有所差别,这里我们不对这部分进行讨论。
如果在确认OSPF邻居状态正常,并且设备间正确的同步了LSDB之后仍然有问题,可以直接拨打800技术支持热线,由技术支持工程师协助您定位问题。
对于前两个工作过程,我们可以按照以下步骤来进行故障诊断:
图2-1OSPF协议故障诊断步骤
OSPF的配置相对比较复杂,涉及参数较多,主要包括协议配置部分和端口配置部分,具体的配置命令请参考《用户命令手册》的相应章节。
在保证设备互通性的基础上,在互联端口使能OSPF协议,OSPF是一种基于IP的协议,不考虑验证的条件下,互联设备的如下参数必须保持一致,才能正常的建立起邻居关系:
●互联端口aeraid;
●互联端口area类型;
●互联端口网络类型;
●互联端口OSPFhellotime;
●互联端口OSPFholdtime;
除上述参数以外,互联设备的routerid必须不一致,所有这些参数都可以通过“displayospf”命令来查看。
此外,几乎所有数据通信产品都提供了一个显示“OSPF邻居之间错误参数统计值”的命令,在华为数通产品里为“displayospferror”。
当我们发现互联设备间长时间不能正常建立OSPF邻居时,可以多次执行该命令,查看哪个统计值在一直增加,那么就需要对参数进行调整。
图2-2查看设备LSDB
互联设备之间邻居状态建立之后,默认情况下OSPF只会将其他使能了OSPF的端口状态信息以LSA的形式传播给邻居,如果我们希望在OSPF中引入其他路由协议发现的路由时,需要应用“import-routprotocol-type”命令,最常用的是“import-routdirect”、“import-routstatic”。
我们需要在一条路由信息对应的LSA发源设备上查看对应的LSA是否被正确的发布,同时还需要在目的设备上查看是否正确的接收到了相应的LSA。
如果可以确认“源设备”和“目的设备”都正确的发布和接收到了对应的LSA,但是相应的路由条目还不能加入路由表请拨打800技术支持热线,联系技术支持工程师协助您定位问题。
以上定位过程只是讨论了两个直联OSPF邻居之间的情况,由于OSPF协议本身比较复杂,部署方式灵活多样,而且还有“路由聚合”、“NSSA区域”等问题,问题的定位需要网络拓扑、部署原则作基础,不过所有的情况都可以分解为以上的简单元素。
一般情况下,运行了OSPF协议的网络,只要保证每对互联设备之间的OSPF邻居状态都能够正常建立,网络路由信息的发现和计算都是“全自动”的,大部分的问题集中在如何正确的配置OSPF邻居上,请仔细阅读《用户命令手册》,参考OSPF配置实例。
如有疑问请拨打800技术支持热线,咨询技术支持工程师。
2.5BGP协议故障诊断
BGP是唯一能够运行在AS之间的路由协议,在Internet上,他有不可替代的地位。
同时BGP是“传递路由信息”的协议,并不是“发现路由信息”的协议,协议的工作过程可以分为如下两个过程:
●设备之间正常的建立起BGP邻居;
●邻居之间传递、同步路由信息;
当然,由于BGP协议十分灵活,而且路由属性众多,可以通过多种路由策略完成特定的需求,我们在此只考虑最简单的情况。
图2-1BGP协议故障诊断步骤
与其他路由协议的定位方式一样,我们首先需要保证设备配置的正确性。
与其他路由协议相比,BGP的基础配置是比较简单的,我们只需要在BGP协议配置模式下指定邻居的IP地址和ASnumber就可以完成(目前几乎所有的BGP应用都是“非同步”模式,所以这里没有考虑“同步类型”配置)。
为了保证BGP邻居之间的可靠性,一般我们还会通过“peerpeer-ip-addconnect-interfaceinterface-typeinterface-num”命令指定建立BGP邻居的“源地址”。
为了保证邻居配置可靠、没有歧义,我们建议邻居之间的“源地址”与“目的地址”能够完全对应(本端指定的“源地址”与对端配置的“邻居地址”相同)。
由于BGP是基于TCP的,所以在保证配置正确的情况下,我们需要检查邻居之间的TCP可达性,最简单的方式是通过Ping命令指定源地址的方式Ping邻居地址。
如果邻居之间的TCP可达性不能保证,请参照前面的“设备互联问题诊断”和“普通IP业务互通性问题诊断”章节处理。
图2-2BGP邻居状态与BGP路由表诊断
一般情况下,至此BGP邻居已经可以正常建立了。
我们可以通过“displaybgppeer”命令来查看,如果到达到“establish”状态,则表示邻居正常建立。
如果不进行其他特殊配置,BGP只向邻居传递BGP路由,而网络中默认是没有任何BGP路由的。
我们可以通过“import-route”和“net
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 通产 日常 维护 指导书