利用设备工作原理快速定位解决问题Word文档下载推荐.docx
- 文档编号:16417040
- 上传时间:2022-11-23
- 格式:DOCX
- 页数:8
- 大小:73.08KB
利用设备工作原理快速定位解决问题Word文档下载推荐.docx
《利用设备工作原理快速定位解决问题Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《利用设备工作原理快速定位解决问题Word文档下载推荐.docx(8页珍藏版)》请在冰豆网上搜索。
公
司
版权所有
XX
修订记录
日期
修订版本
描述
作者
初稿
2008-2-12
V1.0
格式修改,内容审核
目
录(TOCHeading)
关键词:
集成信任报文跨板转发
pingtracert
摘
要:
掌握设备基本工作原理,了解报文转发流程,能够加快故障定位,获取客户高度信任。
缩略语清单:
A
A厂商高端路由器
CC厂商服务业务路由器
参考资料清单:
《NE40ENE80ENE5000E日常维护和故障处理(多媒体)-20071017-A》
《NE40ENE80ENE5000E硬件介绍.exe》
第1章
概
述
该文章介绍的是在一个背景相当复杂的环境下,办事处一线工程师利用厂家对产品原理理解的专业技能来协助客户定位处理了一起关于友商高端路由器故障的网络问题,从而获取客户对我们公司集成能力的信任。
从整个网络中的设备和故障来看,华为公司似乎过于热情的投入,但这次成功的投入在当时的背景情况下是非常有意义的。
本文一方面可以引导一线工程师要学会利用设备原理及特性来分析和解决网络中的问题;
另一方面告知大家要利用厂家的专业技能来获取客户的信任。
第2章
背景及故障
2.1
背景介绍
2.1.1
内部背景介绍
(1)
数通集成已经是业界普遍认可的一项集成服务,随着公司逐渐开始向利润中心转型,为了实现服务创造价值,增加服务收入,集成工作成为我们服务收入的一个重要机会点。
(2)
前期已经向T运营商详细的介绍过我们公司的集成服务,并不断在和客户接触以获取集成的机会。
2.1.2
外部背景介绍
T运营商城域网内设备种类较多,涉及多个厂家产品。
T运营商多个三类地市城域网出口07年下半年采用A厂家路由器作为出口路由器,自从割接上线到现在几乎没有出过问题。
(3)
T运营商一直就有专门的并长期合作的集成商,对于华为技术服务公司集成其他厂家设备的能力抱有怀疑态度。
(4)
T运营商近期正在准备就城域网高端设备优化进行集成招标。
2.2
故障情况介绍
2.2.1
组网概述
G省T运营商省网大部分接入路由器都是采用的NE5000E设备,通过2.5GPos、10Gpos链路连接城域网出口路由器。
该运营商目前部分三类地市城域网出口路由器采用的A厂家的设备。
城域网内部采用C厂家设备作为大客户专线接入路由器,普通的用户采用MA5200G设备接入。
城域网内部采用ospf作为IGP协议,和省网之间采用EBGP交换路由。
大概的组网拓扑如图1-1所示:
图1-1
XX地市城域网组网简图
2.2.2
现象描述
XX地市运维人员接到C1设备下挂用户报障上网慢,WWW业务受严重影响;
同时ping
外网存在大量丢包。
XX地市运维人员暂时没有接到BAS下挂用户的报障,但不能断定是普通用户的业务不受影响还是普通用户受了影响但还没有报障。
XX地市运维人员从C1设备上tracert
外网,发现往A2出口路径的第2跳出现丢包。
2.2.3
告警信息
Traceroute和ping都存在丢包。
C#traceroute
x.x.x.x
Typeescapesequencetoabort.
Tracingtheroutetox.x.x.x
1x.x.204.10msec0msec0msec
2x.x.y.y*4msec*
//NE5KE-2slot5
接口IP地址
C#ping
Protocol[ip]:
TargetIPaddress:
x.x.x.x
Repeatcount[5]:
100
Datagramsize[100]:
Timeoutinseconds[2]:
Extendedcommands[n]:
Sweeprangeofsizes[n]:
Sending100,100-byteICMPEchostox.x.x.x,timeoutis2seconds:
!
.!
..!
Successrateis72percent(72/100),round-tripmin/avg/max=64/69/84ms
所有在网设备都没有发现其他告警信息。
第3章
分析解决故障
3.1
故障受理过程
XX地市运维人员从终端大客户接到报障,开始进行受理。
地市进行相应处理后怀疑是省网NE5000E的问题,申请省运维协助处理。
(5)
省运维进行相关处理后,不能排除是否省网NE5000E问题,请求华为公司当地办事处工程师进行处理。
3.2
分析及解决过程
说明:
以下处理过程中,有关客户对一些现象的分析并不是正确的。
正是由于对设备原理不了解才会有如此的分析结论,所以对于他们错误的分析并没有删除;
正确的分析的结论请查看下面(4)(5)(6)(7)的分析处理。
XX地市运维人员通过在C设备上tracert
外网,发现从第2跳开始(省网NE5000E-2)有丢包,即出现“*”号;
从C设备上pingA2的slot3、slot1、loopback0的接口地址都没有丢包,但是pingNE5000E-2的slot5地址出现严重的丢包;
地市客户从ping的结果来分析,pingA2的slot3没有丢包,说明A2的slot3没有问题,互联链路也没有问题;
pingA2的slot1没有丢包,说明A2的slot1没有问题;
pingA2的loopback0没有丢包,说明A2自身的系统没有问题。
XX地市运维人员联系A厂家技术支持人员进行定位处理,没有发现问题,而且没有发现设备异常,定位A设备工作正常。
最后XX地市怀疑是NE5000E-2的slot5转发,请求省运维协助处理。
省运维在NE5000E-2上进行查看设备的相关信息,没有发现异常告警;
在NE5000E-2上pingA2的slot3、slot1、loopback0的接口地址都没有丢包,但是pingC设备出现丢包;
省运维怀疑城域网中C设备问题的可能性较大,但不能肯定省网NE5000E-2没有故障,还是求助华为公司办事处工程师协助定位。
办事处工程师开始受理定位故障(主要介绍故障定位),由于没有权限也不可能登陆其他厂家设备,所以整个定位过程只能是在我们公司的设备上来进行一些配合定位操作,外加分析设备的工作原理来定位,所以以下的定位过程中很多时候都只能作出最接近事实的推断。
查看NE5000E-2设备并无异常,加上了解地市的BAS业务并没有保障,初步判断不是省网NE5000-2的问题。
登陆城域网MA5200G,在MA5200G上从
走A2路径ping外网并没有出现任何丢包,城域网的其他业务也没有用户报障;
对于
NE5000-2来说,城域网BAS和C设备上的业务都是经过slot5进行转发,而且回程的相关底层表项都是正常的,NE5000-2只对于C的业务网段转发有问题可能性太小,所以更加肯定不是NE5000-2的问题;
同时可以推断A2设备slot1和slot2之间的跨板转发没有问题。
(6)
在MA5200G上从走A2路径pingC设备的slot6,偶尔发现丢包;
现在将问题的可能性初步定位为A2设备slot3和其他slot之间跨板转发异常或者C设备自身有问题;
但是从A2和C直连的ping没有丢包的情况来看,
A2设备slot3和其他slot之间的跨板转发有问题的可能性最大。
正是由于客户对于设备工作原理不是很了解,他们从自己的ping结果从而判定A2设备是没有问题的;
此时需要我们利用厂家的专业技能来否定之前XX地市运维和省运维的分析结论,并巩固自己第(6)步的怀疑。
设备原理分析:
a、假设A2设备的工作原理和我们的NE5000ENE80E类似,对于从省网NE5000E-2上pingA2的slot3、slot1、loopback0的接口地址都没有丢包,并不能说明A2设备slot3和slot1之间的跨板转发正常;
同时从C设备上pingA2的slot3、slot1、loopback0的接口地址都没有丢包,也不能说明A2设备slot3和slot1之间的跨板转发正常;
因为看似ping报文进入A2设备入口和目的地址在不同的slot上,但都是通过报文进入的slot的下行网络处理器上送设备的CPU进行处理,并没有进行跨板转发。
b、从A厂家该型号的设备工作原理来分析,该设备的主控板直接处理数据业务,也就是说不管ping报文的目的地址是该设备哪个slot上地市或是loopback地址都是从ping报文进入A2设备的源槽位直接送设备主控板进行处理;
XX地市运维和省运维的ping结果,并没有经过跨板转发,并不能说明A2设备slot3和slot1之间的跨板转发正常。
(7)
办事处工程师告知客户怀疑A2设备slot3和其他slot之间的跨板转发异常,建议客户先做如下处理:
a、关闭C设备连接A2的链路,如果业务能够恢复正常,进行b;
如果业务
还是受影响(此时须保证走A1业务不会拥塞),则进行C。
b、在A2上采用新的slot连接C设备。
c、重启C设备
(8)
XX地市运维在听取我们和省运维的建议后,采取了如下措施:
由于客户没有仔细执行我们给出的建议,在a步骤做得不够仔细,导致多做
了如下b步骤
a、只关闭C设备连接A2的一条链路,发现业务还是没有恢复,所以采取下一步。
此时是因为C还存在一条链路连接到A2的slot3
b、重启C设备,发现故障依旧;
采取下一步。
c、在A2设备上采用新的slot上新的子卡连接C设备,C设备下挂业务全部恢复正常。
3.3
小结
Tracert和ping的工作原理:
请参考support网站上相关文档
VRP
特性描述-系统管理-
Ping和Tracert
、SC000034753。
高端路由器对Tracert和ping报文的转发处理:
(以NE5000E为例)
a、如果这两种报文的目的地址为该设备或者tracert报文中间某TTL刚好到
本设备时为1,则有如下流程:
特别注意:
无论此时C设备ping的目的地址是NE5000E的slot1上的接口地址、slot2上的接口地址、loopback地址都是如上图的转发处理,所以结合前面提到过的,即使Cpingslot2上的接口地址不存在丢包,也不能说明
Slot1――交换网――slot2之间的通道是正常的;
所以有时候设备在遇到攻击时导致slot1的CPU较高,但通过抓包发现报文的目的地址是slot2上的接口地址,这是正常的。
A高端路由器设备的处理原理和我们的NE5000E唯一不同的就是交换网在主控板上,上送主机处理的报文直接通过交换网就到了主控板的CPU,这里就不详细介绍。
b、如果这两种报文的目的地址不是该设备或者tracert报文已经过了该设备时,则有如下流程:
此时C1和C2之间如果能够正常交换数据报文,ping不出现丢包,这样才完完全全能够说明中间设备对C1-C2这条流的跨板转发是正常的,这时是不需要中间设备的CPU处理的。
A高端路由器的处理完全一致。
第4章
总结
了解并基本掌握设备工作原理,对于一线工程师在某些问题定位上,能够做到透过问题现象看本质,手到擒来。
对内部能够提高个人的维护技能,减少技术支持部和研发人员的工作量,提高维护效率;
对外部能够提高客户满意度,获取客户的进一步信任,为后续集成服务工作的开展做下铺垫。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 利用 设备 工作 原理 快速 定位 解决问题