CGN运维综述.pptx
- 文档编号:30810862
- 上传时间:2024-01-30
- 格式:PPTX
- 页数:43
- 大小:396.69KB
CGN运维综述.pptx
《CGN运维综述.pptx》由会员分享,可在线阅读,更多相关《CGN运维综述.pptx(43页珍藏版)》请在冰豆网上搜索。
运维综述,1,目录,故障处理故障处理流程典型故障场景常用维护手段常见问题,业务采用多核业务板实现,该单板为无出接口的单板。
业务流程:
接口板把流量引入到业务板,业务板负责的处理,完成后再交给接口板发出。
2,用户侧,网络侧,业务流程简介,3,故障处理流程,定位思路正向:
报文在接口板通过(分布式为)引流,根据匹配的规则将流量引入到业务板;首包在业务板上建立会话表,然后与后续包一样,匹配会话表,做转换,然后根据目的查发送到下行接口板;下行接口板根据转发帧头直接将报文转发。
反向:
报文到达接口板后,在接口板根据目的查询将报文转发到业务板;在业务板上匹配会话表,并作转换,然后根据私网查转发到出接口板;接口板根据转发帧头将报文转发出去。
当出现问题时,可以根据转发流程逐步缩小定位范围,确认问题出在业务板或者接口板,在根据各个单板的查询命令来确认故障。
4,故障处理流程,4,5,故障处理流程,5,步骤一:
报文是否到达业务板,并且从发送出去报文从接口板进入业务板,首先到达。
如果没有进入的报文计数,说明报文没有进入业务板。
查询命令,进入诊断试图:
70收到的报文计数7号单板为业务板70发送报文计数步骤二:
报文是否到达报文从进入,如果是首包,会先建立会话表,然后根据会话表做转换,然后根据目的查询进行报转发。
后续报文直接查询会话表,如果匹配会话表的话进行转换,然后根据目的查询进行转发。
确认报文是否到达,查询命令:
70步骤三:
在上是否建立用户表分布式场景用户上线的时候就会创建用户表。
查询上是否创建用户表,查询命令:
6,故障处理流程,6,步骤四:
在上是否建立会话表首包创建会话表,后续包直接查询会话表,然后进行转换。
三元组模式会话表的目的和端口无法看到,五元组模式可以查看到目的和端口。
会话表查询命令:
70查询上的所有会话信息70查询会话表向信息步骤五:
报文是否从发送出去查询命令:
70如果报文没有从发送出去,可能是因为某种原因丢包:
查询命令:
70步骤六:
报文是否到并且从发送出去报文做完转换之后,根据目的查询,根据路由信息将报文转发到接口板。
从出来,首先进入,然后经过交换网板,进入接口板。
确认报文进入和从转发出去的查询命令:
70收到的报文计数70发送报文计数,7,故障处理流程,7,从交换网板出来,首先到达业务板的。
查看报文是否到达下行,通过命令行查看计数,多次查询看是否计数有增长,查看报文是否从发送出去,8,故障处理流程,8,2.查看报文是否到达,3.查看是否在业务板上建立用户表,9,故障处理流程,9,业务板上的用户表信息,10,故障处理流程,10,4.查看业务板上的是否有会话表,11,故障处理流程,11,5.查看报文是否从发送出去,查看报文是否在丢包,12,故障处理流程,12,6.报文从业务板出来,首先到达,然后从到达交换网板.1)查看报文是否进入,2)查看报文是否从发送出去,13,目录,故障处理故障处理流程典型故障场景常用维护手段常见问题,14,故障排查,1)查看文件里是否有资源,如果没有需要申请相关,2)查看是否给单板分配资源,故障排查,15,3)如果单板没有分配资源或者使能特性功能,则需要按照如下方法配置,16,16,查看实例相关配置是否正确,实例配置排查,17,会话表存在,流量不通,配置完,会话表存在,但是流量不通。
此故障可能有如下原因:
1)报文在业务板丢弃。
通过如下命令观察迅速增值的丢包增长计数。
702)上行设备没有回程路由。
在上行设备查询是否有指向设备的路由。
1)如果没有,查看是否将公网地址池地址的路由通过路由协议发布出去。
2)如果在上行上查询到路由是指向另外一台设备,请与客户联系,确认此公网地址是否在其他设备上使用。
3)对于以下两种情况,需要做流量统计判断:
(1)有会话,但是无法确认是否从网络侧接口发送出去
(2)上行有到设备的回程路由,但是无法确认是否进入设备。
18,会话表存在,流量不通,做流量统计的方法配置,匹配用户报文(规则要尽量细化),动作为默认动作(即),在下使能统计,将策略在上行出口方向应用可以查看统计确定是否有报文发出,将策略在上行出口方向应用可以查看统计计数判断是否存在网络侧回应流量。
如:
原为11.64.0.253用户访问目的:
193.5.2.2,分配的公网是100.11.1.2,有会话表。
网络测接口为2/1/1。
19,会话表存在,流量不通,查看是否有流量从网络测接口发送出去,即方向是否有报文匹配,20,会话表存在,流量不通,查看是否有流量从网络测接口进入60,即方向是否有报文匹配,21,会话表不存在,流量不通,首先排查业务板是否收到报文,如果业务板没有收到报文,可以进一步判断报文是否到达业务板,是否报文在业务板丢包。
如果报文没有到达业务板,则排查上行接口板是否丢包,查看计数,确认报文是否发向目的业务板。
1)确认业务板是否收到报文。
参考前面的查询命令。
2)确认接口板引流是否有问题。
使能流量策略下的统计功能,查看的流量统计是否有计数。
若计数没有变化,说明没有匹配。
检查配置是否有问题。
如果配置没有问题,可能是引流问题,请联系华为研发。
如果收到报文,进一步查看是否在业务板丢包,22,会话表不存在,流量不通,查看引流是否有问题,23,会话表不存在,流量不通,查看引流是否有问题,24,目录,故障处理故障处理流程典型故障场景常用维护手段常见问题,25,常用维护命令,26,常用维护命令,27,常用维护命令,28,常用维护命令,29,目录,故障处理故障处理业务异常快速排查常用维护手段1.5常见问题,1:
在实例下绑定业务单板失败。
现象在实例下业务板时,返回错误,业务板失败。
13:
.问题原因1、业务板没有分配会话资源,就不能建立会话。
所以,在实例下业务板时,必须先给业务板分配会话资源,否则单板失败。
2、中未包含项。
解决方法1、申请正确的2、首先给单板分配会话资源,然后再在实例下业务板。
给业务板分配会话资源的方法:
2M8,30,1:
在实例下绑定业务单板失败。
说明对于2.0,绑定业务板的方式与1.5不同,需要首先配置,然后在实例下绑定.如果没有给2.0单板分配会话资源,也可以配置,同时也可以在实例下绑定。
用户可以上线,但是流量不通,流量在业务板丢弃。
丢弃原因如下:
31,2:
中规则漏配。
现象用户上线失败,失败原因是:
:
()问题原因1、匹配引流策略引到业务板的报文,必须匹配中的规则,才会从对应的地址池中给用户分配公网和端口,用户才能成功上线。
否则,如果在中找不到匹配的规则,用户上线失败。
如果域下的地址池包含2个C地址,但是绑定的规则中漏掉一个C地址,就会出现这种现象。
2、如下配置,遗漏10.64.32.010.64.39.0网段:
3001510.64.16.00.0.15.2551010.64.40.00.0.7.255解决方法修改配置在规则中添加漏掉的私网地址。
中绑定的规则中包含的地址一定要与域下面的中的地址相同。
32,2:
中规则漏配。
现象2.0对应的版本,如果出现这样的问题,同样上线失败,失败的原因是:
:
0030-0101-0101:
3/0/2:
10.64.1.253:
1:
2012-02-2210:
08:
10:
(),33,3:
配置日志溯源,发现日志服务收到后乱码。
现象配置日志溯源,对端是服务器,但是实例下配置配置了,导致在服务器上收到是乱码日志。
问题原因设备发送的是日志,但是日志服务器是服务器,导致日志服务器无法正确解析日志信息。
解决方法实例下配置,如果使能日志功能,发送的是日志。
如果实例下没有配置,就是端口动态分配,如果使能日志功能,发送的是流日志。
34,4:
申请错误,导致业务中断。
现象设备打上新申请的后,业务中断。
问题原因业务目前有、20A单板可以支持,其中、单板的和20A单板的是不一样。
一线错误的申请了、单板的,导致业务中断。
各单板区别:
000C、0002M20A、规避方法第一时间去其他现网设备取下,该分配的数要与该设备一样多,打上其他设备取来的,业务可以恢复。
解决方法重新申请,在设备上激活,业务就正常。
35,5:
部分用户回程流量不通。
现象用户上线后,无法访问网络,但重新上线后,又可以正常访问网络。
问题原因1、实例下部分公网池地址,被其他设备占用,这样上游设备的回程路由无法指回到60设备,导致回程流量丢弃。
2、用户上线时,如果分配到已经被其他设备占用的公网地址,这样就无法访问网络,再重新上线后,分配到其他公网地址,又可以正常访问网络。
规避方法如果私网地址足够用,可以把地址转换错误的私网地址池()锁住,让后续上线用户申请正确的私网地址。
解决方法锁住域,所有用户,修改公网池地址。
36,6:
公私网比例配置超大,导致用户无法上线。
现象某局点升级割接后,发现大量用户无法上线,失败原因()问题原因查看实例下配置:
1175.0.168.1175.0.168.2544096那么推荐配置1个C网段的公网地址,可以支持12个C网段私网地址。
查看设备250112501510.96.0.00.0.15.255配置16个C网段私网地址,超过公私网比例,导致后上线用户无法分配到公网地址上线失败。
解决方法重新规划公私网比例,推荐配置1:
12。
37,6:
公私网比例配置超大,导致用户无法上线。
说明2.0有同样的问题,失败原因(),38,7:
公网池地址和黑洞路由冲突,导致回程流量丢弃。
现象某局点升级上V6R5C0000版本后,发现大量用户可以上线,但无法访问网络。
问题原因1、动态路由协议引入公网地址池的黑洞路由发布到上游设备,使回程流量能引到60设备。
2、实例下配置:
161.1.1.1024同时设备上配置黑洞路由61.1.1.0255.255.255.003、由于黑洞路由和地址池路由都是在60都生成24位掩码路由,由于黑洞路由优先级为60比地址池路由64高,因此用户的回程流量在60上命中黑洞路由而丢弃。
解决方法1、修改黑洞路由掩码,回程流量会根据最长匹配原则先命中掩码长的路由。
61.1.1.0255.255.252.002、删除黑洞路由,通过策略路由方式引入公网池地址的路由发布。
39,8:
升级割接过程中,域之后未打开,导致大量用户无法上线,主控板过高。
现象升级割接的过程中,域忘记打开,用户无法上线,设备上用户量远小于割接前,主控板使用率较高。
原因1、域之后,设备会控制不让这个域的用户上线。
2、用户无法上线成功会不断尝试重拨,主控板处理这些重拨导致负载增大,导致偏高。
解决方法升级割接过程中,可以先把域住,但操作完成后一定要放开。
40,9:
分布式部署集中式应用,域下没有配置,导致流量不通。
现象分布式部署集中式应用,发现大量私网用户流量不通,板上无会话表。
原因1、域下不配置,该域上线的用户的转发表中就没有的标识。
2、此种部署场景一般匹配引流,查不到该用户转发表项中的标识,无法匹配引流策略。
解决方法域下配置。
说明分布式部署集中式应用,用户上线流程与没有关系,用户上线后,流量到了设备之后,做转换。
41,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- CGN 综述