传输PTN维护规范.docx
- 文档编号:3311391
- 上传时间:2022-11-21
- 格式:DOCX
- 页数:17
- 大小:58.31KB
传输PTN维护规范.docx
《传输PTN维护规范.docx》由会员分享,可在线阅读,更多相关《传输PTN维护规范.docx(17页珍藏版)》请在冰豆网上搜索。
传输PTN维护规范
前言
为适应中国移动通信的高速发展,加强移动PTN传输网络维护及后续优化管理,合理利用网络资源,使网络运行质量达到最优,提高网络的运行服务质量,为业务网提供良好的传输网络支撑,传输维护中心根据现网运行和建设情况,结合集团规,针对如何建设PTN网络“可发展、可持续、易管理”的网络运维要求,提出相关规和建议,用于后续传输网络发展、维护指导。
维护概述
维护分类
设备维护可以分为日常维护和突发性维护。
1.日常维护
日常的周期性例行维护,主要是对设备运行情况的周期性检查。
及时处理检查中出现的问题,以达到发现隐患、预防事故发生、及时发现故障并尽早处理的目的。
2.突发性维护
突发性维护也称为故障处理。
因为传输设备故障、网络调整等原因带来的维护任务。
例如:
设备损坏、线路故障时需进行的维护、在日常维护中发现并记录的突发事件。
机房维护制度
为保证机房环境满足设备运行要求,更好地完成设备维护工作,机房应建立完善、有效的维护制度,所有维护人员应共同遵守。
机房工作制度
●保持机房的整齐、清洁、有序。
●做到进门换鞋,地面清洁,设备无尘且排列规整。
仪表准确,工具到位,资料齐全。
●不准在机房吸烟、吃东西、玩游戏。
●不准在机房大声喧哗。
●不得在机房乱摆放私人物品。
●不做与工作无关的事。
●不将易燃、易爆等物品带入机房。
●无关人员未经批准不得进入机房。
●操作设备时必须佩戴防静电手环。
●爱惜机房的公共财物。
●不得泄露有关,做好工作。
●做好各种原始记录的登记、统计工作,保证技术资料和原始记录真实、完整。
●工作人员在机房值班时,必须严守岗位,发现重大障碍和事故应及时处理及上报。
●机房管理要有领导负责定期检查,不断改进。
机房交接班制度
●做好上、下班之间的交接工作,是保障通信不间断的一项重要制度,要求每个工程维护人员必须严格遵守。
●值班人员在上、下班时,必须认真交接,做到责任明确、手续清楚、衔接顺畅。
●交班人员在下班前要把本人值班情况介绍清楚,接班人员在上班前要认真核对检查。
●交接班时要求做到:
设备运行状况、工具、仪器仪表等情况明确,各种图纸资料记录等完备。
●接班人员未到,交班人员应坚守岗位,直到接班人员到来并完成交接后方可离班。
●交接完毕后,双方应在值班记录上签字,作为书面记录,表示设备已移交接班人员维护。
●如在交接班时出现设备故障,交班人员及接班人员共同承担维护维修设备的义务,不可相互推诿。
例行维护
例行维护项目列表
例行维护项目及间隔周期见表
项目
项目编号
检查容
说明
检查情况
周期
备注
机房环境检查
1
温度,湿度
温度:
15C~30C,湿度:
40%~65%,有空调设备
□ 合格
周
□ 不合格
2
防雷、防电磁干扰
有无防雷设施,附近有无强电磁场
□ 合格
月
□ 不合格
3
防尘
门窗完好,设备干净无灰尘
□ 合格
月
□ 不合格
4
电压围
交流:
~220V±10%,直流:
-60V~-40V
□ 合格
周
□ 不合格
5
机柜防鼠袋检查
检查防鼠袋是否破损
□ 合格
月
□ 不合格
6
消防设备
检查是否配置合适的消防设施
□ 合格
月
□ 不合格
7
后备电源
有后备电源,并有足够的容量
□ 合格
月
□ 不合格
硬件安装检查
8
走线和电缆编号
走线规整齐,电缆有明确编号
□ 合格
季度
□ 不合格
9
网线制作
网线按标准制作,尽量短
□ 合格
季度
□ 不合格
10
保护地、工作地
有良好接地,接地电阻<1Ω
□ 合格
季度
□ 不合格
系统硬件检查
12
系统风扇
机架和系统风扇应该正常转动
□ 合格
周
□ 不合格
13
电源模块
电源主、备用是否正常,有无告警
□ 合格
周
□ 不合格
14
单板运行情况
单板有无告警
□ 合格
天
□ 不合格
15
端口状态
端口状态有无告警,工作是否正常
□ 合格
天
□ 不合格
备份检查
18
配置备份
配置文件和配置信息应该备份到后台服务器上
□ 合格
周
□ 不合格
19
数据库备份检查
检查网管数据是否正常备份
□ 合格
天
□ 不合格
告警日志检查
20
告警记录
查看告警记录是否正常,一方面看能否正确反映告警,更重要的是看有无反映设备运行异常的告警
□ 合格
天
□ 不合格
21
日志记录
查看日志记录是否正常,一方面看能否将操作记录下来,更重要的是看有无异常操作的日志记录,如无故删除数据等
□ 合格
天
□ 不合格
22
性能检测
查看性能记录是否正常,看有无反映设备运行异常的性能,如误码等
□ 合格
天
□ 不合格
设备运行状态
23
设备温度
温度是否超过围,要求>=-40℃,并且<=70℃
□ 合格
天
□ 不合格
24
系统时间
查看是否时间超过3分钟
□ 合格
周
□ 不合格
25
CPU使用率
当前和历史CPU使用率是否异常
□ 合格
天
主要关注核心节点
□ 不合格
26
存使用率
当前存使用率是否异常
□ 合格
天
主要关注核心节点
□ 不合格
27
以太网端口流量
查看端口出方向流量,关注
Interfacepeakrate/Interfaceutilization是否在正常围
□ 合格
天
主要关注核心节点
□ 不合格
28
以太网端口丢包
多次查看端口计数确认下面计数是否增加:
CRC-ERROR\Errframe\LittUndersize
□ 合格
天
主要关注核心节点
□ 不合格
29
以太网端口对接
查看对接端口是否配置一致(全双工,协商模式)
□ 合格
周
□ 不合格
网管服务器检查
30
存检查
检查服务器存使用率是否过高,要求小于80%
□ 合格
周
□ 不合格
31
cpu检查
检查服务器cpu使用率是否过高,要求小于60%
□ 合格
周
□ 不合格
32
登录密码检查
要求密码不能过于简单,一个月更换一次
□ 合格
周
□ 不合格
33
硬盘空间检查
要求网管安装目录所在硬盘空间剩余空间大于10G
□ 合格
周
□ 不合格
倒换测试
34
主备用主控板倒换测试
检查备用主控板是否正常
□ 合格
季度
□ 不合格
35
业务工作保护倒换测试
检查备用保护路径是否正常
□ 合格
季度
□ 不合格
版本检查
36
软件版本
软件版本是预期的版本,是否全网一致
□ 合格
季度
□ 不合格
37
硬件版本(PCB、PLD)
硬件版本是预期的版本,是否全网一致
□ 合格
季度
□ 不合格
业务配置规划化检查
38
telnetline参数
是否符合idle-timeout30,
absolute-timeout0
□ 合格
季度
□ 不合格
39
业务保护
是否有配置业务保护路径,配置齐全
□ 合格
季度
□ 不合格
40
TMPLSOAM
是否有配置TMPLSOAM,配置齐全
□ 合格
季度
□ 不合格
41
检查VLAN配置
检查VLAN配置是否会导致环路
□ 合格
季度
□ 不合格
机房环境检查
设备运行时的环境温度和相对湿度
要求温度:
15C~30C,湿度:
40%~65%,有空调设备。
设备供电电源
使用直流标称-48V电源,允许波动围:
-60V~-40V。
机房直流电源线安装的路由、路数及布放位置等应符合一般电信工程的规定。
导线(铝、铜条或胶皮线)的规格、器材绝缘强度及熔丝的容量等均应符合设计要求。
电源线应采用整段的线料,不得在中间接头,当需要使用保护套管时,应参照相应的邮电规施工。
消防设备
机房应配备有适用的消防器材。
如一定数量的手提式干粉灭火器,确保消防器材设在机房附近明显而又易于取用的位置。
对于规模较大的机房,应有配套的自动消防系统。
设备运行状态
查看设备风扇、电源状态
●检查目标:
检查电源、风扇状态,避免出现风扇半速运行、单电源工作影响设备稳定性和可靠性。
●检查容与操作:
Showpowerfanstate检查电源、风扇的工作状态,如果状态未OnlinebutnotWork则说明电源或者风扇不正常需要检查。
系统版本检查
●检查目标:
确保系统软件版本为最新可用版本,全网版本统一,避免因版本问题导致的网络隐患。
●检查容与操作:
showversion查询系统软件版本,软件编译时间,FPGA、CPLD、PCB版本。
系统温度检查
●检查目标:
系统温度处于正常工作围,排除温度过高导致的运行风险。
●检查容与操作:
设备上showversion查询系统系统温度,要求>=-40℃,并且<=70℃。
查看单板,端口告警、运行状态
●检查目标:
检查单板是否存在异常告警,及时发现排除单板或端口故障带来的影响,如果存在分析处理消除设备隐患。
●检查容与操作:
网管,设备上showloggingcurrent-alarm查看单板及端口是否告警,或查看端口,单板运行指示灯,并进行记录
系统运行时间
●检查目标:
核对系统运行时间是否准确,确保全网设备及网管服务器、客户端系统运行时间同步。
防止时间不符导致网管告警不准确。
●检查容与操作:
查看系统运行时间是否超过时间3分钟,如果不准确重新进行设置。
--showclock查询当前系统时间
--clocktimezone设置时区
--clocksethh:
mm:
ssMonthDayYear设置日期时间
查看设备CPU,存处理情况
●检查目标:
通过查看CPU是否出现长时间高占用率,了解存资源占用情况,确认有无存泄露【存占用长时间高达90%以上或者间隔(24小时以上)观查存值持续升高,此时就需要关注是否存在存泄漏!
】等问题,初步分析系统是否运行正常。
防止设备资源占用过高导致的业务中断风险
●检查容与操作:
主要查看当前主控CPU(5s)占用率和存使用情况,历史上PeakCPU占用率,如果有高占用率【一般情况下长期在50%或者瞬间70%就认为占用率高】需要进一步分析,排除网络存在的隐患。
以太网端口对接
●检查目标:
查看对接以太网端口的双工、速率配置是否正确和状态是否正常。
对于光端口查看光模块(必须是支持数字诊断的光模块)的光功率是否正常,避免因端口协商或光功率影响业务通信。
●检查容与操作:
---设备上执行showinterfacebrief
以太网端口数据包统计
●检查目标:
多次查看端口收发包统计情况,查看端口出方向流量,关注Interfacepeakrate/Interfaceutilization是否在正常围,建议值一般低于端口带宽70%,过大需进一步分析或考虑扩容,防止因流量过大导致的业务丢包;确认CRC-ERROR\Fragments\LittUndersize计数是否增长以及Dropped是否大量增长,有则要分析产生原因,消除故障。
●检查容与操作:
-----showinterfacexgei_10/1
端口性能
●检查目标:
通过网管查询E1,STM端口15分钟及24小时当前、历史性能,查看是否有PDH误码等异常性能,有则进一步进行分析定位处理,排除故障,避免影响业务正常运行。
●检查容及操作:
在网管上进入性能管理界面后,选中需要查询网元-板卡-端口后,在查看菜单选项中选择当前性能,设置粒度周期后点击查询按钮即可获取15分钟或者24小时当前性能统计。
配置检查
Vlan配置
●检查目标:
查看vlan、ip设置是否与规划要求以及实际应用相符合,避免由于这些问题导致监控、业务通信出现异常。
●检查容与操作:
showvlan,主要关注NNI端口的Pvid是否为1,若为1则要修改之,防止由于vlan成环,产生广播风暴,导致业务中断。
showinterfacevlanxxxx查看协议是否up,ip地址是否配置正确。
showipinterfacebrief查看Vlan、IP地址是否和规划设计的一致。
telnetline参数配置
●检查目标:
查看telnet(absolute-timeout)绝对超时时间是否为0,避免参数为默认值1440,导致网元24小时出现一次网元断链告警;查看telnet(idle-timeout)相对超时时间是否为30,避免参数设置大于30,有大量空闲telnet占用TCP资源。
●检查容与操作:
---Showrunning-config|includetelnet查看telnetline配置的参数
---设置telnet相对超时时间和绝对超时时间分别为30,0。
业务保护
●检查目标:
查看是否有配置业务保护路径,隧道保护配置信息是否齐全(和下列命令显示信息相比较缺少保护类型、模式、下一跳等即为不齐全)。
防止因保护未配置保护导致的业务中断风险
●检查容与操作:
Showrunning-config|begintunnelgroup查看所有配置的保护组信息
或在网管TNP查看是否存在保护组,保护组状态是否一致。
TMPLSOAM配置
●检查目标:
查看是否有配置TMPLSOAM,配置是否齐全,防止因为oam配置不全导致的网络保护失效及oam维护操作失败等。
●检查容与操作:
---Showrunning-config|beginpwe3查看伪线OAM配置是否齐全
---Showrunning-config|begintunnelx查看隧道OAM配置是否齐全
---Showrunning-config|begintmsx查看段层OAM配置是否齐全
保护倒换测试
主备主控倒换测试
●检查目的:
检测备用主控是否正常,是否能够起到保护作用。
●检查容与操作:
命令行操作:
redundancyforce-switchove
网管操作:
拓扑视图右键点击网元,依据路径设备管理器->PTN业务配置->主控板主备倒换路径进入操作界面
业务主备路径倒换测试
●检查目的:
检测备用保护路径是否正常,保护功能设置是否有效。
●检查容与操作:
首先在业务视图->业务管理->TNP管理->选中测试保护组->图形显示,查看工作路径和保护路径,确认实际路由后关闭界面。
然后在业务视图->业务管理->TNP管理->选中测试保护组->保护组信息
接着在弹出的界面中对A/Z端进行倒换设置后,通过观察倒换状态,倒换告警,以及和运营商维护人员确认承载业务是否有瞬断等情况确认备用链路及倒换功能是否有效。
网管服务器计算机环境
●检查目标:
及时发现网络维护瓶颈,防止因网管服务器硬件资源导致的维护问题,提高维护效率。
●检查容与操作:
1.T3网管系统在网管服务器上运行时占用的存、CPU情况。
要求服务器存使用率小于80%,cpu使用率要求小于60%
2.检查网管安装目录磁盘是否有10G以上剩余空间。
防止因空间不足导致的数据备份失败等
数据备份检查
●检查目标:
1,检查设备配置文件是否备份,便于配置丢失或更改后及时恢复业务。
2,检查网管数据库是否正常备份,并能够将近期自动备份的网管数据恢复,用于发生故障时实现业务的快速恢复。
●检查容与操作:
点击系统管理视图~备份恢复~数据备份,将出现如下对话框,输入文件名以及存放目录,然后按备份按钮,网管备份功能是否正常。
维护及发展FAQ
网络维护故障类
网管无常使用设备的LLDP功能怎么办?
答:
众所周知,MAC主要工作在第二层,两台电脑即使MAC地址相同,只要不在同一个广播域中就不会有冲突,这样产生冲突的概率就小多了,当然,即使有冲突了电脑也不会报告警的(IP冲突电脑软件会识别)。
而现场PTN网管用到的LLDP功能,首先要通过MAC地址确定设备,一旦冲突了就无法工作,这个冲突检测是跨广播域的,因此发生冲突的概率要大一些。
处理方法:
在D:
\NetNumen_T31\ums\ums-clnt\log目录下选择相应时段的日志文件,搜索00D0D0,如果存在,则从中可以看出是哪个网元出现了问题。
如果发现有问题的站点,登录网元激活MAC地址:
在特权模式下输入:
olleh进入隐匿模式
(1)输入mac-base-addrenablemaster激活MAC地址
(2)输入reload使激活生效。
当然根本的解决方法还是在开局前查看一下设备的MAC地址以保证全网唯一。
loopback1地址自动丢失造成网元脱管怎么办?
答:
该故障是由于现场配置了loopback1后,没有配置tmplslsr-idloopback1导致的(如果没有配置tmplslsr-idloopback1,当网管上载后,网元属性中的环回地址仍为0.0.0.0)。
按照设计思想,网元由离线变为在线后,网管会自动下发离线时所做的网元属性到设备上,以此来保证网管数据和设备数据保持一致。
所以,现场在离线配置设备时,要注意在配置了loopback1后,一定还要配置tmplslsr-idloopback1。
否则当设备在线时,由于此时网元属性中的环回地址为0.0.0.0,会下发以下命令因此导致设备上loopback1值为0:
interfaceloopback1
noipaddress
exit
所以在离线创建网元时一定要填写环回地址且环回地址一定为真实的loopback1的IP地址。
上载数据库不成功提示“设备未登录(没有权限)”怎么办?
答:
【故障现象】
对设备上载数据库时,网管提示告警“发送命令失败,设备未登录(没有权限)”。
【故障分析】
用户模式进入特权模式要执行命令enable,密码是:
zxr10,zxr10在showrun显示的所代
表的字符串为:
RcMluUKvnFZX9kNAV6A/UA==,通过查看现场采集的showrun信息发现如下:
enablesecretlevel155Sd90g2CfYMc5m27HBE9PbQ==,可见此设备的enable密码不是zxr10,所以导致网管一直登陆不上设备,导致同步时报设备未登陆告警。
【规避方法】
现场通过cmd登陆到设备,采用用户名为zte,密码为ecc,可以进入的特权模式,然后
再进入到配置模式,将enable密码进行修改,修改为zxr10即可。
具体修改命令为:
enablesecretlevel15zxr10。
修改之后网管管理设备就正常了,同步上载就不会报错了。
如果升级中zxr10.zar无法删除和重命名怎么办?
答:
方法一:
ZXR10(config-increte)#diaexecmpmacmdchkdsk"/flash/",2----强制修复flash,然后再看看能不能删除zxr10.zar.
方法二:
更换主控板
如果网管设备管理器查询不到这个网元的任何配置,但网元确实有业务在跑,如何处理?
答:
这可能是该网元以ros方式重启以后没有做同步操作,可以按以下步骤实施
telnet登录网元,进入\dataset目录检查是否有initDataSrcFlag文件,如果没有就拷贝一个initDataSrcFlag文件。
执行write命令保存网元配置,执行syncstartruntoagent命令同步数据库到agent。
网管上执行数据同步,将agent网元配置上载到网管。
然后删除initdata标志文件。
要求现版本均以agent方式启动。
网络技术规类
155M端口和2M端口环回规定?
答:
目前6200和6300设备支持2M、155M端口环回功能;9008设备的155M光口支持光口级的环回功能,但不能针对单个VC12进行环回。
伪线双归保护应用场景和配置规?
答:
【伪线双归保护倒换触发条件】
主要有:
TMC-CSF、TMC-SSF、TMC-LOC。
PTN和BSC/RNC之间断纤,TMC-CSF触发伪线倒换与BSC/RNC对接的PTN掉电,TMC-SSF触发伪线倒换PTN网络部故障,TMP-LOC触发隧道倒换
【保护类型使用现状】
双发双收属于早期的应用,目前已经不再应用;单发双收在现场暂时用的不是很多。
【隧道保护组类型】
若伪线双归的主伪线要绑定隧道保护组,那么这组隧道保护组必须配置为1:
1的LSP保护。
【1:
1保护与1+1保护的区别】
仅在于单发和双发的差别
【PW保护方式与RNC对接模式】
(1)以太网业务:
PW保护方式
RNC---LAG模式
是否能实现双归保护
1+1并收(双发双收)
主备
是
1:
1并收(单发双收)
负载分担
是
目前针对主备的LAG或负载分担的LAG,在和伪线双归对接的场景中,PE节点均不能使用LACP协议,对端RNC必须使用静态(我司)/手工(华为)的方式。
(2)CES2M业务:
PW保护方式
RNC/SDH----PTN对接方式
1+1(双发单收)---推荐
PTN两台与一台设备对接MSP1:
1/1+1/通道保护
1+1(双发单收)
PTN两台与两台SDH设备对接通道保护
【现网版本设备TMC-OAM配置规】
(1)TMC-OAMCV配置原则:
AGENT版本的设备均支持TMC-SSF(该告警主要应用于PE尾节点设备掉电情况)触发伪线倒换。
主备工作隧道都上报TMP-LOC,对其承载的伪线下插TMC-SSF。
现场配置OAM时不开启“CC检测”功能,以防止单条PW误报TMC-LOC告警而触发整个端口的异常倒换。
(2)在TMC-OAM中激活:
允许“CSF插入/提取”。
(3)配置业务时一定要勾选“向伪线映射告警”选项。
(4)PW保护组方式均配置为非返回。
异常业务如何产生,该如何避免?
答:
T31/U31网管的业务视图下进行业务的配置和维护均是基于端到端。
端到端路径一致性状态不是正常路径(残损、端点缺失、不一致)的业务,均属于异常业务。
正常:
表示路径配置信息完全正常的端到端路径。
残损:
A和Z端点正常,中间路由节点配置出现缺失的端到端路径,即一端非终结。
端点缺失:
A和/或Z端点出现缺失的端到端路径,即一端(两端)非终结
不一致:
A/Z端点、中间路由节点配置,出现单点配置数据(非缺失情况)与端到端上保存的配置不一致的端到端路径。
当日常维护和操作中,在网管上删除网元,光连接,或单点进行
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 传输 PTN 维护 规范