网络应急预案.docx
- 文档编号:2926813
- 上传时间:2022-11-16
- 格式:DOCX
- 页数:20
- 大小:154.64KB
网络应急预案.docx
《网络应急预案.docx》由会员分享,可在线阅读,更多相关《网络应急预案.docx(20页珍藏版)》请在冰豆网上搜索。
网络应急预案
黑龙江挪动-铁通网络应急预案
鸡西
应急日常准备
1.1网络根本信息准备:
1.2工具和仪表准备:
工具名称
用处
光功率计
用于测量光功率。
光纤跳线
用于交换故障尾纤。
光纤绑扎带
用于捆扎交换后的故障尾纤。
网线
用于连接网元或局域网的网线。
光谱分析仪
用于查看光线路的光谱。
万用表
用于测量各种电气参数。
防静电腕带
防止人体静电损坏敏感元器件。
防静电包装袋
保护需要防静电的部件。
防静电服
防止人体静电损坏敏感元器件。
十字螺丝刀
用于拆装设备螺丝。
标签纸
用于标示设备或者线缆。
SDH、ETH业务分析仪
用于测量业务信号。
2应急恢复
总体原那么:
以业务快速恢复为目的,优先抢通业务,做好分工和解决方案的沟通,争取抢通和抢修并行。
当故障业务条数小于等于2条时,如初步判断不能短期解决,优先将重要业务倒换到保护波道。
2.1事故信息搜集〔10分钟〕
第一时间关键信息搜集
操作人员
操作步骤
详细动作
备注
网管人员
故障根本信息搜集
1、故障发生时间:
年/月/日时:
分:
秒
2、影响业务信息:
波数,业务级别〔2.5G,10G,40G,100G)和承载的业务类型(大客户专线,挪动回传)及对接设备类型〔可选〕。
3、故障前外部操作或环境变化:
如掉电,机房温度变化,光缆割接,网络拓扑调整〔增删节点,网络改造〕,客户侧业务割接调整等;
4、故障后已做操作及结果:
网管侧操作:
业务配置,人工保护倒换,复位单板,环回等;现场操作:
拔插光纤/电缆,物理环回,拔插单板,更换单板,网元上下电;处理结果:
中断业务局部恢复,中断业务更多,网元返回失败,单板不开工;等等
网管人员
网络根本信息搜集
5、网络拓扑:
节点数、保护类型(ODUkSNCP,OLP光线路1+1,客户侧1+1,ODUkSpring,ERPS,板内1+1,无保护)、网络层次(骨干,会聚,接入)、拓扑类型(链,环,环相切,环相交,环带链)
6、设备信息及运行情况:
设备类型,网元版本、网元状态
网管人员
查询告警和性能信息
根据承载业务中断的详细时间,查询对应时间段是否存在关键告警或异常状态(如:
光纤中断RLOS、单板复位、网元脱管、保护倒换告警、环回告警、安装态告警)
7、在网管上先同步告警,然后查询当前和历史告警以及当前及历史15m性能。
8、把设备、单板、线路的告警与业务中断的时间进展一致性确认。
9、建议检查告警屏蔽状态和通道非介入监视状态,确保告警正常上报。
10、故障前后主通道光功率值(光放大板/OSC板);〔通过24H历史性能查询历史值〕
网管人员
查询操作日志
11、根据承载业务中断的详细时间,查询该时间段的关键操作日志。
〔关键步骤为:
配置业务、复位、环回、优化、倒换等操作〕
网管人员
初步判断
12、根据告警和操作日志是否能初步准确定位到关键设备和保护子网。
采取相应预案。
网管人员
求助烽火工程师
13、请第一时间烽火工程师。
有条件的可以获得客户受权的情况下远程接入;
网管人员
查询业务中断共同路由
14、假如是多波中断,查询所有中断波长所经过的途径,确认波长经过的共同网元节点。
网管人员
通过环回功能定位到单站
15、选取一条中断的途径,点击维护-环回,进入环回界面。
采用二分法,从源端到宿端逐步环回。
确认影响业务中断详细设备,再根据该设备的详细异常,采取预案。
防止在情况不明的情况下盲目操作,导致问题扩大化。
处理过程中一定要作好故障记录,保存好故障的原始数据。
2.2分析定界:
〔5分钟〕
根据上述采集的信息,判断是否波分网络的问题:
信息分析定界
步骤
操作人员
判断和定位
时间花费
1
网管人员
中断的业务只在波分系统上有共同的故障路由,那么需要先排除波分侧故障;
5分钟
2
网管人员
波分设备OTU单板的波分侧存在
OTN_LOF/OTN_LOS/OTUk_SM_BIP8_SD/OTUk_SM_BDI/OTUk_SM_BEI
ODUk_PM_AIS/ODUk_PM_BDI等告警,确认为波分侧问题;
3
网管人员
中断业务经过的共同路由有明确的设备、单板等硬件故障告警〔如:
COMMUN_FAIL/TEMP_OVER等〕,判断为波分设备问题,并马上启动硬件备件响应;
4
网管人员
波分设备OTU单板客户侧端口存在R_LOS、R_LOF等告警,那么需要先排查客户侧光口和对接设备之间的故障。
2.3定位恢复:
〔50分钟〕
场景一:
单波业务中断
此处指无保护场景
定位恢复步骤
场景介绍
A/B/C/D/E五个站点组成一个96波波分环〔左上图〕,各站信号流图见右图。
每个波道在中间站点均OMU48---ODU48尾纤直接穿通。
现发现A<--->D之间的192.1THZ单波道中断。
有相关告警〔OTN_LOS/OTN_LOF/ODUk_SM_BIP8_SD/ODUk_PM_AIS等〕上报。
假设告警上报在D站点,A站有对应的BDI回告。
步骤
操作人员
排除故障原因
操作动作
时间
花费
1
网管&现场人员
快速恢复动作
在资源允许的情况下:
将客户业务调至其它可用的波道或者备用波道;或者客户对接设备存在保护那么可以通过关闭OTU单板激光器触发倒换,或者联络对接设备维护人员手动倒换。
30分钟
故障综述:
单波故障绝大部份可以归为两类,一类为由于光功率异常导致〔以下统一描绘为光功率子场景〕,另一类为由于板件、尾纤等异常导致〔以下统一描绘为非光功率子场景〕,关键在于定位到详细的故障点,采取相应措施解决。
光功率问题子场景〔D站点波分侧直接报R_LOS的情况〕处理步骤
1
网管&现场人员
排除收端
先扫描收端站点192.1THZ波长是否丧失,假如没有丧失且光功率正常,那么进一步排查站点下波尾纤、光衰,尝试远程硬复位单板,同时安排人现场使用光纤环回OTU单板的波分侧,确定是否单板故障,如故障,那么更换单板;
10分钟
2
网管&现场人员
排除发端
然后再扫描发端站点192.1THZ波长是否丧失,假如丧失,那么排查上波尾纤和光衰、尝试远程硬复位单板,同时安排人现场使用光纤环回确定是否单板故障,如故障,那么更换单板;
5分钟
3
网管&现场人员
定位中间站点
假如发端192.1THZ波长没有丧失,从发端A站点开场,按信号流方向逐站扫描192.1THZ波长是否丧失,确认波长丧失站点,〔通过光功率计测试方法:
发端站点:
OTU--->OMU48,收端站点:
ODU48--->OTU,中间穿通站点:
ODU48--->OMU48〕查找故障点,并通过清洁光口、更换尾纤、更换单板的方式解决。
15分钟
备注:
假如现场没有配置OPM单板,又无法调波,业务恢复时长很难控制,同时网管中心通过总光功率变化来粗略判断故障点〔波数很少的情况比拟有效,波数多那么无法判断〕,需要维护人员带上光功率计、光谱分析仪、备件、尾纤等物料逐站排查。
光功率问题子场景〔非报R_LOS〕处理步骤
1
网管人员
检查光功率是否下降、是否有误码
分别查询A、D两站OTU单板的收发光功率,并比照历史24H性能值,确认是否是光功率问题导致的故障〔可通过与故障前的光功率数据〔如历史光功率性能数据或定期刷新过的文档〕进展比拟,以确定当前光功率值是否异常。
〕此场景通常会伴随存在误码、FEC纠错等异常性能事件。
3分钟
2
网管&现场人员
排除硬件故障
分别对A、D站OTU单板使用光纤进展环回,确认是否单板故障,假设单板故障直接更换;〔单光口板可以直接尝试硬复位单板〕
10分钟
3
网管人员
排除波长漂移问题
对发端OTU单板〔本例中为A站点〕扫描波长,确认是否波长漂移,假设漂移那么硬复位单板临时恢复;
5分钟
4
网管人员
快速恢复动作
尝试进步该单波的收光功率〔不能超过过载点〕并观察性能变化。
方法:
从发端开场减少各站OMU48对应通道的衰减值。
3分钟
5
网管人员
快速恢复动作
尝试调整发端线路总光功率:
注意观察其他波长性能变化,在不影响其他波长性能的前提下小量屡次,调整幅度不超过3dB。
5分钟
6
网管人员
从发端A站点开场,按信号流方向逐站扫描192.1THZ波长,确认波长突变量较大的点,〔通过光功率计测试方法:
发端站点:
OTU--->OMU48,收端站点:
ODU48--->OTU,中间穿通站点:
ODU48--->OMU48〕查找故障点,并通过清洁光口、更换尾纤、减小M40V衰减、更换单板的方式解决。
15分钟
非光功率问题子场景处理步骤
1
网管人员
确认为非光功率问题
分别查询A、D两站OTU单板的收发光功率,并比照历史24H性能值,确认是非光功率问题导致的故障〔可通过与故障前的光功率数据〔如历史光功率性能数据或定期刷新过的文档〕进展比拟,以确定当前光功率值是否异常。
〕
3分钟
2
网管人员
排除硬件故障
1、先硬复位发端单板,再硬复位收端单板;
2、假如硬复位完成后,业务未恢复,分别对A、D站OTU单板进展软件内环回、外环回,确认是否单板故障;
5分钟
3
现场人员
排除硬件故障
1、对收发端单板进展硬环回,确认故障单板。
2、对故障单板进展更换。
10分钟
场景二:
多波业务中断
此处指无保护场景
定位恢复步骤
场景介绍
A/B/C/D/E五个站点组成一个80波波分环〔左上图〕,每个站点均为背靠背的OTM站,各站信号流图见左下列图。
每个波道在中间站点均为M40---D40尾纤直接穿通。
现发现环上大量波道出现异常告警。
多波中断。
步骤
操作人员
操作动作
排除故障原因
时间
花费
故障综述:
环路多波故障绝大部份都是由于主光路异常或者合分波板、光放板故障导致,在没有光纤中断的情况下,关键在于定位出故障出现的站点。
1
网管人员
排除光缆故障
查询环路上所有站点OSC单板的输入、输出光功率〔比照单板当前和历史性能值〕,比照历史记录值,确认主光路是否存在光功率跌落,假如有跌落:
1、减少链路上可调衰减器件的衰减值〔比方VOA等〕;
2、适当增大光放板增益;
通知客户修复主光路;
5分钟
2
网管&现场人员
排除光放板故障
查询环路上所有段落光放板的输入、输出光功率,比照历史记录值〔比照单板当前和历史性能值〕,确认是否存在异常的光放板,假如异常:
1、首先确认增益设置是否正确,不正确那么修复并确认故障是否恢复;
2、通过光功率确认光放板〔假如是OA系列单板〕内部口衰耗是否正常,不正常那么更换尾纤〔DCM模块不动〕;
3、尝试修改光放增益,无效那么硬复位光放,
4、上述三步无法解决那么更换光放大板;
5分钟
3
网管&现场人员
排除OMU48/ODU48故障
查询环路上所有站点OMU48/ODU48的输入、输出光功率,比照历史记录值〔比照单板当前和历史性能值〕,假如有异常,那么通过清洁光口、更换相关尾纤,调整光衰的方法排除故障,如无法排除,那么更换单板。
20分钟
4
网管&现场人员
排除操作异常
上述主光功率问题均排除的情况下,应重点理解现场人员故障前的操作情况,是否存在DCM和光缆变化的情况,同时核查各站DCM配置,分析路由,尝试性增减、交换DCM来解决。
25分钟
场景三:
常见保护业务中断
此处常见保护包括:
光线路保护、客户侧1+1保护、板内1+1保护、ODUkSNCP保护、SWSNCP保护
定位恢复步骤
步骤
操作人员
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 应急 预案