交换机预防系统重大故障检查指南.docx
- 文档编号:6796605
- 上传时间:2023-01-10
- 格式:DOCX
- 页数:23
- 大小:29.49KB
交换机预防系统重大故障检查指南.docx
《交换机预防系统重大故障检查指南.docx》由会员分享,可在线阅读,更多相关《交换机预防系统重大故障检查指南.docx(23页珍藏版)》请在冰豆网上搜索。
交换机预防系统重大故障检查指南
0.预防系统重大故障检查指南
Preparedby:
伍兆辉
Editedby:
伍兆辉
IssuedonVersion:
2.10
Releasedon:
July,05,2003
OwnerDept:
:
BJ/HKGNTSDept
预防系统重大故障维护检查包括以下15个方面
1.每天检查系统例测(RextestResult)结果。
每天早班机房值班工程师要检查系统例测是否通过:
a)检查IMAGE测试情况,检查的目的是看IMAGE(系统备份)文件是否可用。
系统IMAGE测试非常的要,包含了很多的测试,其中很重要的是在备用侧作系统启动测试,保证系统发生灾难时能自动恢复服务。
如果IMAGE测试不通过(WARM/COLD/RELOADRestart)则需在晚上话务量低时人工做IMAGE测试。
指令是:
>MAPCI;MTC;XAC;XACMTC;IMAGETESTWARM/COLD/RELOAD然后根据测试结果决定下一步如何做。
b)检查系统例测情况:
LastXARExTstResult。
XACMSIODNetPMCCSTrksExtAPPL
RExSch.....
Front:
111111111Rear:
111111SMPEIOPKLT
0Quit123456789012345678456789012345....
2Sta..-..-..-....-..-.0000
3Dep
4
5Traps:
PerMinute=0Total=24
6LastImagerunat:
2002/12/2000:
44
7restarttype=reload
8Result=pass或者fail
9LastXARExTstrunat:
2002/12/2601:
30
10LastXARExTstType:
full
11Image_LastXARExTstResult:
notRun或者Failed或者passed
如果系统例测不过是因notRun,则一般会有RexSch告警,需要检查例测的计数器是否未清零,检查指令是:
>mapcinodispprtmap;mtc;xac;xacmtc;rextstcounts
MAPCI:
MTC:
XAC:
XACMTC:
CommandSubmitted.
RExTstCountscompleted
NameValue
PEfaults0
SMfaults0
IOPfaults0
CMICPackletfaults0
Linkfaults0
TODfaults0
RTIFPackletfaults11
RTIFPortfaults0
Tapefaults0
Diskfaults0
如果某一个count值大于2,则系统不会做例测,而且此count值系统不会自动清零,此时须人工清零,指令是:
>mapci;mtc;xac;xacmtc;rextstresetcounts
CommandSubmitted.
RExTstResetCountscompleted
检查清零后结果:
>rextstcounts
CommandSubmitted.
RExTstCountscompleted
NameValue
PEfaults0
SMfaults0
IOPfaults0
CMICPackletfaults0
Linkfaults0
TODfaults0
RTIFPackletfaults0
RTIFPortfaults0
Tapefaults0
Diskfaults0
第二天,等系统自动做一个例测后,RexSch告警会消失,请注意:
人工做例测不能消除告警。
如果告警未消除,而且count值大于零,则须检查FQT报告,看硬件是否有问题,指令是:
>FQT;LAST200
如果是因为Failed导致例测不过,则需要检查XAC报告,指令是;
CI层;>LOGUTIL;OPENXAC;BACKALL
检查1:
30左右的XAC报告,此报告会说明系统例测失败的原因,已经有多少天系统未做例测了,等等,具体原因具体分析。
同时检查FQT报告,看是否有硬件的问题。
HUN_CDMSC1*XAC413DEC2601:
30:
081600SUMMRExSch(RExScheduleFailure)
DESCRIPTION:
XA-CoreRExhasnotrunfor16days.
ACTION:
RunRExtoclearalarm.
HUN_CDMSC1XAC415DEC2601:
30:
081500INFORoutineExercise(REx)Report
INITIATORCLASSRESULT
SystemFullNotRun
Reason:
PrecheckFailed
HUN_CDMSC1XAC615DEC2601:
30:
081400INFORExStarted
DESCRIPTION:
XA-CoreRExhasbeeninitiated.
2.定期检查漫游号码MSRN的分配情况,当漫游号码的使用率超过25%-30%时,应及时检查translation,同时请立即与北电GNTS联系。
MSRN号码资源仅有950个,实行动态分配,如果translation填写出现错误,则会造成MSRN号码被分配出去后回不来的问题,而系统定义的是45秒后才自动释放该MSRN号码,这样会使MSRN号码资源不够而使其他电话打不通。
检查指令:
CI层:
>QGSMVLRSTATUS
例如:
>QGSMVLRSTATUS
--------------------------------------------------------------------------
VLR:
Capacity:
130KSubscribers%Used:
82
Population:
108814MSNextTMSI:
159384655
RegionalSubscription:
Capacity:
0KSubscribers%Used:
0
Population:
0MS
MSRN:
Allocated:
950%Used:
3
InUse:
25
------------------------------------------------------------------------------
3.日常检查EXT层下告警,各种系统寄存器溢出将在此层产生告警,如遇到OM组有溢出产生,请立即与GNTS联系。
例如:
>MAPCINODISPPRTMAP;MTC;EXT;PRINTMAP
XACMSIODNetPMCCSTrksExtAPPL
.......1Crit.
*C*
ExtAlarmsCritFSPMajorMinorNoAlm
0Quit10109
2
3
4
5
6
7List_
8TstDSAlm
9SetSD_
10SetSC_
11Disp_
12
13_Crit
14_FSP
15_Maj
16_Min
17_NoAlm
18
>listcrit
OMCRITICAL
>listmaj
OMMAJOR
a)看报告指令:
>LOGUTIL;OPENOM2200;BACKALL;
>LOGUTIL;OPENEXT;BACKALL
例如:
>LOGUTIL;OPENOM2200
HN_XXMSC1*OM2200MAR1223:
08:
086379INFOOMTHRESHOLDEXCEEDEDONCPLOOVFL$0
THRESHOLD=1,DELTA=3,SCANTIME=1
HN_XXMSC1*MAR1223:
08:
096381INFOOMTHRESHOLDEXCEEDEDONCPLPOVFL$0
THRESHOLD=1,DELTA=10,SCANTIME=1
b)看OM组EXT指令:
>OMSHOWEXTHOLDING;(看上半小时的报告)
>OMSHOWEXTACTIVE;(看当前的报告)
要注意:
当任何一个寄存器使用率过80%,请与北电ETAS取得联系。
寄存器使用率的计算方法:
(EXTHI)/INFO(EXTINFO)
例如:
>OMSHOWEXTACTIVE
CLASS:
ACTIVE
START:
2003/02/1809:
00:
00MON;STOP:
2003/02/1809:
18:
45MON;
SLOWSAMPLES:
12;FASTSAMPLES:
113;
KEY(EXT_FORMAT_CODE)
INFO(EXTINFO)
EXTSEIZEXTOVFLEXTHIEXTSEIZ2
EXTHI2
98CRS_SUBRU_POOL3
7864
5329100078640
0
INFO:
EXTblock配置数目。
EXTSEIZ:
寄存器EXTSEIZ用来计录特定的扩展块请求次数。
EXTHI:
RegisterEXTHIisapegregisterthatcountsthemaximumnumber.NumberofextensionblocksofeachtypethatareinsimultaneoususeduringtheprecedingOMtransferperiod.
EXTOVFL:
寄存器EXTOVFL用来记录EXTblock溢出次数.
如果发生溢出就要检查局参数配置,并做出相应的修改.
4.定期检查外围模块(主要指PDTC/CDT2)的负荷情况:
a)各个模块是否负荷均衡。
b)是否有持续的负荷过高的模块,如有则要进行话务调整。
c)检查指令:
a.>OMSHOWXPMOCCHOLDING
b.>OMSHOWXPMOVLDHOLDING
在OM组XPMOCC中,CPUCPXX表示此外围占用率达到多少,如CPUCP80表示外围利用率达到80%,CPUCP80所对应的数字是表示处于80%负荷所持续的时间,所有时间总和是30分钟。
如果某个外围的利用率已达70%,则用户应考虑进行负荷的调整,否则当此外围发生负荷超载时会导致很多中继LO。
例如:
>omshowxpmoccholding
XPMOCC
CLASS:
HOLDING
START:
2003/03/1509:
30:
00SAT;STOP:
2003/03/1510:
00:
00SAT;
SLOWSAMPLES:
18;FASTSAMPLES:
180;
INFO(XPMOCC_OM_KEY)
CPUCP30CPUCP40CPUCP50CPUCP60
CPUCP70CPUCP80CPUCP85CPUCP90
CPUCP95CPUCP100CPUTOTLAVGCPOCC
AVGLPOCCNUMRPTSPMORIGSPMTERMS
0PDTC0UP
0000
013143
0030163
16212553897
1PDTC1UP
0000
00317
10030178
13212447638
则PDTC0负荷处于80%时间是13分钟,处于85%的时间是14分钟,处于90%的时间是3分钟。
>omshowxpmovldholding
XPMOVLD
CLASS:
HOLDING
START:
2003/03/1509:
30:
00SAT;STOP:
2003/03/1510:
00:
00SAT;
SLOWSAMPLES:
18;FASTSAMPLES:
180;
INFO(XPMOVLD_OM_KEY)
PORGDLYPTRMDLYPORGMSGPTRMMSG
PORGIPCPMSGIPCPORGPTQPTRMPTQ
PORGSLLCPORGLCMPORGMISCPTRMMISC
0PDTC0Y
1361800
0010
0000
1PDTC1Y
7183103720
00361
0000
2PDTC2Y
2515100
0010
0000
5.话务高峰期定期检查信令链路的负荷,如果单方向的负荷达0.2Erlang,则要考虑扩信令链路。
例如到某方向的信令有6条链路,如果均处于0.2Erlang的负荷,此时一旦有一条或多条链路退出服务,则会导致其他链路的负荷增加,最后可能会导致信令链路全阻。
a)检查的指令:
>OMSHOWC7LINK2HOLDING
b)计算公式:
1)出局向负荷(单位:
Erlang/半小时)
Linkusageerlangfortransmitted(halfhourly)
= C7BYTTX+(65536*C7BYTTX2)+6*(C7MSUTX+(C7MSUTX2*65536))
(Linkspeedinbits/s /8)* timeperiodinseconds
2).入局向负荷(单位:
Erlang/半小时)
LinkusageerlangforReceived(halfHourly)
=C7BYTRX+(65536*C7BYTRX2)+6*(C7MSURX+(C7MSURX2*65536))
(Linkspeedinbits/s /8)* timeperiodinseconds
注:
Linkspeedinbits/s=56kor64k
3)也可在MAP终端层中看:
(此时看到是双向的负荷总和)
指令>mapcinodisp;mtc;ccs;ccs7;c7lkset;postcxxlkset;querytrfall
6.检查SCCP层连接拒绝率,如果大于5%,请于GNTS联系。
如果SCCP层连接拒绝率较高(大于3%),会影响手机用户的登记,影响用户打出电话。
此时用户应做以下的工作:
a)在A接口挂信令仪表收集信令分析连接拒绝的原因,如果分析有困难,请将收集的信令发Mail到GNTS。
b)检查GSMSSI表格有无填写错误,在此表格中只能填写到BSC方向的链路的LIU7,而且到每个BSC方向的LIU7数目不少于2个但也不能多于3个。
c)请BSC工程师检查BSC侧有无问题。
检查指令:
>OMSHOWC7SCCPCOHOLDING
>OMSHOWG7SCCPCOHOLDING(GSM15only)
能提供每个LIU7:
SCCP层连接拒绝率数据,使机房值班工程师容易搜寻SCCP层连接拒绝率较高在那一个BSC的LIU7.
计算公式:
C7SCCP连接拒绝率=C7CREFTX/(C7CRRX+(C7CRR2x65536))*100
C7SCCPCO(面向连接的信令连接控制部分)
CLASS:
HOLDING
START:
1997/01/1710:
30:
00FRI;
SLOWSAMPLES:
18;FASTSAMPLES:
180
C7CLS2TXC7CLS2T2C7CLS2RXC7CLS2R2
C7DT1TXC7DT1T2C7DT1RXC7DT1R2
C7ITTXC7ITRXC7CRTXC7CRT2
C7CRRXC7CRR2C7CCTXC7CCT2
C7CCRXC7CCR2C7RLSDTXC7RLSDT2
C7RLSDRXC7RLSDR2C7RLCTXC7RLCT2
C7RLCRXC7RLCR2C7CREFRXC7CREFTX
C7COFAILC7COMREJ
578287119797
355215553004
29621537450
8088165111
3666001611
3030
1016318015910
00
例子的拒绝率=1591/(8808+(1x65536))*100=2.16%
其中:
C7CREFTX:
交换机发出连接拒绝的消息总数
C7CRRX:
收到的全部连接请求信息
C7CRR2:
收到的全部连接确认信息
7.检查VLR容量,如大于80%,请通知北电工程部进行扩容。
a.指令:
>QGSMVLRSTATUS
b.系统报告:
>LOGUTIL;OPENGVLR300
当VLR数据库中的用户数达到本局设置的最大用户数时,再有用户进入本VLR,系统将产生GVLR300报告。
提醒维护人员注意,本局需要扩容。
例如:
>QGSMVLRSTATUS
--------------------------------------------------------------------------
VLR:
Capacity:
130KSubscribers%Used:
82
Population:
108814MSNextTMSI:
159384655
RegionalSubscription:
Capacity:
0KSubscribers%Used:
0
Population:
0MS
MSRN:
Allocated:
950%Used:
3
InUse:
25
--------------------------------------------------
>LOGUTIL;OPENGVLR300
MSCIGVLR300APR2315:
26:
170544TBLResourceUnavailable
Location:
GSMVLRDatabaseResource
Status:
Troublealert
Action:
Reviewresourceprovisioning
Description:
VLRfull.SubscriberdeletedtoallowfornewSubscriberdata.CheckMAX_SUBSCRIBERS_IN_VLRinTableOFCENG
8.检查CAPACITY容量负荷:
在下午的话务高峰,观察并记录下午每小时CAPACITY容量的负荷情况,如有负荷过高的情况,应分析出原因。
对于连续超负荷的情况,通知GNTS。
a.检查一小时内的峰值的指令:
>DMSMON;HIGHCAP;如CAPACITY容量负荷高于80%,请于GNTS联系,同时最好是能收集当时的系统所有报告(DLOG)用于问题分析。
b.检查实时的CAPACITY负荷的
指令:
>MSCCAPCI(BRISCandXA-Core1+1)
>CAPCI(XA-Core3+1)
例如:
>DMSMON
YouarecurrentlyintheDMSMONlevel
>HIGHCAP
*************************************
*HIGHWATERCAPACITY*
*************************************
TIME
DATE|123456789101112131415161718192021222300
-------------------------------------------------------------------------------
12/27|11756115821415352535244
12/26|149767582237535755485145464855484840302316
12/25|1610677592545655765564650495262555847343020
>MSCCAPCI
如果CATMP<100,000/HR,但CAPACITY容量负荷较高时请于GNTS联系。
CATMP/HRSMS/HRVLR_UPD/HRCAPENGBHCAOVRLDIDLE
655201956032154072%90372OFFYES
SCHEDFOREMAINTDNCAUXCPOMGTERMBKGNETMSNIP
363%28%73%41%1%3%0%225%0%5%
9.当系统因某种原因需使用储电池的直流供电时要密切关注EXT层的告警,如果系统电压低于系统设定的门限值时,在EXT下会出现LowBatt告警。
相关的系统报告:
EXT109.如果是交流电出现问题而使用备用电池时要考虑到交流电停电时间长短、交换机的配置和现场条件、备用电源的质量及可支持时间等因素。
例如:
EXT109MAR1020:
10:
403456INFOLVDMSCPWDON
PWRLevislowsince2003/03/1010:
20:
30
以上例子表明从2003/3/1010:
20:
30起交换机一直运行在低电压状态下。
10.定期用命令CRSPOOLS检查计费资源使用情况,ALARM正常应为OFF。
要注意当记费资源“INUSE”超过55%,请与GNTS联系。
例如:
CI>crspools
----------------BILLINGCAL
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 交换机 预防 系统 重大 故障 检查 指南