故障响应机制12Word格式文档下载.docx
- 文档编号:14252828
- 上传时间:2022-10-20
- 格式:DOCX
- 页数:14
- 大小:287.35KB
故障响应机制12Word格式文档下载.docx
《故障响应机制12Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《故障响应机制12Word格式文档下载.docx(14页珍藏版)》请在冰豆网上搜索。
故障说明
响应时间
处理时间
一级
一级故障:
客户端无法使用,影响用户正常使用。
当系统出现下列相当严重的现象时,属一级故障:
•
系统后台服务器整体瘫痪,全部操作失去响应;
客户端(安卓、iPhone、iPad等仅一种出现)崩溃、无法进入用户界面;
发生间歇性、随机性、重复性的启动或应用退出,无法保障客户业务的正常处理。
两个二级故障及以上,升级为一级故障
≤2小时
≤1天
二级
二级故障:
客户端整体可以使用,部分出现问题,影响用户的部分业务处理。
当系统出现下列比较严重的现象时,属二级故障:
系统后台出现了部分问题,导致用户使用出现问题;
客户端(安卓、iPhone、iPad等仅一种出现)部分功能失效,影响用户使用;
系统整体性能严重下降,无法自动恢复正常运行状态;
重要数据、参数和配置信息损坏,无法恢复,导致客户数据及业务记录严重损失;
三个三级故障及以上,升级为二级故障
≤3小时
≤2天
三级
三级故障:
客户端可以使用,出现的问题对用户的业务处理影响不大。
当系统出现下列现象时,属三级故障:
服务器端软件或者硬件出现异常,局部功能受限,系统整体仍可正常工作,对客户业务影响不大或存在隐患;
关键备用设施因故障离线,主用设施仍能正常工作;
•后台日志发现有系统出现问题的趋势,或者已经出现了交易成功率下降
客户端性能小幅下降,但不影响使用;
系统运行指标(例如:
I/O效率、CPU效率)受到直接或间接影响,客户业务处理受小量影响;
五个四级及以上,升级为三级故障
≤6小时
≤3天
四级
四级故障:
客户端可以使用,不影响业务处理
当系统出现下列情况而不影响客户业务时,属四级故障:
客户端界面出现显示问题,如ui不符合设计;
后台系统中有大量的冗余信息,导致空间不足;
系统硬件或者软件没有及时升级,不符合安全策略等等
≤12小时
≤5天
1.
2.
1
2
2.1
2.2
2.2故障响应时间表
通知公司响应人员
作出解决方案
赶到现场
解决时间
一级
15分钟
2小时
8小时
24小时
二级
30分钟
3小时
12小时
48小时
三级
60分钟
6小时
24小时或无需到现场
72小时
四级
90分钟
无需到现场
120小时
3故障定级
3.1故障累积升级
按照不同的故障分类需要进行相应的处理,但是有时问题会重复出现或者同类问题出现了多个,进行故障升级。
例如:
开发人员发现了一个ui问题,这是一个四级故障,他应该通知他的组长进行统筹处理,在该组长进行处理时发现了十个类似的问题,这个问题直接升级到三级故障,由该组长负责向项目经理通知,并进行全面查找问题,进行统一解决,做到故障的全部解决。
四级故障数>
=5,升级为三级故障
三级故障数>
=3,升级为四级故障
二级故障数>
=2,升级为二级故障
3.2处理能力不足
现场人员如果在接到处理命令后,在两个小时内确认自己无能力处理该故障,那么要求责任人将故障升级,联系更高级别人员,进行统筹工作。
如:
发现一个后台日志异常,有明显变坏的趋势,且银行方已经发现了交易量有少量下降,这应该是一个三级故障,在内部响应后项目经理和高级开发人员进行了处理,但是找不到问题所在,那么直接上升故障等级,通知领导协调更高级的技术人员进行处理。
3.3客户关注程度
客户的关注程度较高时,故障等级应做升级,如果现场人员不能确定客户是否关注程度比较高,可以通过以下几点进行判断:
客户语气焦急,明显有些不耐烦,明令快速解决
客户话语中透露出某某领导派他过来问,或者某某领导等着看,等等
客户表明因为这个系统的问题,导致其他系统无法正常运作
客户已经直接联系领导反映情况(这是非常糟糕的情况,3.4中会有说明)
如果还不能判断出客户的关注程度,那么直接打电话给项目经理,如果项目经理也不能判断出客户关注程度,则按照客户关注程度一般处理。
客户关注程度高时,故障+1级(如原故障二级,+1后变一级),已经是一级的无法再升级。
关注程度一般时,不做故障升级。
3.
4.
3
3.1
3.4客户反馈故障升级
如客户遇到了故障,没有通知现场人员或者项目负责人员。
而是直接联系了部门领导或者公司领导,那么故障响应要做相应升级。
如果故障是用户发现的,故障一般都在三级以上,那么按照用户的响应级别进行故障定级。
如果反馈用户是银行总经理级别的,即使是三级故障,也要按照一级故障进行响应。
原则上是找到公司与用户级别对等的领导,该领导在响应机制的哪个级别,故障就升级到哪个级别。
银行总经理对应公司总经理,定为一级故障
银行科技(信息)部经理对应公司交付中心总经理,定为一级故障
银行科长级别对应公司交付中心总监,定为二级故障
如果客户反馈的故障,按照故障标准认定的等级大于用户反馈认定的故障大于,那么以故障标准认定为准。
3.5客户监控出现的问题
银行都有一些监控体系,可以从中查看到各种异常情况,这些异常情况可能是已经出现了问题的,也可能是即将出现问题,这些一般都是由技术人员解决。
此类问题一般按照二级故障处理,如果客户关注程度较高,则需要公司相应人员进行沟通,如果客户关注度不高,直接协调技术人员解决。
解决后,须告知银行相关负责人。
3.6故障定级矩阵
颜色说明
故障现象
按照标准
客户关注度一般
客户关注度高
行方科长反馈问题
行方信息部经理反馈问题
行方总经理反馈问题
故障积累(按照3.1所述)
处理能力不足
公司内部重视程度高
无法使用
部分无法使用
小部分无法使用
不影响使用
4现场人员注意事项
遵守银行现场的各项制度管理规范,维护公司声誉和形象,不允许有损公司声誉形象的事情发生。
重视自身的沟通,日常工作中不要抱怨,不说一些可能会伤害客户的话,,这样可能让用户积累一些怨气,在出现问题时候一并爆发。
做到在现场的人员工作期间少说些与工作无关的事情
在问题出现的时候,现场人员放下手头的原有工作(指原定的任务,与本次故障无关的任务),全心的投入的故障处理工作中。
第一,做好沟通协调员,将现有问题向上汇报。
第二,从容不迫应对,安抚客户心情,告知公司已经处理(人员已经在路上等等)。
第三,积极配合客户,做好现场工作。
第四,小心谨慎,不要手忙脚乱,此时不能再犯错误。
技术人员提高技术能力,多了解公司的框架、操作系统和一些日常使用的中间件,不要因为自己的粗心大意,导致系统瘫痪。
做到修改前先备份。
修改后先检查,备份保留而不删除。
重视质量意识,加强代码自查,按照流程规范行事,从自身减少隐患
现场人员要留有各个内部联系人的电话,邮箱,必要时可以贴在工位上,不要出现问题再去找人问电话号码
明确自己的职责,了解其他人员(特别是领导)的职务和职责,了解每级别的责任人和联系人
5故障响应人员
按照华北交付中心的组织架构
一级故障对银行响应人员:
交付中心总(副总)经理,责任人项目经理
二级故障对银行响应人员:
交付中心总监,责任人:
项目经理
三级故障对银行响应人员、责任人:
四级故障对银行响应人员:
项目经理,责任人:
项目组长(项目经理)
6处理流程
6.1一级故障
一级故障是最高级别的故障,要求在我方的第一发现人在五分钟内告知项目经理,在故障发生的15分钟以内联系到交付中心对应响应人员(交付中心总经理)。
在故障发生的15分钟内进行故障的现象及后果等的描述,之后交由领导统一指挥。
在两个小时内对问题作出相应的处理方案,以最快速度组织人员到现场处理工作。
要求技术总监、项目经理、技术专家、硬件\系统专家在故障发生的8小时内赶到现场。
如人员无法到齐,可派同等级别人员替换。
领导无法到场,可以电话指挥。
如现场问题严重,可要求公司副总与银行方领导进行沟通协调。
一级故障要在24小时之内解决,避免银行方受到更大的损失。
6.2二级故障
二级故障是比较严重的故障,要求在我方的第一发现人在10分钟内告知项目经理,在故障发生的30分钟以内联系到交付中心对应响应人员(交付中心总监)。
在故障发生的30分钟内进行故障的现象及后果等的描述,之后交由领导统一指挥。
在3个小时内对问题作出相应的处理方案,以最快速度组织人员到现场处理工作。
要求项目经理、技术经理、硬件\系统高级工程师、高级软件工程师在故障发生的12小时内赶到现场。
问题如果在两个小时内没有明确结果,故障直接升级为一级。
二级故障要在48小时之内解决,避免银行方受到更大的损失。
6.3三级故障
三级故障是严重的故障,要求在我方的第一发现人在15分钟内告知项目经理,在故障发生的60分钟以内联系到交付中心对应响应人员(项目经理)。
在故障发生的60分钟内进行故障的现象及后果等的描述,之后交由领导统一指挥。
在6个小时内对问题作出相应的处理方案,确定问题是否需要到现场解决。
如果需要去现场则组织人员去现场,不需要的话就在公司内部解决。
要求项目经理、技术经理、硬件\系统高级工程师、高级软件工程师在故障发生的下一工作日内赶到现场。
项目经理如果无法到场,可以电话指挥。
问题如果在四个小时内没有明确结果,故障直接升级为二级。
三级故障要在72小时之内解决,避免银行方受到更大的损失。
6.4四级故障
四级故障是一般的故障,要求在我方的第一发现人在30分钟内告知项目经理,在故障发生的90分钟以内联系到交付中心对应响应人员(项目组长)。
在故障发生的90分钟内进行故障的现象及后果等的描述,之后交由领导统一指挥。
在12个小时内对问题作出相应的处理方案,判断四级故障是否需要现场处理。
并查找是否还存在类似问题,一并在本次的处理方案中解决。
四级故障要在120小时之内解决,避免银
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 故障 响应 机制 12