服务器故障应急响应方案.docx
- 文档编号:154292
- 上传时间:2022-10-04
- 格式:DOCX
- 页数:7
- 大小:104.94KB
服务器故障应急响应方案.docx
《服务器故障应急响应方案.docx》由会员分享,可在线阅读,更多相关《服务器故障应急响应方案.docx(7页珍藏版)》请在冰豆网上搜索。
服务器故障应急措施方案
n部门
n版本编号
Ver_1.0
n日期
n密级
公司内部使用
文档信息
文档名称
服务器故障应急措施方案
日期
版本号
更新说明
2014-03-14
Ver_1.0
建立文档、初始化
1.方案概述
导致服务器出现故障的问题是一个庞大的集合,可以分成很多种导致服务器出现故障的原因,根据服务器故障出现的状况进行分类,确定故障属于哪一个级别,根据相应的故障级别对故障做对应的处理,确保故障的处理流程是标准化的。
如果没有一套故障处理的标准,工程师只能靠经验去判断,但是依靠经验判断并不是不可以,有时候这种处理方式会很高效,但是大多数这种处理方式都是不太合理的,如果更换了运维工程师,显然每一个工程师通过经验去判断故障原因的方式都不尽相同,这样的差异将会使故障处理事后不能够得到很好的记录与存档,以供其他工程师以后借鉴故障处理案例。
故障处理标准化的优点:
A.根据流程可以确定哪些故障应该立即汇报上级,哪些可以自行解决后,再写故障处理报告汇报上级,这样做有助于提高故障处理效率。
B.对于工程师经验判断,可能出现判断失误的情况,根据故障判断流程,可以不遗漏任何可能的情况对服务器故障进行排除。
C.有时候工程师处理了故障之后只是简单的做了一下汇报,并没有一些故障处理过程的记录,以及故障处理的详细时间记录,这样对需要追溯以前的具体情况的时候就束手无策了。
2.划分故障等级
故障级别
故障说明
故障处理第一步
Ⅰ级
(紧急)
当系统出现下列相当严重的现象时,属一级故障:
l系统整体瘫痪,全部操作失去响应;
l系统崩溃,关键硬件或文件系统损坏无法自动修复;
l发生间歇性、随机性、重复性的启动或应用退出,无法保障公司业务的正常处理。
立即汇报上级
Ⅱ级
(重要)
当系统出现下列比较严重的现象时,属二级故障:
l关键部件(含软、硬件)停止工作,导致系统降低运行状态,客户业务受到严重影响;
l系统整体性能严重下降,无法自动恢复正常运行状态;
l重要数据、参数和配置信息损坏,无恢复,导致客户数据及业务记录严重损失;
立即汇报上级
Ⅲ级
(关键)
当系统出现下列现象时,属三级故障:
l部分设备或软件异常,局部功能受限,系统整体仍可正常工作,对客户业务影响不大或存在隐患;
l关键备用设施因故障离线,主用设施仍能正常工作;
l系统运行指标(例如:
I/O效率、CPU效率)受到直接或间接影响,客户业务处理缓慢;
立即汇报上级
Ⅳ级
(告警)
当系统出现下列情况而不影响客户业务时,属四级故障:
l不在运行状态的线路、端口损坏;
l出于安全考虑并且是受保护的软件降级或应用重启;
l因存储空间不足导致的性能下降;
l系统硬件、软件产品功能、安装、或配置方面的支援;
l业务仍然可以正常运作,但是服务器报出故障信息的;
故障排错判断
3.故障分类
序列
问题种类
详细内容
一
机房网络故障
1、骨干网光纤切割;
2、机房网络升级;
3、机房网络设备调试;
4、机房网络设备损坏;
二
政府部门封网
1、服务器没有备案;
2、域名备案存在问题;
3、黑客入侵导致服务器违法行为;
4、违规代理服务器;
5、服务器转发违禁网站;
6、服务器放置的网站内容不符合当地的政府法例法规;
三
机房铺助设备故障
1、机房空调故障问题;
2、机房灰尘过多问题;
3、机房电力供应问题;
四
机房机柜迁移
1、机柜扩容;
2、机柜移位;
3、服务器迁移机柜;
五
服务器硬件故障
1、电源线损环;
2、服务器电源损坏;
3、服务器非人为硬盘损坏;
4、服务器受黑客入侵攻击时导致硬盘损坏;
5、CPU温度过高烧毁;
6、内存使用中损坏;
7、主板在电源损坏时容易烧毁;
六
服务器系统故障
1、黑客攻击导致系统瘫痪;
2、缓存日志过多没有整理;
3、人为配置不当导致系统崩溃;
4、硬盘损坏导致系统崩溃;
七
服务器应用故障
1、服务器放置的应用程序存在bug后门等;
2、服务器环境配置问题;
3、黑客攻击导致应用程序崩溃;
4、硬盘、内存的兼容性差导致应用程序崩溃;
5、应用程序没有优化占用服务器硬件资源过高导致崩溃;
6、用户负载过多导致应用程序崩溃;
八
服务器硬件超负荷
1、数据超过硬盘读写负载能力导致应用程序崩溃;
2、CPU使用率跑满导致服务器宕机;
3、使用内存cache占用过多导致宕机;
4、硬盘空间使用满导致宕机;
九
服务器网络超负荷
1、用户量过多,服务器带宽不足,导致卡顿,用户访问程序故障;
2、系统连接数过多造成系统拥堵网络带宽使用不上;
3、数据库数据读写占用过多服务器连接数,达不到预期的服务器带宽;
十
人为违规操作
1、人为违规关机;
2、人为违规操作更改或删除服务器应用;
3、机房人为关机或断电;
十一
服务器受到攻击
1、服务拒绝攻击导致系统崩溃,如常见的UDP洪水攻击等;
2、利用型攻击导致黑客入侵系统,如特洛伊木马、口令猜测等;
3、信息收集型攻击,如体系结构探测、DNS域转换等
4、假消息攻击,如DNS高速缓存污染、伪造电子邮件等
十二
不可预知因素
1、机房遭遇火灾事故;
2、机房遭遇地震事故;
服务器出现故障
4.故障应急处理流程
判断故障级别
汇报上级
汇报上级
汇报上级
Ⅰ级(紧急)
Ⅱ级(重要)
Ⅲ级(关键)
Ⅳ级(警告)
记录发生时间
记录发生时间
记录发生时间
故障排错流程
故障排错流程
记录发生时间
故障排错流程
故障排错流程
问题处理完成
故障处理报告
发送邮件给相关人员
服务器故障处理完毕
5.故障排错流程
故障排错开始
是否有备用
服务器
判断故障等级是否属于Ⅰ级或Ⅱ级
启用备用服务器
是是
否否
检查当前故障服务器
执行数据备份与日志备份的脚本
查看报错日志,根据故障分类确定故障范围,逐条排除
尝试修复故障,并且验证是否解决问题
否
是
故障处理完成
6.数据与日志备份
在进行故障修复的时候,需要对服务器系统以及软件的配置文件进行修改,这些修改可能造成的风险是很大的,这时保存备份配置文件信息、应用数据、系统日志信息会很重要,可以直接通过shell脚本对服务器重要的数据进行备份。
7.故障处理报告
7.1.故障处理报告文件命名规则
文件名前缀
故障级别
服务器名称
故障类型
故障处理报告
Ⅰ级—紧急
Linux服务器名称
(终端#前面的字符)
故障分类—详细内容
Ⅱ级—重要
Ⅲ级—关键
Ⅳ级—告警
例如:
故障处理报告_Ⅰ级—紧急_squid-chendu_系统崩溃
7.2.故障处理报告内容
故障发现时间
Xxxx年xx月xx日xx:
xx(24小时制)
处理完成时间
如果处理一次就解决的直接写:
Xxxx年xx月xx日xx:
xx(24小时制)
如果多次处理后才解决,按下面格式写:
①Xxxx年xx月xx日xx:
xx(24小时制)
②Xxxx年xx月xx日xx:
xx(24小时制)
③Xxxx年xx月xx日xx:
xx(24小时制)
故障处理人员
故障描述
根据故障等级划分的说明加上一些详细的内容
故障处理过程
故障排错的详细过程,可以用图表形式表达
故障原因
导致故障发送的原因
解决方法
写上最终用什么方式解决故障问题
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 服务器 故障 应急 响应 方案