计算机机房应急预案.docx
- 文档编号:27924480
- 上传时间:2023-07-06
- 格式:DOCX
- 页数:62
- 大小:426.59KB
计算机机房应急预案.docx
《计算机机房应急预案.docx》由会员分享,可在线阅读,更多相关《计算机机房应急预案.docx(62页珍藏版)》请在冰豆网上搜索。
计算机机房应急预案
计算机机房应急预案
XXXX单位名称
20XX年XX月
编制人员
编制审核
XXXXXXX
前言
近年来,经常会听到某地机房发生因某种原因导致灾难性的事件;由于处理不及时
或人为因素操作不当,导致严重后果,造成了巨大的经济损失。
为了避免类似事情发生,项目组每年对应急预案进行修订,优化使用流程及操作步骤,保障在突发情况下及时、有效处理各类应急情况。
本应急预案编制依据《单位网络系统运行管理规定》而编写。
根据单位领导提出新的改进建议,应急预案的版本修订相比之前有了较大的改动,项目组结合机房的实际情况,针对所涉及故障及其处理方法分别进行说明并细化了每一个处理步骤,增加了非工作时间机房出现突发事件的处理步骤及紧急联系人相关信息,确保维护人员能够直观、及时、有效地处理突发情况,在维护人员不能第一时间到达现场,其他人员也能以及有效协助处理突发情况。
项目组每年组织两次的机房应急演练,模拟机房设备故障,维护人员参照应急预案能够熟练操作并进行突发事件的处理,验证应急预案对于机房的有效性和可用性。
目
次
1
概述
.................................................................
1
1.1
目的............................................................
1
1.2
应急预案存放....................................................
1
1.3
编制依据........................................................
1
1.4
技术资料........................................................
1
2
适用范围及启动条件....................................................
1
3
应急组织和职责........................................................
2
4
应急响应流程...........................................................
3
4.1
应急事件响应.....................................................
3
4.2
应急事件升级.....................................................
3
5
应急执行流程...........................................................
4
5.1
影响程度的评估...................................................
4
5.2
宣告启动应急.....................................................
4
5.3
应急恢复.........................................................
5
5.4
事后处理.........................................................
5
5.5
应急注意事项.....................................................
5
6
应急恢复步骤...........................................................
6
6.1
强电系统故障.....................................................
6
6.2UPS故障.........................................................
9
6.3
网络系统故障....................................................
10
6.4
机房漏水........................................................
12
6.5
空调故障........................................................
14
6.6
机房火灾........................................................
17
附表一交换机信息...................................................
22
附表二自主运维办公交换机信息.......................................
22
附表三交换机常用命令...............................................
23
附表四机房应急预案联系人信息表.....................................
23
附表五机房服务器联系人信息表.......................................
23
7预案附录24
附录一机房示意图24
附录二配电柜操作说明书24
附录三UPS操作说明24
附录四空调操作手册24
附录五设备监控软件使用说明书24
1概述
1.1目的
为了提高单位计算机机房、网络突发事件的应急处理能力,最大程度地预防和减少
突发事件及其造成的损害,保障设备正常运行,制定本预案。
本预案参照单位领导的要
求,对机房空调、电力、消防、漏水以及网络系统五种突发情况制定具体的应急工作流
程。
1.2应急预案存放
1)电子版本
本应急预案电子版存放于单位共享服务器及所有项目组成员工作电脑中。
2)纸质版本
本应急预案纸质文档存放于机房缓冲区桌面、运维人员办公室。
1.3编制依据
本应急预案编制依据《单位安全管理规定》编写。
1.4技术资料
序号
资料名称
存放地点
获取方式
1
UPS使用手册
机房缓冲区桌面
进入机房获取
2
机房专用空调操作维
机房缓冲区桌面
进入机房获取
护指南
3
消防使用手册
机房缓冲区桌面
进入机房获取
2适用范围及启动条件
1)地域范围:
本预案适用于本单位机房及网络运行中发生故障时使用。
2)人员范围:
本预案在执行中涉及的人员包括机房、网络运维人员,相关主管领导,大楼安保
人员以及机房内各应用系统负责人等。
1
3)启动条件
机房、网络运行中出现的一般性突发事件和重大突发事件。
一般性突发事件:
是指机房、网络突发故障,将影响机房提供正常服务及网络服务
的能力且预计修复时间大于30分钟,此时应立即启动应急预案,主要包括:
1)市电中断和UPS故障引起的电力供应中断。
2)机房空调冷凝水或上下水管道漏水。
3)机房温度超过30℃。
4)网络故障影响用户范围超过20%,预计修复时间在2小时以内。
重大突发事件:
是指一般性突发事件在特定的时间内无法修复或发生特殊事件时,
严重影响机房提供正常服务及网络服务的能力,并且修复时间大于2小时,此时除了立
即启动应急预案外还应升级为重大事件,其中包括但不限定于以下分类:
1)机房出现火灾。
2)市电中断和UPS故障引起的电力供应中断。
3)机房温度超过40℃。
4)网络故障造成全网中断,预计修复时间超过2小时。
3应急组织和职责
计算机机房应急组名单如下:
表1应急小组名单
部门/岗位职责姓名联系方式
单位领导重大应急决策指挥
部门主任应急决策指挥
应急小组组长负责评估应急事件并协调处理
应急预案操作岗启动应急预案并实施
2
4应急响应流程
4.1应急事件响应
1、发生突发事件时,通过电话或当面通知应急小组组长报告情况。
2、必要时第一时间启动应急预案。
3、应急小组组长根据实际情况启动应急预案,参照应急恢复步骤组织协调相关人员进行应急处理。
4、电话通知机房内生产业务系统管理员做相应的应急措施。
5、应急小组组长根据情况判定是否需要将事件升级为重大事件。
6、事件处理完毕后,应急小组组长将事件处理详细经过形成书面报告,上报部门
主任和单位领导。
4.2应急事件升级
在应急小组组长认定突发事件升级为重大事件时,应按以下步骤操作:
1、立即通知部门主任。
2、通知机房内生产业务系统管理员事件升级为严重,参照应急恢复步骤做相应的应急措施。
3、根据应急决策领导的决策指令处理故障。
4、事件处理完毕后,应急小组组长将事件处理详细经过形成书面报告,上报部门
主任和单位领导。
3
5应急执行流程
5.1影响程度的评估
表2影响程度评估表
序号
故障类型
影响程度及范围
一般性突发事件
重大突发事件
市电中断和UPS
影响程度大,修复时间大于
影响程度为重大,修复时间
30分钟,小于2小时的电力
2小时以上的电力供应中
1
故障引起的电
供应中断,影响范围为机房
断,影响范围为机房内所有
力供应中断。
内所有设备及系统。
设备及系统。
影响程度一般,机房出现小
影响程度重大,机房出现大
摊积水,修复时间大于30
面积漏水,或者漏水修复时
2
机房漏水
分钟,小于2小时的机房漏
间2小时以上的机房漏水,
水,影响范围为机房内所有
影响范围为机房内所有设
设备及系统。
备及系统。
影响程度大,机房温度超过
影响程度重大,机房温度超
30度,修复时间大于30分
过40度,修复时间2小时
3
机房温度过高
钟,小于2小时的,影响范
以上的空调故障,影响范围
围为机房内所有设备及系
为机房内所有设备及系统。
统。
影响程度大,修复时间大于
影响程度重大,修复时间2
30分钟,小于2小时的网络
小时以上的网络系统故障,
4
网络系统故障
系统故障,影响范围为生产
影响范围为生产业务系统
业务系统及影响用户范围超
及影响用户范围超过20%。
过20%。
影响程度重大,影响范围为
5
机房火灾
-
机房内所有设备、系统及用
户。
5.2宣告启动应急
应急小组组长宣告启动应急预案,并通知应急预案操作岗所有成员参与预案的执
行。
重大事件时要向部门主任、单位领导汇报。
4
5.3应急恢复
突发事件发生后,应急组长根据不同的启动条件执行应急预案进行应急恢复。
表3
应急恢复步骤
序号
启动条件
恢复步骤
操作人员
备注
1
市电中断
见步骤6.1
应急小组组长、应
急预案操作人员
2
UPS故障
见步骤6.2
应急小组组长、应
急预案操作人员
3
见步骤6.3
应急小组组长、应
网络系统故障
急预案操作人员
见步骤6.4
应急小组组长、应
4
机房漏水
急预案操作人员
5
见步骤6.5
应急小组组长、应
空调故障
急预案操作人员
见步骤6.6
应急小组组长、应
6
机房火灾
急预案操作人员
5.4事后处理
事后仔细分析事件发生的原因,查找引起事件发生的根本原因,力争杜绝类似问题
的再次发生;总结每次应急处理的经验与不足,及时进行总结记录,作为知识储备,进
行共享;重大事件处理完毕时,要向部门主任、单位领导及时汇报整个事件的处理过程,
并提出预防措施建议。
5.5应急注意事项
为了在突发事件发生时,能够及时顺畅地执行预案,应保证以下几点:
平时多做应急演练,对应急小组的组织和预案执行力进行检验和加强。
熟读应急预案,责任分工明确,应急流程掌握熟练。
加强技术能力和业务能力。
通讯保持畅通,应急小组的人员要保持24小时手机开机。
处理应急突发事件时要认真做好应急处理记录,有利于进行问题回溯。
5
6应急恢复步骤
6.1强电系统故障
6.1.1市电中断
1)当发生市电中断或同时收到UPS输入、电量仪、空调及数据库读取异常等告警短信,立即到机房检查UPS工作状态。
非工作时间发生电力中断时,电话联系
保安人员进入机房确认是否停电,同时联系附近的紧急联系人协助处理,并直
接跳到第三步。
紧急联系人
姓名联系电话备注(住所)
2)检查UPS的负载量及电池能够支持的时间:
步骤:
双击UPS控制面板“ESC”按键,点击“”键,找到相关信息,查
看电池负载;在“电池参数显示”处,查看备用时间确认UPS供电剩余时间。
(具
体详情可参照附录三:
《UPS操作说明》进行操作。
图1UPS控制面板
3)立即拨打物业电话,询问断电原因及断电预计恢复时间,同时通知应急小组组长。
(如电话无人接听,立即拨打物业人员手机询问具体情况,物业人员详细联系方式可参照附表三:
《联系人信息表》进行查询)
4)当发生单路供电中断时,应立即通知物业切换至另一路供电,观察UPS状态是否供电正常,等待第一路供电恢复切回。
5)如物业通知无法切换电路且30分钟内无法恢复供电,应立即按照附表五:
《机房服务器联系人信息表》的清单顺序通知各生产业务系统管理员进行系统备份并关闭系统。
同时维护项目组关闭机房内负责的所有设备。
6)向部门主任及单位领导汇报当前情况。
7)确认所有服务器关闭后,直接手动拉下配电柜01后面A4、A5、A6、B2、B5、
6
C3机柜输出开关,关闭网络设备。
8)当机房温度超过40度时,为确保机房内服务器安全,经单位领导许可,维护组人员按顺序直接拉下位于配电柜01后面所有机柜输出开关,关闭机房内所有设备。
图2配电柜01
9)待市电恢复供电后,打开网络机柜对应的输出开关,启动网络设备。
10)按附表五中的清单分批次对系统服务器加电,通知相关人员进行测试,并要求相关人员电话回复系统测试结果。
11)如UPS故障造成的电力供应中断,手动重启UPS,查看UPS故障是否解除并恢复正常。
(在UPS显示屏上点击“开机”,查看UPS是否正常启动)
12)如UPS故障依旧,立即通知各生产业务系统切换备份系统。
13)向部门主任和单位领导汇报当前情况,并联系厂商对UPS进行检修。
14)待所有系统恢复正常后,提交处理报告,上报部门主任和单位领导。
7
6.1.2市电中断流程图
图3强电系统故障处理流程图
8
6.2UPS故障
6.2.1UPS电池漏液、冒烟
1)发生机房电池漏液、冒烟或监控组人员发现机房电池柜冒烟,立即到机房查看电池状态。
(电池柜位于储藏室内部)
图4机房电池柜
2)如发现是电池漏液、冒烟导致,应按照下列处理方法操作。
并密切观察UPS工作状态。
3)关闭电池供电时,先将机房手提式干冰灭火器放置电池柜附近。
4)打开两组电池柜,手动关闭电池开关。
开关位于电池柜的下方,此时应用力向左拨动电池开关,直至开关显示“OFF”状态。
图5电池柜的开关位置
5)如电池出现火情,使用事先准备的手提式干冰灭火器进行灭火。
6)确认无火情后,查看UPS状态,供电情况,立即联系厂商工程师进行检修。
注意:
关闭电池开关不会影响机房的正常供电。
7)向部门主任做口头汇报,电话上报单位领导。
8)事件处理完毕后,将事故处理报告,单位领导。
6.2.1电池火情无法控制导致机房火灾
1)处理电池漏液、冒烟过程中,无法使用手提灭火器控制火情。
2)打开电池柜,手动关闭电池开关。
3)立即按照机房火灾处理步骤进行操作。
(详情见步骤6.6机房火灾进行操作)
4)火灾处理完毕后,消除火灾报警,恢复市电,查看UPS运行状态,如无法恢复市电,立即通知物业切换备用电路,观察UPS状态是否正常供电。
步骤:
打开机房配电柜2,手动用力推上机房电力闸恢复市电供应。
图6机房电力总开关
5)立即联系UPS厂商进行处理并向部门主任做口头汇报,电话上报单位领导。
(详细联系方式可参照附表三:
《联系人信息表》进行查询)
9
6)统计火灾造成损失,提交相关更换UPS电池的申请。
7)事件处理完毕后,将事故处理报告,上报部门主任和单位领导。
6.2.3UPS故障处理流程
图7UPS故障处理流程图
6.3网络系统故障
局部楼层网络中断
1.如果是局部楼层断网,首先判断是否是交换机故障;
2.远程PING交换机管理地址(各楼层管理地址详见附表1)看是否可以正常PING
通
3.如果可以PING通,证明交换机本身没有故障,网线没有故障。
交由网络管理员
处理。
4.如果不能PING通,说明交换机主线断或交换机宕机,应去弱电机房找到该楼层交换机上联端口和电源灯状态是否正常,如果上联端口不亮(光纤口),证明主线有问题,更换主线测试。
5.如果看到交换机电源灯不亮,证明交换机掉电,检查电源和电源线。
6.如果以上通过检查交换机和线路后故障现象仍然存在,由此判断可能交换机存
10
在异常,按交换机故障进行处理。
交换机故障
1.当确认是交换机出现故障时,应首先从库房中找备用交换机进行更换;
2.若原有故障交换机有配置,应立即联系网络管理员对更换的交换机进行配置(网管应有所有交换机的配置备份)
3.配置完成后,测试是否正常;
全网中断
1.首先测试网络的连通性,查看是否可以PING通网关地址,如果可以PING通说明从PC到核心交换机之间的链路正常,如PING不通应检查接入交换机是否有故障、是
否掉电或者交换机主线是否不通;如果确实不通,按照局部楼层网络中断中的第4条、
第5条处理。
2.通过访问邮件、外网网站,判断是局域网问题还是广域网问题,如果局域网正常;无法访问互联网说明广域网中断,向运营商进行报修。
3.PING核心交换机到核心路由器的互联IP地址的连通性,如果可以PING通,说
明路由器以下网络连通性正常;
4.用tracert命令tracert办公网网段的任意地址如果tracert结果可以从出去,
但不能到达外部网络,说明有可能是核心路由器上联链路中断,向运营商进行报修。
5.若可以访问办公地址,无法访问互联网网站如:
XX、搜狐,需要检查代理服务器是否正常,PING是否可以连通,向运营商进行报修。
其他网络中断故障
1.当办公网部分用户无法获取IP地址,不能上网的时候,尝试用能上网的主机,进行IP测试。
2.用PING命令去DHCP服务器是否可以PING通,并通知网络管理员登陆DHCP服务器进行检查服务是否正常,如果是DHCP服务器故障,应立即切换备用DHCP
3.如果从网管员处确定DHCP服务器没有故障,应PING核心交换机的这个IP地址
看是否有延时长、丢包的现象,如果有应该可以初步判断院内有ARP广播风暴形成环路或者大面积病毒爆发;再次交由网络管理员处理。
11
6.4机房漏水
1.根据机房环境监控检测的漏水示意图,查找漏水位置,判断漏水严重性。
2.在非工作时间,通过电话第一时间通知值班室保安,关闭上水总开关。
3.机房漏水并触发告警分为以下3种情况:
1)上水管漏水:
使用地吸打开空调前地板,查看上水管漏水位置(1层饮水间通过走廊从机房6号空调地板下进入机房)。
图8空调上水管道
2)发现漏水位置,应立即关闭位于一楼饮水间顶棚的上水总开关,将水迹擦干。
3)立即联系机房工程有限公司,处理水管漏水故障。
(详细联系方式可参照附表三:
《联系人信息表》进行查询)
4)空调冷凝漏水:
分别检查3台空调地板的下水管道是否漏水,空调下水开关是否打开。
(开关逆时针旋转为打开,顺时针旋转为关闭)
图9机房1、2号空调下水管道及开关
图10机房3号空调下水管道及开关
5)如下水开关正常打开,冷凝水无法下水,说明下水管道堵塞。
6)首先关闭机房内空调及空调下水管阀门(下水阀门1-4)
7)分别打开上水阀门1和上水阀门4,进行机房下水反冲。
12
图11机房上下水管道及阀门示意图
8)空调反冲过程中,密切关注机房温度,确保温度不影响机房内设备的运行。
9)反冲完成后,首先关闭上水阀门,然后打开空调下水阀门并打开空调。
10)如故障依旧,联系厂商进行检修。
11)空调压缩罐瓶体结霜:
打开空调前面板,查看压缩罐上是否结霜。
(拆卸面板工具在机房缓冲区的工具箱里)
图12机房1、2号空调压缩罐位置
图13机房3号空调压缩罐位置
12)关闭空调,将压缩罐上的霜及滴下的水迹擦干。
13)尝试重新开启空调,观察空调运行状态。
14)如故障依旧,立即联系厂商进行处理。
4.事件处理完毕后,将事故处理报告,上报部门主任和单位领导。
13
6.4.3机房漏水处理流程图
图14机房漏水处理流程图
6.5空调故障
6.5.1高压报警
1)收到空调高压告警后,立即进入机房查看空调运
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机 机房 应急 预案