数据中心应急预案 (1).doc
- 文档编号:30812180
- 上传时间:2024-01-30
- 格式:DOC
- 页数:29
- 大小:341KB
数据中心应急预案 (1).doc
《数据中心应急预案 (1).doc》由会员分享,可在线阅读,更多相关《数据中心应急预案 (1).doc(29页珍藏版)》请在冰豆网上搜索。
数据中心应急预案
V1.0
2017年11月
修改记录:
*A–新增M–修改D–删除
版本
下发日期
影响范围
修订人
审批人
概要描述
目录
一、 总则 5
二、 术语 5
三、 适用范围 5
四、 应急通讯录 5
五、 现场应急指挥领导小组 6
六、 应急事件汇报流程 7
七、 操作安全注意事项 9
八、 应急处理预案流程 9
(一) 市电双路供电中断 9
(二) UPS故障处理 11
(三) 机柜空开掉电 13
(四) 风冷精密空调故障高温处理 13
(五) 水冷空调高温报警处理 14
(六) 局部高温处理 16
(七) 空调供电中断多台 16
(八) 空调高压报警 17
(九) 空调低压报警及制冷剂泄漏处理 17
(十) 机房低温报警处理 18
(十一) 机房湿度过低的处理 19
(十二) 机房湿度过高的处理 19
(十三) 气流故障处理 20
(十四) 漏水应急处理 20
(十五) 环境监控故障处理 22
(十六) 消防系统应急处理 22
(十七) 公共卫生事件处理 25
(十八) 防汛应急处理 27
(十九) 治安应急处理 32
(二十) 地震应急处理 34
九、 应急操作指引维护 35
一、总则
为提高运维人员对各种险情及紧急情况的应对能力,以防突发性事件对公司和客户造成重大损失,结合运维实际,制定各种应急事件处理预案。
应急预案遵循以防为主、防救结合的方针,坚持以人为本、避免伤亡原则,做到责任明确、程序简洁、分工合理、反应灵敏,以应对可能出现的各类险情及紧急情况。
为加强对突发性事件(事故)应急反应的组织领导工作,在数据中心成立现场应急指挥领导小组,组织指挥重特大突发性事件(事故)的救援、抢险工作,确保救援、抢险工作反应迅速、组织有序、效果突出。
二、术语
防护用品:
劳动者在生产过程中为免遭或减轻事故发生和职业病危害的个人随身穿(佩)戴的用品。
防护设施:
在生产过程中为免遭或减轻事故发生和职业病危害的公共防护设备。
操作资格:
特种作业人员必须经专门的安全技术培训并考核合格,取得《中华人民共和国特种作业操作证》(以下简称操作资格证)后,方可上岗作业。
三、适用范围
数据中心。
四、应急通讯录
应急通讯录应定时更新,对供应商值班电话应按月度抽查有效性。
各职位A/B角互换,当第一负责人A角联络不上时,B角人员担当行使第一负责人职权。
应急通讯录应打印成册放置在数据中心值班电话旁的明显位置。
岗位名称
A角姓名
电话号码
B角姓名
电话号码
五、现场应急指挥小组
数据中心成立现场应急指挥小组,小组成员履行规定的应急职责。
现场应急指挥小组架构图中应有明确的小组人员姓名和联系方式,并打印张贴在数据中心明显位置。
运维管理部门
应急指挥
机房
(
机房
运维经理
)
机房配电应急组长
(
机房配电工程师
)
机房暖通应急组长
(
机房暖通工程师
)
机房监控应急组长
(
机房消安防工程师
)
角色
姓名
主要职责
应急总指挥
总指挥、协调,向上级汇报
应急现场指挥
现场总指挥、协调人员,实时向上级汇报
应急配电组
变配电系统应急现场操作、人员调配、现场情况汇报
应急暖通组
暖通系统应急现场操作、人员调配、现场情况汇报
应急安防组
消安防系统应急现场操作、人员调配、现场情况汇报
应急成员
现场所有各专业人员
六、应急事件汇报流程
(一)在应急事件中的汇报遵守如下流程:
Ø突发事件发现人报告给数据中心值班人员
Ø数据中心值班人员报告到数据中心应急总指挥;
Ø应急总指挥根据反馈信息,对整体的事件初步情况报告做出判断,组织人员初步评估事件严重程度和事件等级,决策启动相应应急程序。
Ø各相应应急组组长接受到通报后,根据应急流程实施应急指挥。
(二)事件通报机制:
内部通报机制
客户通报机制
供应商通知机制
一级事件:
5分钟响应处理
电话、短信、邮件通知数据中心总经理、数据中心主管、运维(DC)经理、基础设施条线经理、相关部门负责人
根据SLA要求确定通报机制
立即通知相关设备/维保服务商/物业
立即通知CSC/ADM
CSC/ADM立即通知客户
根据服务协议约定到场时间
2小时未修复,升级至厂商管理层
二级事件:
5分钟响应处理
电话、短信、邮件通知数据中心总经理、数据中心主管、运维(DC)经理、基础设施经理、相关部门负责人
根据SLA要求确定通报机制
立即通知相关设备/维保服务商/物业
立即通知CSC/ADM
5分钟内CSC/ADM通知客户
根据服务协议约定到场时间
4小时未修复,升级至厂商管理层
三级事件:
5分钟响应处理
电话、短信、邮件通知数据中心运维经理、数据中心运维人员
根据SLA确定客户沟通机制
根据服务协议约定到场时间
5分钟内通知CSC/ADM
5分钟内CSC/ADM通知客户
24小时未修复,升级至厂商管理层
四级事件:
5分钟响应处理
电话、短信、邮件通知数据中心运维经理、数据中心运维人员
根据SLA确定客户沟通机制
根据服务协议约定到场时间
5分钟内通知CSC/ADM
5分钟内CSC/ADM通知客户
48小时未修复,升级至厂商管理层
七、操作安全注意事项
以下的内容列出了基本的安全注意事项,但它不能包含所有的情况,应时刻警惕!
1.没有数据中心经理许可,严禁任何人员触及各供电设施开关。
2.油罐区、柴油发电机组及配电间和UPS间应急电源系统设备所在区域,此区域严禁明火和电焊操作,非工作人员或未经上级部门许可人员,严禁入内。
3.所有操作运行人员必须有操作职格证及公司内部安全培训,否则不能执行操作,安全培训包含在应急电源系统的培训内。
4.操作运行人员必须完全熟悉相关设备的安全信息,并且知道操作步骤。
5.在机组周围要时刻注意机组的状态,安全隐患包括机械运动、电气伤害、高电压、烫伤等。
6.注意警告标牌并且在操作之前要确认无人在机器周围工作。
八、应急处理预案
(一)市电双路供电中断
Ø值班工程师
1.值班人员接到故障报警的信息后,查看监控报警平台影响范围,包含UPS后备时间,空调运行状况,向设施工程师及数据中心经理汇报。
2.短信平台发出告警短信通知基础设施工程师及数据中心主管现场处理。
3.巡检人员查找断电原因,查看发电机是否自动或人员手动投入(发电机投入时间应在10分钟内投入)。
4.值班人员在电脑上查看UPS的输出电压和备份时间,上报设施工程师及DC经理,同时观察机房环境温升情况。
5.发电机供给正常后,检查冷机及配电、UPS运行状况,根据温升情况,开启机房备用空调,并全面巡检空调及日常设施(CCTV、门禁等)。
6.根据设施工程师安排进行应急处置。
7.待处理结束将处理过程、处理结果录入Remedy。
Ø基础设施工程师
1.根据故障信息,现场进行处理。
2.向DC主管进行汇报事件处理进程及影响评估。
3.根据机房温升判断,不可控情况下,在室外气温25度以下,开启消防排烟进行降温。
4.根据电路供给情况,对空调配电进行手动切换。
5.指挥关闭一些不必要设备,节约电力资源。
Ø数据中心主管
1.第一时间向ADM及客户当值人员汇报当前故障信息及后续发展评估,建议客户评估并关闭非关键IT设备。
2.协助现场处理及资源协调(干冰采购等)。
3.关注发电机油料储备情况,向数据中心经理及ADM及时汇报事件处理进展。
²注:
ü一路供电中断
1.一路市电供给故障后,低压配电系统母联自动投入运行,接替失压段的负荷。
ü当现场自动启动无效时,,需要手动分别启动失压段的所有低压母联开关
üATS转换失败
1.因市电供给故障,柴油机组启动正常,但ATS故障不能完成切换,需要及时通知上级主管。
2.需要手动投入备路开关。
(二)UPS故障处理
Ø值班工程师
1.向基础设施工程师汇报故障信息及影响范围。
2.通知巡检人员现场查看有异常有烟雾时及时通知中控室。
3.通知厂商驻厂工程师到现场维维修。
4.全面巡检机房客户设备有无报警。
5.办理厂商人员进出手续,录入Remedy事件单。
Ø基础设施工程师
1.信息判断:
查看UPS故障信息,一台还是多台故障,一台故障是否影响到整体运行(正常:
并机UPS一台故障会退出运行,负载转移至其它UPS。
异常:
UPS整体退出,全部负荷自动向另一路进行切换。
2.根据故障情况评估事件发展,向领导汇报。
3.协助厂商进行维修,了解操作步骤是否对数据中心产生风险。
Ø数据中心主管
1.向ADM及数据中心经理汇报,故障情况,严重程度。
2.向客户建议2N供电系统单电源设备业务进行评估。
3.跟进后续故障原因及解决方案。
(三)机柜空开掉电
Ø值班工程师
1.现场查看空开对应设备信息向基础设施工程师汇报。
2.向电气工程师、数据中心经理及ADM汇报。
3.办理厂商人员进出手续,录入Remedy事件单。
Ø基础设施工程师
1.查找故障点分析掉电原因。
查看机柜内PDU保护开关是否动作。
有动作拔开此设备电源线进行万用表进行检查是否短路。
没有保护开关拔开所有电源线,逐台设备电源进行检测。
拔开工业联接器进行检查PDU是否短路接地。
检查插座是否短路接地。
2.因某台设备故障引发掉电,向客户汇报故障点基本判定是否可以对此机柜其它正常设备进行送电。
等待厂商进行现场维修。
3.PDU故障,使用数据中心备用PDU给客户及时更换。
4.总结分析故障原因,出具故障报告。
(四)风冷精密空调故障高温处理
Ø值班工程师
1.接到故障报警的信息后,第一时间到达现场,开启备用空调。
2.电话通知基础设施工程师现场处理、数据中心主管。
3.一台空调故障,备机开启后,温度恢复正常。
4.二台空调出现时故障,联系紧急运送干冰至数据中心并加开应急排风机。
5.对机房高热区域设备打开机柜前后门及通风地板,利于设备散热。
6.关闭机房工作中不必要负荷,工作中的加湿设备,机房部分照明。
7.根据设施工程师安排进行其它故障处理操作。
8.待处理结束将处理过程、处理结果录入Remedy。
(五)水冷空调高温报警处理
Ø值班工程师
1.现场查看供水温度(高于16度以上为异常)。
2.开启备用空调。
3.通知值班室了解情况及是否启用其它冷机。
如无备用冷机,紧急联系将干冰运送至数据中心加开应急排风机。
4.向数据中心设施工程师汇报。
Ø基础设施工程师
1.安排指导资深操作员,进行相关操作。
2.根据故障信息,现场进行处理。
3.向DC主管进行汇报处理情况,机房温度变化。
4.根据机房温升判断,在室外气温25度以下。
加开应急排风机。
5.协助厂商进行故障处理。
Ø数据中心主管
1.第一时间向项目经理(客服)及客户当值人员汇报当前故障信息及后续发展评估,建议客户评估并关闭非关键IT设备。
2.协助现场处理及资源协调(干冰采购等)。
3.向数据中心总经理及项目经理(客服)及时汇报事件处理进展。
(六)局部高温处理
Ø值班工程师
1.查看报警平台,高温报警范围。
向基础设施工程师汇报。
2.观察高温处温升变化,增大此区域地板通风量。
Ø基础设施工程师
1.调整大通风地板无效情况下,下调空调温度设定并加开导流风机。
2.评估气流组织及设备负载,建议客户进行负载调整及气流组织优化。
(七)机房低温报警处理
Ø值班工程师
1.查看报警平台,低温报警范围。
向基础设施工程师汇报。
2.整体温度偏低,两台以上精密空调关机一台。
3.实时观察机房温度变化,温温达到报警值,开启一台空调。
4.并适当(0.5-1度)提高其中一台空调温度设定值,并实时观察温度变化在正常范围内。
Ø基础设施工程师
查看引发故障原因:
设备负载过低适时调整空调参数,空调自身原因引发联系厂商进行维护。
(八)机房湿度过低的处理
Ø值班工程师
1.现场检查空调加湿器是否有投入。
2.室外湿度大于室内,开启新风机。
3.室外湿度小于室内,关闭新风机。
Ø基础设施工程师
查看各空调加湿是否正常投入工作,调整加湿量。
(九)机房湿度过高的处理
Ø值班工程师
1.现场查看机房环境,查看精密空调是否除湿运行。
2.向基础设施工程师汇报。
Ø基础设施工程师
1.室外湿度过高,关闭新风机。
2.查看机房环境温度是否过低,进行调整。
Ø基础设施工程师
1.现场查看风机空开是否断开。
2.检查回风过滤网是否过脏。
3.以上两项处理不可恢复时,联系厂商现场维修。
(十)漏水应急处理
Ø值班工程师
1.查看漏水报警平台,查找漏水报警点位置,现场确认漏水点。
2.堵住漏水源后应立即用吸水机进行排水。
3.加湿漏水:
关闭加湿系统或供水管,。
4.单台空调供回管漏水:
关闭此空调进回水阀门,开启备机。
5.录入事件单。
Ø基础设施工程师
1.现场进行形势判断,及时上报ADM及数据中心经理。
2.供水主管路发生漏水,及时关闭阀门隔离漏水点,修复漏水点。
3.水管修复后,以正常供水压力试压,检查无漏水,确认一切正常后,恢复现场设备、管线运行;
4.情况形势做好漏水周围防护,防止漏水进行机房、设备、及配电室。
5.如已造成水浸,应视水浸情况关闭机房内运行的设备设施并切断电源。
6.做好机房高温处理准备,评估影响及恢复时间。
7.排干水后,应立即对湿水设备设施进行除湿处理,如用洁净干抹布擦拭、热风吹干、自然通风等。
Ø数据中心主管
1.根据影响范围向ADM、数据中心经理、客户接口人,汇报事件情况,告知客户停机处理。
2.组织人员现场对客户设备进行防护。
(十一)环境监控故障处理
Ø值班工程师
1.通知弱电工程师现场处理,。
2.监控故障期间,重要区域监控无法监控增加巡检频率或指派人员现场值班。
Ø基础设施工程师
1.指引值班工程师事件处理
2.简单故障排查:
电源节点排查:
模块箱电源检查,模块、网络节点指示灯正常。
PC故障时,厂商不能及时到场,可使用备用机或硬件更换(备机包含最新的软件备份)。
3.协助厂商故障处理
(十二)消防系统应急处理
Ø接到消防主机火灾报警,确认火灾报警地点,通知巡视人员携带消防应急包或灭火器迅速到现场查看确认现场情况。
Ø确认火情后回复中控并进行现场灭火。
Ø立即向应急领导小组汇报。
Ø开启消防广播,通知所有人员立即疏散至安全地带。
Ø关闭机房防火门,逃离至大楼外安全地带,清点我司及客户人员。
Ø应急领导小组根据火情及时向上级领导汇报着火情况。
Ø当火情影响到中心供配电系统,应通知客户实施远程停机。
Ø各小组携带对讲机随时保持联系,掌握火情对我机房和人员的危及程度。
将现场火灾进展情况实时汇报给数据中心负责人,并提出应急处理的意见和建议,请领导做下一步的决定。
Ø数据中心总经理确定是否启动EMC,召开应急管理委员会(以下简称EMC)会议,对事态的进一步发展进行关注及对预案外的突发状况制定相应的应对决策。
注:
着火区域判定为动力机房,影响到至机房供电、空调、网络安全,应立即通知应急管理委员会。
1.主机房火警应急响应及处理
(1)巡检员发现火警:
用对讲机向监控室值班人员通报,必要时应立即打破手动报警按钮。
(2)值班人员第一时间通知中控室启动消防预案,上报应急指挥中心。
(3)灭火组人员并就近使用灭火器材,进行处置。
(4)疏散组疏散机房所有人员至大楼外安全地带,应急领导小组通知客户通报火情,让客户做好停机准备。
(5)当火情不可控制时,应急领导小组应决定是否启动气体灭火系统,并通报客户进行停机。
(6)着火区域机房所有设备整体下电。
(7)灭火组做好启动气体灭火系统的准备。
(8)灭火组接应急领导小组命令后,启动着火区域气体灭火系统。
(9)应急领导小组组长向数据中心总经理及物业部领导汇报火情及灭火情况。
(10)灭火组长迅速判定火警级别,并上报应急领导小组组长。
(11)应急领导小组长根据情况,决定是否电话报告119火警。
(12)应急领导小组组长将现场火灾情况报告给数据中心总经理,并提出应急处理的意见和建议,请领导做下一步的决定。
²注:
1、一级火警的应急处理
(1)灭火组利用主机房内(或调用动力机房)的手提二氧化碳灭火器对火灾进行控制和扑救;
(2)主机房值班员密切监视设备运行情况。
(3)疏散、救护组随时准备人员救护和重要物品(指重要的数据、文档及电脑等)的转移工作。
2、二级、三级火警的应急处理
(1)火灾达到二级,应急领导小组组长命令警戒组长立即拨打“119”。
(2)警戒组长立即与当地消防中队联系,协调物业部门并做好接应的准备工作。
(3)应急领导小组组长命令所有人员撤离主机房,灭火组长指派物业工程部门切断火灾区域电源。
并安排物业中控专业人员进入气体消防间。
(4)气体消防间,消防系统手动/自动转换锁钥匙设置为自动状态,并关闭所有通向火灾区域的大门。
(5)疏散、救护组根据来访登记表和外出登记表统计、核对人数并报告消防现场总指挥。
(6)人员完全撤离后,应急领导小组组长命令物业中控人员对火灾区域进行气体灭火,中控人员复诵命令并得到确认后进行气体灭火。
(7)火灾上升到三级,警戒组引导消防部门的人员、设施进入现场灭火。
(8)应急领导小组组长组织人员配合消防部门进行火灾扑救工作。
3、注意事项
(1)主机房不得使用大楼的干粉灭火器。
(2)必须确认火灾区域人员完全撤离方可进行气体灭火操作。
(3)主机房所有人员在接到撤离命令后,应迅速从离火灾点较远的安全门撤离到园区安全地带。
(4)气体灭火系统启动,在30秒钟内将喷射一定浓度的灭火剂,均匀地充满整个保护区,要求浸渍时间不少于3分钟,确认火灾扑灭后,由灭火组长通知中控人员启动事后排烟按钮、开启主机房新风系统。
(十三)防汛应急处理
1.暴雨应急预案的启动
当地气象台发布橙色以上暴雨信号时,或设施工程师根据实际天气情况,判定暴雨已经对数据中心构成威胁时,由应急领导小组组长提出启动暴雨应急预案。
暴雨预警信号分四级,分别以蓝色、黄色、橙色、红色表示。
暴雨蓝色预警信号:
12小时内降雨量将达50毫米以上,或已达50毫米以上,可能或已经造成影响且降雨可能持续。
暴雨黄色预警信号:
6小时内降雨量将达50毫米以上,或已达50毫米以上,可能或已经造成影响且降雨可能持续。
暴雨橙色预警信号:
3小时内降雨量将达50毫米以上,或者已达50毫米以上,可能或已经造成较大影响且降雨可能持续。
暴雨红色预警信号:
3小时内降雨量将达100毫米以上,或者已达100毫米以上,可能或已经造成严重影响且降雨可能持续。
2.橙色暴雨信号的应急工作
获悉暴雨警报时,通知应急领导小组组长,领导小组对数据中心进行警报前的预防性大检查。
根据各应急小组提供的异常情况报告,负责协调人力、物力资源以尽快完成异常情况处理。
根据数据中心受灾情况,向公司总部报告或提请公司总部决定是否将灾情向客户报告。
公司内部的联系信息参考公司发布的通讯录,项目经理根据与客户确认的联系人名单进行通知客户的工作。
事件发生后,对媒体进行反应的策略、内容及报道方式等,由公司统一确定。
(1)检查准备工作
检查数据中心园区地漏排水系统的运转情况,确保正常工作
负责检查防台、防汛物资的准备及完好情况,准备防雨物资,包括后勤保障部保管的胶带、毛巾等。
至少每小时通过有关媒体的报道或通过"121"气象咨询电话了解暴雨最新情况及有关防雨通知,并向应急领导小组组长汇报。
在需要时根据“应急通讯录”中记录的联系方式联系服务商协助进行业务恢复。
检查相关天台、机房顶、下水道及排水设施,如有堵塞及排水不畅及时清理,并报告检查组组长,人手不够时,可提出增援。
(2)应急工作
在开展应急工作之前到检查组确认需要准备防雨物资的数量,包括胶带,毛巾等,并且领用负责维护区域的钥匙。
与供电所、柴油供应商保持联系,要求随时提供支持。
安排人员再次检查发电机组(柴油油量、发电机各项参数),并试运行一段时间,
估计暴雨持续时间,参考供电情况,判断是否需要申请采购一定数量的柴油,以备发电机使用。
在需要时根据“应急通讯录”中记录的联系方式联系服务商协助进行业务恢复。
根据暴雨预警的实际情况,确定是否需要切断室外非照明电源。
加强巡检监控力度,如有异常立即向维护组组长汇报。
检查机房地下电缆沟积水情况。
检查相关区域门窗密封性,并每小时检查门窗的漏水情况和完好情况。
至少每小时对动力机房、发电机房巡检一次,检查有无漏水情况,并及时堵漏。
当暴雨警报升级时,向应急领导小组组长提请暴雨应急工作升级。
应急领导小组组长批准暴雨应急工作升级后,通知各部门开展红色暴雨信号应急工作。
3.红色暴雨信号的应急工作
应急预案启动后,数据中心各部门进入特别紧急防雨状态。
各部门人员限制户外作业,如需进行户外作业,需应急领导小组组长批准
(1)应急领导小组工作
根据各应急小组提供的异常情况报告,负责协调人力、物力资源以尽快完成异常情况处理。
根据数据中心受灾情况,根据数据中心受灾情况,向公司总部报告或提请公司总部决定是否将灾情向客户报告。
公司内部的联系信息参考公司发布的通讯录,项目经理根据与客户确认的联系人名单进行通知客户的工作。
根据公司总部的决定指导数据中心的应急工作。
事件发生后,对媒体进行反应的策略、内容及报道方式等,由公司统一确定。
(2)检查准备工作
获悉暴雨警报解除时,通知应急领导小组组长
负责确定红色暴雨信号应急工作中一次性工作的落实情况,红色暴雨信号应急工作中每60分钟检查一次的项目,升级为每30分钟检查一次。
至少每30分钟通过有关媒体的报道或通过"121"气象咨询电话了解暴雨的最新情况及有关防雨通知,并向应急领导小组组长汇报。
每30分钟对红色暴雨信号应急工作中要求的巡检项目进行检查。
(3)应急工作
得知暴雨升级后,负责确定橙色暴雨信号应急工作中一次性工作的落实情况,并告知本小组成员,橙色暴雨信号应急工作中每60分钟检查一次的项目,升级为每30分钟检查一次。
密切监控各设备运行是否正常,如出现异常情况立即报告。
做好堵漏排水工作的准备。
根据应急指挥领导小组指示做好临时分配的任务。
至少每30分钟对设备巡检一次,注意台风对机电设备的运行影响,出现问题立即报告。
至少每30分钟对机房巡检一次,检查房有无漏水情况。
要特别注意机房四周墙有没有水渗进来,并及时堵
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据中心应急预案 1 数据中心 应急 预案