数据中心运维操作标准及流程纲要Word格式.docx
- 文档编号:22629804
- 上传时间:2023-02-04
- 格式:DOCX
- 页数:20
- 大小:26.71KB
数据中心运维操作标准及流程纲要Word格式.docx
《数据中心运维操作标准及流程纲要Word格式.docx》由会员分享,可在线阅读,更多相关《数据中心运维操作标准及流程纲要Word格式.docx(20页珍藏版)》请在冰豆网上搜索。
运维管理部门可作为测试考证工作的主体审查单位;
第三方测试服务商可作为测试考证的实行单位及整体组织工作的协调单位。
但运维管理部门应要求测试服务商早先供给测试方案,在运维管理部门审查后方可进行。
机房基础设备运维团队可参加测试考证工作,在此过程中熟习设
适用标准文案施和设备,可成立有关运维技术文档库,为后期的运维工作做好准备。
机房要点设备供给商及工程总包商,应踊跃配合测试考证工作,
应在供给商合同中对此项有明确要求。
测试考证内容
考证应覆盖所有要点子系统和设备应具备的功能和要点的操作
程序,保证知足设计要求,必需时可做故障情形模拟来查验。
测试考证中发现设计或许建设阶段的问题,应当在报告中充足体
现;
能够改造的部分,应要求建设单位进行改造;
不可以改造或临时不
需改造部分,应作为风险点在运维过程中予以特其余重视,并拟订相
关方案。
设备健康评估
当接手已在运转的机房基础设备的运维工作前,运维团队应付设备的状况进行健康评估,认识潜伏风险点,此中能够改造的部分,应当申请予以优化改造。
不可以改造的部分,应当作为风险点在运维中予以特其余重视,并拟订有关方案。
技术文档
完好并正确的技术文档是后期运转、保护、维修、故障诊疗、优化改造的基础。
运维团队在展开运维工作前,应从施工单位得出席所基础设备的全套有关文档,包含但不限于:
机房的规划设计资料及完工图纸、全套设备的清单及有关操作文档和保修养护资料、机房自动操作系统的逻辑图及说明文档、监控系统的点表、查收测试文档、机房所在建筑的建筑设计资料、完工图纸。
适用标准文案整体文档应在限准时限内进入运维管理知识库,并依据质量管理的原理和要求设定文档的草拟、更改、审查、同意、保存、散发等职责权限。
管理界限
为了明确管理责任,机房基础设备运维团队应将可能影响机房基础设备运维目标达成的外界因素整合成管理界限报告,提交业主管理层并组织商讨,形成明确的决议,拟订完好的协调交流体制及权责界线。
这些因素包含但不限于:
不归本部门负责,但可能关于本部门有重要影响的供电、供水、供暖、制冷、消防、安防、监控、营运商线路接入等系统。
安全管理和质量管理建议
人员安全
机房基础设备运维团队要编制正式的机房生产环境(工作场所)
的安全目标,设定严格的安全生产规范;
并依据安全目标拟订有效的、
明确的安全计划,来教授和培训安全原则、危险辨别、纠正缺点和控
制风险。
并增强关于该部分规范的合规度的培训、考试和审查检查,
以保证机房运维人员的人身安全。
有关安全生产规范主要包含:
●机房生产环境安全管理规范;
●机房基础设备各系统安全管理手册;
●机房基础设备波及安全的应急方案;
适用标准文案●机房基础设备管理过程波及的技术方案中的安全管理策略。
机房基础设备中与电气有关的工作存在着固有危险。
设备运维团队应当创立一份正式电气安全计划,以最小化所有工作人员遇到电气损害的风险,保证现场电气系统达到有关法例标准。
电气安全计划中的条款应规定电气工作人员在有资质和具备合理安全工作流程的前
提下才能进行操作,并应利用防备设备和其余控制手段,如上锁挂牌设备。
此计划的创立旨在防备职工遇到电击、烧伤、电弧和其余潜伏电气安全隐患,同时要求其恪守纪规标准。
有关国家、行业规程包含但不限于:
GB26860电力安全工作规程发电厂和变电站电气部分;
DL408电业安全工作规程。
物理环境安全
应认识周边社会环境信息,评估潜伏的安全风险并拟订方案。
这些信息宜包含但不限于:
周边交通路况、医院、供油站、消防站、变电站、供水、供电、供气、网络通讯线路等。
可成立周边社会环境管理资料库。
应认识机房所在地的历史自然灾祸状况。
包含但不限于GB50174
及TIA-942中提到的所有评估机房选址的外面因素,并拟订相应的管理方案。
应成立并履行严格的机房设备、人员、车辆进出管理制度。
应建立不一样安全区等级(参照ISO27001信息安全管理中的物理安全控制)并拟订访客管理制度,用以有效管理访客。
适用标准文案质量管理
在机房基础设备运维过程中成立完美的质量管理系统,是保障以
上机房基础设备运维趋于优秀的重要因素和手段。
机房基础设备运维
团队的所有要点工作应包含以下的质量管理因素:
质量保证
●过程拟订;
●程序拟订;
●过程审查和同意;
●过程和程序培训。
质量控制
●事件回首;
●质量检查和查验;
●按期质量审查。
质量改良
●故障剖析;
●经验教训;
●优化及创新计划。
人员管理建议
组织及人员
组织架构
机房运维团队应有清楚的组织架构,同时对各岗位有明确的岗位
适用标准文案职责说明并在计算机化保护管理系统(CMMS)中实现权责般配,同步更新。
中大型数据中心场所基础设备运维团队中除现场负责人外,可依据工作内容分设以下几个主要职能岗位:
●运维巡检团队
主要职责:
对基础设备设备进行巡检,担当值班工作,第一时间发现故障或问题,并作为管理程序的履行者。
●技术管理团队
对机房基础设备供给运维技术支持,解决技术问题,肩负机房基础设备一般性的优化改造工程的项目管理工作,宜包含电气、空调、弱电等系统的技术人员。
●物理环境安全管理团队
对物理环境安全进行管理,进行安全巡检等工作。
人员配制
机房基础设备运维人员的装备应依据运维管理目标或SLA来确
定。
中高等级的机房,可依据7X24的运转要求配置运维人员。
上岗人员应具备国家要求的相应资格证书。
应在运维管理程序中明确规定资质等级与操作权限的一致性。
高等级以及拥有必定规模的机房,每个班组应装备拥有电力、暖通、弱电专业能力的运维人员,以达到“即时应急响应”的工作状态。
等级相对低的机房,每个班需要起码装备一人,达到“即时报警”的工作状态。
运维团队的要点岗位应有人员备份和贮备。
适用标准文案机房基础设备运维管理团队的要点管理人员或要点岗位人员在
正常运维工作展开中应采纳A、B角色配置,平时工作中应注意角色
的分派和工作的配合。
其余岗位人员宜成立优秀的循环体制,人员可
进行岗位轮换和交错培训,使所有人员掌握全面的基础知识。
绩效管理
为了提高机房运维人员的技术技术、职业修养和倡导团队合作精
神,专业地、高效率地运转和保护机房基础设备,有必需成立人员的
要点绩效指标,按期对所有人员的短期和长久绩效进行评估,奖优罚
劣,推进整个运维团队技术和素质的发展和改良。
人员管理制度
为了保障机房基础设备运维团队的创新性、稳固性、连续性,应经过成立合理的人员管理制度,拘束人员的工作态度、行为规范,提高人员的工作热忱、工作效率和履行力,激发人员正面影响,使团队向来保有活力来共同努力达成服务等级协议的要求,运维团队应当建
立运维人员的各项管理制度。
这些管理制度应当主要包含(但不限于):
●《平时活动管理制度》;
●《人员安全操作制度》;
●《运维人员基本素质养成管理制度》;
●《安全运转赏罚制度》;
●《节能运转赏罚制度》;
●《技术创新奖赏制度》;
●《人员荣膺制度》;
适用标准文案●《人材贮备制度》;
培训及认证
职工培训及资格认证计划
关于机房基础设备运维团队新职工应进行完好及严格的培训,以
保证其赶快具备岗位需要之知识及能力。
培训内容应包含机房基础设
施的所有系统的工作原理、操作流程、应急方案、以及管理制度等。
关于所有运维人员宜设定以知识更新、技术提高为目标的年度培
训及认证计划。
宜要求运维人员不停提高理论知识,以便于在缺少操
作程序的应急状态下进行正确的处理。
可借助行业第三方专业培训及职业技术判定平台,踊跃展开运维
人员任职资格的评定工作。
历史事件剖析学习
运维团队应将机房基础设备历史事件的总结剖析作为培训的重
因素材,进行全员培训;
关于新职工应在上岗前予以培训,以防止相
同的事件再次发生。
组织学习
运维团队管理者应踊跃参加行业交流,认识行业最正确的运维管理
实践,并从行业故障事例中总结经验,做好自己整顿。
运维外包服务商
基础设备运维外包服务商的选择
机房基础设备属于要点性设备,选择外包运维团队时应观察其机
房基础设备的运维服务的资质、能力和经验。
如机房作为商业物业的
适用标准文案一部分整体外包运维,应要求外包运维机构针对机房基础设备设备部
分建立特意的有机房基础设备运维经验的团队,并严格按机房基础设
施的运维规程规范履行。
运维外包服务商的管理
关于外包服务商的职工的管理原则应当参照运维团队内部职工同样要求,有关人员只有在进行培训并获取有关的认证后才能从事有关的工作。
外包服务商需要严格依据数机房基础设备既定的操作流程和安全守则。
机房基础设备运维管理的最后责任肩负者是机房管理者,责任没法外包。
所以,机房应保存运维中心管理人员,关于外包团队的工作进行审查、监察和绩效评估管理。
设备管理建议
财产数据库
数据中心应成立完好及及时更新的财产数据库。
数据库应包含所有要点基础设备设备的清单,还应记录设备设备的运转状况、事件状况、更改状况、保护养护频率等信息。
财产数据库应最少包含以下信息:
财产ID:
每个财产的独一表记号
种类:
一级分类(如电气、制冷、消防系统)
子类:
二级分类(如UPS、电池、PDU等)
适用标准文案描述:
财产的文字说明
制造:
财产的制造厂家
型号:
制造厂家的产品型号
规格:
财产的规格或许标称值
位置:
地点ID(房间或地区)
购置人:
财产保护的负责人
序列号:
制造厂家的序列号
安装日期:
财产的投产日期
保修限期:
保修到期的日期
更换:
估计的财产改换日期
保护频率:
年检、季检、月检等
预防性保护
预防性保护计划
预防性保护是为了延伸设备的使用寿命和减少设备故障的概率
而进行的有计划的保护。
其目的是经过按期检查和养护,使设备的某
些缺点或隐患在变得更严重以前被发现。
运维团队应依据系统设备状况与供给商进行交流,依据供给商的
建议提早拟订年度、季度、月度预防性保护计划。
各专业运维人员需
依据各设备系统特征、保护流程及规范,及时、完好地落实保护工作,
并形成客观实质的记录和报告予以存档。
运维团队还应按期对设备的
运转状态数据进行统计和趋向量化剖析,关于异样的趋向,做出报警
及有关方案。
适用标准文案预防性保护包含其实不限于以下系统设备或内容:
●冷水机组、精细空调;
UPS,开关、和发电机组;
●消防系统和监控系统查验;
●蓄电池放电测试;
●配电装置(高低压配电装置)的绝缘性按期试验;
●二次保护定值实验;
●每年雨季以行进行的数据中心防雷接地装置测试等。
工单管理
运维团队应成立预防性保护及养护的工单管理系统,工单应列出
工作内容、达成相应工作需要的工具及备件、工作估计达成的时间、
工作负责人等信息。
计算机化保护管理系统应当对每份工单从产生抵达成进行全程
的追踪。
操作流程
机房基础设备的所有操作,均应早先拟订详尽的操作流程,经
过审查后存档并在后期运转阶段严格履行。
保护作业程序MOP
对机房要点基础设备设备的每次保护、维修、安装操作,都应
早先拟订一份MOP。
可要求设备供给商供给MOP的建议,但关于MOP
最后确认审查的责任在于运维团队,同意责任在于运维管理团队。
标准操作流程SOP
适用标准文案所有要点基础设备设备在各样状况下都能履行的常用操作都应
拟订标准操作流程SOP。
比如手动启动发电机组的操作流程,或将UPS
变换到旁路的操作流程等。
应急操作流程EOP
应急操作流程合用于有可能发生的严重故障状况。
以下为部分严重故障的例子:
●一路市电供电时中止;
●双路市电供电时同时中止;
●单个精细空调时故障停机;
●所有精细空调都故障停机;
●单台UPS时故障停机。
工具及备件管理
运维团队应依据财产分类清单及其分类拟订最低备件库存清单并及时增补备件。
测试剖析仪器仪表方面可装备进行电气性能参数测试、电池测试、接地电阻测试、绝缘性能测试、设备运转温度测试、风速测试、环境
温度测试、噪音测试等的仪器仪表。
仪器仪表应当按期校准。
应拟订有关规定对操作工具、仪器仪表推行人员负责制或许交接班负责制等管理制度。
备件和工具应按期进行清点。
供给商管理
应当依据机房基础设备运维的资质、过去的经验、业界的口碑等因素,以侧重预防性和展望性保护和提高可用性的同样标准来选择合
适用标准文案格的供给商。
所有供给商抵达机房履行保护程序以前,应经过机房有关规程的培训,获取机房运维团队和运维管理层的同意。
在履行保护活动的过程中要严格依据操作流程。
操作时需由运维团队的人员陪伴并监察记录流程的履行状况。
供给商的每次机房保护活动都应当提交现场服务报告并存档。
运维团队应当成立供给商的绩效评估方案,并按期对供给商进行绩效评估。
应建立供给商管理文档,记录所有供给商的联系方式、服务承诺(SLA)、工作范围、针对设备的培训和认证状况等信息。
生命周期管理
应鉴于设备设备的合理生命周期,联合风险评估,拟订设备保护、升级或改换的计划及估算,及时报告给运维管理部门。
风险评估主要评估内容包含:
●财产重要性辨别;
●财产威迫辨别;
●财产柔弱性辨别;
●风险值的计算;
●在评估改换设备的方案时,可综合考虑原有设备的保护花费以及新设备在能效方面的改良,做好综合投资回报剖析;
●关于冗余设备宜建立轮换运转体制,以延伸整体设备的生命周
期。
运维管理系统
适用标准文案机房可成立自动化保护管理系统(MMS),集中实现财产管理、保护调动、信息安全、文档管理、工单管理的职能并记录所有的运维工作任务及达成状况。
运转管理建议
运转管理制度
机房基础设备运维团队应成立并严格履行运转管理制度,包含:
巡检有关管理制度
●平时巡视巡检管理制度;
●值班管理制度;
●交接班管理制度;
●通知矩阵。
工作流程有关管理制度
●工单办理流程;
●例会制度;
●工作总结报告制度(日、周、月、季、年总结报告);
●交托管理规范;
●运维质量管理方法文档管理制度;
●工具备件管理制度。
安全有关管理制度
●机房进出管理制度;
●机房现场管理制度;
适用标准文案●机房卫生管理制度;
●信息安全有关管理制度。
故障办理管理制度
●设备操作管理制度;
●设备故障办理流程;
●应急准备和应急响应流程;
●保护作业计划管理制度;
●故障隐患追踪反应管理制度;
●紧迫事件报告流程。
经营有关管理制度
●职工行为规范;
●考勤管理制度;
●人员管理查核制度。
设备监控、巡检、及交接班管理
应装备环境、动力、安防等监控系统以便于运维人员及时认识设备各系统及设备的运转状态和及时发现异样状况。
应规定相应的运转人员对设备运转状态的巡视频率、巡视工作内容及规范。
运转人员交接班时应付当班履行的操作、更改及察看到的任何异样数据或现象进行交接和签收。
机房洁净管理
应划定保洁地区,按期做好机房保洁工作,保证地板及地板下的
适用标准文案无尘状态。
重要地区进行保洁工作时应有运维人员现场监察和指导。
标签表记管理
应成立针对数据中心场所基础设备设备和物理环境完好的、清楚的标签表记管理系统。
应起码包含:
●设备表记:
包含设备名称、型号、编号、财产编号等;
●线缆表记:
包含开端端信息、停止端信息、设备名称等;
●警告表记:
如“设备已带电/危险”、“严禁合闸”、“严禁
分闸”等;
●物理环境表记:
如地点表记、地区表记等;
●系统图展板表记:
如电气、暖通、消防、弱电系统图展板。
这
类表记便于运维人员清楚、快捷地掌握地区及整个数据中心系统的配电、制冷、消防、弱电的原理及要点点位。
更改管理
任何关于设备运转状态的更改应进行早先的风险剖析,并鉴于风险等级,设定相应级其余事先审查流程。
在更改方案及更改时间窗口确认后,应进行相应范围的见告。
更改结束后,应向相应范围部门通告更改结果。
事件管理
应拟订事件管理流程,明确不一样样级事件下相应的办理流程。
事件等级定义
一般事件:
任何没有达到机房设计和运转标准的异样事件;
严重事件:
任何没有达到机房设计、运转标准的事件,且对供给
适用标准文案的服务造成中止的事件;
重要事件:
的服务造成中止,且影响范围大的事件。
事件升级
当事件临时没法清除,需要逐级报告,进入事件升级流程。
如遇特别状况,与直接主管联系不上时,可越级向上一级主管报
告。
应急响应
设备应急方案操练
运维团队应针对应急操作流程EOP进行按期的操练工作,主要包
括:
●沙盘操练:
参加操练的运维人员会合,并分别口述在发生紧迫状况下自己所应肩负的职责及将会履行的方案及步骤;
●跑位操练:
参加操练的人员跑位到模拟故障现场,模拟办理故障,参加人员应清楚地说出故障的办理方案及步骤。
应急操练的操练原则是:
尽量靠近真切状况,在条件同意的状况下尽量真切地办理故障。
在运转中的一些特定场景下也能够进行应急操练,如发电机带载实验等。
人员安全应急流程
机房基础设备运维团队应针对影响运维人员健康的人身事故制
定应急流程并按期操练。
应急流程可包含设置现场抢救包以及联系当
地医疗抢救机构的方式等。
适用标准文案容量管理
容量管理可包含但不限于以下方面:
空间容量
IT设备摆放空间;
●基础设备设备摆放空间;
●综合布线线路空间,配线架管理。
能力容量
●电力供给容量;
●空调供给容量;
●综合布线信息点容量;
●互联网接入容量。
设备运维团队应与IT部门按期交流,动向认识IT需求的展望,并通告设备容量的使用状况。
可拟订3个月至36个月周期的IT需求及设备可用容量二者的对照剖析表。
当机房基础设备不可以知足IT增加的需求时,应提早拟订并上报扩容或许新建机房的计划。
能效管理
能效监测
机房基础设备运维团队应认识并记录机房在不一样工况及不一样外
界天气条件下的电力使用效率PUE的变化状况,从中发现趋向,以
不停优化运转方案。
认识IT设备运转特色
适用标准文案机房基础设备运维人员应具备必定的IT设备有关知识,认识服
务器、网络、储存等设备的运转特色和功耗状况。
还应认识客户或用
户的业务基本状况,认识IT设备的运转峰谷期。
应与客户或用户有关部门做好交流,针对高密度IT负载的部署
做出展望,并拟订有关应付方案。
管理气流组织
应封堵设备建筑所有可能的漏风口,保持设备的正压。
应劝导设备内气流的流向、封堵所有可能的漏风口、对机柜内所有安闲U位安装盲板、封闭不用要的出风口、保证冷空气的最正确使用效率。
运转阈值设定
应鉴于安全性及运转效率的综合考虑,成立运转阈值设定指南,
设置监控报警阈值、空调回风温度等。
估算管理
运维团队应做好运维财务估算,上报主管领导及财务部门,并做
好估算必需性的交流解说工作。
估算应包含但不限于以下内容:
●鉴于SLA的人力估算;
●备件及工具、仪器采买花费;
●应急保护资料花费;
●专业外包维保和应急服务花费;
●政策性等强迫检测服务花费;
●整顿或节能改造估算;
●突提问题备用金。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据中心 操作 标准 流程 纲要