数据中心机房工程运维管理实施方案Word格式.docx
- 文档编号:21371800
- 上传时间:2023-01-30
- 格式:DOCX
- 页数:25
- 大小:1.02MB
数据中心机房工程运维管理实施方案Word格式.docx
《数据中心机房工程运维管理实施方案Word格式.docx》由会员分享,可在线阅读,更多相关《数据中心机房工程运维管理实施方案Word格式.docx(25页珍藏版)》请在冰豆网上搜索。
制定相应的机房管理制度,使日常管理工作做到有章可循,有据可依。
2)严格管理。
作为部门领导一定要有从严管理的指导思想,要严格管理、严格要求,并使这种严格思想贯彻落实到管理工作的全过程,在实际工作中要常讲、常查,要不怕得罪人,必要时还要制定各种奖惩措施。
3)做好日常运维和巡检工作,包括配电、空调、消防等设施的检查工作。
4)不断学习。
机房管理牵涉面广,事务又多,是一项专业性强、“繁”、“杂”、“难”、“累”的工作,具有一定的不可预见性,且不同程度地存在技术难度。
目前国内许多报刊杂志包括互联网络中,有关机房管理的介绍层出不穷,机房管理科长需要有责任心和不断学习的进取心。
机房管理科长除了要掌握丰富的计算机软硬件知识和具有较强的动手能力外,还需要掌握一定的设备管理技巧,学习各种设备如配电系统、地线系统、空调、防火设备、UPS等的正确操作方法,从而杜绝因操作不当造成的人为事故。
不断学习,总结经验,取长补短,才能做好机房管理工作。
5)做好机房的防火、防盗及供电系统、空调系统、通风系统的安全和日常养护工作,提高安全意识。
定期检查安全设施情况,并做好记录,发现问题立即整改。
6)定期检修,重视完善。
机房以及有关设备也有老化、更新、修复等问题,除进行日常的检修外,还应对机房建设时存在的缺陷,机件的磨损、老化,紧固件的松动,装修变形等问题定期检修、更改或完善。
坚持每年定期对机房整修一次,即检测安全防火设备、检修空调设备、除尘、玻璃隔断调整加固、照明设备检修、安全防盗、协调相关设备维修人员进行维修,安排好相关维修工作。
7)对于发生的故障与事故及时逐级上报,并做协调工作,做好故障与事故的记录工作,做好问题的分析和跟进处理工作。
8)完善电气系统设备技术档案和资料,建立相关管理制度、操作规程、应急预案等。
9)在制度化管理上下功夫,组织、指导、制定年度工作计划和各种操作规程、管理规定、岗位职责和安全责任制等,并监督落实,以实现科学、有序、安全的管理。
10)机房不能出现事故,加强巡视巡检。
要管理好机房不是一件容易的事情在条件许可的情况下,应建立经济合理的易损件、易耗件的备用库,保证及时更换,定期更换。
对设备的运行情况进行分析,制定预防和常用解决方案,从而保证机房的正常运转。
11)严格机房钥匙管理,机房钥匙只允许管理人员配带。
1.1.2 机房管理科长的“三心”
机房管理科长的三心即责任心、学习心、宽容心。
1.责任心
责任心主要有如下内容:
(1)安全管理
机房安全是第一位的,可以说是机房管理体系的灵魂。
威胁机房安全的因素主要有火灾、设备故障、病毒。
机房安全管理就是告诉人们,在进行机房管理的同时,通过采用计划、组织、技术等手段,依据机房、环境因素的运动规律,采取控制措施,预防事故的发生。
(2)六个坚持
六个坚持是指:
1)坚持管机房同时管安全;
2)坚持按操作规程管理机房;
3)坚持预防为主;
4)坚持全员管理;
5)坚持设备维护;
6)坚持日常巡检工作。
(3)四不放过
四不放过是指在调查处理机房事故时:
1)必须坚持事故原因分析不清不放过;
2)员工及事故责任人受不到教育不放过;
3)事故隐患不整改不放过;
4)事故责任人不处理不放过。
(4)文明管理
文明管理是指在管理时:
1)具有文明的措施(机房的各项规章制度);
2)建立管理组织,明确岗位职责,健全管理制度(培训教育、检查、奖惩、卫生等专项管理制度);
3)进行现场管理。
2.学习心
科长的大部分时间是做机房管理的实际工作。
他要不断地学习各种设备的正确操作方法和管理方法,管理的思维方式与知识结构要紧跟时代的步伐,并在技术上与项目一起成长。
只有这样才能让科长提高领导能力,在管理工作中伸展自如、张弛有度。
3.宽容心
科长要有宽容的心态,特别是对比较年轻的员工。
现在的员工都比较年轻,没有社会的阅历,自我为中心的意识强、自尊心强,有时候会做出一些过分的行为。
当员工做了错事或工作中出现差错时,不要谴责,不要去追究责任。
作为科长,应该多花一些精力去关心员工,多给予理解,做到“宰相肚里能撑船”,了解事情的起因,避免将来再犯错。
年轻员工有自己的长处和短处,要经常表扬他的长处,求同存异,具有一颗宽容的心。
1.1.3 管理人员岗位职责
机房日常运行、维护是管理人员的全职工作岗位。
管理人员的岗位职责需要重点注意如下内容:
1)负责机房电气系统的运行、维护、保养、管理工作。
2)认真贯彻落实岗位责任制,遵守各项规章制度,严格执行操作规程和员工守则。
严格执行机房值班制度,做好值班记录;
严格执行机房设备使用登记制度,做好设备登记工作。
3)熟悉设备操作规程,熟悉仪器仪表使用方法。
熟悉、掌握设备的原理、布置、控制、设备性能、使用状况及运维操作。
维护工作应遵循设备故障与维修的操作步骤、基本原则和维修方法进行。
机房应备有设备所用的各种零配件,供维修使用。
4)服从领导的调度和工作安排,按时、按质、按量地完成任务,不擅自离岗和串岗,禁止在上班时间炒股、浏览无关新闻、网上游戏、看在线电影、听音乐等。
5)努力学习,不断提高思想素质和业务技术水平,全面熟悉管辖范围内的各种操作规程,提高工作效率、质量。
6)认真填写原始记录,分析设备运行情况,并掌握其规律,发现问题及时解决,准确无误地填制各种报表和表格。
7)勤巡查,发现问题及时向管理科长汇报,听取指示。
8)参与并协助设备的维护和保养工作。
设备发生故障及时组织检修,发现隐患及时组织处理,做好技术把关工作,保证所管辖系统设备处于优良的技术状态。
做到“三干净”(设备干净、机房干净、工作场地干净)、“四不漏”(不漏电、不漏油、不漏气、不漏水)、“五良好”(使用性能良好、密封良好、润滑良好、紧固良好、调整良好)。
9)发扬主人翁精神,开动脑筋,大胆提出合理化建议。
10)做好本班设备的年月检修保养计划和备品备件计划,报主管审核。
1.2 机房内管理的内容
1.2.1 制定机房管理的规章制度
建立健全计算机机房各项规章制度是做好机房管理的关键。
在机房日常管理工作中应根据系统的具体情况、工作性质,制定出一套完善的机房管理规章制度,以保证机房正常运行。
规章制度用来规范机房的管理,是机房管理的标准。
规章制度要通过日常工作中对它的执行来体现和完善。
机房管理制度一般包括:
管理科长岗位负责制、技术管理岗位职责、中心机房管理制度、安全运行管理制度、计算机病毒防范管理制度、安全管理制度、故障机维修登记制度、机房违章处理制度、机房巡检制度等。
有了章法,机房管理就有了依据,严格管理的指导思想也能落在实处。
1.2.2 大、中型机房的日常维护工作管理的内容
大、中型机房的日常维护工作的管理要重点注意如下内容:
1)保持机房整洁卫生,管理人员负责日常维护及机房卫生工作,做到一天一小扫,一周一大扫,保持机房清洁干净,防尘防潮,防止鼠虫进入。
2)不准在机房内会客,谢绝外单位人员进入机房,禁止聊天、喧哗、吃零食、抽烟、乱扔杂物等,保持机房整洁安静。
3)严禁携带易燃、易爆及强磁性物品进入机房。
4)设备一般不得用于私事,严禁在设备的计算机终端上玩游戏,禁止装入其他无关的软件或将计算机挪作他用。
5)日常检测,包括对设备运作情况及系统应用情况的检测。
①设备运行情况检测:
·
每日分8次(每3小时)定时进行主要网络设备的检测。
做好每日网络巡查与服务器运行情况记录。
每日对外网服务器日志进行分析,对长时间扫描的IP做好记录,并采取跟踪,一旦发现问题及时处理,把隐患消灭在萌芽状态。
定期运用系统的网络监视器、网管软件,对网络漏洞进行自我扫描检测,进行分析,做好相应记录。
②系统应用情况检测:
对应用软件要每天进行检测,及时升级,特别是防毒软件的升级。
各种应用功能配置参数进行修改时必须与值班人员一同进行,并登记记录。
新增加功能必须经过主管领导签字同意。
6)如发现机器故障应及时向主管及上级领导报告,并负责计算机及外设的日常维护与排除故障,处理不了的问题应立即向有关单位联系解决。
遇到紧急情况不要慌张,切忌手忙脚乱。
在遇到三包范围内的故障时,应及时催促公司上门或将机器送公司维修。
7)机房计算机只供机房工作人员使用。
未经组长同意,任何人不准随意删改和增加系统文件,不得将机房内资料、工具等物品带出机房。
8)机房内的一切公用物品(包括低值易耗品、软件及资料)未经许可一律不得私自挪用和外借。
外单位需借出设备及物品,应有单位证明和经手人签名的借条,经主管领导批准后,机房工作负责人才能开具放行条。
未经主管领导同意,不准自行复制系统内所有的软件和数据或将其赠送、转借给外单位人员。
9)经常检查网络和各设备运行情况,发现问题及时解决,并向主管领导报告。
10)其他人员需使用机房内设备应征得管理人员许可,并报经主管同意后方可进入机房。
11)对机房内网络与设备的运行、应用、维护、查看等情况,建立档案,做好系统日志。
要对发生的故障(隐患)以及排除故障情况做好详细记录;
值班人员必须认真、如实、详细填写《机房日志》等各种登记簿,详细记录来人、事件、处理经过等,以备后查。
定时做好中心服务器的日志和存档工作,任何人不得删除运行记录的文档,否则追究责任。
如机房发现意外和紧急情况要及时报告,对重大事故要注意保护好现场。
12)要统一管理机房内的设备,计算机及其相关设备的驱动程序、保修卡等随机文件与资料要保存完整。
要明确专人负责计算机文档、信息化等资料的保管,要做到资料齐全,存放安全。
13)机房内的交换机和服务器是公司办公自动化的关键设备,任何人不得自行配置或更改系统参数。
14)各客户机应及时做好自身数据的保存工作,不得擅自更改系统及网络设置。
如确有工作需要应报至办公室,由办公室指派专人进行,并记录在案。
15)要做好机房的安全工作,对服务器的各种账号、密码严格保密。
对网络运行做好监控、做好记录。
16)要及时做好各服务器系统的补丁修正与升级工作。
17)管理人员要有较强的病毒防范意识,要定期对病毒库进行检测,并做好病毒库系统的定时升级工作。
发现病毒应及时处理,并做好记录。
18)未经许可,不得在各服务器上安装新软件。
如确实工作需要安装,要经过有关领导批准。
19)应及时做好数据的备份工作,保证在系统发生故障时,数据能够快速、安全地恢复。
所有备份数据不得更改,并要求做到本地和异地双备份保存。
20)机房内所有设备应妥善保管,任何人不得擅自开关、移动或者使用机房中的任何设备,如有此方面的需要,需有主管领导的批示。
1.2.3 大、中型机房的日常安全管理的内容
大、中型机房的日常安全管理,要重点注意如下10点内容:
1.出入机房管理的内容
1)严禁非机房工作人员进入机房,特殊情况需经中心负责人批准,并认真填写登记表后方可进入。
严禁非工作人员上机操作。
进入机房人员应遵守机房管理制度。
2)进入机房人员不得携带任何易燃、易爆、腐蚀性、强电磁、辐射性、流体物质等对设备正常运行构成威胁的物品。
严禁将其他与机房工作无关的物品带入机房。
3)若管理人员申请调走,报告经单位批准前,重大的管理工作提前交接,把密码、钥匙、注意的问题等交接给单位指定人员。
2.机房防火管理的内容
机房是重点防火单位,应做好防火工作。
机房工作人员必须严格遵守各项操作规程。
拆装设备时必需断电,不允许带电作业;
维修设备时必须先切断设备电源,再行维修;
禁止使用汽油、酒精等易燃易爆品清洗带电设备;
严禁在机房内吸烟和使用加热器具。
防火管理的重点是气体灭火系统能否发挥正常作用。
对气体灭火系统维护管理要注意如下4点内容:
1)气体灭火系统应由经过专门培训,并经考核合格的人负责定期检查和维护。
2)应做好对气体灭火系统的定期检查,并做好记录。
检查中发现的问题应及时处理。
3)每月应对系统进行一次检查,发现问题应及时处置,检查内容及要求如下:
对全部系统组件进行外观检查,系统组件应无碰撞变形及其他机械性损伤,表面应无锈蚀,保护漆层应完好,铭牌应清晰,手动操作装置的保护罩、铅封和安全标志应完整。
全部系统组件的安装位置不得有其他物件阻挡或妨碍其正常工作。
驱动控制盘面板上的指示灯应正常,各开关位置应正确,各接线应无松动现象。
火灾探测器表面应保持清洁,应无任何会干扰或影响火灾探测器探测性能的擦伤、油渍及油漆。
储存容器上的压力表,其指针应在正常的范围内。
设备可否移位。
设备工作是否正常。
4)每年应对系统进行两次全面检查,检查内容和要求除按月检查的内容外,还应符合如下要求:
①防护区的开口情况、防护区的用途及可燃物的种类、数量、分布情况,应符合设计规定。
防护区外的疏散通道应保持畅通。
②储存容器的固定支架,应无松动现象。
③灭火剂输送管路与喷嘴的连接、灭火剂输送管路本身的连接应安装牢固。
④灭火剂输送管路及电气管路的固定支架应无松动现象。
⑤高压软管应无变形、裂纹及老化。
⑥各喷嘴孔口,应无杂物堵塞。
⑦对每个防护区进行一次模拟自动启动试验。
⑧手动控制、手动/自动切换、紧急停止操作、备用灭火剂储存容器切换操作应正常。
⑨探测设备运行情况检查:
主要检查连接线路及探测器灵敏性。
⑩控制设备运行情况检查:
控制器接受火灾信号情况(包括探测、急启、急停、反馈)。
控制器接受故障信号情况(包括探测、急启、急停、反馈、主备电、阀线)。
控制器联动性能及各个被联动器件的性能。
记录并分析控制器储存信息。
[11]建立灭火系统使用档案,对使用、检查、维修与试验做详细记录。
3.机房用电安全管理的内容
1)机房人员应学习常规的用电安全操作和知识,了解机房内部的供电、用电设施的操作规程,注意用电安全,无触电隐患,注意节约用电。
2)机房应安排有专业资质的电工定期检查供电、用电设备、设施。
3)机房内不得乱拉乱接电线、电源,应选用安全、有保证的供电、用电器材。
4)在真正接通设备电源之前必须先检查线路、接头是否安全连接以及设备是否已经就绪、人员是否已经具备安全保护。
5)严禁随意对设备断电、更改设备供电线路;
严禁随意串接、并接、搭接各种供电线路。
6)如发现用电安全隐患,应立即采取措施解决,不能解决的必须及时向相关负责人员提出解决。
7)禁止在无人看管下在机房中使用高温、炽热、产生火花的用电设备。
8)在使用功率超过特定瓦数的用电设备前,必须得到机房管理人员批准,并在保证线路保险的基础上使用。
9)在外部供电系统停电时,机房工作人员应全力配合完成停电应急工作。
4.设备安全管理的内容
机房设备要保持清洁、卫生,定期打扫,不定期对机房内设备进行检查,发现故障及时检修,并要登记、报告。
因违章作业造成事故损失的,要按责任事故处理。
设备安全管理的具体内容如下:
1)机房人员必须熟知机房内设备的基本安全操作和规则。
2)定期检查、整理硬件物理连接线路,定期检查硬件运作状态(如设备指示灯、仪表),从而及时了解硬件运作状态。
3)禁止随意搬动设备、随意在设备上进行安装、拆卸硬件或随意更改设备连线,禁止随意进行硬件复位。
4)路由器、交换机和服务器以及通信设备是网络的关键设备,不得自行配置或更换,更不能挪作他用。
要定期检查是否规范,经有关领导同意后再变更。
5)网管人员应做好网络安全工作,服务器、各种核心设备等的各种重要账号严格保密,规范管理。
监控网络上的数据流,从中检测出攻击的行为并给予响应和处理。
做好操作系统的补丁修正工作。
6)禁止在正式运行的服务器上进行试验性质的配置操作,需要对服务器进行配置,应在其他可进行试验的机器上调试通过并确认可行后,才能对服务器进行准确的配置。
7)不允许任何人在服务器、交换设备等核心设备上进行与工作范围无关的任何操作。
未经机房管理人员允许,更不允许他人操作机房内部的设备,对于核心服务器和设备的调整配置,更需要小组人员的共同同意后才能进行。
8)对会影响到全局的硬件设备的更改、调试等操作应预先发布通知,并且应有充分的时间、方案、人员准备,才能进行硬件设备的更改。
9)对重大设备配置的更改,必须首先形成方案文件,经过讨论确认可行后,由具备资格的技术人员进行更改和调整,并应做好详细的更改和操作记录。
对设备进行更改、升级、配置等操作之前,应对更改、升级、配置所带来的负面后果做好充分的准备,必要时需要先准备好后备配件和应急措施。
10)网管人员统一管理计算机及其相关设备,完整保存计算机及其相关设备的驱动程序、保修卡及重要随机文件。
11)值班人员必须密切监视中心设备运行状况以及各网点运行情况,确保安全、高效运行。
12)未经负责人批准,不得在中心机房设备上编写、修改、更换各类软件系统及更改设备参数配置。
各类软件系统的维护、增删、配置的更改,各类硬件设备的添加、更换必须经负责人书面批准后方可进行;
必须按规定进行详细登记和记录,对各类软件、现场资料、档案整理存档。
13)健全中心全部设备固定资产账目,机房内所有设备、仪器、仪表等物品要妥善保管。
管理人员每学期核对一次,做到账、物相符。
14)机房内的一切公用物品(包括低值易耗品、软件及资料)未经许可一律不得私自挪用和外借。
5.计算机病毒防范管理的内容
1)对新购进的计算机及设备,为防止原始计算机病毒的侵害,要组织专业人员检查后方可安装运行;
软盘、光盘等移动媒体,以及外来的系统和软件、下载软件等要先进行计算机病毒检查,确认无计算机病毒后才可以使用;
严禁使用未经清查的、来历不明的软盘、光盘等。
2)要定期进行计算机病毒检查,系统中的程序要定期进行比较测试和检查。
要安装防计算机病毒软件,并定期或及时(随时)更新(升级)计算机病毒防范产品的版本;
要使用国家规定的、具有计算机使用系统安全专用产品销售许可证的防计算机病毒产品。
3)跟踪计算机病毒发展的最新动态,及时了解计算机病毒,特别是有严重破坏力的计算机病毒的爆发日期或爆发条件,在一些破坏性较大的计算机病毒发作日期前,要及时在网上发布通知。
4)禁止任何人利用本单位计算机下载、复制、观看和传播各类与工作无关的视频文件。
5)禁止任何人利用本单位计算机查看、复制互联网上与工作无关的信息。
6)严禁使用盗版软件,特别是盗版的杀毒软件,严禁在工作计算机上安装、运行各类游戏软件。
7)外来人员携带来的各种可以在计算机上运行的文件及软件等数字信息,未经同意,禁止复制到本单位计算机内。
如遇特殊情况,必须由相应的信息管理部门人员使用最新版本的反病毒软件检测通过后,方可使用,检测人员及时做好来访和检测记录,以备查看。
8)服务器要尽量做到专机专用,特别是具有读写权限、身份确认功能的认证服务器一定要专用;
对共享的网络文件服务器,应特别加以维护,控制读写权限,不在服务器上运行无关软件和程序。
9)随时注意计算机的各种异常现象,一旦发现,应立即用查毒软件仔细检查。
10)服务器要定期进行计算机病毒检查,系统中的程序要定期进行比较测试和分析;
特别是邮件服务器。
发现病毒立即处理并通知上级管理人员。
11)一旦发现中心服务器有被侵入及恶意攻击的记录,应及时采取措施遏止并向主管领导报告;
一旦发生计算机病毒疫情,要启动应急计划,采取应急措施,将损失降到最小。
12)发现或受到“计算机病毒”攻击后的管理措施:
当出现计算机病毒传染迹象时,立即隔离被感染的系统和网络,并进行处理,不应带“毒”继续运行;
发现计算机病毒后,一般应利用防杀计算机病毒软件清除文件中的计算机病毒;
杀毒完成后,重启计算机,再次用防杀计算机病毒软件检查系统中是否还存在计算机病毒,并确定被感染破坏的数据是否确实完全恢复;
如果破坏程度比较严重,或感染的是重要数据文件,则自己不要盲目修复,而要请计算机病毒防范的专业人员处理,即使是计算机专业人员也要慎重;
对于杀毒软件无法杀除的计算机病毒,应将计算机病毒样本送交有关部门,以供详细分析。
若发现网上有色情及政治敏感内容,及时报告有关部门处理。
13)单位应定期与不定期对制度的执行情况进行检查,督促各项制度的落实,并作为人员考核的依据。
6.防雷管理的内容
1)防雷装置应当每年检测一次,对爆炸和火灾危险环境场所的防雷装置应当每半年检测一次。
2)防雷装置投入使用后,应建立管理制度,指定专人负责,做好防雷装置的日常维护工作。
发现防雷装置存在隐患时,应当及时采取措施进行处理。
对防雷装置的设计、安装、隐蔽工程图纸资料、年检测试记录等,均应及时归档,妥善保管。
3)每年雷雨季节前应对接地系统进行检查和维护。
主要检查连接处是否紧固、接触是否良好、接地引下线有无锈蚀、接地体附近地面有无异常,如果发现问题应及时处理。
4)接地网的接地电阻宜每年采用数字式接地电阻测量仪进行一次测量。
5)每年雷雨季节前应对运行中的防雷元器件进行一次检测,雷雨季节中要加强外观巡视,发现异常应及时处理。
6)当发生雷击事故后,应及时调查分析原因和雷害损失,提出改进防护措施。
设备遭受雷击后应对损坏情况进行调查分析,调查分析内容主要包括:
各种电气绝缘部分有无击穿闪络的痕迹,有无烧焦气味,设备元件损坏部位,设备的电气参数变化情况;
各种防雷元件损坏情况,参数变化情况。
安装了雷电测量装置的,应记录测量数据,计算出雷电流幅值。
了解雷害事故地点附近的情况,分析附近地质、地形和周围环境特点及当时的气象情况。
保留雷击损坏部件,必要时对现场进行拍照或录像,做好各种记录。
根据上述调查情况,组织有关专家分析,写出调查分析报告及改进措施。
7.软件安全管理的内容
1)必须定期检查软件的运行状况,进行数据和软件日志备份。
2)禁止在正式运行的服务器上进行试验性质的软件调试,禁止在服务器上随意安装软件。
需要对服务器进行配置,必须在其他可进行试验的机器上调试通过并确认可行后,才能对服务器进行准确的配置。
3)对会影响到全局的软件更改、调试等操作应先发布通知,并且应有充分的时间、方案、人员准备,才能进行软件配置的更改。
4
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据中心 机房 工程 管理 实施方案