运行维护管理体系及制度规范方案.docx
- 文档编号:9299277
- 上传时间:2023-02-04
- 格式:DOCX
- 页数:40
- 大小:31.71KB
运行维护管理体系及制度规范方案.docx
《运行维护管理体系及制度规范方案.docx》由会员分享,可在线阅读,更多相关《运行维护管理体系及制度规范方案.docx(40页珍藏版)》请在冰豆网上搜索。
运行维护管理体系及制度规范方案
.WORD.格式.
运转保护管理系统和制度规范
.专业资料.整理分享.
1、总则3
2、编制方法3
3、运维工作职责3
4、运维服务管理系统5
运维服务管理对象...................................................................
6
运维系统功能框架..................................................................
6
运维管理组织构造...................................................................
7
项目负责人........................................................................
8
项目经理...........................................................................
8
技术主管...........................................................................
9
服务台...............................................................................
9
网络管理员......................................................................
10
应用、数据库管理员.......................................................
10
终端管理员......................................................................
11
运维服务流程........................................................................
11
项目运维服务工作流程图................................................
12
服务台.........................................................................
-12-
事件管理.....................................................................
-13-
工单管理.....................................................................
-13-
-1-
问题管理.....................................................................
-14-
改正管理.....................................................................
-14-
配置管理.....................................................................
-14-
知识库管理..................................................................
-15-
统计及工作报告..........................................................
-15-
5、运维服务内容.....................................................................
-16-
服务目标...........................................................................
-16-
财产统计服务....................................................................
-16-
网络、安全系统运维服务..................................................
-17-
主机、储存系统运维服务..................................................
-18-
数据库系统运维服务.........................................................
-19-
中间件运维服务................................................................
-21-
终端、外设运维服务.........................................................
-22-
6、应急服务响应举措..............................................................
-28-
6.1应急方案实行基本流程20
6.2突发事件应急策略20
7、服务管理制度规范21
7.1服务时间21
7.2行为规范22
-2-
1、总则
第一条为保障实验室系统软硬件设备的优秀运转,使职工的运
维工作制度化、流程化、规范化,特制定本制度。
第二条运维工作整体目标:
立足根本促发展,开辟运维新场面。
在公司发展壮大期间,经过网络、桌面、系统等的运维,促使公司稳
定可连续性发展。
第三条运维管理制度的合用范围:
运维人员。
2、编制方法
本实行细则包含运维服务全生命周期管理方法、管理标准/规范、
管理模式、管理支撑工具、管理对象以及鉴于流程的管理方法。
本实行细则以ITIL/ISO20000为基础,以信息化项目的运维为目标,
以管理支撑工具为手段,以流程化、规范化、标准化管理为方法,以
全生命周期的PDCA循环为提高门路,表现了对运维服务全过程的体
系化管理。
-3-
3、运维部工作职责
一、负责网站运维和技术支持
(一)依据网站营运战略和目标,负责网站整体架构、栏目、应用系统等技术开发方案拟订和组织开发,保障网站技术的稳固性和先进性。
(二)负责网站栏目和应用系统的使用培训和操作使用指南编写,对用户使用过程中出现问题的交流和解决。
(三)网站设备和软件购置计划书的制定,包含采买数目、品牌规格、技术参数。
会同行政部进行采买。
(四)网站设备和软件操作规程和应用管理制度的拟订,并负责监察履行。
(五)网站设备和软件安装、调试和查收,使用培训和维修养护。
(六)网站平常运转过程中信息安全和技术问题的协调停决,保障网站24小时安全稳固运转。
(七)网站技术服务外担保理,主要包含技术外包开发、运转服务托管和空间域名管理。
(八)负责网站管理系统及设备保密口令的设置和保留,保密口令设置后报中心主任存案,保密口令设定后任何人不得任意改正,保密口令每季度更新一次。
(九)负责网站新程序、新系统和网站改版升级方案技术的设计
-4-
开发。
二、负责网站信息和技术安全
(一)履行国家和省上有关网络信息技术安全的法律法例,与通
信管理和网络安全看管部门联系,及时办理网站信息技术安全方面存
在的问题,保证网站安全、稳固、靠谱运转。
(二)网站信息技术安全保密制度和工作流程的拟订,落实信息
技术安全保密责任制,履行“谁主管、谁负责,谁主办、谁负责”的
原则,责任到人。
(三)在服务器和计算机之间设置硬件防火墙,在服务器及工作站上均安装防病毒软件,进行硬件和技术双保护,保证网站不受病毒和黑客攻击。
(四)负责网站信息技术安全应急办理方案拟订和实行。
(五)安排专人监控网站各频道,各页面,各版块,各栏目信息
内容,成立网站信息技术安全监控值班登记制度,发现问题及时办理,
并登记问题和办理结果登记;
(六)成立多机备份网站信息服务系统体制,一旦主系统碰到故障或遇到攻击致使不可以正常运转,能够在最短的时间内替代主系统供应服务。
(七)成立网站系统集中式权限管理,依照岗位职责设定工作人员操作权限,针对不一样应用系统、终端、操作人员,设置共享数据库信息的接见权限,并设置密码。
不一样的操作人员设定不一样的用户名,且按期改换,禁止操作人员泄露密码。
-5-
4、运维服务管理系统
运维服务管理系统规定了运维活动波及的各种实体,以及这些实体间的互相关系。
有关的实体依照运维服务管理系统进行有机组织,并协调工作,依照服务协议要求供应不一样级其余IT运维服务。
4.1运维服务管理对象
运维服务管理对象包含基础设备、应用系统、用户、研发部门以
及IT运维部门和人员,详细内容以下:
(1)基础设备包含网络、主机系统、储存系统、安全系统等。
(2)应用系统包含uap云管理平台、cloud门户、demo、zabbix、
机房设备管理系统、vmware以及yum源等。
(3)用户包含使用如上应用系统的用户。
(4)研发部门包含Iaas平台研发部门。
(5)运维部门和人员包含内部参加运维活动的有关部门和人员,以及供应运维服务的公司和有关人员。
-6-
4.2运维系统功能框架
依据建设单位的系统构造和业务展开需要,运维项目组将项目的保护框架分为9个详细构成部分,分别为:
服务台、事件管理、工单管理、问题管理、改正管理、配置管理、工程师查核、知识库管理、统计、系统管理等9个子项。
而详细运维流程将以此为依照展开工作。
4.3运维管理组织构造
本运维项目的运维管理构造位三层模式,详细以下列图所示。
由项目负责人与甲方进行业务范围接洽,并将交流结果向下传达。
项目经理负责项目的整体运维工作,包含各样制度的拟订和实行。
运维工程师则在项目经理的指导下展开保护工作。
-7-
4.3.1运维负责人
职责:
负责项目商务、整体协调事宜。
职位描绘:
1)、整体负责建设单位运维项目服务计划的拟订,领导项目经
理并安排项目工作,指导项目经理达成详细保护工作,每周听取项目
经理的工作报告,负责查核项目经理工作达成状况。
2)、辅助建设单位达成新增项目的调研、方案设计并指导项目
经理进行详细实行。
4.3.2运维主管
职责:
规划、履行、完美信息化项目的运维工作,指导网络、数
据库保护工程师展开工作。
-8-
职位描绘:
1、依据公司战略目标,指导部下工程师展开客户服务工作,确
保运维工作能够知足客户的实质需要;
2、成立和连续完美运维管理系统,优化运维流程流程,解决运
维服务中出现的特别问题;
3、规划并提高运维工程师专业服务能力,在整体上提高客户满
意度;
4、拟订和连续完美绩效查核系统;
5、拟订整理运维项目的应急方案系统,并指导运维工程师实行;
6、提高自己专业技术,在业务方面赐予网络管理员和数据库管
理员指导。
4.3.3系统管理员
职责:
操作系统、应用、数据库管理,oracle性能调优,实现应
用负载平衡。
职位描绘:
1、技术主管非项目常驻人员,依据项目需要进行专业方面指
导;
2、负责数据库性能剖析与调优,数据库运转状态监控,及时
发现异样并快速办理。
3、娴熟掌握Oracle10G的RAC技术,能够实现部署及调优。
4、掌握WAS、Weblogic、Tomcat、websphere等中间件
的工作原理,能够实现部署调优及故障解决。
-9-
5、娴熟掌握red-flag、redhat等linux操作系统,部署oracle10g、mysql数据库。
娴熟掌握dataguard技术,保证
oracle数据库冗灾、数据保护、故障恢复。
6、负责应用负载平衡的部署和调试。
7、负责指导数据库工程师管理员展开工作。
4.3.4网络管理员
职责:
保护建设单位网络系统正常,解决网络有关故障。
职位描绘:
1、对现有服务器、局域网络及机房、配线间的平常管理保护;
2、对信息安全建设提出有关建议,保证网络的安全;
3、保证外网光纤线路正常,保证局域网运转正常;
4、对网络系统和网络设备的运转状态进行监控;
5、娴熟掌握域策略设置、DHCP、DNS、FTP服务器、NTFS权
限设置等;
6、编写网络部分的应用办理方案并实行。
7、工作仔细、仔细,踊跃主动有条理性,拥有优秀的交流能力
及团队合作精神.
4.3.5应用、数据库管理员
职责:
保护建设单位业务系统运转正常,解决应用和数据库故障。
职位描绘:
1、监测业务系统运转状况,应用、数据库性能监督及优化,作
-10-
必需调整;
2、规划不一样数据的生命周期,制定备份、恢复、迁徙和灾备策
略,依据业务的需要履行数据变换及迁徙等操作;
3、保证应用和数据库系统的安全性、完好性和运转效率。
4、负责数据库平台的整体架构及解决方案的拟订和实行;
5、工作仔细、仔细,踊跃主动有条理性,拥有优秀的交流能力
及团队合作精神.
4.4运维服务标准流程
IT运维服务管理流程波及事件管理、问题管理、配置管理、改正
管理、公布管理、服务级别管理、财务管理、能力管理、可用性管理、服务连续性管理、知识管理及供应商管理等,跟着运维活动的不停深入和连续改良,其余流程可能会逐渐独立并规范。
-11-
4.4.1项目运维服务工作标准流程图
4.4.2服务台(暂无)
服务台是支持运维服务的核心功能,与各个流程联系亲密。
所有
管理流程都要经过服务台为用户供应单点联系,解答用户的有关问题
-12-
和需求,或为用户追求相应的支持人员。
在本系统中,服务台是接收各样根源服务恳乞降有关信息反应的独一进口和出口,同时服务台还负责一般恳求、经过知识库(历史事件)能够解决的恳求;他也是复杂问题二线办理的桥梁。
因为目古人员不足,服务台的工作暂时由运维工程师一致办理。
4.4.3事件管理
事件管理流程的主要目标是赶快恢复服务供应并减少其对业务的
不利影响,尽可能保证最好的服务质量和可用性等级。
事件管理流程
往常波及事件的侦测和记录、事件的分类和支持、事件的检查和诊疗、
事件的解决和恢复以及事件的封闭。
本系统把所有服务恳乞降报警归纳为事件。
事件管理是供应服务台和事件管理者关于事件记录、办理、查问、审查、派发等功能。
它也包含经过和第三方监控系统对接,把其发送报警形成事件的功能。
4.4.4工单管理
工单管理:
工单是现场运维、二线支持的任务载体,运维工程依
据所接竣工单进行运维工作。
工单管理是对工单实现创立、改正、查
询阅读、派发、监察等功能的模块。
-13-
4.4.5问题管理
问题管理流程的主要目标是预防问题和事故的再次发生,并将未能解决的事件的影响降低到最小。
问题管理流程包含诊疗事件根根源因和确立问题解决方案所需要的活动,经过适合的控制过程,特别是改正管理和公布管理,负责保证解决方案的实行。
问题管理还将保护有关问题、应急方案和解决方案的信息。
问题管理是针对已办理事件的遗留问题或办理事件的方案不过治
标不治本的不可以完全解决问题而考虑的模块。
依据事件、及办理方案,问题办理人经过检查、诊疗并提出最后解决方法。
4.4.6改正管理
改正管理实现所有基础设备和应用系统的改正,改正管理应记录
并对所有要求的改正进行分类,应评估改正恳求的风险、影响和业务
利润。
其主要目标是以对服务最小的扰乱实现有利的改正。
改正管理是要对重要资源的新增、改正、升级等运维活动进行审查的功能,免得这些活动对现有资源的可用性造成没有必需的影响和损坏;同时,他还要实此刻工单中产生的变化进行后审计的功能。
4.4.7配置管理
配置管理流程负责核实基础设备和应用系统中实行的改正以及配
置项之间的关系能否已经被正确记录下来;保证配置管理数据库能够
-14-
正确地反应现存配置项的实质版本状态。
配置管理其实是所有资源的一致管理的功能,包含资源整个生
命周期的参数或配置的变化记录的管理。
管理信息主要波及分类、型
号、版本、地点,状态、有关资料等基本信息还包含核心参数等
4.4.8知识库管理
运维知识经验的总结、保护和共享是提高职工运维技术水平、增
强单位凝集力的重要手段,也是把可贵的经验教训从支持人员脑筋逐
步积淀、固化的重要方式。
知识库管理:
知识库是供应给运维人员重要的技术资料内容,他
聚集在工作的碰到的典型事例概括总结的知识重点和全面适用资料
手册。
在本系统中,知识库管理供应便于使用的人机接口、快速查问
的技术手段和保护手段。
4.4.9统计及工作报告
运维管理系统供应一线解决率统计、客户满意度统计、按分类的
事件汇总统计、工作报告生成的功能,依照必定格式依据事件数据、
工单数据、问题数据、配置数据、改正数据能够帮助运维管理者能把
运维的所做的工作内容清楚的排列出来。
-15-
5、运维服务内容
5.1运维服务目标
实验室运维部门供应的运转保护服务包含,虚构机、主机设备、
操作系统、数据库、网络安全设备和储存设备的运转保护服务,保证
云管理平台的正常运转,降低整体管理成本,提高Iaas平台的整体
服务水平。
同时依据平常保护的数据和记录,给研发部门供应Iaas
平台优化及改良建议。
实验室运维的构成主要可分为两类:
硬件设备和软件系统。
硬件
设备包含网络设备、安全设备、主机设备、储存设备等;软件设备可
分为云管理平台、操作系统、典型应用软件(如:
数据库软件等)等。
服务项目范围覆盖的信息系统资源以下方面的重点状态及参数指
标:
运转状态、故障状况
配置信息
可用性状况及健康状况性能指标
IT财产统计服务
服务内容包含:
硬件设备型号、数目、版本等信息统计记录
软件产品型号、版本和补丁等信息统计记录
网络构造、网络路由、网络IP地点统计记录
综合布线系统构造图的绘制
其余隶属设备的统计记录
-16-
5.3网络、安全系统运维服务
从网络的连通性、网络的性能、网络的监控管理三个方面实现对
网络系统的运维管理,网络设备位于IT架构的骨干地点,下边是需要
监控的指标,及对应健康状况故障此后可能惹起的问题。
设备基础性能检测:
cpu、内存使用状况监测。
当cpu、内存使用率过高,会致使用户网络接见质量降落,丢包、时延较高等状况的产生。
说明目前网络设备负载较高,需要对下行设备进行迁徙,分流,减少负载。
设备日记查察;
当设备日记出现异样时,可能是设备出现异样接见或许异样配置,可能会致使网络中止。
需要检测防火墙等安全设备状态。
设备snmp、telnet状态;
当snmp、telnet都不行达时,一般是设备脱网状况的产生,会致使网络中止。
需要人工查察设备运转状态。
测试Ping,tracert等工具的连通性;
当ping丢包率过高,说明网络接见质量有问题,需要tracert查察网络路径是哪一跳对应的IP设备时延较高或许不行达。
剖析是哪个网关路由或许策略惹起的问题。
网络安全策略应用能否正常;
安全策略异样会致使网络设备遭到入侵,会影响整个网络的接见。
Internet带宽流量的及时监测;
-17-
流量所占带宽比较高,会造成目前网络设备对应端口网关的所有网络接见质量降落。
需要抓包查察是哪些设备对应的接见流量较高,决定是加大带宽仍是服务器中毒。
网络拓扑链路状态监测;
链路状态异样说明网络中某个设备异样,需要查察链路对应的网络设备健康状况,联合其余指标剖析问题所在。
异样网络数据包流量、Dos、ddos等网络攻击状况监测;
存在异样网络数据流量包等,会致使正常的网络质量降落,说明网络可能遇到攻击,需要联合netflow和流量状况查察异样流量的接见网段,从路由策略或许防火墙限制该网段的接见
光纤光口光功率、光电口误码率大小。
光功率值不在光模块的默认光功率范围内,会致使光口不行
用,可能是光模块出现故障,需要联系厂家查察光模块能否正
常
5.4主机、储存系统运维服务
供应的主机、储存系统的运维服务包含:
主机、储存设备的平常监控,设备的运转状态监控,故障办理,操作系统保护,补丁升级等内容。
进行监控管理的内容包含:
CPU性能管理;
GPU指标过高,会致使服务器程序运转迟缓,出现卡死状况。
需要查察惹起GPU过高原由,做虚机迁徙等操作,减少服务
器压力。
-18-
内存使用状况管理;
内存使用率过大,会致使服务器崩溃,需要及时扩大内存资源,
或许回收不再使用的虚机资源。
硬盘利用状况管理;
硬盘使用率过高,会致使开始启动失败,需要按期清理服务器暂时文件,或许扩大服务器硬盘。
系统进度管理;
服
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 运行 维护 管理体系 制度 规范 方案