IT系统运维工作实施细则.docx
- 文档编号:25178668
- 上传时间:2023-06-05
- 格式:DOCX
- 页数:15
- 大小:121.75KB
IT系统运维工作实施细则.docx
《IT系统运维工作实施细则.docx》由会员分享,可在线阅读,更多相关《IT系统运维工作实施细则.docx(15页珍藏版)》请在冰豆网上搜索。
IT系统运维工作实施细则
IT系统运维工作
实施细则
2011年11月
一、总则
xxxxxxxxx进展有限公司成立系统技术部,统一承担临xxxxxxxx及其下属公司投资建设的信息化项目的运行保护工作。
系统技术部为进入运行保护阶段的信息化项目成立运维项目组,项目组由项目领导负责,并配备相应的保护工程师。
为了做好项目的运行保护工作,增强内部管理,特制定本规定。
本规定的作用对象为运维项目组的项目领导及全数保护工程师。
二、编制方式
本实施细则包括IT运维服务全生命周期管理方式、管理标准/规范、管理模式、管理支撑工具、管理对象和基于流程的管理方式。
本实施细则以ITIL/ISO20000为基础,以xxxxxxx信息化项目的运维为目标,以管理支撑工具为手腕,以流程化、规范化、标准化管理为方式,以全生命周期的PDCA循环为提升途径,表现了对IT运维服务全进程的体系化管理。
3、运维服务管理体系
运维服务管理体系规定了IT运维活动涉及的各类实体,和这些实体间的彼此关系。
相关的实体依照IT运维服务管理体系进行有机组织,并协调工作,依照服务协议要求提供不同级别的IT运维服务。
运维服务管理对象
运维服务管理对象包括基础设施、应用系统、用户、供给商、和IT运维部门和人员,具体内容如下:
(1)基础设施包括网络、主机系统、存储/备份系统、终端系统、安全系统、和机房动力环境等。
(2)应用系统包括内部办公系统、门户网站、面向公众的应用系统等。
(3)用户包括利用如上IT应用系统的用户。
(4)供给商包括基础设施和应用系统的供给商和IT运维服务的供给商。
(5)运维部门和人员包括内部参与IT运维活动的相关部门和人员,和提供IT运维服务的企业和相关人员。
运维系统功能框架
按照建设单位的系统结构和业务开展需要,运维项目组将xxxxx项目的保护框架分为9个具体组成部份,别离为:
服务台、时刻管理。
工单管理、问题管理、变更管理、配置管理、工程师考核、知识库管理、统计、系统管理等9个子项。
而具体运维流程将以此为依据开展工作。
运维管理组织结构
本运维项目的运维管理结构位三层模式,具体如下图所示。
由项目负责人与甲方进行业务范围联系,并将沟通结果向下传递。
项目领导负责项目的整体运维工作,包括各类制度的制定和实施。
运维工程师则在项目领导的指导下开展保护工作。
3.3.1项目负责人
职责:
负责项目商务、整体协调事宜。
职位描述:
1)、整体负责建设单位运维项目服务计划的制定,领导项目领导并安排项目工作,指导项目领导完成具体保护工作,每周听取项目领导的工作汇报,负责考核项目领导工作完成情形。
2)、协助建设单位完成新增项目的调研、方案设计并指导项目领导进行具体实施。
3.3.2项目领导
职责:
计划、执行、完善信息化项目的运维工作,指导网络、数据库保护工程师开展工作。
职位描述:
1、按照公司战略目标,指导下属工程师开展客户服务工作,确保运维工作能够知足客户的实际需要;
二、成立和持续完善运维管理体系,优化运维流程流程,解决运维服务中出现的特殊问题;
3、计划并提升运维工程师专业服务能力,在整体上提高客户满意度;
4、制定和持续完善绩效考核体系;
五、制定整理运维项目的应急预案系统,并指导运维工程师实施;
六、提高自身专业技术,在业务方面给予网络管理员和数据库管理员指导。
3.3.3技术主管
职责:
应用、数据库管理,oracle性能调优,实现应用负载均衡。
职位描述:
1、技术主管非项目常驻人员,按照项目需要进行专业方面指导;
2、负责数据库性能分析与调优,数据库运行状态监控,及时发觉异样并快速处置。
3、熟练掌握Oracle10G的RAC技术,能够实现部署及调优。
4、掌握WAS、Weblogic、Tomcat、websphere等中间件的工作原理,能够实现部署调优及故障解决。
5、熟练掌握red-flag、redhat等linux操作系统,部署oracle10g、mysql数据库。
熟练掌握dataguard技术,保证oracle数据库冗灾、数据保护、故障恢复。
6、负责应用负载均衡的部署和调试。
7、负责指导数据库工程师管理员开展工作。
3.3.4服务台
职责:
故障电话受理,文档管理。
职位描述
1、负责IT业务的救助电话的受理工作;
2、故障处置的发起人,同时进行保护工程师指派,跟踪事件处置状态;
3、进行保护故障统计、用户满意度统计、工作报表输出等工作;
4、协助项目领导,进行文档整理、归类、保留等工作。
3.3.5网络管理员
职责:
保护建设单位网络系统正常,解决网络相关故障。
职位描述:
1、对现有服务器、局域网络及机房、配线间的日常管理保护;
2、对信息安全建设提出相关建议,确保网络的安全;
3、保证外网光纤线路正常,保证局域网运行正常;
4、对网络系统和网络设备的运行状态进行监控;
5、熟练掌握域策略设置、DHCP、DNS、FTP服务器、NTFS权限设置等;
六、编写网络部份的应用途置预案并实施。
7、工作认真、细致,踊跃主动有层次性,具有良好的沟通能力及团队合作精神.
3.3.5应用、数据库管理员
职责:
保护建设单位业务系统运行正常,解决应用和数据库故障。
职位描述:
1、监测业务系统运行状况,应用、数据库性能监视及优化,作必要调整;
2、计划不同数据的生命周期,制订备份、恢复、迁移和灾备策略,按照业务的需要执行数据转换及迁移等操作;
3、保证应用和数据库系统的安全性、完整性和运行效率。
4、负责数据库平台的整体架构及解决方案的制定和实施;
5、工作认真、细致,踊跃主动有层次性,具有良好的沟通能力及团队合作精神.
3.3.7终端管理员
职责:
保护建设单位桌面系统运行正常,解决终端、外设故障。
职位描述:
一、各部门电脑、打印机、传真机的保护;
二、对各部门职员进行电脑相关的技术支持及培训工作;
3、精通WindowsXP及Office的利用,能够熟练利用Excel2003、Excel2007及以上版本,能够制作相应教程对其他部门员工进行培训
运维服务流程
IT运维服务管理流程涉及服务台、事件管理、问题管理、配置管理、变更管理、发布管理、服务级别管理、财务管理、能力管理、可用性管理、服务持续性管理、知识管理及供给商管理等,随着运维活动的不断深切和持续改良,其他流程可能会慢慢独立并规范。
3.4.1项目运维服务工作流程图
3.4.2服务台
服务台是支持IT运维服务的核心功能,与各个流程联系紧密。
所有管理流程都要通过服务台为用户提供单点联系,解答用户的相关问题和需求,或为用户寻求相应的支持人员。
在本系统中,服务台是接收各类来源服务请求和相关信息反馈的唯一入口和出口,同时服务台还负责一般请求、通过知识库(历史事件)能够解决的请求;他也是复杂问题二线处置的桥梁。
3.4.3事件管理
事件管理流程的主要目标是尽快恢复IT服务提供并减少其对业务的不利影响,尽可能保证最好的IT服务质量和可用性品级。
事件管理流程通常涉及事件的侦测和记录、事件的分类和支持、事件的调查和诊断、事件的解决和恢复和事件的关闭。
本系统把所有服务请求和报警归结为事件。
事件管理是提供服务台和事件管理者对于事件记录、处置、查询、审核、派发等功能。
它也包括通过和第三方IT监控系统对接,把其发送报警形成事件的功能。
3.4.4工单管理
工单管理:
工单是IT现场运维、二线支持的任务载体,运维工程依据所接下班单进行IT运维工作。
工单管理是对工单实现创建、变更、查询阅读、派发、监督等功能的模块。
3.4.5问题管理
问题管理流程的主要目标是预防问题和事故的再次发生,并将未能解决的事件的影响降低到最小。
问题管理流程包括诊断事件根本原因和肯定问题解决方案所需要的活动,通过适合的控制进程,尤其是变更管理和发布管理,负责确保解决方案的实施。
问题管理还将保护有关问题、应急方案和解决方案的信息。
问题管理是针对已处置事件的遗留问题或处置事件的方案只是治标不治本的不能完全解决问题而考虑的模块。
按照事件、及处置方案,问题处置人通过调查、诊断并提出最终解决方式。
3.4.6变更管理
变更管理实现所有IT基础设施和应用系统的变更,变更管理应记录并对所有要求的变更进行分类,应评估变更请求的风险、影响和业务收益。
其主要目标是以对服务最小的干扰实现有利的变更。
变更管理是要对重大IT资源的新增、变更、升级等IT运维活动进行审核的功能,以避免这些活动对现有IT资源的可用性造成没有必要的影响和破坏;同时,他还要实此刻工单中产生的转变进行后审计的功能。
3.4.7配置管理
配置管理流程负责核实IT基础设施和应用系统中实施的变更和配置项之间的关系是不是已经被正确记录下来;确保配置管理数据库能够准确地反映现存配置项的实际版本状态。
配置管理实际上是全数IT资源的统一管理的功能,包括IT资源整个生命周期的参数或配置的转变记录的管理。
管理信息主要涉及分类、型号、版本、位置,状态、相关资料等大体信息还包括核心参数等
3.4.8知识库管理
知识库管理:
知识库是提供给IT运维人员重要的技术资料内容,他聚集在工作的碰到的典型案例归纳总结的知识要点和全面实用资料手册。
在本系统中,知识库管理提供便于利用的人机接口、快速查询的技术手腕和保护手腕。
3.4.9统计及工作报告
运维管理系统提供一线解决率统计、客户满意度统计、按分类的事件汇总统计、工作报告生成的功能,依照必然格式按照事件数据、工单数据、问题数据、配置数据、变更数据能够帮忙运维管理者能把运维的所做的工作内容清楚的罗列出来。
4、运维服务内容
服务目标
运维项目组提供的运行保护服务包括,信息系统相关的主机设备、操作系统、数据库和存储设备的运行保护服务,保证用户现有的信息系统的正常运行,降低整体管理本钱,提高网络信息系统的整体服务水平。
同时按照日常保护的数据和记录,提供用户信息系统的整体建设计划和建议,更好的为用户的信息化进展提供有力的保障。
用户信息系统的组成主要可分为两类:
硬件设备和软件系统。
硬件设备包括网络设备、安全设备、主机设备、存储设备等;软件设备可分为操作系统软件、典型应用软件(如:
数据库软件、中间件软件等)、业务应用软件等。
服务项目范围覆盖的信息系统资源以下方面的关键状态及参数指标:
Ø运行状态、故障情形
Ø配置信息
Ø可用性情形及健康状况性能指标
4.2IT资产统计服务
服务内容包括:
Ø硬件设备型号、数量、版本等信息统计记录
Ø软件产品型号、版本和补丁等信息统计记录
Ø网络结构、网络路由、网络IP地址统计记录
Ø综合布线系统结构图的绘制
Ø其它附属设备的统计记录
网络、安全系统运维服务
从网络的连通性、网络的性能、网络的监控管理三个方面实现对网络系统的运维管理。
Ø设备基础性能检测:
cpu、内存利用情形监测;
Ø设备日记查看;
Ø设备snmp状态;
Ø测试Ping,tracert等工具的连通性;
Ø网络安全策略应用是不是正常;
ØInternet带宽流量的实时监测;
Ø网络拓扑链路状态监测;
Ø异样网络数据包流量;
ØDos、ddos等网络解决情形监测;
ØInternet线路的误码率、丢包率监测;
主机、存储系统运维服务
提供的主机、存储系统的运维服务包括:
主机、存储设备的日常监控,设备的运行状态监控,故障处置,操作系统保护,补丁升级等内容。
进行监控管理的内容包括:
ØCPU性能管理;
Ø内存利用情形管理;
Ø硬盘利用情形管理;
Ø系统进程管理;
Ø主机性能管理;
Ø实时监控主机电源、风扇的利用情形及主机机箱内部温度;
Ø监控主机硬盘运行状态;
Ø监控主机网卡、阵列卡等硬件状态;
Ø监控主机HA运行状况;
Ø主机系统文件系统管理;
Ø监控存储互换机设备状态、端口状态、传输速度;
Ø监控备份服务进程、备份情形(起止时刻、是不是成功、犯错告警);
Ø监控记录磁盘阵列、磁带库等存储硬件故障提示和告警,并及时解决故障问题;
Ø对存储的性能(如高速缓存、光纤通道等)进行监控。
数据库系统运维服务
提供的数据库运行保护服务是包括主动数据库性能管理,数据库的主动性能管理对系统运维超级重要。
通过主动式性能管理可了解数据库的日常运行状态,识别数据库的性能问题发生在什么地方,有针对性地进行性能优化。
同时,紧密注意数据库系统的转变,主动地预防可能发生的问题。
进行监控管理的内容包括:
Ø数据库大体信息:
文件系统、碎片、死锁、CPU占用率较大或时刻较长的SQL语句。
Ø表空间利用信息监测;
Ø数据库文件I/0读写情形;
ØSession连接数量监控;
Ø数据库监听运行状态监测;
Ø查看每日数据备份、数据同步是不是正常;
Ø报警日记监测;
Ø对表和索引进行Analyze,检查表空间碎片;
Ø检测数据库后台进程;
Ø数据库对象的空间扩展情形监测;
中间件运维服务
中间件管理是指对BEAWeblogic、tomcat、MQ等中间件的日常保护管理和监控工作,提高对中间件平台事件的分析解决能力,确保中间件平台持续稳固运行。
中间件监控指标包括配置信息管理、故障监控、性能监控。
Ø执行线程:
监控中间件配置执行线程的空闲数量。
ØJVM内存:
JVM内存曲线正常,能够及时的进行内存空间回收。
ØJDBC连接池:
连接池的初始容量和最大容量应该设置为相等,而且至少等于执行线程的数量,以避免在运行进程中创建数据库连接所带来的性能消耗。
Ø检查中间件日记文件是不是有异样报错
Ø若是有中间件集群配置,需要检查集群的配置是不是正常。
终端、外设运维服务
负责对终端PC、笔记本和工作站的操作系统、应用软件和硬件的保护,解决利用人员在应用进程中碰到的问题并进行简单培训,完成打印机等其他外设的故障处置工作。
五、应急服务响应办法
运维项目组制定了详尽的应急处置预案,整个流程严谨而有序。
但在服务保护进程中,意外情形将难以完全避免。
咱们将对项目实施的突发风险进行详细分析,而且针对各类突发事件,设计了相应的预防与解决办法,同时提供了完整的应急处置流程。
应急预案实施大体流程
突发事件应急策略
(1)值班人员平时应做好应急事件的监控工作,对于突发事件应认真分析、准确判定故障发生的数据域,负责跟踪该事件直至其结束。
对于不在运维中心的故障,应在第一时刻内通知负责人去现场处置,紧密关注事件流程及进展情形,并做好记录工作上报领导。
(2)正常情形下,要求值班人员在10分钟内进行事件确认。
若是属于一般事件则依照事件流程进行分派处置,不然应迅速启动《应急预案》,并严格依照《应急预案》所规定的步骤快速实施应急处置,及时汇报上级领导,掌握实时处置情形。
(3)在处置进程中,如需其他部门去现场增援处置,应及时向上级领导部门汇报,协调沟通,尽快联系技术工程师或厂家技术支持赶赴现场援助处置。
6、服务管理制度规范
服务时刻
(1)在5*8小时工作时刻内设置由专人职守的热线电话,接听内部的服务请求,并记录服务台事件处置结果。
(2)在非工作时刻设置有专人7*24小时接听的移动电话热线,用于解决内部的技术问题和接听7*24小机会房监控人员的机房突发情形汇报。
(3)服务响应时刻:
故障级别
响应时间
故障解决时间
I级:
属于紧急问题;其具体现象为:
系统崩溃导致业务停止、数据丢失。
10分钟,30分钟内提交故障处理方案
3小时以内
II级:
属于严重问题;其具体现象为:
出现部分部件失效、系统性能下降但能正常运行,不影响正常业务运作。
10分钟,30分钟内提交故障处理方案
6小时以内
III级:
属于较严重问题;其具体现象为:
出现系统报错或警告,但业务系统能继续运行且性能不受影响。
10分钟,30分钟内提交故障处理方案
12小时以内
IV级:
属于普通问题;其具体现象为:
系统技术功能、安装或配置咨询,或其他显然不影响业务的预约服务。
10分钟,2小时内提交故障处理方案
24小时以内
行为规范
(1)遵守用户的各项规章制度,严格依照用户相应的规章制度办事。
(2)与用户运行保护体系其他部门和环节协同工作,紧密配合,一路开展技术支持工作。
(3)出现疑难技术、业务问题和重大紧急情形时,及时向负责人报告。
(4)现场技术支持时要精神饱满,穿着得体,谈吐文明,举止庄重。
接听电话时要文明礼貌,语言清楚明了,语气和善。
(5)遵守保密原则。
对被支持单位的网络、主机、系统软件、应用软件等的密码、核心参数、业务数据等负有保密责任,不得随意复制和传播。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- IT 系统 工作 实施细则