IT基础设施运维管理规范.docx
- 文档编号:24099226
- 上传时间:2023-05-24
- 格式:DOCX
- 页数:14
- 大小:179.51KB
IT基础设施运维管理规范.docx
《IT基础设施运维管理规范.docx》由会员分享,可在线阅读,更多相关《IT基础设施运维管理规范.docx(14页珍藏版)》请在冰豆网上搜索。
IT基础设施运维管理规范
IT基础设施运维管理规范
文件编号:
版本号:
总则
能够支
为了规范本部门的运维管理工作,使得相关工作具有持续改善性及相互协作性,撑公司系统的健康可靠的运行,由此制定本规范。
本规范适用于信息管理中心技术保障部所有岗位人员。
二、部门职能
1)负责信息化基础设施的技术保障,包括网络、电话、机房、服务器系统、数据安全等技术支持;
2)负责所有服务器系统的技术运维工作
3)负责核心数据库的性能调优及技术运维工作
4)负责各种网络设施、线路的技术运维保障工作
5)负责其他设施的运维保障工作,如机房设施、一卡通、考勤机等智能化设施。
6)负责信息化安全的建设与执行;
三、岗位职责
1)经理:
负责信息化基础设施的技术保障,包括,电脑终端、网络、电话、机房、服务器系统、数据安全等技术支持;
负责信息化安全的建设与执行;
负责本部门的组织管理,包括,修订组织职责、架构编制、岗位职级、分工授权等;负责本部业务制度流程规范的制定和监督执行;负责本部团队建设,包括,新员工入职、员工培训、绩效考核、员工心政、团队活动等;
负责本部门工作管理,包括,预算编制与管控、计划管理、汇报管理、会议管理等;
(2)系统工程师:
负责所有服务器系统的技术运维工作
负责核心数据库的性能调优及技术运维工作
(3)网络工程师:
负责各种网络设施、线路的技术运维保障工作负责其他设施的运维保障工作,如机房设施、一卡通、考勤机等智能化设施
(4)安全工程师:
负责信息化安全的建设与执行;
(5)其他说明事项:
系统工程师、DBA网络工程师、安全工程师,以下统称运维工程师;
权限控制:
除负责基础设施的网络工程师,其余工程师不得拥有进入数据中心机房
的权限。
网络工程师不得拥有系统工程师的管理权限。
各岗位周期性工作清单见附一。
四、管理对象
IT基础设施管理对象包括网络、电话、机房、服务器、系统、信息安全等,具体内容如
下:
(1)网络:
XXX运营中心、JJJJ工业园、WWWW业园、数据中心、北京办事处的网
络建设与维护。
(2)电话:
XXXX!
营中心、JJJJ工业园、WWWWk园的电话网络建设与维护。
(3)机房:
数据中心机房的建设与日常维护。
(4)服务器:
服务器软硬件的采购、建设与日常维护。
(5)系统:
操作系统、数据库、应用系统、虚拟化的日常维护。
(6)信息安全:
信息安全建设与维护。
五、运维规范
内部运维
(1)运维工程师,负责岗位职责内相应的IT设施的《维护手册》的制定和完善、并
按照本运维规范执行维护管理工作和巡检工作。
(2)运维工程师应当依据运维过程收集的记录信息,每月整理出当月的《月度运维报告》提报部门经理,报告中要重点关注IT设施的问题和改进分析,并提出改进措施和建议。
(3)部门经理,负责保障运维管理体系的有效执行,包括本运维管理规范的制定和
完善,督导维护工程师完善各设施维护手册。
(4)部门经理在月度工作会议上就当月各个运维工作报告与团队沟通共识出整改
措施,并形成新的工作计划,推动落实执行。
参考运维手册:
《网络维护手册》
《系统维护手册》
巡检管理
(1)巡检对象:
机房、数据备份、网络、服务器、系统的运行状态。
(2)巡检周期:
每日、每周、每月,详见附一《周期性工作清单》。
(3)每位运维工程师依据各自维护设施,按时对检核内容进行检查。
每日:
当日下班前
要把当天检查情况填报检核表。
(4)部门经理将不定期检查巡检的完成情况。
(5)巡检期间,如果发现设备或系统异常,应立即上报部门经理并展开调查,确认故障
的应立即进入故障处理环节。
告警
(1)使用*******作为统一的监控中心,提供在线监控、流量分析、故障告警;
(2)设定告警阀值:
磁盘阀值95%非数据库系统内存阀值70%CPU阀值70%
(3)告警:
达到阀值或系统中断时,平台通过短信通知到运维工程师,运维工程师收到
告警后,应该立即检查系统的健康状况,并在应急预案规定时间内恢复正常;
故障处理
(1)根据公司《应急预案》的要求,在规定时限内进行故障恢复;
(2)预案的安全等级:
(详细系统的安全要求,见《应急预案》)
安全等级
非常重要
重要
一般
RTO
不间断
1小时以内
24小时以内
RPO
不间断
1小时以内
24小时以内
(3)故障发生时,运维工程师在无法锁定问题根源时,应该立即启动应急机制,在规定
时间内先恢复业务使用,并在非工作时间进行详细的故障排查;
(4)经过排查仍然无法解决时,应立即向部门经理汇报,并寻求外部资源直至问题解决;
运维审计
(1)三权分立:
角色分为审计员、设备管理员、运维人员,审计员仅能进行审计工作,
对设备管理员和运维人员的行为进行审计,不能创建运维账号,没有系统权限和账号,
无法进行运维工作。
设备管理员保管系统账号及权限分配,但不能创建运维账号,也无
法进行运维工作。
运维人员只能进行运维工作,没有系统账号及设备管理权限;
(2)内部运维工程师使用AD账号登录堡垒机,进行日常的运维工作;
(3)外协人员通过临时创建的运维账号登录堡垒机,进行相关工作;
(4)任何人员都严禁擅自更改系统的密码、端口等配置;
(5)审计记录保留一年,审计人员不定期进行抽检;
跨部门协作
各运维工程师做为信息服务部的二线支持,收到服务部门的工单请求时应及时对请求进
行反馈或处理。
在半小时内反馈、在4小时内处理完成视为及时。
详细流程参见信息服务部
的《IT设施服务管理制度》。
六、运维流程
IT基础设施运维作业过程中,出现问题需要用到的流程:
事件管理、问题管理、变更管理,随着运维活动的不断深入和持续改进,其他流程可能会逐步独立并规范。
事件管理
事件管理流程的主要目标是尽快恢复IT服务,并减少其对业务的不利影响,尽可能保证最好
的IT服务质量和可用性。
(1)
事件流程:
事件管理流程
经理
处理人
结果审檢
事件记录
结柬并输出
问题管理
事件表单
处理人
事件分类
网络、电话、机房、服务器、系统、虚拟化、数据库、信息安全
标题
事件编号
系统自动生成
事件描述
事件描述:
错误代码:
如果有请填写
解决方案
事件开始时间
事件结束时间
事件原因分析
口人为过失口设备故障口外部原因
(3)流程说明
任何引起服务中断和服务质量下降的现象,统称事件。
处理人:
表示事件的受理人,并
负责整个事件的解决,直到事件结束。
受理人负责事件流程的发起,经理负责审核事件
的状态及表单信息的完整性。
事件结束自动转入问题管理。
问题管理
问题管理流程的主要目标是预防问题和事故的再次发生,并且在事故的再次发生时,可以找
到有效的处理方法。
问题管理流程包括诊断事件根本原因和确定问题解决方案所需要的活动,问题管理还将维护有关问题、应急方案和解决方案的信息。
(1)问题流程
问题管理流程
(2)问题表单
发起人
问题分类
网络、电话、机房、服务器、系统、虚拟化、数据库、信息安全
标题
问题编号
系统自动生成
影响范围
口影响较大口影响较小
主要影响用户:
问题描述
问题描述:
影响范围:
受影响的用户及系统
解决方案
计划开始日期
计划结束日期
用户通知
通知受影响用户
(3)流程说明
所有问题都应该被完整准确的记录下来,并保证相关信息应尽可能详细。
明确问题管理
的问题信息来源,问题可能来源于某些事件的进一步调查,也可能来源于主动巡检和事
件报表分析。
问题发起人首先识别问题,分析可能造成的危害,提出解决方案,计划好
问题的处置时间,并通知受影响的用户。
经理负责评估方案的合理性。
影响较大:
涉及全公司使用、门店使用,用户范围较广的系统或关键业务系统,需总监审核。
影响较小:
局部用户使用、非关键业务系统。
变更管理
变更管理实现所有IT基础设施和应用系统的变更,变更管理应记录并对所有要求的变更进行分类,应评估变更请求的风险、影响和业务收益。
其主要目标是以对服务最小的干扰实现有益的变更。
(1)变更流程
变更管理流程
(2)变更表单
发起人
变更分类
网络、电话、机房、服务器、系统、虚拟化、数据库、信息安全
标题
变更编号
系统自动生成
影响范围
口影响较大
主要影响用户:
口影响较小
变更描述
变更描述:
影响范围:
受影响的用户及系统
变更方案
变更方案:
方案测试:
如果有
变更后测试方案:
变更失败回滚方案:
计划开始日期
计划结束日期
用户通知
通知受影响用户
(3)流程说明
所有涉及运维生产环境的变化,都必须走变更流程。
变更的发起人,负责发起变更,提交变更方案,并负责变更的执行。
经理负责评估变更方案的可行性。
变更委员会:
变更发起部门经理及各部门指定对接人员组成,变更发起部门经理主持变更会议,评估变更对各部门业务的影响,各部门委员负责协调相关资源和用户,以及安排变更后的测试工作。
七、IT运维服务质量指标
IT运维服务质量指标体系是用来衡量整个运维服务工作质量的标准规范,指标标准如下:
运维服务体系质量指标
衡量指标
指标说明
指标公式
用户投诉次数
IT故障服务投诉
投诉一次扣20分,扣完为止。
本项总分100分,权重20%
事故
在《应急预案》当前恢复时间范围之内恢复的,属于正常事故,公司应急预案范围外的系统,按一般安全级别考核。
超过4小时不能恢复,疋义为一次重
考核期内无事故100分,重大事故一次扣100分,中等事故一次扣50分,一般事故
一次扣20分,扣完为止。
本项总分100分,权重20%
大事故;1-4小时之间定义为中等事故;1小时以内定义为一般事故。
安全
1)公司网络被黑客攻击导致中断;
2)被非授权终端设备登入公司内网;
3)公司内部发生已知病毒大范围感染(5台以上电脑同时爆发病毒);
一次扣10分,扣完为止。
本项总分100分,权重20%。
附一:
周期性工作清单
周期
工作内容
角色
范围或行为
日
机房环境巡检
网络工程师
配电、室内环境、设备状态
设备健康巡检
网络工程师
网络设备、信息安全设备、服务器、系统
备份状态检查
系统工程师
业务系统数据库每日备份计划的完成情况
OA单据处理
ALL
各日常运维单据
周
周例会
ALL
组织每周例会
备份状态检查
系统工程师
业务系统数据库每周备份计划的完成情况
运维周报
ALL
各自动负责系统的周运维报告
月
月运维报告
ALL
每月第一周,各系统工程师提交上月运维报告
运营商付费及对账
网络工程师
3G卡,联通带宽付费跟踪
网络设备备份
网络工程师
每月第一周备份所有设备配置
流里统计
网络工程师
每月5号前,提交各中心流量统计
季
机房UPS放电检测
网络工程师
每季度第一个月第一周放电
备份数据有效性检查
系统工程师
业务系统备份数据的有效性检查
AD单点登录整理
系统工程师
AD用户绑定对应的计算机名
半年
备份数据恢复测试
系统工程师
抽检,对系统的备份数据进行恢复
空调检测
网络工程师
每半年检查一下整机运行情况,特别是外机
漏洞扫描评估
安全工程师
基线核查、系统漏洞扫描、WEBS洞扫描与修复工
作
年
恢复演练
ALL
关键系统每年演练一次
预算与总结
ALL
从项目、日常运维、维保等方面制定本部门下一年预算
其他
订货会支持安排
ALL
网络保障及安全审核
绩效考核
ALL
根据人力要求
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- IT 基础设施 管理 规范