吉林省政务云运维服务方案.docx
- 文档编号:10171299
- 上传时间:2023-02-09
- 格式:DOCX
- 页数:16
- 大小:445.62KB
吉林省政务云运维服务方案.docx
《吉林省政务云运维服务方案.docx》由会员分享,可在线阅读,更多相关《吉林省政务云运维服务方案.docx(16页珍藏版)》请在冰豆网上搜索。
吉林省政务云运维服务方案
吉林省政务云运维服务方案
编制单位:
联通(吉林)产业互联网创新基地
编制人员:
审核人员:
编制日期:
2019年9月
1适用范围
本方案适用于中国联通吉林省政务云服务相关的运营管理工作。
2编写方法
本办法以吉林省政务云技术规范为基础,以信息化项目的运维为目标,以管理支撑工具为手段,以流程化、规范化、标准化管理为方法,体现了对运维服务全过程的体系化管理。
3运维服务管理体系
3.1运维服务管理对象
吉林省政务云涉及的云主机、云存储、网络、安全等方面的运营与服务;
3.2运营角色
3.2.1IaaS系统管理员
(1).负责IaaS系统角色及应用项目经理角色的权限管理;
(2).负责IaaS系统基础参数、模板的配置管理。
3.2.2运营管理员
(1).负责整体运营指导;
(2).负责日常经营活动的监管;
(3).负责组织运营;
(4).负责与相关方的组织配合。
3.2.3运营技术员
(1).负责模版制作与调整;
(2).负责配合IAAS管理平台建设方对新进机型进行可用性测试;
(3).其他技术支持。
1.
3.3运维角色
3.3.1运维管理员
负责资源运维管理。
3.3.2运维专业技术员
负责日常运维工作,如巡检、故障处理、问题处理等
3.4应用系统角色
3.4.1项目经理
负责应用系统总体管理。
3.4.2应用维护/开发人员
负责应用系统整体维护开发。
3.5建设角色
3.5.1云平台建设项目经理
负责资源池持续建设项目总体管理。
4运维服务流程
4.1资源申请准入流程
资源申请准入流程图
4.2资源申请流程
资源申请流程图
✓《XXXX系统能力目录》
系统介绍:
系统简介及系统架构;
系统与其他平台关系:
包括但不限于对外接口、对外提供页面、调用其他平台能力、调用第三方平台能力;
系统应用部署全景:
设备清单、APP、网络、数据库、存储;
(适用于新建系统)系统/平台业务承载量评估:
包括系统容量评估、应用服务器空间估算、存储扩容计划、数据库服务器能力估算、应用日志存储空间估算;
(适用于扩容系统)系统/平台业务量评估(XXXX年):
当前业务量、业务量评估、扩容量估算;
总结:
概括说明系统新建或扩容所需设备或空间容量等。
✓《吉林省政务云资源开通申请表》
4.3资源分配流程
应用建设方资源需求审批通过后,由运营管理方根据需求,通过IAAS管理平台完成资源分配;
资源分配操作指导意见:
1.时限要求:
运营管理员接到资源分配工单后,虚拟机2个工作日内,物理机7个工作日内,按照工单需求完成资源分配,并通知应用建设方资源到位情况及权限账号。
2.资源分配成功后,运营管理方应将应用相关申请资料及资源情况与运维管理员共享,以保障整个管理过程的透明一致性。
资源分配流程图
4.4资源变更流程
资源配置变更流程图
4.5资源回收流程
4.5.1虚拟/物理服务器回收标准:
Ø应用系统中存在长期闲置资源,经应用方确认可释放后,应进行闲置资源回收;
Ø应用系统中存在服务器长期性能指标(CPU、内存)过低,造成资源浪费的,经运营管理方评估系统性能分析报告后,仍确认为系统存在配置过高,造成资源浪费的,应进行资源替换;
Ø应用系统集群整体性能指标存在长期过低的情况,造成资源浪费的,应根据系统实际需求,缩减集群规模,释放闲置资源;
存储回收标准:
应用系统中申请的存储资源如果处于长期闲置,经应用方确认可释放后,应进行闲置资源回收;
4.5.2虚拟/物理服务器回收流程:
虚拟/物理服务器资源评估回收管理流程图
性能分析报告应包含内容:
Ø系统负载较低服务器CPU及内存,网络IO,存储IO,系统链接数等性能数据,以性能数据中峰值为准
Ø性能分析结果:
(需要阐明目前资源配置与实际负载差异原因,并给出建议处理结果)
4.5.3资源回收流程
存储资源评估及回收管理流程图
存储性能分析报告应包含内容:
Ø存储空间利用率历史性能数据
性能分析结果:
(需要阐明目前资源配置与实际负载差异过大原因,并给出建议处理结果)
4.6业务迁移配合流程
业务迁移配合流程
5运维服务内容
5.1服务目标
运维项目组(运维角色、运营角色、应用系统角色、建设角色四个角色共同组成项目组)提供的运行维护服务包括,云平台相关的主机设备、操作系统、存储设备的运行维护服务,保证用户现有的信息系统的正常运行,降低整体管理成本,提高网络信息系统的整体服务水平。
同时根据日常维护的数据和记录,提供用户信息系统的整体建设规划和建议,更好的为用户的信息化发展提供有力的保障。
政务云的组成主要可分为两类:
硬件设备和软件系统。
硬件设备包括网络设备、安全设备、主机设备、存储设备等;软件设备可分为操作系统软件、业务应用软件等。
服务项目范围覆盖的信息系统资源以下方面的关键状态及参数指标:
Ø运行状态、故障情况
Ø配置信息
Ø可用性情况及健康状况性能指标
5.2网络、安全系统运维服务
从网络的连通性、网络的性能、网络的监控管理三个方面实现对网络系统的运维管理。
Ø虚拟机之间、虚拟机与云平台之外进行网络通信
Ø根据业务需求可以实现虚拟机内部组网和虚拟网络中心等网络功能
Ø设备基础性能检测:
cpu、内存使用情况监测;
Ø设备日志查看;
Ø网络安全策略应用是否正常;
Ø网络带宽流量的实时监测;
ØDos、ddos等网络攻击情况监测;
5.3主机、存储系统运维服务
提供的主机、存储系统的运维服务包括:
云主机、云存储设备的日常监控,设备的运行状态监控,故障处理,操作系统维护等内容。
进行监控管理的内容包括:
Ø物理服务器和虚拟机的CPU性能管理;
Ø物理服务器和虚拟机内存使用情况管理;
Ø物理服务器和虚拟机硬盘利用情况管理;
Ø物理服务器和虚拟机性能管理;
Ø实时监控物理服务器电源、风扇的使用情况及主机机箱内部温度;
Ø监控物理服务器硬盘运行状态;
Ø监控物理服务器网卡、阵列卡等硬件状态;
Ø监控记录物理服务器磁盘阵列、磁带库等存储硬件故障提示和告警,并及时解决故障问题;
Ø据云租户安全级别的不同设定相应的安全增值服务,保证云租户系统/应用的安全;
5.4日常巡检
1.运维专业技术员每天进行不少于3次机房现场的巡检作业,巡检内容包括所有硬件设备的外观告警灯、空调、电力、消防、门禁系统、网络状态灯等进行巡检,并生成巡检报告。
2.运维管理员每天进行1次云平台系统状态的巡检,巡检内容包括云平台管理系统软件的状态,操作系统CPU、内存利用率、文件系统利用率状态的巡检,并生成巡检报告。
3.运营管理员每天进行2次云平台租户业务的检测,并生成巡检报告。
5.5系统分析优化
1.每个季度由运维管理员梳理政务云整体运行情况和运维质量,输出系统评估报告;
2.如果有运维流程需要改进或者云平台需要优化则输出优化方案,并召集评审;
3.跟踪优化方案落地实施情况,并及时做出调整;
5.6服务总结汇报
1.运维项目组采取周例会制度,例会人员包括运维项目组中四个角色相关人员;
2.各方角色在会议上向省电子政务办运维经理汇报上周的重大运维事件,安排下周的运维计划;
3.会议后由运营管理员输出会议纪要存档。
5.7月度汇报
1.每月5号前,由云运营管理员牵头,运维管理员、运维技术员、项目经理、云平台建设经理组配合编写月度总结报告;
2.每月8号前在内部四个角色内审核通过确定内容完全正确后,10号跟省电子政务办运维经理,省电子政务办领导汇报月度运维报告。
5.8应急预案
●重大故障和严重故障立即报业务主管领导。
●凡系统发生紧急故障时,值班人员必须立即组织抢修,不得拖延。
●7*24值班人员均应熟悉故障紧急处理流程,熟练掌握操作步骤和方法。
●7*24值班人员应如实上报故障情况,故障报告应当做到时间清、原因清、结果清。
对已处理的重大故障和严重故障,事后必须做故障分析,查清故障原因,确定故障性质和责任,采取防范措施,避免同类故障再次发生。
5.9平台培训
5.9.1培训目标
为了满足委办局正常使用云平台,政务云运营服务部将每年组织四次云平台使用的培训,通过培训,确保每一位云平台使用人员能够独立、熟练地完成操作,保证最终用户能够进行简单的云平台操作。
5.9.2培训内容及日程
1.云操作系统运维管理平台虚拟机的日常使用和维护;
2.云操作系统运维管理平台网络部分(防火墙、负载均衡)的日常使用和维护;
3.吉林省政务云平台申请/变更资源流程;
4.吉林省政务云平台报障流程。
课程名称
提供的资料
培训时间
培训对象
培训地点
培训费用
吉林省政务云云平台使用
吉林省政务云操作手册
1天
最终用户系统管理员
省电子政务办会议室
无
5.10服务管理制度规范
5.10.1服务时间
(1)在5*8小时工作时间内设置由专人职守的热线电话,接听内部的服务请求,并记录服务台事件处理结果。
(2)在非工作时间设置有专人7*24小时接听的移动电话热线,用于解决内部的技术问题以及接听7*24小时机房监控人员的机房突发情况汇报。
(3)服务响应时间:
故障级别
响应时间
故障解决时间
I级:
属于紧急问题;其具体现象为:
系统崩溃导致业务停止、数据丢失。
10分钟,30分钟内提交故障处理方案
3小时以内
II级:
属于严重问题;其具体现象为:
出现部分部件失效、系统性能下降但能正常运行,不影响正常业务运作。
10分钟,30分钟内提交故障处理方案
6小时以内
III级:
属于较严重问题;其具体现象为:
出现系统报错或警告,但业务系统能继续运行且性能不受影响。
10分钟,30分钟内提交故障处理方案
12小时以内
IV级:
属于普通问题;其具体现象为:
系统技术功能、安装或配置咨询,或其他显然不影响业务的预约服务。
10分钟,2小时内提交故障处理方案
24小时以内
6应急预案
6.1应急服务响应措施
●重大故障和严重故障立即报业务主管领导。
●凡系统发生紧急故障时,值班人员必须立即组织抢修,不得拖延。
●7*24值班人员均应熟悉故障紧急处理流程,熟练掌握操作步骤和方法。
●7*24值班人员应如实上报故障情况,故障报告应当做到时间清、原因清、结果清。
●对已处理的重大故障和严重故障,事后必须做故障分析,查清故障原因,确定故障性质和责任,采取防范措施,避免同类故障再次发生。
7运维服务SLA
7.1服务可用性
(一)指标定义
(1)计划内停机时间
乙方提前通知且经甲方认定的,为系统正常升级、更新、维护导致的服务停机。
(2)服务中断时间
乙方提供的机房、网络、安全、虚拟机、物理机、存储、运维等方面出现的问题引起应用系统失效时间,经甲方认定由非乙方原因引起的系统失效不包含在内。
(3)正常服务运行时间
当年总运行时间(按365天计算)减去服务中断时间。
(4)服务可用性
正常服务运行时间除以该年总运行时间,即:
服务可用性=(365×24×60×60秒-单个应用失效时间之和(秒))/(365×24×60×60秒)。
(二)指标要求及测量方法
(1)指标要求
政务云平台的服务能力须保证各个应用系统可用性不低于99.9%。
即全年单个政务应用失效时间之和不超过365×24×60×0.001=525.6分钟。
(2)测量方法
表1服务可用性指标测量方法表
序号
指标名称
测量方法
1
正常服务运行时间
向甲方及第三方提供测量结果查看接口,并确认检查结果
2
服务中断时间
向甲方及第三方提供测量结果查看接口,并确认检查结果
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 吉林省 政务 云运维 服务 方案