政务云运维管理规范1122 试行.docx
- 文档编号:6046757
- 上传时间:2023-01-03
- 格式:DOCX
- 页数:22
- 大小:136.51KB
政务云运维管理规范1122 试行.docx
《政务云运维管理规范1122 试行.docx》由会员分享,可在线阅读,更多相关《政务云运维管理规范1122 试行.docx(22页珍藏版)》请在冰豆网上搜索。
政务云运维管理规范1122试行
附件8:
政务云运维管理规范
(试行)
2012年11月
1引言
政务云运维管理规范遵循ISO20000和ITSS的基本准则,针对政务云的技术构成方式、服务供应特征、服务评价方式,通过基本标准框架下的扩充形成,规范政务云运维活动中涉及的各类实体,以及这些实体间的相互关系。
组成运维服务管理体系的实体包括运维服务管理对象、运维活动角色及运维管理组织结构、运维服务管理流程、运维服务支撑系统和运维服务五个要素。
政务云运维管理规范
11 范围
本部分规定了政务云运维管理的要素、流程和主要内容。
本部分适用于规范政务云运维活动中涉及的各类实体,以及这些实体间的相互关系。
12 术语和定义
以下术语和定义适用于本部分。
12.1 术语
政务云
在电子政务领域以云计算模式提供服务的各类云平台的统称。
运维服务
运维服务是指运维服务供应商或运维部门综合利用各种IT运维支撑工具提供的确保IT基础设施和应用系统正常、安全、高效、经济运行的服务。
本部分中规范的运维服务包括IT基础设施运维服务、IT应用系统运维服务、安全管理服务、网络接入服务、内容信息服务以及综合管理服务。
运维服务管理流程
运维服务管理流程是指为了支持运维服务的实现和提供,以确定的方式执行或发生的一系列有规律的行动或活动。
运维服务支撑系统
参与运维的各方为支持运维服务目标所使用的信息化工具,是支撑运维服务实施的平台。
配置管理数据库configurationmanagementdatabase
包含每一个配置以及配置项之间重要关系的详细情况的数据库。
[ISO/IEC20000-1:
2005,定义2.5]
工作说明书statementofwork
合同的重要附件之一,详细规定了合同双方在合同期内应完成的工作,如项目范围、工作描述、进度表、风险、需方责任等。
服务级别协议servicelevelagreement
服务提供商与顾客之间签署的记录了服务和约定服务级别的协议。
[ISO/IEC20000-1:
2005,定义2.13]
外部事件externalevents
为服务对象运行提供支撑的、协议获得的、不可控、非自主运维的服务资源(例如互联网、市电、租赁的机房等等)中断引发的事件。
系统事件systemevents
在运维对象范围内的、自主管理或运维的系统资源服务中断引发的事件。
安全事件securityevents
由于安全边界破坏、安全措施或安全设施失效,造成的安全等级下降或信息被非法盗用等需方(数据中心)利益被侵害的事件。
12.2 缩略语
CMDBConfigurationManagementDatabase配置管理数据库
SOWStatementOfWork工作说明书
SLAServiceLevelAgreement服务级别协议
APUAuxiliaryPowerUnits辅助动力装置
ATSAutomaticTransferSwitch电源快速切换装置
UPSUninterruptedPowerSupply不间断电源
VPNVirtualPrivateNetwork虚拟专用网
QOSQualityofServices服务质量
ISOInternationalOrganizationforStandardization国际标准化组织
ITInformationTechnology信息技术
ITILInformationTechnologyInfrastructureLibraryIT基础架构库
13 政务云运维管理要素框架
政务云运维服务管理由运维活动角色及运维管理组织结构、运维服务支撑系统、运维管理对象、运维管理流程和IT运维服务等五个要素组成,其主要内容及其相互关系如下图所示。
图1政务云运维管理框架
14 政务云业务运维活动角色及运维管理组织结构
政务云业务运维活动角色是指从事运维活动的所有组织、部门或者具体工作人员,一般包括运维服务提供者、运维服务使用者、以及运维服务管理者三类角色。
各类角色在运维活动中所构成的组织形式构成了运维管理组织结构。
15 政务云业务运维服务支撑系统
运维服务支撑系统是支撑运维管理组织中各运维角色按照规定的运维流程开展运维活动的信息化系统。
一方面,运维服务支撑系统支持运维服务提供者对运维服务管理对象进行管理,以实现运维服务的能力;另一方面,支持运维服务提供者按照商定的服务级别协议方便地向运维服务使用者提供运维服务;同时,要支持运维服务管理者对整个运维服务的考核、监督和评估。
16 政务云业务运维管理对象
运维服务管理对象主要包括基础设施、物理资源、虚拟资源、数据、平台资源、应用资源、用户和IT供应商。
广义概念下,有时也将组织内部从事IT运维活动的部门和人员作为运维服务管理对象。
图2政务云运维管理对象
17 政务云业务运维管理流程
运维服务管理流程是指联系运维服务提供者、运维服务使用者以及运维服务管理者之间开展规范化协同工作的机制和方法。
完整的运维服务管理流程应该覆盖运维服务的规划、设计、运行和持续改进等各个环节,本规范主要针对支撑运维服务运行阶段的相关流程。
运维服务管理流程的信息化可借助运维服务支撑系统得以实现。
政务云运维管理的流程如图3所示。
图3政务云运维管理流程
18 政务云业务IT运维服务
IT运维服务是运维服务提供者向运维服务使用者提供的服务产品,相关的运维服务质量应该可度量,服务提供方式应该符合规定的流程。
在本部分中规范的运维服务包括云设施运维服务、基于云的应用系统运维服务、云安全管理服务、支持政务云网络接入服务、内容信息服务以及其他综合管理服务。
运维服务的自动化实施需要依靠运维服务支撑系统。
联系运维服务提供者、运维服务使用者以及运维服务管理者之间开展规范化协同工作的机制和方法。
完整的运维服务管理流程应该覆盖运维服务的规划、设计、运行和持续改进等各个环节,本规范主要针对支撑政务云运维服务运行阶段的相关流程。
运维服务管理流程的信息化可借助政务云运维服务支撑系统得以实现。
19 政务云系统运维
19.1 计算资源池
19.1.1 服务实施对象和活动
对象为分布式的虚拟计算资源(虚拟机、虚拟机监控器(Hypervisor)、虚拟计算资源池(ResourcePool))集群,充分利用集群汇聚的强大威力,对海量数据做分布式的处理快速的完成数据分析工作。
集群的维护特点是集中管理,集中控制,集中运维,有效监控,提前预警感知,为计算系统的正常而有序的运行提供坚实的基础。
19.1.2 例行操作
19.1.2.1 监控
虚拟计算资源监控主要监控虚拟计算资源的运行状况变化趋势及其指标。
具体见表1,包括但不限于:
表1
服务对象
监控内容
虚拟计算资源
虚拟机监控器CPU负荷
虚拟机监控器磁盘IO负荷
虚拟机监控器内存负荷
虚拟机监控器网络IO负荷
虚拟机监控器网络链路状态监控
虚拟机监控器服务进程监控
虚拟机监控器计算资源分配监控
虚拟机监控器系统日志异常监控
计算资源池资源分配监控
虚拟机CPU负荷
虚拟机磁盘IO负荷
虚拟机内存负荷
虚拟机网络IO负荷
19.1.2.2 预防性检查
对于虚拟计算资源预防性的检查,包括:
虚拟计算资源故障的提前预警,系统运行趋势的分析,安全日志的分析等。
虚拟计算资源的预防性检查参见表,包括但不限于:
表2虚拟计算资源预防性检查表
服务对象
性能检查
脆弱性检查
虚拟计算资源
检查虚拟机监控器CPU使用峰值情况
检查虚拟机监控器内存使用峰值情况
检查虚拟机监控器文件系统空间使用情况
检查虚拟机监控器IO读写情况
检查虚拟机监控器网络流量情况等
检查虚拟机的资源分配情况
检查计算资源池的资源分配情况与分配策略
检查物理服务器关键硬件部件是否存在故障
检查计算资源池资源分配是否超过预定阀值
当前虚拟机监控器版本是否安装相关风险补丁
检查虚拟机监控器服务进程的健康状态
检查虚拟机监控器文件空间使用是否达到预定阀值
检查虚拟机监控器系统数据安全防护设置是否满足要求
检查虚拟计算资源安全隔离有效性
19.1.2.3 常规作业
对虚拟计算资源的常规作业参见表,包括但不限于:
表3虚拟计算资源常规作业表
服务对象
常规作业内容
虚拟计算资源
更换损坏的硬件
虚拟机监控器软件升级
日常的可靠性计划制定与演习
脚本维护
制作虚拟机快照
虚拟机手工迁移
虚拟机资源配置更改
虚拟机备份、克隆与恢复
虚拟机的维护包括创建虚拟机,并进行启动、停止、删除、回收等操作
虚拟资源池的扩容与资源再分配
制作与升级标准虚拟机模板
虚拟机映像维护
虚拟机转换
虚拟资源的访问控制与权限管理
制作系统运行状况报告
19.1.3 响应支持
19.1.3.1 事件驱动响应:
针对虚拟计算资源所依赖的硬件,网络及软件故障而进行的响应,包括但不限于
a)解决物理服务器故障
b)解决物理网络设备故障
c)解决虚拟机监控器软件故障或者缺陷
d)虚拟机紧急迁移
e)虚拟资源池紧急扩容
19.1.3.2 服务请求响应:
根据应用系统运行需要或需方、服务相关方的请求,而进行的响应服务,包括但不限于:
a)数据备份与恢复
b)虚拟机备份与恢复
c)系统扩容
d)虚拟机供应
e)虚拟机迁移、回收、变更
f)虚拟资源池变更
g)虚拟资源池的高可用配置、计划实施与演练
h)报表清单
19.1.4 优化改善
19.1.4.1 适应性改善
根据应用系统的要求,进行改善
a)虚拟计算资源CPU、内存容量、硬盘容量、网络的调整
b)虚拟计算资源迁移
c)虚拟机监控器资源调度的算法
19.1.4.2 增强性改善
根据应用的特点和发展要求,以及数据量处理能力要求进行升级,扩容等
a)物理服务器计算能力扩容
b)物理服务器内存扩容
c)物理服务器网络吞吐能力扩容
d)虚拟计算资源高可用性增强与演练
e)虚拟计算资源容错机制增强与演练
f)虚拟计算资源备份恢复测试
19.1.4.3 预防性改善
根据对虚拟计算资源的运行记录和趋势的分析发现潜在的隐患而进行的改进作业,包括但不限于:
a)根据系统监控得到的信息替换可能存在问题的内存,CPU,硬盘,网络设备等
b)根据系统的压力增长趋势主动对物理服务器的数量进行必要的扩容
c)根据系统的发展趋势对网络系统采取必要的扩容
19.1.5 咨询评估
通过对虚拟计算资源的运行记录、运行趋势进行分析,根据应用系统的特点和运行需求,提出物理计算设备、虚拟机监控器、虚拟计算资源池、虚拟机的改进建议和方案。
19.2 存储资源池
19.2.1 服务实施对象和活动
服务实施对象是通过虚拟化建立大规模的分布式虚拟存储资源(虚拟存储卷、存储资源池、服务控制器),提供安全、可靠、实时、高吞吐的数据存储。
虚拟化存储集群集中管理、集中运营、集中维护,以更小的硬件资源和人力资源投入,提供更坚实的存储平台。
19.2.2 例行操作
19.2.2.1 监控
虚拟存储资源监控主要监控各软硬件的运行状况和指标。
具体内容参见表4,包括但不限于:
表4虚拟存储资源主要监控内容
服务对象
监控内容
虚拟存储资源
服务控制器CPU负载情况
服务控制器内存消耗情况
服务控制器整体数据吞吐带宽、IOPS、响应时间和请求队列时间
服务控制器后端数据吞吐带宽、IOPS、响应时间和请求队列时间
服务控制器间数据吞吐带宽、IOPS、响应时间和请求队列时间
服务控制器cache利用情况
存储资源池分配策略与空间使用情况
虚拟存储卷访问吞吐率、IOPS、响应时间和请求队列时间
仲裁控制点(磁盘、服务器等)健康性
服务控制器前后端IO链路
服务控制器后端分布式物理存储健康性
服务控制器各服务网络端口监听情况
服务控制器服务进程的运行状态
服务控制器日志
19.2.2.2 预防性检查
在监控服务的基础上,对虚拟存储资源进行预防性检查,包括:
性能检查、脆弱性检查。
对虚拟存储资源的预防性检查参见表5,包括但不限于:
表5虚拟存储资源预防性检查表
服务对象
性能检查内容
脆弱性检查内容
虚拟存储资源
检查服务控制器下列场景的数据吞吐带宽、IOPS、响应时间和请求排队时间
-整体
-后端
-控制器间
检查虚拟存储卷访问吞吐率、IOPS、响应时间和请求队列时间
检查各服务控制器cache利用率,做为后端存储优化依据
检查存储资源池分配策略与空间使用率
检查虚拟存储卷后端存储的性能匹配
检查服务控制器日志
检查用户请求的错误率
检查所有服务所接受的请求错误率
检查服务控制器冗余度
检查服务仲裁控制点健康性
检查服务控制器微码版本
检查存储资源池分配策略避免过度分配
检查控制器存储虚拟化软件版本一致性
检查虚拟存储资源授权的全局性和统一性
检查数据副本数
检查数据保存的出错率
检查数据传输的出错率
检查数据副本的一致性
统计数据恢复的时间
19.2.2.3 常规作业
对虚拟存储资源的常规作业参见表6,包括但不限于:
表6虚拟存储资源常规作业表
服务对象
常规作业内容
虚拟存储资源
SAN拓扑,端口,Zoning配置维护
服务控制器配置备份和恢复
虚拟存储资源划分
虚拟存储资源权限设置
扩充存储资源池容量
制定和实施异构存储资源池数据快照,镜像,容灾计划
存储资源池内数据在线迁移
数据分层管理
维护数据副本数
资源使用情况统计
用户使用情况统计
服务控制器软件升级
更换损坏硬件
日志文件分析和备份
19.2.3 响应支持
19.2.3.1 事件驱动响应
针对虚拟存储资源的软、硬件故障而进行的响应服务,包括但不限于:
a)解决存储虚拟化软件缺陷或故障;
b)解决服务控制器宕机、重启、死机等;
c)解决服务控制器前后端网络故障;
d)数据恢复;
e)硬件损坏更换;
19.2.3.2 服务请求响应
根据应用系统运行需要或需方、服务相关方的请求,而进行的响应服务,包括但不限于:
a)数据统一备份;
b)数据容灾计划制定,实施与演练;
c)数据访问性能优化;
d)数据在线迁移;
e)数据分级存储,降低存储成本;
f)新增主机分配存储空间;
g)现有主机存储空间调整;
h)主机端多路径软件的安装配置。
19.2.4 优化改善
19.2.4.1 适应性改进
根据应用系统特点和运行需求,对虚拟存储资源进行调整,包括但不限于:
a)服务控制器内存、数量和磁盘数量、容量间的配比;
b)根据数据生命周期,进行存储资源分层调整;
c)数据存储平衡算法调整;
d)服务控制器前后端网络(SAN或IP)端口吞吐速率的调整。
19.2.4.2 增强性改进
根据应用系统的特点和运行需求,通过对虚拟存储资源的运行记录、趋势的分析,对存储设备进行调整、扩容或升级,包括但不限于:
a)存储容量增加;
b)服务控制器数量增加;
c)服务控制器内存容量增加;
d)服务控制器CPU增强;
e)服务控制器前后端网络(SAN或IP)端口增加;
f)存储虚拟化软件升级。
19.2.4.3 预防性改进
根据对虚拟存储资源的运行记录、趋势的分析,结合应用系统的需求,发现存储设备的脆弱点,有针对性地进行改进性作业,包括但不限于:
a)收集磁盘空间的使用情况,及时清理垃圾数据或增加存储设备容量;
b)监控负载情况,必要时增加硬件数量,或提高硬件规格;
c)监控硬件出错率,替换存在问题的硬件;
d)服务控制器微码升级;
e)存储虚拟化软件升级。
19.2.5 咨询评估
通过对虚拟存储资源的运行记录、运行趋势进行分析,根据应用系统的特点和运行需求,提出处理或改进的建议和方案。
19.3 网络资源池
19.3.1 服务实施对象和活动
运维对象是虚拟网络资源(虚拟网卡、虚拟网络资源池、虚拟机网络)和网络设备,基本活动包括例行操作、响应支持、优化改善、咨询评估。
19.3.2 例行操作
19.3.2.1 监控
重点是对虚拟网络资源的运行状态、运行性能、资源使用分配情况进行监控,以便了解其是否满足运行要求。
监控应当采用合适的装备与手段,分配专门人员定期或全时段进行监控。
对虚拟网络资源的监控内容参见表7,包括但不限于:
表7虚拟网络资源监控内容表
运维对象
监控内容
虚拟网络资源
虚拟网络资源的健康状态
虚拟网络资源池分配状况
虚拟网络资源的链路状况如端到端时延变化、链路端口工作稳定性、链路负载百分比
虚拟网络资源配置变动监控
虚拟网络资源操作日志监控
虚拟网络资源安全事件监控
19.3.2.2 预防性检查
应在监控服务的基础上,对虚拟网络资源进行预防性检查。
包括:
性能检查、脆弱性检查。
对虚拟网络资源的预防性检查内容参见表8,包括但不限于:
表8虚拟网络资源预防性检查内容表
运维对象
性能检查内容
脆弱性检查内容
虚拟网络资源
检查虚拟网络资源健康状态
检查虚拟网络资源CPU使用峰值情况
检查虚拟网络资源内存使用峰值情况
检查虚拟网络资源端口的吞吐率
检查虚拟网络资源链路的健康状况,包括IP包传输延时、IP包丢失率、IP包误差率、无效IP包(包括攻击性IP包、欺骗性IP包、垃圾IP包等)
检查虚拟网络资源的链路冗余度要求
虚拟网络资源使用度和调度情况评估
虚拟网络资源可用性周期性检查
虚拟网络资源安全事件周期性整理分析
19.3.2.3 常规作业
虚拟网络资源的常规作业内容参见表9,包括但不限于:
表9
运维对象
常规作业内容
虚拟网络资源
虚拟网络资源配置备份及存档
监控虚拟网络资源日志备份及存档
虚拟网络资源日志数据分析与报告生成
虚拟网络资源配置变更文件的审核
虚拟网络资源配置变更的操作
虚拟网络资源配置变更的记录
19.3.3 响应支持
19.3.3.1 事件驱动响应
针对虚拟网络资源故障引起的业务中断或运行效率无法满足正常运行要求,而进行的响应服务,包括但不限于:
a)故障定位;
b)虚拟网络资源更换;
c)中断、连通网络连接;
d)关闭、启动端口;
e)更改、恢复配置;
f)停止、启动进程;
g)虚拟网络资源重新调配。
19.3.3.2 服务请求响应
根据应用系统运行需要或需方、服务相关方的请求,而进行的响应服务,包括但不限于:
a)增加、降低虚拟网络资源网络接入数量或速率;
b)更改虚拟网络资源配置;
c)启动、关闭端口或服务;
d)更换、更新或升级虚拟网络资源硬件或软件;
e)调配虚拟网络资源。
19.3.4 优化改善
19.3.4.1 适应性改进
根据应用系统特点和运行需求,对虚拟网络资源进行调整,包括但不限于:
a)设备或链路负载调整;
b)安全策略调整;
c)监控对象覆盖范围调整;
d)路由策略调整;
e)局部交换优化;
f)局部冗余优化;
g)虚拟网络资源调配。
19.3.4.2 增加性改进
根据应用系统的特点和运行需求,通过对虚拟网络资源的运行记录、趋势的分析,对虚拟网络资源进行调整、扩容或升级,包括但不限于:
a)虚拟网络资源调整,如CPU、内存、端口的调配、扩容回收
b)虚拟网络资源网络架构变动;
c)网络架构容量变化,如网络子系统的增减等;
d)系统功能变化,如新增安全系统、新增审计系统等;
e)路由协议应用及部署调整;
f)整体安全策略收紧;
g)虚拟网络资源冗余优化。
19.3.4.3 预防性改进
根据对虚拟网络资源的运行记录、趋势的分析,结合应用系统的需求,发现虚拟网络资源的脆弱点,有针对性地进行改进性作业,包括但不限于:
a)配置参数优化,例如虚拟网络资源的VLAN、QoS、ACL、带宽等;
b)部署路由策略情况下端到端选路变化、端口流量变化、路由条目变化
19.3.5 咨询评估
咨询评估服务包括但不限于:
a)(整体或局部)虚拟网络资源实际负荷与承载能力分析;
b)(整体或局部)虚拟网络资源预期负荷与承载能力分析与建议;
c)(整体或局部)虚拟网络资源架构变动分析与建议;
d)(整体或局部)虚拟网络资源路由策略变动分析与建议;
e)(整体或局部)虚拟网络资源安全策略变动分析与建议;
f)(整体或局部)虚拟网络资源配置调优分析与建议等。
19.4 机房基础设施、软件和数据
机房基础设施、软件和数据等与传统数据中心运维方式一致,参照国标送审稿《信息技术服务运行维护第4部分:
数据中心服务规范》。
传统数据中心与云计算数据中心的服务内容区别
云计算是目前国内外广泛关注的一项技术和应用,它具有大规模、虚拟化、高可靠、高扩展和通用、按需服务等特点。
云计算与数据中心相结合,是未来一段时间数据中心发展的趋势。
云计算数据中心与传统数据中心在运维对象、服务内容等方面存在差异,如下表所示。
表10传统数据中心与云计算数据中心服务内容的主要差异
运维对象
服务内容
传统数据中心
机房基础设施
从以下视角开展例行操作、响应支持、优化改善和咨询评估:
1.单一设备运行维护;
2.以网络关联其他设备及基础设施的运行维护;
3.以应用系统关联设备及基础实施的运行维护。
网络及网络设备
服务器及存储
软件
数据
围绕数据及时性、可用性、完整性、安全性开展的例行操作、响应支持、优化改善和咨询评估服务。
云计算数据中心
虚拟资源(包括网络资源、计算资源和存储资源等)
围绕资源健康状况、使用情况和调度情况开展的例行操作、响应支持、优化改善和咨询评估服务。
软件
围绕软件提供、软件定制、本地化或统一部署、统一维护等开展例行操作、响应支持、优化改善和咨询评估服务。
平台
围绕平台运行、组件服务、个性化定制、场景式服务和统一管理等开展例行操作、响应支持、优化改善和咨询评估服务。
数据
基于虚拟资源,依托软件、平台开展的满足数据及时性、可用性、完整性、安全性要求的例行操作、响应支持、优化改善和咨询评估服务。
运维服务报告
19.5 总则
运维服务实施中,供方应按要求进行服务报告编制、提交。
服务报告通常分为常规报告、事件报告和专题报告三类。
19.6 常规报告
常规报告包括的种类:
提交分为定时、非定时,其内容包括但不限于:
a)报告名称、报告周期;
b)需方、供方相关信息;
c)服务综述;
d)服务对象(机房基础设施、网
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 政务云运维管理规范1122 试行 政务 云运维 管理 规范 1122