数据中心专业化运维和管理.docx
- 文档编号:16917888
- 上传时间:2023-04-24
- 格式:DOCX
- 页数:64
- 大小:1.38MB
数据中心专业化运维和管理.docx
《数据中心专业化运维和管理.docx》由会员分享,可在线阅读,更多相关《数据中心专业化运维和管理.docx(64页珍藏版)》请在冰豆网上搜索。
数据中心专业化运维和管理
数据中心专业化运维和管理
四川虹信软件有限公司
2022-4-26
为员工创造价值,为客户创造价值,为社会创造价值
第六章数据中心专业化运维和管理
数据中心作为信息与信息系统的物理载体,目前主要用于与IT相关的主机、网络、存储等设备和资源的存放、管理。
只有运维好一个数据中心,才能发挥数据中心的作用,使之能更好地为业务部门提供强大的支持能力。
本章从IT服务商的角度对数据中心运维管理进行系统的介绍,其出发点在于运维的精确控制、管理水平和服务质量的持续提高,对于其他类型的数据中心建设模式也有较高的参考价值。
6.1数据中心运维管理概述
6.1.1运维目标
从数据中心角度来看,数据中心运维管理就是:
为提供符合要求的信息系统服务,而对与该信息系统服务有关的数据中心各项管理对象进行系统的计划、组织、协调与控制,是信息系统服务有关各项管理工作的总称。
数据中心运维是数据中心生命周期中最后一个、也是历时最长的一个阶段。
所谓生产运维期指的是从数据中心项目交付使用,直到项目废除的全过程,也就是项目进行生产运维活动,收回投资,以实现预期投资目标的周期。
在此阶段的运维管理,将依托于数据中心已交付的基础设施,通过科学的管理,最终使数据中心得以实现服务与经济上的目标。
简单地说,运维管理就是用好、管好已建设交付的数据中心。
因此,在数据中心生命周期中,运维管理主要肩负起以下重要目标:
合规性、可用性、经济性、服务性四大目标。
1.合规性
合规性,要求数据中心在运维管理过程中能避免违反任何法律、法规、标准与合约文件等规定。
这里要求数据中心在运维管理的管理框架设计与执行全过程(包括人员使用、流程设计、产品部署与厂商管理等),能充分考虑有关文件的要求,并在运维管理过程中留下相应的记录,建立起相应的管理评估机制,以向利益相关方证明其能达到合规性的目标。
2.可用性
可用性,要求数据中心在运维管理过程中能保证数据中心各功能组件保持支持既定功能的能力。
这里要求数据中心在运维管理过程中能准确识别相关功能组件,了解该组件的设计能力,定义与该组件技术特点相匹配的监控指标,并通过主动与被动的管理,最大限度地保证数据中心各管理组件的可用性。
3.经济性
经济性,要求数据中心在整个运维管理周期中实现数据中心预先要求的财务目标。
这里要求数据中心在运维管理过程中,要建立IT财务机制,一方面通过合理的财务预算、会计、成本分析等手段准确、及时地分析、记录运维管理过程中的各项支出;另一方面要制定相应的计价模式,将数据中心运维过程中的成本合理地分摊。
此外,要通过财务管理,使数据中心在运维管理上实现成本与其他管理目标的相对平衡。
4.服务性
服务性,指数据中心应建立服务导向型的运维管理框架。
要从服务的角度出发,分析客户与数据中心的各种交互界面,以此为源头构建各种管理流程,最终形成整体管理框架。
比如,数据中心在管理体系的设计上可以参考ITSM(IT服务管理体系)的要求,建立服务台、服务水平管理、业务关系管理等流程,以此来驱动后台运维管理工作。
6.1.2.运维对象
如前所述,数据中心的运维管理指的是与数据中心信息服务相关的管理工作的总称。
因此,在探索数据中心运维管理方式之前,必须要理清数据中心的运维对象,才能针对数据中心特定的运维对象建立相应的管理模式。
数据中心运维对象共分成5类,如图6-1所示。
图6-1数据中心运维对象
第一类运维对象是基础设施部分。
这里主要指为保障数据中心所管理IT设备正常运行所必需的网络通信、电力资源、环境资源等。
这部分设备对于客户来说几乎是透明的,因为大多数客户基本上只关注业务,并不会关注到数据中心的风火水电。
但是,这类设备如发生意外,对依托于该基础设施的IT应用来说,却是致命的。
基础设施部分的主要内容如图6-2所示。
图6-2数据中心基础设施
第二类运维对象是在提供IT服务过程中所应用的各种IT设备,包括存储、服务器、网络设备、安全设备等硬件资源。
这类设备在向用户提供IT服务过程中提供了计算、存储与通信等功能,是IT服务最直接的物理载体。
第三类运维对象是系统与数据,包括操作系统、数据库、中间件、应用程序等软件资源;还有业务数据、配置文件、日志等各类数据。
这类管理对象虽然不像前两类管理对象那样“看得见、摸得着”,但却是IT服务的逻辑载体。
第四类运维对象是管理工具,包括了基础设施监控软件、IT监控软件、工作流管理平台、报表平台、短信平台等。
这类管理对象是帮助管理主体更高效地管理数据中心内各种管理对象,并在管理活动中承担起部分管理功能的软硬件设施。
通过这些工具,可以直观感受并考证到数据中心如何管理好与其IT直接相关的资源,从而间接地提升IT的可用性与可靠性。
第五类运维对象是人员,包括了数据中心的技术人员、IT运维人员、管理人员以及提供服务的厂商人员。
人员一方面作为管理的主体负责管理数据中心运维对象,另一方面也作为管理对象,支持IT的运行。
这类对象与其他运维对象不同,具有很强的主观能动性,其管理的好坏将直接影响到整个运维管理体系,而不仅仅是运维对象本身。
所以,下文将有专门章节探讨对人员的管理。
6.1.3.运维要求
由于数据中心运维对象涉及种类比较多,从供配电设施到IT设备、到应用系统、到各类人员,这无疑要求数据中心的运维管理应能适应上述所有的管理对象。
另外,作为IT服务的物理载体,客户对IT服务实时性、安全性、可靠性等的要求最终将内化为对数据中心运维管理的要求。
最后,如果该数据中心要通过一些专业认证,或为一些特殊行业提供IT服务,其运维管理必须符合相关标准与行业规范。
以下列举了部分运维管理方面的要求。
1.信息安全的要求
随着技术的广泛应用与信息的转型,信息对机构来说,已经变得与土地、人力与资金等传统资源同等重要。
另外,随着信息面临的威胁逐年增加,如病毒、钓鱼网站、间谍软件、错误操作、越权使用、人员安全等,作为承载客户信息系统运行的数据中心而言,信息安全绝对是其运维管理的重要要求。
2.运维管理服务化的要求
随着客户对IT系统依赖程度的增加,数据中心的工作质量将直接影响到客户的业务、市场甚至是公司形象等。
由于信息系统宕机导致企业一天遭受数千万元的损失,甚至被监管机构处罚的例子屡见不鲜。
这个变化使得数据中心的运维管理逐渐浮出水面,数据中心运维管理团队已从原来的机房管理者演变成了IT服务的提供者。
如何定义数据中心工作与服务的关系,如何建立与客户之间的服务水平协议,如何快速地支持客户业务的IT服务需求,如何规划好IT系统建设更好地为业务部门提供发展的动力等,均成为数据中心运维管理规划过程中不可或缺的一部分。
3.全面质量管理的要求
数据中心运维管理的目标之一就是要保障用户IT服务的按质提供,该目标又可细分成基础设施的可用性、IT设备的可用性、配置管理的有效性、人员对设备操作的熟练程度、服务商管理的到位程度等多个方面。
由于数据中心与制造企业不同,上述服务性的工作毕竟无法像工业产品那样容易衡量质量,而且就算是在检查的时候服务质量是合格的,也无法确保在需要该服务时服务质量也是合格的。
因此,如何做好全面的质量管理是数据中心运维管理的主要内容。
4.管理制度体系化的要求
数据中心作为一个新生事物,对其运维管理也是近年才兴起的一门学科。
因此数据中心的运维管理制度主要靠运维人员利用以往的经验,并总结数据中心管理过程中的经验教训而逐渐建立起来的。
这样的管理制度能满足一定的管理要求,但由于没有一个标准的指导,而且在搭建初期主要遵循从下而上的方式,从而导致整个制度的体系化不足。
这种体系化不足的缺陷会导致企业管理出现零散化,也就是当组织面临一个新的工作或管理要求时就会产生一个新的制度,而该制度与原有制度之间的关系则难以进行整合,最终会使管理者无所适从。
5.管理制度测量的要求
随着IT技术应用的广泛和深入,以及精细化管理的提出,量化管理已成为许多成熟企业努力的方向。
作为直接支撑IT服务的数据中心来说,也需要导入这种量化的管理方式,用数字来说话。
这就要求数据中心在构建运维管理体系时,要考虑将来的测量需求,并在流程中预留这些测量点,最后通过报表、记录的输出,达到对该制度进行测量的要求。
6.2数据中心运维管理框架
6.2.1.运维管理框架4Ps概述
所谓数据中心运维管理框架是指管理一个数据中心所使用的方法与手段的总称。
那么,应该用什么样的方法与手段来管理数据中心呢?
在此,信息技术基础架构库(InformationTechnologyInfrastructureLibrary,ITIL)给出了一个比较好的管理框架,即所谓的4Ps。
数据中心运维管理框架如图6-3所示。
图6-3数据中心运维管理框架
1.人员
人员是数据中心运维管理的基础,也是数据中心运维管理的核心。
一个好的数据中心运维管理框架,少不了合适的技术和管理人员。
从前面数据中心运维管理概述中,可以看到数据中心所需要管理的对象,包括基础设施、IT设备、系统与数据、管理工具和人员等。
只有具备相应知识背景与管理经验的人,才能有效地整合上述资源,为客户提供符合质量与合同要求的IT服务。
因此,在考虑建设数据中心运维管理框架时,必须要考虑到:
如何建立起一套科学合理的包括选、用、培养、考核及解聘的人员管理生命周期;如何通过合理的组织架构设计与人员分工,最大限度地发挥个人的主观能动性,为组织目标贡献力量等。
2.流程
流程是数据中心运维管理质量的保证。
作为客户IT服务的物理载体,数据中心存在的目的就是保证服务可以按质、按量地提供。
服务与产品有着许多的不同,其中最核心的不同在于服务本身是看不见、摸不着的,但又是能通过服务商与客户的互动为客户所感受到的。
为确保最终提供给客户的服务是符合服务合同的要求,数据中心需要把现在的管理工作抽象成不同的管理流程,并把流程之间的关系、流程的角色、流程的触发点、流程的输入与输出等进行详细定义。
通过这种流程的建立,一方面可以使数据中心的人员能够对工作有一个统一的认识,更重要的是通过这些服务工作的流程化使得整个服务提供过程可被监控、管理,形成真正意义上的“IT服务车间”。
3.产品
产品是数据中心运维管理的加速器。
数据中心运维管理涉及的对象庞杂,且重复性工作较多。
若完全依靠人工去完成这些工作,一方面对人员的技能与数量有较高的要求,另一方面在工作质量的保证方面也存在风险。
为此,越来越多的数据中心在开展运维管理工作时使用大量工具,目的是通过这些工具的部署取代一些监控、操作、配置文件、工作流管理等大量重复性工作,最终实现提升运维水平、降低运维风险、减少运维成本的目的。
4.服务商
服务商是数据中心运维管理的支持者。
作为专业化的数据中心运维管理,有效地整合数据中心管理对象,并最终为用户提供专业化的服务才是数据中心服务提供者的核心价值所在。
而且,数据中心运维管理中涉及了太多不同种类的设备,数据中心也不可能把所有的技术与管理工作独自承担。
聘用一批既懂变压器、发电机、UPS,又了解空调、消防、防火设备,同时还精通IT相关软硬件的人员,对于任何一个企业或机构均是极大的成本支出。
所以,数据中心需要与许多设备供应和服务提供商建立良好的战略合作关系。
6.2.2.运维管理的人员要求
如前所述,人员既是数据中心运维管理的基础,也是数据中心运维管理的核心。
一个数据中心组建团队时应注意什么呢?
以下重点就人员技能、人员分工与人员管理三个方面谈一下数据中心运维管理方面的人员要求。
1.人员技能
现在回到数据中心的运维对象来分析数据中心需要配备怎样的人员。
数据中心人员技能构成如图6-4所示。
图6-4数据中心人员技能构成
基础设施操作和技术人员。
这类人员的主要职责是保障与数据中心服务相关的基础设施的稳定运行。
他们应掌握数据中心各类基础设施的原理、使用方式、维护方式,并具备简单故障诊断的能力。
而且还能协助开展数据中心场地、设备性能的能力管理与可用性管理。
由于数据中心业务的特殊性,这类人员需能支持7×24小时服务。
IT设备与IT系统的操作或技术人员。
这两类人员的主要职责是保障客户IT服务相关的设备与系统的稳定运行,同时根据客户的要求完成IT系统的检查、后台操作、批作业处理、备份、恢复等相关工作。
如果数据中心规模较大,将会按技能的不同将IT人员分成硬件类与系统类的两组人员。
如果数据中心规模较小,通常会将这两组人员合并,统一负责数据中心所有IT设备与系统的操作与维护。
系统工具管理人员。
这类人员与IT设备、系统管理人员最大的不同就是服务对象的区别。
前面的IT设备、系统管理人员是围绕客户相关IT设备与系统提供服务,而系统工具管理人员则类似于内部的IT部,是为包括IT运维管理人员、IT系统技术操作人员、IT设备技术操作人员、基础设施技术操作人员在内的所有人员提供服务。
而服务的手段主要是通过对现有技术管理工作进行分析,找出数据中心管理的诉求,并通过向外采购或自行开发的方式以技术的手段去满足上述管理诉求。
他们对于数据中心外部的供应商来说,承担了管理者与项目经理的角色,对于数据中心内部的技术管理人员来说,则承担着需求分析、技术支持的角色。
IT运维管理人员。
这类人员主要的职责是通过建立有效的管理模式,组织上述所有人员,管理好所有的管理对象,按质按量地向客户提供数据中心业务服务。
这些人员应具备数据中心管理基本知识,了解与之相关的国内外管理标准,具备相应的流程建设与实施能力、良好的客户沟通能力和较好的财务知识。
2.人员分工
数据中心在人员的分工上通常有两种做法:
一种是职能支撑型的组织分工,另一种是流程驱动型的组织分工。
1)职能支撑型分工模式
职能支撑型分工模式主要是把具备同样技能与类似工作目标的人员整合在一个部门当中,他们承担起数据中心的部分职责,部门内的成员向部门领导汇报,部门领导向中心领导汇报,类似于管理学中的“直线-职能型”的组织分工。
数据中心组织分工如图6-5所示。
图6-5职能支撑型的分工模式
该种分工的优点为:
既保证了企业管理体系的集中统一,又可在各级负责人的领导下,充分发挥各专业管理机构的作用。
其缺点是:
职能部门之间的协作和配合性较差,职能部门的许多工作要直接向上层领导报告请示才能处理,不仅加重了上层领导的工作负担,也造成办事效率低,组织内耗大等问题。
这种组织适用于企业规模较小、业务系统相对稳定、项目工作不多、并为企业内部提供IT服务的数据中心。
在这种情况下,数据中心的运维管理相对比较稳定,按此种方式组织的工作团队,可以较高效地开展工作。
同样由于外部环境比较稳定的原因,许多工作的分工可以提前制定并加以明确,无需部门之间太多的沟通协调,从而避免了这种组织架构的最大缺陷之一——“跨部门合作”。
2)流程驱动型分工模式
流程驱动型分工模式特征为既有按职能划分的垂直领导系统,又有按客户(项目)划分的横向领导关系的结构。
其中,垂直领导侧重于人员与能力培养的管理,横向领导侧重于与客户服务、项目工作相关的管理。
这种分工模式从组织的角度去看,可以看到企业内存在不同的职能部门与人员,这些人员是如何支持到不同的项目虚拟团队当中,如图6-6所示。
这种分工模式的优点在于,可以改进“职能支撑型分工模式”横向联系差、缺乏弹性、客户/项目关注程度不高的问题。
它的特点表现在围绕某项专门任务、或某个客户成立跨职能部门的专门机构上。
例如,组成一个专门的客服团队去从事该客户服务相关的工作,在系统设计、系统集成、系统上线、系统运维各个不同阶段,由相关部门派人参加,力图做到条块结合,以协调有关部门的活动,保证任务的完成。
这种组织结构形式是固定的,人员是相对不固定的,任务完成后就可以离开。
人员的调动主要依靠相关工作流程,各部门人员在不同的流程中承担相应的角色职责,通过在流程中不同角色的工作来实现这种虚拟团队的合作。
此外,由于这种分工模式基于多项目、多数据中心管理,故新增项目或数据中心不会对组织带来太大的影响。
这种分工模式的不足为:
项目负责人/客服经理的责任大于权力,因为参加项目的人员都来自不同部门,隶属关系仍在原单位,只是为“会战”而来,所以项目负责人对他们管理困难,没有足够的激励手段与惩治手段,这种人员上的双重管理是矩阵结构的先天缺陷;由于项目组成人员来自各个职能部门,当任务完成以后,仍要回原单位,因而容易产生临时观念,对工作有一定影响。
这种分工模式适用于客户种类较多、服务要求不一致,数据中心较多的企业类型。
但前提在于要在企业内部建设起较好的管理流程与人员激励机制,且垂直机构有较强的人员培养能力。
3.人员管理
考虑到人员管理对数据中心运维管理相当重要,因此需要针对企业用人的生命周期,结合一些安全的控制来建立对数据中心人员的管理体系。
6.2.3.运维管理的流程要求
数据中心建立的管理流程除应满足数据中心自身特点外,还应能兼顾客户、管理者、服务商与审计机构的需求。
由于每个数据中心的实际运维情况与管理目标存在差异,数据中心需要建立的流程也会有所不同。
为能让读者对数据中心运维管理流程可能涵盖的范围有一个较为全面、规范的了解,本节以基于ISO20000、ISO27001、ISO9001和ITIL等标准要求而建立的商业数据中心为例,介绍数据中心在运维管理流程建设方面的要求。
1.运维管理流程的范围
数据中心管理框架应包含以下七个管理领域:
(1)体系管理平台:
以ISO9001质量管理体系框架搭建的管理平台作为管理接口。
管理层通过这些流程制定管理方针目标,测量目标的执行,监督流程管理效果,执行PDCA(即Plan、Do、Check和Action)循环,以改进数据中心绩效,管理数据中心各类资料文件。
(2)资源管理域:
包含数据中心内部人员、网络、设备、基础设施、环境等资源的管理流程,是数据中心统一管理的内部资源。
(3)服务管理域:
包括与客户交互的相关流程文件,是数据中心与客户的管理接口。
(4)服务支持管理域:
包括数据中心内部运作过程中的事件、问题、变更、发布处理流程等。
(5)服务交付管理域:
数据中心财务管理、服务的策划和变更、可用性管理、容量管理、业务连续性管理等方面的管理内容。
(6)资源信息管理域:
包括数据中心的信息资产管理、配置管理、输入/输出管理、风险评估等工作的管理。
(7)厂商管理域:
包括服务商管理的相关流程,是服务商与数据中心管理的接口。
以上7个管理域所构成的管理体系框架内的流程,按照ISO9001标准的要求被划分为4阶文件。
第一阶文件是“手册”,包含体系管理平台部分的全部文件。
用于管理层对整个管理体系进行管理,制定方针目标、进行管理评审等工作。
第二阶文件是“指南”,该阶文件根据数据中心各部门的职责规定了某一具体业务的流程,并涵盖了除“体系管理平台”外其余6个管理域的文件。
公司管理层可以通过这一阶文件规定各部门的工作范围及业务在各部门间的流转过程。
第三阶文件是“工作指引”,是数据中心各部门根据第二阶文件要求编写的具体部门的具体业务操作手册。
同样涵盖了除“体系管理平台”外其余6个管理域的文件。
该阶文件是数据中心各部门管理其内部工作的重要依据,也是员工执行管理体系的指导文件。
第四阶文件是“支持性文件”,包括支持业务流程运行的各类表单、技术文件。
该阶文件记录数据中心各项业务流程运行的具体情况,还可作为体系运行结果的直接证据。
2.体系管理平台
体系管理平台用于管理层对整个管理体系进行管理,制定方针目标、进行管理评审,持续的改进数据中心的各项流程制度。
它是以ISO9001质量管理体系为基础搭建的管理整个数据中心运维管理体系的管理平台。
主要作用有两项:
(1)为数据中心的管理层提供管理整个数据中心运维体系的界面。
数据中心通过管理平台内的流程,进行方针、目标的制定、企业内部资源的分配、流程文件的修订发布、管理流程执行效果的审核、管理评审、运维数据的收集评审、执行持续改进运维体系的措施、调整管理体系框架等工作。
(2)为外部审核机构及客户了解数据中心的管理体系框架提供参考。
体系管理平台的文件主要包括8个,分别是:
(1)管理手册:
描述管理体系的框架结构、执行范围、组织结构及各部门的主要职责。
(2)适用性说明:
描述管理体系所遵循标准的适用条款及不适用条款的说明。
(3)文件管理手册:
用于规定数据中心管理体系内的文件修订、发布、废止、文件版本控制、文件标示控制、文件保管的规定、文件的废止销毁流程。
(4)记录和资料管理手册:
用于规定各类文件资料的保密等级及使用权限控制规定、查阅权限及保密资料的查阅申请流程、记录资料的保管规定(例如,保管期限、保管部门、记录资料的作废、销毁规定等)。
(5)内部审核手册:
规定了数据中心进行内部管理体系审核的周期,审核范围,内部审核员的选用方式,执行内部审核的流程,各部门在内部审核中的职责,审核后的纠正预防措施的制定、执行工作,纠正预防措施执行效果的监督检查工作。
(6)纠正预防措施手册:
用于规定整个管理体系在审核、管理评审过程中发现的需改进工作的纠正预防措施的制定、执行、监督检查工作的流程,以确保纠正预防措施被有效落实。
(7)管理评审手册:
用于管理层评估管理体系的运行效果,评估公司各项方针指标的执行情况,修订方针、目标,适时修订体系文件。
(8)不合格控制手册:
规定了服务不合格的概念及发生服务不合格后的处理方法。
3.资源管理
数据中心资源管理所涵盖的范围很广,包括环境管理、网络管理、设备管理、软件管理、存储介质管理、防病毒管理、应用管理、日常操作管理、用户密码管理和员工管理等。
1)环境管理
数据中心环境安全管理的重点在于如何根据不同区域的特点使用不同的安全管控和出入原则。
对重点的区域可以选用先进的安全设备,使用严格的进出管理控制制度进行管理。
在制定数据中心环境管理相关文件时,通过对各区域内所存放的信息资产的等级进行分析,将数据中心划分成不同类别的管控区域和安全区域。
建议至少划分为3类区域:
公共区域、办公区域、安全管制区域。
(1)公共区域:
这些区域通常用于数据中心生活与展示的配套区域。
该区域允许员工及获准进入数据中心的第三方、客户在遵守相关制度的前提下自由进出。
(2)办公区域:
数据中心内存放日常行政办公信息处理设备和其他办公设备,开展日常工作的区域。
这类区域的进入通常需要办理相关的进入申请,配备有视频监控系统。
(3)安全管制区域:
数据中心内存放核心信息处理设备和供配电等基础设备,开展一线服务工作的区域。
这类区域严格限制人员设备的进出,有先进的门禁及监控系统以确保信息系统安全。
在编制环境管理相关流程时应考虑人员进出的要求,还应考虑设备和物品进出的流程。
设备和物品的进出应得到正式的审批,特别是对于安全管制区域所有的IT类设备、存储介质应重点控制。
2)网络管理
网络作为数据中心重要的资源,应制定相关流程予以控制。
建议网络管理流程包括如下管理内容:
(1)网络拓扑结构:
应明确网络的拓扑结构,创建网络拓扑结构图,并在网络结构变化时及时更新拓扑图。
网络拓扑结构的变化应有记录并得到适当的审批,应有专门的人员负责网络拓扑结构的调整。
(2)网络的访问管理:
应将网络划分为不同作用的网段,例如办公网、生产网、管理网,公共网络。
规定有权访问各类网络的设备和人员,明确网络接入的申请、审批流程和终止接入的流程,做到网络接入、终止接入过程受控,有专门的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据中心 专业化 维和 管理