IBM红皮书上翻译的HACMP原理1.docx
- 文档编号:5617987
- 上传时间:2022-12-29
- 格式:DOCX
- 页数:24
- 大小:50.47KB
IBM红皮书上翻译的HACMP原理1.docx
《IBM红皮书上翻译的HACMP原理1.docx》由会员分享,可在线阅读,更多相关《IBM红皮书上翻译的HACMP原理1.docx(24页珍藏版)》请在冰豆网上搜索。
IBM红皮书上翻译的HACMP原理1
在我们解释什么是HACMP以前,我们先来定义一下高可用性的概念。
Highavailability
在当今复杂的环境下,成功实现IT应用的一个关键要素就是提供不间断的应用服务。
HA就是这样一个可以通过消除计划内/计划外宕机事件从而向客户应用提供不间断服务的部件,它能达到消除从硬件到软件的单点故障(SPOFs)。
一个高可用性解决方案可以保证方案中任何组件的失效(包括硬件、软件或系统管理)都不会造成客户无法访问应用和应用数据。
高可用性解决方案可以通过恰当的设计、计划、硬件选择、软件配置以及细心控制改变管理方法来消除单点故障。
Downtime
停机时间是指应用程序不能为客户端提供服务的时间。
停机时间分为:
计划内:
- 硬件升级
- 维修
- 软件更新/升级
- 备份(离线备份)
- 测试(对群集确认必须进行周期性测试)
- 发展
计划外:
- 管理员过失
- 应用失效
- 硬件失效
- 其他不可抗力(天灾)
IBM针对AIX的高可用性解决方案——HACMP给予饱经考验的IBM群集技术,它包括以下两个组件:
高可用性:
该进程保证应用在用户复制和/或共享资源时是可用的。
群集多处理:
该进程提供在同一节点上多个应用共享或并发访问数据。
基于HACMP的高可用性解决方案提供自动失效检测、诊断、应用恢复和节点重新控制。
在恰当的应用中,HACMP还可以在并行应用处理中提供对数据的并发访问,从而提供更高的可扩展性。
标准的HACMP环境如图1-1。
1.1.1. 历史与发展
IBMHACMP最早可追溯至90年代。
HACMP在1990年开始为RS/6000机器上的应用提供高可用性解决方案。
我们不会提供关于更早版本的信息,原因在于这些版本要么已经不被支持或者已经不再使用,我们只提供近期一些版本的相关信息。
HACMPV4.2.2
较早版本,引入了基于RSCT(ReliableScalableClusteringTechnology)技术的增强的可扩展版本,组、事件管理服务都从并行系统支持(PSSP)中引入。
HACMPV4.3.X
该版本引入了更多的支持,包括32节点、增强的C-SPOC、ATM网络、HACMP任务指南(图形化的HACMP简单配置)、多脚本(安装前、后)、FDDIMAC地址接管、监视和管理增强、节点到节点的迁移以及AIX快速连接支持。
HACMPV4.4.X
该版本中增加了Tivoli集成、应用监视、无退却层叠、增强的C-SPOC、改良的迁移支持、集成HA-NFS功能和软件副本文档(pdf或者doc)。
HACMPV4.5
在线这个版本中要求AIX5L以上,自动配置发现特性、在每个网卡上的多服务标签支持(通过ipaliasing),固定IP地址、64位应用支持、监视和恢复丢失的VGquorum。
HACMPV5.1
该版本在配置简单化和性能增强方面都有了重大改变,V5.1的主要特性如下:
SMIT标准和扩展配置路径
自动配置发现
定制资源组
非IP网络基于通过磁盘的心跳
快速磁盘接管
心跳通过IPaliases
HAS不再保留,现在只有基于IBMRSCT的HACMP/ES
通过使用群集通讯进程提高了安全性(消除了使用AIXr命令,也消除了对/.rhosts文件的依赖)
为群集的定制和同步提高了性能
标准化HACMP术语
简单化配置和维护
增强的在线计划工作表
强制要求varyonVG
自定义资源组
接管节点上服务IP/标签心跳监视
心跳通过IP别名
心跳通过磁盘
不同的C-SPOC增强
GPFS集成
快速接管
群集确认增强
改良的资源组管理
HACMPV5.2
从2004年7月开始,新的HACMPV5.2在管理、配置简单化、自动化和性能方面增加了不少内容:
2-节点配置助手,可以通过SMIT菜单或者Java™接口
文件收集
用户密码管理
Classic资源组不再使用,取而代之的是自定义资源组
自动测试进程
自动群集校验
增强的OLPW可以导出已存在的HACMP群集的配置
事件管理被资源监视和AIX的一个控制子系统(RMC)所取代
增强的安全性
资源组依赖关系
自复原群集
注意:
本书出版时HACMPV5.1和V5.2都已出现,但认证考试仅包括V5.1的主题
1.1.2. 高可用性的概念
需要保护什么?
从根本上讲,在一个关键环境中IT方案就是要提供连续的服务和数据保护!
HA就是完成不间断服务这一目标的。
高可用性基于硬件的可用性和软件(操作系统及其组件)、应用程序和网络组件的可用性。
实现一个高可用性解决方案,你需要:
冗余服务器
冗余网络
冗余网络接口卡
监视
故障检测
故障诊断
自动接管
自动重新控制
实现HACMP的主要目标就是消除单点故障。
1.1.3. 高可用性Vs容错
系统发现和处理软硬件故障可以定义为两种:
容错系统
高可用性系统
容错系统
它是提供冗余的设计为不间断操作而不管故障的发生(除非天灾造成整个站点瘫痪)。
在这样的系统中,所有的组件都是双份的(不管是硬件还是软件),CPU、内存、磁盘都有特殊的设计来提供不间断服务,甚至于一个子系统失效。
这样的系统是非常昂贵和非常专业的。
实现一个冗余系统需要大量的努力和对所有组件的高度定制。
只有在要求0宕机的环境下,容错系统设备和方案才有需求。
高可用性系统
配置为高可用性的系统是一组软件、硬件的组合可以保证系统失效后可以在可接受的宕机时间内恢复。
在这种系统中,软件负责监测到环境故障后将应用交给另一个机器实现队员机器的接管。
因此,在这种环境下重要的是消除SPOF。
例如,如果及其只有一个网络连接,就需要提供第二块网卡以备主网卡失效后接管。
另一点就是通过将数据放在所有节点都可以访问的共享磁盘上并实现镜像。
HACMP软件提供一个框架以及一系列的工具来将应用程序集成到一个高可用性系统中。
应用系统被集成到HACMP群集中需要公正的定制(非应用级别,而是HACMP和AIX平台级别)。
HACMP是一个灵活的平台,它允许集成AIX平台的大多应用,在一个合理的代价下实现高可用性系统。
1.1.4. 高可用性解决方案
高可用性解决方案优点如下:
标准化的组件
可以在已有的硬件上实现
可以和大多应用协同工作
支持大多数磁盘和网络类型
合理的价格实现优秀的可用性
IBM针对p系列服务器的高可用性解决方案有些独特的优点。
这些优点包括:
Proven解决方案(长达14年的产品发展)
灵活性(事实上在单机AIX上运行的应用在HACMP中都被保护)
使用原来的硬件组件
Proven客户支持
考虑提供高可用性解决方案包括:
详尽的设计和计划
消除单点故障
选择适当的硬件
正确执行(没有捷径)
严格的系统管理练习
文档化操作步骤
全面测试
1.2. HACMP的概念
HACMP的基本概念可以作如下分类:
群集拓扑
包含基本的群集组件——节点、网络、通讯接口、通讯设备、通讯适配器。
群集资源
被设为高可用性的实体(例如文件系统、裸设备、服务IP标签、应用等)。
所有资源被组织成资源组(RG),HACMP保持唯一实体——资源组——的高可用性。
资源组可以被一个节点访问或者在并发应用中同时有多个节点访问。
Fallover
在活动节点出现故障时,将资源组从活动节点转移到备份节点的动作。
Fallback
原来的活动节点恢复时,将资源组切换回原节点的动作。
这是将失效节点重新集成到集群的标准动作。
1.2.1. HACMP术语
要理解HACMP的正确功能并利用它,就必须知道一些术语:
群集
为共享资源和相互通讯而通过网络连接在一起的独立主机(节点)或者LPARs称为群集。
HACMP负责定义在协同的系统中那个节点提供服务那个节点不提供服务。
所有节点共同负责维护应用的功能可用(在群集节点失效时)。
节点
在群集中的所有运行AIX和HACMP软件的IBMp系列服务器(或者LPAR)都是节点。
每个节点都有一个资源集(磁盘、文件系统、IP地址、应用)在该节点失效时可以被群集中其他节点接管。
资源
资源是在群集配置中可以从一个节点转移到其他节点的逻辑组件。
所有必须提供高可用性应用的资源被构成资源组(RG)。
当节点失效时,资源组中的组件被一同从一个节点移动到另一个节点。
一个群集可以有多个RG,从而提供节点的效率(也就是HACMP中的Multi-Processing)。
接管
在群集内部节点之间传送资源的操作称为接管。
如果一个节点发生硬件故障或AIX故障,它的资源应用会被移到另一个节点。
客户
客户就是可以通过局域网访问群集节点应用的一个系统。
客户通过运行客户端程序连接到应用所在的服务器上。
1.3. HACMP/XD
AIX下的HACMP是基于软件实现解决连续操作的问题。
它致力于恢复计算机、适配器、以及单一站点的网络故障。
标准HAGEO如图1-2。
要实现异地容灾应用,还需要有附加的软件。
HAGEO提供:
在不同的地理站点间实现群集
HAGEO将HACMP扩展到两地的数据中心,它在站点级别防止了群集单点故障。
远程镜像提供给每个站点一个关键数据的拷贝。
异地容灾的每个站点都可以不间断地运行关键应用即使一个站点发生天灾。
自动失效监测和通告
HAGEO通过HACMP提供自动监测站点或者地理网络失效。
它可以发起恢复进程并向系统管理员报告他所发现的错误,同时接管相应应用。
自动Fallover
HAGEO包含时间脚本来恢复站点会地理网络故障。
这些脚本都集成在标准的HACMP时间脚本中。
和HACMP中一样,你可以通过添加脚本来自定义配置行为。
灾难快速恢复
HAGEO同样在可操作站点间提供快速恢复数据和应用。
远程镜像进程确保当天灾降临时数据在第二个站点始终可用。
恢复时间一般需要数分钟即可,这还不包括应用恢复的时间。
站点恢复时自动重新同步数据
HAGEO用来重新在每个站点间同步的进程是站点恢复进程的一部分。
重建站点的节点会自动更新站点失效期间接受的数据。
可靠的数据完整性和一致性
HAGEIO的地理镜像和地理消息组件确保如果站点失效,存活的站点的数据和失效站点的数据的一致性。
当失效站点重新加入群集时,HAGEO从可操作站点更新数据以确保数据的一致性。
灵活的、可升级的配置
HAGEO软件支持大范围的配置,允许按你的需求配置一个灾难恢复解决方案。
在一个HAGEO群集中最多可以有8个节点,每个站点的节点数目可以灵活配置。
既然远程镜像和他所支持的磁盘设备一样是独立的,HAGEO也是独立于文件系统和数据库的。
因为镜像是透明的,使用远程镜像的应用不需要做任何的改变。
1.3.1. HAGEO/XD:
HAGEOcomponets
本软件有三大重要功能:
地理镜像(远程镜像):
数据通过第一个站点进入第二个站点的镜像过程有一个逻辑设备和一个伪设备驱动。
TCP/IP被用作数据镜像的传送器。
地理镜像可以使用同步或异步模式,这取决于站点间的通讯带宽以及应用的传输量(取决于数据的变化量)。
地理信息:
在两个站点间使用地理镜像传输数据时提供可靠的数据和消息。
地理拓扑:
在整个站点发生灾难时提供集成化的地理镜像工具和HACMP工具提供的故障自动监测和恢复。
灾难恢复:
当一个站点发生故障时,其他存活站点的节点上的群集管理器会立刻监测到这一事件并切换脚色以保持地理镜像应用的可用性。
同样,如果构成群集的主干网络故障,站点中的群集管理器处于无人控制状态,那么群集管理器就会使自己宕机以确保数据不会有分歧。
1.3.2. HACMP/XD:
HAGEO的基本配置
可以配置HAGEO为HACMP支持的任何配置:
包括备用、单方面接管、互相接管以及并发访问配置。
备用配置
备用配置是传统的硬件冗余配置,只有当一个节点失效时其他节点才会启用。
在HAGEO中,这就转化为有一个空闲站点。
当然,它不可能完全空闲(要处理地理镜像进程)。
但是在这个站点的节点不会执行应用。
接管配置:
在接管配置中所有节点都处理应用;不存在空闲站点。
它包含:
- 站点内(本地)接管;
- 远程单向接管;
- 远程双向接管。
并发配置:
在并发访问配置中,一个站点的所有节点对并发卷组进行同时访问并拥有相同的磁盘资源,另外的站点也是同样的配置。
如果一个节点离开站点,资源的可用性不受影响,因为其他节点会将卷组varyon起来。
如果一个站点故障,其他站点将向失效站点提供并发访问一个并发访问可以从群集中任何一个节点访问。
HACMP群集LockManager必须运行在群集的所有节点上。
包括跨地理环境的节点,并非所有的数据库都可以并发访问。
1.3.3. HACMP/XDPPRC集成特性
这一特性最初在HACMPV4.5PTF5和HACMPV5.1中引入,它提供自动远程站点fallove和自动远程拷贝应用数据,应用于所有站点使用IBMESS和PPRC(PeertoPeerRemoteCopy)功能提供存储卷镜像。
当主站点失效后,数据在第二站点依然可用(通过PPRC同步)。
第二个站点必须激活数据拷贝以用来处理交易。
HACMP/XDPPRC集成特性提供自动数据分割拷贝以保证主站点失效后重新在线时的可用性。
更多信息请参阅SA22-7955。
第二章 计划和设计
当计划和设计高可用性群集时,你必须跟随客户的需求。
你应该对最为高可用性的硬件、网络配置和应用有较好的理解;同时,你还应具备在故障中控制应用的行为的能力。
理解应用在故障时的行为对于控制群集在同样环境下起作用是至关重要的。
计划和实现群集的必须信息还覆盖应用程序、环境、硬件、网络、存储、支持和改变过程等环节。
本章将描述以下HACMP群集主题:
节点大小的考虑
群集硬件的计划
软件计划
存储计划
灾难恢复计划
注意:
计划是实现群集的一半,但是,但开始HACMP时,我们不能认为正确的计划就足够了。
如果计划不正确,你会发现自己在随后某一点上会陷入混乱,恢复这些混乱是痛苦的经历。
因此,花些时间来对产品进行计划工作表对以后迁移或者发现问题或者计划文档的价值都是无法估量的。
2.1. 计划编制过程中需要考虑的事项
当编制一个高可用性群集计划时,你应该考虑节点、存储、网络等等的大小以保证应用正常运行所必需的资源——甚至是接管环境。
2.1.1. 大小:
选择群集的节点
开始实现群集之前,你必须知道需要多少个节点以及使用节点的类型。
节点类型对于应用的资源需求是重要的。
群集节点的尺寸涵盖如下方面内容:
CPU(CPU的个数以及速度)
每个节点的内存数目
磁盘存储(内部的)
通讯适配器和磁盘适配器的个数
节点的可靠性
节点数目的需求取决于设计为高可用性的应用的数目和期望的应用有效度。
在群集中为每个应用使用一个以上的不同节点可以增加应用的可靠性。
注意:
在HACMPV5.1群集下节点数目最大为32个。
HACMPV5.1支持多种节点类型,从桌面系统到高端服务器,SP节点和LPAR同样支持的很好。
更多信息请参考SC23-4861-02。
节点共享资源取决于应用的需求。
执行任务的节点并不和作为高可用性的应用发生直接关系,也不需要应用节点的共享资源,因此,他们应该被配置成另一个群集以易于实现和管理。
所有节点应提供足够的资源(CPU、内存、适配器等等)以执行在热备环境下设计的应用。
尽你所能在群集中增加附加的节点来提高群集的可用性,这同样可以提供更高灵活性的节点切换、重建和维护操作。
我们建议您的群集节点使用同样的硬件配置,特别是在相互备接管或者并发配置的群集中。
同样的硬件配置使你更容易实现资源分配和执行管理操作(软件维护等等)。
2.1.2. 大小:
存储考虑
在通常大多数用户配置中,配置为高可用性的应用需要一个共享的存储空间来存储应用数据。
共享的存储空间既可以使用为并发访问,也可以是在接管节点上对应用同样可用(在热备环境下)。
群集的存储应该对针对每个应用的设计节点提供共享访问。
HACMP支持的存储技术包括SCSI、SSA、FibreChannel等等。
存储必须依照应用的要求被配置成非共享的(专有的)或者共享的存储。
专有的存储应该是内部磁盘,它和接管活动无关。
共享的存储应能提供控制访问的机制,应考虑以下前提:
共享存储上的数据应该在应用运行的任一点、任意时间被任一节点访问。
在有些案例中,任意时刻只有一个节点运行应用(非并发的),但是在有些案例中数据必须提供并发的访问。
在非并发环境下,如果数据被错误的节点更新,就会产生数据被破坏的后果。
在并发环境下,应用应提供它自己的数据访问机制,因为在当前的软件平台下(AIX/HACMP)由存储控制访问机制只是辅助手段。
2.1.3. 网络考虑
当计划一个HACMP群集时,以下方面是必须考虑的:
IP网络的拓扑结构(路由、交换等等)
IP网络的性能(速度/带宽、延迟、冗余等)
ATM和/或X.25网络配置
IP网络用来提供客户对群集中节点上应用的访问和在群集节点间交换心跳信息。
在一个HACMP群集中,通过IP网络和点到点(非IP网络)进行心跳信息交换。
HACMP被设计为通过基于TCP/IP的网络、X.25、ATM网络提供客户端访问。
2.2. HACMP群集计划
群集计划可能是实现一个成功的群集配置的最重要的步骤。
HACMP计划应包括以下方面:
硬件计划
- 节点
- 网络
- 存储
软件计划
- 操作系统版本
- HACMP版本
- 应用程序兼容性
测试和维护计划
- 测试程序
- 改变管理
- 管理操作
硬件计划
实现高可用性配置的目标是通过消除单点故障(硬件、软件和网络)、掩饰服务中断(不管是计划内的还是计划外的)来实现高可用性服务。
节点计划的要素是:
支持的节点:
机器类型,特性,支持的适配器,电源支持(直流、交流或者双电源等等)。
连接和线缆:
线缆类型、长度、连接器、型号、通道路由、线缆容量和可用性。
2.2.1. 节点配置
HACMPV5.1支持IBMp系列(独立主机和LPAR模式)、IBMSP节点,还有现存的RS/6000服务器在一个群集中混合使用。
节点必须满足最小的硬件(内部内存、内部磁盘、可用的I/O插槽)需求和操作系统兼容性(AIX版本)。
考虑以下方面:
内部磁盘(磁盘数量、容量以及LVM是否镜像?
)
共享磁盘容量和存储数据的保护方法(RAID和LVM镜像)
I/O插槽的限制以及可能产生单点故障的后果
客户对群集的访问(网络适配器)
其他局域网设备(交换机、路由器、网桥)
I/O适配器和子系统的冗余
电源供应冗余
2.2.2. 网络配置
规划群集网络的目标就是为消除单点故障而使用的网络的冗余度,需考虑以下方面:
网络:
节点连接到多个物理网络上
TCP/IP子系统失效:
使用非IP网络有助于解决此问题。
网络接口:
在每个网络上使用冗余网络适配器(防止因为单个网络接口失效引起资源接管)
规划群集网络配置时,你必须选择正确的节点连接方法:
群集网络拓扑(交换机、路由器等等)
对每个节点到所有网络的连接复合IP连接和非IP连接。
提供高可用性服务IP地址的方法:
通过IP别名接管
通过IP替换接管
要了解HACMP配置支持的节点和适配器完全列表,请参考SC-23-4861-02或IBM网站:
2.2.3. HACMP网络术语
从HACMPV5.1开始,描述HACMP配置和操作的术语有了比较明显的变化,变化的目的是为了简化使用和维护HACMP,同时统一IBM产品线中的术语。
例如:
在HACMP以前版本中,根据上下文关联,术语Adapter会有不同的意义,这会使配置更难和造成混乱。
IP标签
术语IP标签表示和一个指定IP地址关联的名称,也就是在群集节点中使用命名服务(DNS或者/etc/hosts)。
它替换了主机名(容易和hostname命令混淆,它和IP没有关联)。
在HACMPV5.1中,术语Adapter被替换成:
服务IP标签/地址:
一个服务提供的IP标签/地址,它可能绑定在一个节点上或者多个节点共享来通过HACMP提供高可用性。
通讯接口:
一个支持TCP/IP协议簇的物理接口。
通讯设备:
在点到点非IP网络中的一端的物理设备,例如/dev/tty1,/dev/tmssa1,/dev/tmscsi1,/dev/hdisk1。
通讯适配器:
用来提供实现高可用性通讯链路的X.25适配器。
服务IP标签/地址
服务IP地址是客户端用来访问的IP地址。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- IBM 红皮 书上 翻译 HACMP 原理