oracle11gR2RAC原理解读.docx
- 文档编号:11424237
- 上传时间:2023-03-01
- 格式:DOCX
- 页数:30
- 大小:360.06KB
oracle11gR2RAC原理解读.docx
《oracle11gR2RAC原理解读.docx》由会员分享,可在线阅读,更多相关《oracle11gR2RAC原理解读.docx(30页珍藏版)》请在冰豆网上搜索。
oracle11gR2RAC原理解读
oracle_11g_R2_RAC原理解读
总的来说,oracle11gr2 RAC提供了以下功能:
1.高可用:
shared-everything模式保证了单节点的故障可不能停止服务,集群中的其他节点将快速接管
2.可扩展性:
多节点分担负载,能够提供远超单机数据库能提供的处理能力。
且增删节点能够在线完成,不需要停机
3.易用性:
多个数据库能够加入到一个集群中
4.低成本:
RAC能够部署在标准硬件上,硬件上节约的成本抵消了购买license的成本
Oracle11g r2还提供了一个叫RACOneNode的新功能。
Oracle发觉一些RAC的部署纯粹只是为了高可用,而虚拟化越来越多的被用户所使用,并成为了一个新的趋势。
OracleOneNode建立在以下基础之上:
OracleClusterware、OracleASM、Oracledatabase。
我们再来看一眼RAC的结构图
相比较单机数据库,RAC需要一个共享储备;一个私有网络来进行集群内部通讯;一个公有网络来连接应用和客户端;配置虚拟IP来提高节点故障时的连接速度,当一个节点显现故障,它的虚拟ip赶忙指向其他节点的ip上(假设不配置vip,当一个节点发生故障时,新的连接将会发生等待,直到与该节点ip的通讯显现timeout)。
Failover的连接配置
有两种连接方式能够实现数据库连接的failover
1.TAF(TransparentApplicationFailover)
让我们看一下官方文档。
TAF让OracleNet将一个失效的连接从故障点转移到另一个监听上,用户能使用那个新的连接来连续未完成的工作,这是一个client端的功能。
TAF能够配置为使用client端的(TransparentNetworkSubstrate)TNS连接字符串来连接,或者使用server端的服务。
假如两种方式同时使用,那么使用server端的服务配置。
TAF能够工作在两种模式下:
sessionfailover和selectfailover。
前者在failover时会重建失败的连接,后者那么能够连续进程中未完成的查询(假如failover前一个session正在从一个游标中猎取数据,那么新的session将在相同的snapshot下重新运行select语句,并返回余下的行)。
假如failover时,session执行了DML操作且未提交,那么failover后,假设不执行rollback回滚而执行新的操作,将会收到一条错误信息ORA-25402:
transactionmustrollback
TAF在dataguard中使用,能够自动进行failover
一个典型的使用了TAF的TNS连接串如下:
NEWSDB=
(DESCRIPTION=
(ADDRESS=(PROTOCOL=TCP)(HOST=rac1-vip)(PORT=1521))
(ADDRESS=(PROTOCOL=TCP)(HOST=rac2-vip)(PORT=1521))
(LOAD_BALANCE=yes)
(CONNECT_DATA=
(SERVER=DEDICATED)
(SERVICE_NAME=dyora)
(FAILOVER_MODE=
(TYPE=SELECT)
(METHOD=BASIC)
(RETRIES=180)
(DELAY=5)
)
)
)
failover_mode参数介绍
failover_mode参数
说明
BACKUP
备用连接的网络服务名。
假设使用了preconnect的连接方法,那么需要指定那个参数
DELAY
连接重试的时刻间隔(秒)。
假如指定了RETRIES参数,假设不指定该参数,默认为1秒。
假设注册了callback,该参数将被忽略
METHOD
设置failover方法。
basic:
failover时才尝试连接备用实例的监听;preconnect:
每次连接数据库时,都会在备用实例上也产生一个连接,以实现更快的切换
RETRIES
failover后,尝试连接的次数。
假如指定了DELAY参数,那么RETRIES默认为5次。
假设注册了callback,那么该参数将被忽略
TYPE
OCI默认提供了3种类型:
session:
假设用户连接丢失,将在备用节点上重新创建;select:
除了重建连接外,将连续从打开的游标中猎取数据,假如采纳这种方式,一般select操作也将在客户端产生开销;none:
默认值,也可显示指定来禁用failover功能
2.FCF(FastConnectFailover)
oracle11g提供了FCF方式连接数据库,它支持JDBCThin和JDBCOCI驱动;与连接缓存(implicitconnectioncache)协同工作提供更高的连接性能和高可用;能够在应用代码中设置,无需另外配置
需要的条件:
启用了隐含连接缓存,FCF需要与JDBC的连接缓存机制共同工作,为应用治理连接以确保高可用;应用使用服务名而非服务标识符来连接数据库;JDBC运行的节点上配置并启用了OracleNotificationService(ONS);JDBC例程运行的java虚拟机必须包含oracle.ons.oraclehome并指向ORACLE_HOME
例子:
配置ONS
ods.setONSConfiguration("nodes=racnode1.example:
4200,racnode2.example:
4200");
启用FCF
//declaredatasource
ods.setUrl(
"jdbc:
oracle:
oci:
@(DESCRIPTION=
(ADDRESS=(PROTOCOL=TCP)(HOST=cluster_alias)
(PORT=1521))
(CONNECT_DATA=(SERVICE_NAME=service_name)))");
ods.setUser("scott");
ods.setConnectionCachingEnabled(true);
ods.setFastConnectionFailoverEnabled(true):
ctx.bind("myDS",ods);
ds=(OracleDataSource)ctx.lookup("MyDS");
try{
ds.getConnection();//transparentlycreatesandaccessescache
catch(SQLExceptionSE{
}
}
看糊涂了?
上面的java代码包含一个专门处理。
工作过程如下:
1.一个实例宕掉了,在缓存中留下一些过期连接
2.RAC产生一个事件,并将其发送给包含JDBC的java虚拟机
3.JVM中的后台线程找出所有受到该RAC事件阻碍的所有连接,通过sql专门(ORA-17008)通知它们关闭连接,并回滚事务
4.连接接收到sql专门并重新执行失败的操作
FCF与TAF相比有如下不同:
1.FCF支持应用级别的连接重试,由应用来决定failover时如何处理,是重新执行,依旧抛出专门;TAF只能在OCI/NET的层面进行重新连接
2.FCF与连接缓存专门好地结合起来,让连接缓存治理器来治理缓存,失败的连接在缓存中会自动失效。
而TAF在网络层面做预连接,当一个连接失效,连接缓存不能检测到
3.FCF基于OracleRAC事件,能够快速为活跃/闲置的连接检测到故障
4.FCF通过实例的UP事件实现负载均衡,分配到在线的RAC实例中
oracle建议不要在一个应用中同时使用TAF和FCF
oracle11gRAC的一些差不多概念〔二〕
集群的相关概念
配置Active/active集群
在这种模式下,所有的节点都能提供服务(可不能有用户要求在standby上被闲置的情形)。
大部分案例中,集群成员的硬件配置差不多上相同的,幸免可能的性能问题,也更容易实现负载均衡。
Active/active集群需要更复杂的治理软件来治理所有资源,比如磁盘和内存需要在所有节点间进行同步。
更常见的,一个私有网络被用做心跳连接。
集群治理软件必须能够检测到节点问题,比如节点故障或者集群通讯问题
脑裂(split-brain)是集群中的一个糟糕的情形:
集群中的所有集群正在工作的时候,内部通讯被断开。
这种情形下,集群被分成了几个部分,每个部分的集群软件都会尝试去接管其他节点的资源,因为在它看来,别的节点发生了故障。
可能会显现以下问题:
假如应用能够正常连接集群的这些部分,因为现在这些集群部分不同步,可能会有不同的数据会被写入到磁盘中。
脑裂对集群的危害显而易见,集群软件的供应商必须提供方案来解决那个问题
oracle的集群软件(11g中的GridInfrastructure),使用一个仲裁设备(quorumdevice),称作votingdisk,来决定集群中的成员。
集群中的所有节点共享一个votingdisk,当一个节点不能向内部网络和votingdisk发送心跳时,它就会被逐出集群。
假设一个节点不能和其他节点通讯,但依旧能连接到votingdisk,集群在这种情形下将进行投票,并发出指令将该节点剔除。
那个投票使用的是STONITH方式,软件将发出一个要求,使被踢出的节点自动重启。
当需要重启的节点hung住的时候,重启指令变得不可用,这种情形比较棘手。
幸运的是,假设硬件承诺,GridInfrastructure能够支持IPMI(智能平台治理接口),能够向一个节点发出终止指令。
当一个节点故障或被踢出集群,剩余的节点能够接管用户服务要求。
配置Active/passive集群
一个active/passive集群工作方式与active/active不同。
一个active/passive集群中的成员硬件配置依旧应该一致或差不多一致,但同一时刻两个节点中只有一个节点能处理用户要求。
集群治理软件会不断地监控集群中资源的健康状况,当一个资源失败,集群治理软件会尝试将该资源重启数次,假设依旧无效,备用节点将进行接管。
依照安装时的选项,集群的资源能够分配在共享储备或文件系统上,后者在资源failover的时候也会进行一次failover。
使用共享文件系统比使用非共享的文件系统更有优势,后者在重新挂载到standby节点上往常可能需要进行fsck(8)检测。
Veritas集群套件、Sun(Oracle)集群和IBM的HACMP就可用作安装active/passive集群的集群治理工具。
鲜为人知的是,使用OracleGridInfrastructure来安装一个active/passive集群专门简单,利用GridInfrastructure的应用程序接口和作为集群逻辑卷治理器的OracleASM,能够轻松地不间断监控一个单实例oracle数据库。
当一个节点发生故障,数据库会自动迁移到备用节点。
依照初始化参数fast_start_mttr_target和复原集的大小,那个故障切换可能专门迅速。
只是,作为failover过程的一部分,用户的数据库连接将被断开。
Active/passive模式能够通过将active_instance_count参数设置为1来打开,但仅当节点数为2时才有效。
配置Shared-All架构
一个所有节点同时访问共享储备和数据的集群被称为shared-all或者shared-everything结构。
OracleRAC确实是基于shared-everything架构:
一个数据库位于共享储备中,通过集群各个节点上运行的实例来访问。
在Oracle术语中,一个实例由内存结构和一些进程组成。
对应的,数据库储备在磁盘中的数据文件里。
在RAC中,实例的故障并不意味着该实例治理的数据的丢失。
在一个节点发生故障后,集群中的另一个实例将会进行实例复原,所有剩余节点都将连续服务。
使用高可用技术,例如FCF或TAF,能够将实例失效对用户造成的阻碍降到最低。
故障节点最后将重新加入集群并分担工作量。
配置Shared-Nothing架构
在一个shared-nothing数据库集群中,每个节点有它私有的独立储备,其他节点不能访问。
数据库被集群中的节点分割成几个部分,返回的查询结构集是各个节点结果集的结合。
丢失一个节点会导致对应的数据无法访问。
因此,一个shared-noting集群经常被实施成一些单独的active/passive或者active/active集群来增强可用性。
MySQL的集群确实是基于shared-nothing架构。
RAC的要紧概念
集群节点
集群由单独的节点组成,在OracleRAC中,承诺的节点数和集群版本有关,公布文档中说明Oracle10.2集群软件支持100个节点,而10.1支持63个实例。
即使当个节点发生故障后,基于RAC上的应用能连续运行,依旧应该花点精力来确认数据库服务器中的单个组件可不能显现单点故障(SPOF)。
采购新的硬件时应该采纳可热插拔的组件,比如内置磁盘和风扇,另外,服务器的电力供给、主机总线适配器、网卡和硬盘都应该做了冗余。
可能的话,最好做一个逻辑绑定,比如硬盘硬件RAID或软件RAID、网卡绑定、储备网络的多路径。
在数据中心也应该注意:
要使用不间断的电源供应、足够的散热措施、服务器的专业上架。
最好还能有个远程的lights-out治理操纵台,当一个节点不明白由什么缘故挂起,可能迫切需要进行故障排除或者重启。
内部互联
集群内部互联是OracleRAC的特点之一。
它不仅使得集群在不同实例间传递数据块时突破blockpinging算法的限制,它还可用作心跳和常规通讯。
连接失败将导致集群的重组来幸免脑裂发生,GridInfrastructure将使一个或多个节点重启。
能够为RAC和GridInfrastructure配置一个单独的连接,这种情形下你需要配置RAC来使用正确的连接。
那个连接始终应该是私有的,不应该受到其他网络的干扰。
RAC用户能够使用两种技术来实现内部互联:
以太网和Infiniband。
使用基于以太网的内部互联
使用10G以太网作为集群内部互联可能是目前使用最多的,集群的后台进程使用TCP/IP进行通信。
CacheFusion〔用来保持缓存的一致性〕使用另一种通信方式:
UDP(UserData该ramProtocol)。
UPD和TCP同属于传输层,后者面向连接,使用显式的通讯握手来保证网络数据包按顺序到达,并转发失败的数据包。
UDP那么不包含状态,它是一个发完就忘(fire-and-forget)协议。
UDP只是简单发送一个数据包到目的地。
UDP比起TCP而言要紧的好处是它比较轻便。
注意:
两节点集群间应该幸免使用交叉线来直连,集群的内部通讯必须通过交换,交叉电缆的使用应该被明确禁止!
使用jumboframes能够使集群内部通信的效率和性能得到提升。
EthernetFrames能够使用不同的大小,一样被限制在1500byte字节(MTU值)。
框架大小决定了单个以太网框架能够传送多少数据,一个框架承担越大的数据负荷,服务器和交换机需要做的工作就越少,提供了更高的通讯效率。
许多交换机承诺在一个框架中容纳比标准MTU值更大的字节数〔1500-9000〕,也叫jumboframe。
注意jumboframes是不能路由的,因此它不能被使用在公共网络上。
当决定使用jumboframes时,一定要确定集群中的所有节点使用同样的MTU。
刚才说过数据库服务器的相关组件应该有一个容易,网卡也是其中之一。
多个网络端口能够在linux中使用bonding技术绑成一个逻辑单位,和专门多其他操作系统不同,linux中网卡的绑定不需要购买其他软件就能实现。
使用基于Infiniband的内部互联
Infiniband常被用来实现远程内存直截了当访问(RDMAremotedirectmemoryaccessarchitecture)。
这是一个高速互联,常与高性能运算(HPC)环境联系在一起。
RDMA能够在集群的节点间使用并行、直截了当、内存到内存的传输,它需要专门的RDMA适配器、交换机和软件。
它还能幸免基于以太网的实现中的CPU处理和环境转换的开支。
在linux中有两种途径来实现Infiniband互联。
第一种叫做IPoverInfiniband(IPoIB),它采纳IB架构作为链路操纵层,使用封装的方法实现IP和IB报文的转换,从而使在以太网运行的程序能够直截了当运行在Infiniband上。
另一个方法确实是使用基于Infiniband的 ReliableDatagramSockets,oracle1.2.0.3开始支持那个方法。
RDS能够通过OpenFabricEnterpriseDistribution(OFED)在linux和windows上实现。
RDS的重要特点是低延迟、低开销和高带宽。
Oracle数据库服务器和Exadata储备服务器使用了Infiniband,为集群内的通讯提供高达40Gb/s的带宽,这是以太网所不可能做到的。
Infiniband为高性能展现了庞大的优势,但它的成本同样专门高昂。
Clusterware/GridInfrastructure
GridInfrastructure与操作系统紧密结合,并提供以下服务:
节点间连接;爱护集群成员;消息传送;集群逻辑卷治理;隔离(fencing)
************************************************************************************************************************************************************************************************
I/O隔离:
当集群系统显现"脑裂"问题的时候,我们能够通过"投票算法"来解决谁获得集群操纵权的问题。
然而如此是不够的,我们还必须保证被赶出去的结点不能操作共享数据。
这确实是IOFencing要解决的问题。
IOFencing实现有硬件和软件2种方式:
软件方式:
关于支持SCSIReserve/Release命令的储备设备,能够用SG命令来实现。
正常的节点使用SCSIReserve命令"锁住"储备设备,故障节点发觉储备设备被锁住后,就明白自己被赶出了集群,也确实是说自己显现了专门情形,就要自己进行重启,以复原到正常状态。
那个机制也叫作Sicide(自杀).Sun和Veritas使用的确实是这种机制。
硬件方式:
STONITH(ShootTheOtherNodeintheHead),这种方式直截了当操作电源开关,当一个节点发生故障时,另一个节点假如能侦测到,就会通过串口发出命令,操纵故障节点的电源开关,通过临时断电,而又上电的方式使故障节点被重启动,这种方式需要硬件支持。
************************************************************************************************************************************************************************************************
各个版本的Oracle集群软件的命名如下:
进程结构
安装终止后,会产生一些后台进程来确保集群正常工作并能够与外部通讯。
其中的一些有序linux平台的要求需要以root用户权限来启动。
比如,网络配置的改动就需要更高的权限。
其他后台进程将以grid软件所在系统用户的权限来运行。
下面的表格介绍要紧的一些后台进程
后台进程
说明
Oracle高可用服务(OHAS)
OHAS是服务器启动后打开的第一个GridInfrastructure组件。
它被配置为以init
(1)打开,并负责生成agent进程。
OracleAgent
GridInfrastructure使用两个oracle代理进程。
第一个,概括起来说,负责打开一些需要访问OCR和VOTING文件的资源。
它由OHAS创建。
第二个代理进程由CRSD创建,负责打开所有不需要root权限来访问的资源。
那个进程以GridInfrastructure所属用户的权限运行,同时负责在RAC11.1中racg所做的工作。
OracleRootAgent
和Oracle代理进程类似,有两个Root代理进程被创建。
最初的代理进程由OHAS引发,它为linux系统中需要更高权限的资源提供初始化。
创建的要紧后台进程是CSSD和CRSD。
反过来,CRSD将触发另一个root代理。
那个代理将打开需要root权限、要紧和网络相关的资源
集群就绪服务进程
(CRSD)
集群软件的后台要紧进程,使用oracle集群注册信息来治理集群中的资源
集群同步服务进程
(CSSD)
治理集群的配置和节点成员
Oracle进程监控
(OPROCD)
oprocd在11.1版本中负责I/O隔离。
它是在10.2.0.4补丁集中为linux系统引入的。
在那个补丁集往常,内核hangcheck-timer模块来做类似的任务。
有味的是,oprocd往常常被用在非linux平台中。
GridInfrastructure用cssdagent进程来替换了oprocd进程。
事件治理器(EVM)
EVM负责公布GridInfrastructure创建的事件
集群时刻同步服务(CTSS)
CTSS服务是一个可选项,通过网络时刻协定服务器为集群提供时刻同步,那个时刻同步对RAC专门重要。
它能够运行在两种模式下:
观望或者活动。
当NTP被激活的时候,它运行在观看模式,假设没有启动NTP,它将依照主节点同步所有节点的时刻。
Oracle警告服务(ONS)
负责通过快速应用框架公布事件的要紧后台进程。
在RAC11.2中,GridInfrastructure的启动顺序有了明显变化。
代替直截了当通过inittab(5)打开CRS、CSS、EVM,OHAS进程现在要紧负责创建agent进程,监控其他节点的健康状况,和打开集群资源。
在非Oracle治理进程中,NTP是一个专门的角色,在每个集群中,它需要提供时钟同步,GridInfrastructure也不例外。
以下是11.2中GridInfrastructure的一些要紧后台进程:
配置网络组件
GridInfrastructure需要一些IP地址来正常工作:
每个主机配备一个公共网络地址;每个主机有一个私有网络地址;每个主机一个虚拟IP地址(未被指派);1-3个未指派
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- oracle11gR2RAC 原理 解读