高性能计算集群Word文档格式.docx
- 文档编号:17328384
- 上传时间:2022-12-01
- 格式:DOCX
- 页数:12
- 大小:48.04KB
高性能计算集群Word文档格式.docx
《高性能计算集群Word文档格式.docx》由会员分享,可在线阅读,更多相关《高性能计算集群Word文档格式.docx(12页珍藏版)》请在冰豆网上搜索。
者不需要使用的
时候,仍然能够被充分利用。
而大型主机上更新下来的配件就难以被重新利用了。
具有极高的性能价格比,和传统的大型主机相比,具有很大的价格优势;
1.4Linux高性能集群系统
当论及Linux高性能集群时,许多人的第一反映就是Beowulf。
起初,Beowulf只是一个著名的科学计算集群系统。
以后的很多集群都采用Beowulf类似的架
构,所以,实际上,现在Beowulf已经成为一类广为接受的高性能集群的类型。
尽管名称各异,很多集群系统都是Beowulf集群的衍生物o当然也存在有别于Beowulf的集群系统,COW和Mosix就是另两类著名的集群系统。
1.4.1Beowulf集群
简单的说,Beowulf是一种能够将多台计算机用于并行计算的体系结构。
通常Beowulf系统由通过以太网或其他网络连接的多个计算节点和管理节点构成。
管理节点控制整个集群系统,同时为计算节点提供文件服务和对外的网络连接。
它使用的是常见的硬件设备,象普通PC、以太网卡和集线器。
它很少使用特别定制的硬件和特殊的设备。
Beowulf集群的软件也是随处可见的,象Linux、PVM和MPI。
1.4.2COW集群
象Beowulf一样,COW(ClusterOfWorkstation)也是由最常见的硬件设备和软
件系统搭建而成。
通常也是由一个控制节点和多个计算节点构成。
COW和Beowulf的主要区别在于:
COW中的计算节点主要都是闲置的计算资源,如办公室中的桌面工作站,它们就是普通的PC,采用普通的局域网进行连接。
因为这些计算节点白天会作为工作站使用,所以主要的集群计算发生在晚上和周末等空闲时间。
而Beowulf中的计算节点都是专职于并行计算,并且进行了性能优化。
Beowulf采用高速网
(InfiniBand,SCI,Myrinet)上的消息传递(PVM或MPI)进行进程间通信(IPC)。
因为COW中的计算节点主要的目的是桌面应用,所以它们都具有显示器、键盘和鼠标等外设o而Beowulf的计算节点通常没有这些外设,对这些计算节点的访问通常是在管理节点上通过网络或串口线实现的。
143Mosix集群
实际上把Mosix集群放在高性能集群这一节是相当牵强的,但是和Beowulf等其
他集群相比,Mosix集群确实是种非常特别的集群,它致力于在Linux系统上
实现集群系统的单一系统映象SSI(SingleSystemImage)Mosix集群将网络上运行Linux的计算机连接成一个集群系统o系统自动均衡节点间的负载。
因为Mosix是在Linux系统内核中实现的集群,所以用户态的应用程序不需要任何修改就可以在Mosix集群上运行。
通常用户很少会注意到Linux和Mosix的差别。
对于他来说,Mosix集群就是运行Linux的一台PC。
尽管现在存在着不少的问题,Mosix女台终是引人注目的集群系统2如何架构高性能计算集群
在搭建高性能计算集群(HPCCLUSTER)之前,我们首先要根据具体的应用需求,在节点的部署、高速互连网络的选择、以及集群管理和通讯软件,三个方面作出配置。
2-1节点的部署
根据功能,我们可以把集群中的节点划分为6种类型:
用户节点(UserNode)
控制节点(ControlNode)
管理节点(ManagementNode)
存储节点(StorageNode)
安装节点(InstallationNode)
计算节点(ComputeNode)
虽然由多种类型的节点,但并不是说一台计算机只能是一种类型的节点。
一台计算机所扮
演的节点类型要由集群的实际需求和计算机的配置决定。
在小型集群系
统中,用户节点、控制节点、管理节点、存储节点和安装节点往往就是同一台计算机。
下面我们分别解释这些类型节点的作用。
2.1.1用户节点(UserNode)
用户节点是外部世界访问集群系统的网尖。
用户通常登录到这个节点上编译并运
行作业。
用户节点是外部访问集群系统强大计算或存储能力的唯一入口,是整个系统的尖键点。
为了保证用户节点的高可用性,应该采用硬件冗余的容错方法,如采用双机热备份。
至少应该采用RAID(RedundantArrayofIndependentDisks)技术保证用户节点的数据安全性。
2.1.2控制节点(ControlNode)
控制节点主要承担两种任务:
为计算节点提供基本的网络服务,如DHCP、DNS和NFS;
调度计算节点上的作业,通常集群的作业调度程序(如PBS)应该运行在这个节点上。
通常控制节点是计算网络中的尖键点,如果它失效,所有的计算节点都会失效。
所以控制节点也应该有硬件冗余保护。
2.1.3管理节点(ManagementNode)
管理节点是集群系统各种管理措施的控制节点。
管理网络的控制点,监控集群中各个节点和网络的运行状况。
通常的集群的管理软件也运行在这个节点上。
2.1.4存储节点(StorageNode)
如果集群系统的应用运行需要大量的数据,还需要一个存储节点。
顾名思义,存
储节点就是集群系统的数据存储器和数据服务器。
如果需要存储TB级的数据,
一个存储节点是不够的。
这时候你需要一个存储网络。
通常存储节点需要如下配置:
ServerRAID保护数据的安全性;
高速网保证足够的数据传输速度。
2.1.5安装节点(InstallationNode)
安装节点提供安装集群系统的各种软件,包括操作系统、各种运行库、管理软件和应用。
它还必须开放文件服务,如FTP或NFS。
2.1.6计算节点(ComputingNode)
计算节点是整个集群系统的计算核心。
它的功能就是执行计算。
你需要根据你的需要和
预算来决定采用什么样的配置。
理想的说,最好一个计算节点一个CPU。
但是如果考虑到预算限制,也可以采用SMP。
从性价比角度说,两个CPU的SMP优于3或4个CPU的SMP机器。
因为一个计算节点的失效通常不会影响其他节点,所以计算节点不需要冗余的硬件保护。
2.1.7集群中节点的部署
虽然由多种类型的节点,但并不是说一台计算机只能是一类型的节点。
一台计算机所扮演的节点类型要由集群的实际需求和计算机的配置决定。
在小型集群系统中,用户节点、控制节点、管理节点、存储节点和安装节点往往就是同一台计算机,这台计算机通常成为主节点(MasterNode)。
在这种情况下,集群就是由多个计算节点和一个主节点构成。
在大型的集群系统中如何部署这些节点是个比较复杂的问题,通常要综合应用需求,拓扑结构和预算等因素决定。
2.2高速互连网络
网络是集群最尖键的部分•它的容量和性能直接影响了整个系统对高性能计算(HPC)的适用性。
根据我们的调查,大多数高性能科学计算任务都是通信密集型的因此如何尽可能的缩短节点间的通信延迟和提高吞吐量是一个核心问题。
2・2・1快速以太网
快速以太网是运行于UTP或光缆上的100Mb/S的高速局域网的总称。
由于
TCP/IP运行时对CPU的占用较多,并且理论上的传输速度和延迟都比较差,现在我们在HPC集群中计算网络的选择上基本不考虑这个方案了。
2-2-2千兆以太网(Giganet)
Giganet是用于Linux平台的虚拟接口(VI)体系结构卡的第一家供应商,提供cLAN卡和交换机。
VI体系结构是独立于平台的软件和硬件系统,它由Intel开发,用于创建群集。
它使用自己的网络通信协议在服务器之间直接交换数据,而不是使用IP,并且它并不打算成为WAN可路由的系统。
Giganet产品当前可以在节点之间提供1Gbps单向通信,理论最小延迟为7微秒,实测延迟为50-60微秒左右,并且运行时对CPU的占用也比较大。
2.2.3IEEESCI
IEEE标准SCI的延迟更少(理论值1.46微秒,实测值3-4微秒),并且其单向速度可达到10Gb/秒,与InfiniBand4X的理论值一样。
SCI是基于环拓扑的网络系统,不像以太网是星形拓扑。
这将使在较大规模的节点之间通信速度更快。
更有用的是环面拓扑网络,它在节点之间有许多环形结构。
两维环面可以用n乘m的网格表示,其中在每一行和每一列都有一个环形网络。
三维环面也类似,可以用三维立体节点网格表示,每一层上有一个环形网络。
密集超级计算并行系统使用环面拓扑网络,为成百上千个节点之间的通信提供相对最快的路径。
什么是SCI互连技术?
符合ANSI/IEEE1596-1992的SCI技术定义了点到点高速通信端口和数据包协
hl
议集;
SCI作为一种开放总线技术,实现了高带宽(10Gbit/s)、低延迟(1.46微秒)
1-1
的网络通讯;
SCI端口是双向连接的,保证了数据读、写操作可以同步进行;
支持多种CPU类型(Intel、AMDSunAlpha);
支持多种流行操作系统(Windows2000NTRedHatLinux、SuSELinux、
Solaris>
Lynx、Tru64
Unix、VxWorks;
SCI协议支持共享存储器系统,并包含Cache一致性协议集;
网络拓扑灵活,可支持星型网,一维环形网(Ring)及二维,三维环形网格拓扌卜;
为执行尖键任务应用而设计,支持热插拔和多冗余结构。
2.2.4Myrinet互连技术
Myrinet提供网卡和交换机,其单向互连速度最高可达到1.28Gbps网卡
有两种形式,铜线型和光纤型。
铜线型LAN可以在10英尺距离内以全速进行
通信,而在长达60英尺距离内以半速进行操作。
光纤型Myrinet可以在6.25英里长的单模光纤或者340英尺长的多模光纤上全速运行。
Myrinet只提供直接点到点、基于集线器或基于交换机的网络配置,但在可以连接到一起的交换光纤数量方面没有限制。
添加交换光纤只会增加节点间的延迟。
两个直接连接的节
点之间的平均延迟是5到18微秒,比以太网快。
由于Myrinet板上集成可编程微处理器,能满足一些研究者的特定需要。
2.2.5InfiniBand互连技术
InfiniBand是由InfiniBand协会开发的体系结构技术5它是一种用于实
现基于通道的交换式技术的通用I/O规范。
由于IB的理论带宽极高——30Gbit/S,因此备受业内尖注。
InfiniBand的解决方案包括一个连接多个独立处理器和I/O平台的系统区域网
络,它所定义的通信和管理结构同时支持I/O和处理器与处理器之间的通信。
InfiniBand系统可以是只有少量I/O设备的单处理器服务器,也可以是大型的并行超级计算机。
InfiniBand规范定义了3个基本组件:
一个主机信道适配器(HCA
一个目标信道适配器(TCA
汕一个网络交换机
InfiniBand技术通过连接HCAsTCAs交换机和路由器而发挥作用(见图
1)。
位于页节点的InfiniBand设备是产生和使用信息包的信道适配器。
主机遇道适配銀TCA=目棕遇谥活配舖xCA=HCA或TCA
鱷内存
xCA
图1:
[nfiniEtand体系架构模型
HCA和TCA可以提供一个无需CPU干预的高可靠端一至一端连接。
HCA主
留在处理器节点并提供从系统内存到InfiniBand网络的通路。
它也有一个可编
程的直接内存访问(DMA引擎。
该引擎具有特殊保护和地址翻译特性,从而使DMA操作可以本地进行或者通过另一个HCA或TCA远程进行。
TCA驻留在I/O单元,并提供I/O设备(如一个磁盘驱动器)或I/O网络(如以太网或光纤通道)与InfiniBand网络的连接。
它实现了InfiniBand协议的物理层、链接层和传输层。
交换机放置在信道适配器之间。
它们使几个甚至几千个InfiniBand页节点可以在任意位置互连进一个单一网络,该网络同时支持多个连接。
交换机既不产生,也不使用信息包。
它们只是根据信息包中路由器报头的目的地地址,将其传送过
去。
交换机对于节点而言是透明的,同时信息包完整无损地经过交换机网。
与目前的通信协议如TCP/IP相比InfiniBand技术的一个主要变化
是InfiniBand硬件承担了原来由CPU完成的许多I/O通信工作,因此在处理并
发的多路通信任务时没有现有通信协议所固有的额外开销。
在无需系统核心层介入的情况下,它就能够提供零数据拷贝的传输,并使用硬件提供高可靠性和容错性的通信,最终改善了系统的带宽、延迟和可靠性等问题。
2.3集群管理和通讯软件
国内和国际上有多种集群管理和通讯软件可供我们挑选,一些是由HPC集成商自
己编写的专用软件,捆绑硬件销售的,也有专业的软件公司提供的通用软件包。
我们推荐全球知名的HPC软件公司一一挪威Scali公司的产品。
挪威Scali公司的基于Linux操作系统的集群管理软件,符合MPI1.2标准。
利用图形化管理界面,高性能通讯库以及集成第三方的软件工具,用户可以方便地对集群各节点计算机进行任务分配及监控管理工作,并可通过它提供的一系列软件接口开发自己的应用软件产品,从而降低了整个系统的开发时间和成本,并
保证系统配置和升级的灵活性。
Scali软件的最大特点是支持多种高速互连网络:
从千兆以太网,SCLMyrinet,
到InfiniBand都可以支持°
管理软件特点
性能优化:
对零长度信息包,传输延迟小于3.5微秒,在64位/66MHz的PCI总线上,持续传输带宽超
过300兆字节/秒;
支持多进程:
可以充分利用ScaMP,能够同时进行请求服务和通讯管理操作;
容错性:
ScaMPI能迅速发现暂时的网络错误,重新选择互连排列或改变路由;
自动选择物理传送路径:
ScaMPI可自动为MPI选择最佳的传送方式,共享存储,利用SCI将各结点连接;
UNIX命令复制:
命令行自变量应用程序可自动提供全部MPI程序,避免冗余
分析;
MIMD支持:
ScaMPI支持多指令流多数据流;
图形化前端:
可视的图形界面,方便的操作和管理;
调试:
ScaMPI支持许多调试程序和分析工具,提供调试功能ScaMPI完全支
持Etnus的TotalView分
布式调试程序和Pallas的VampirMPI分析工具,被选中的程序能够利用GNU全局数据库进行调试。
S系列
我们在S系列集群计算机中的高速互连网络采用SCI技术。
高带宽(10Gbit/s)、低延迟(1.46微秒)正是SCI的技术特点o特别是SCI网络的环型网格和超立方体拓扑结构,保障了集群的高可靠性和系统扩展时成本的线形增长。
节点规模:
2-256个节点(2004年7月后,可支持至8000个节点)
应用要求:
分布计算,子任务之间联系很紧密,需要大量的数据交换,特别强调带宽和延迟这两个矢键指标。
应用领域:
地震预测预报、石油勘探、气候模拟与天气预报、人体基因与遗传工程、海洋环流和超导模拟、海量存储、科学计算等。
硬件系统配置清单:
名称
说明
配置
单位
数量
主机柜
专用服务器标准机
柜
电源控制器,电源系统(3*20A),风扇,机柜网络系统,系统控制机,前面板LC触摸屏
D个
系统通讯
网络
Cisco2950-12
witch
100MEthernet
个
视频切换
机
KVM
套
存储系统
NAS/RAID
VIAC3处理器,缓存256MBSDRAM三
个10/100以太网端口和一个可选的
台
Gigabit以太网端口,可支持8块Ultar
DMA10硬盘可选UDMA33硬盘,环境监
控单元
300W热更换冗余电源
计算节点
INTEL/SuperMicro
2XPWXeon2.4G,1G内存,集成
100/1000网卡,标准光驱,软驱,显卡,
73GSCSI硬盘
控制节点
2XPWXeon2.4G,1G内存,73GSCSI硬
盘,集成100/1000网卡,标准光驱,软
驱,显卡
高速互连
网
DolphinD33X
咼带宽(667MBytes/s)、低延迟(1.46
微秒)的网络通讯卡
块
其它
显示器
15寸纯平
1
鼠标、键盘、
软件系统配置清单:
版本号
备注
单
位
数
量
监控系统
系统监控软件
Ver2.0
用于系统监
控
操作系统
RedHat
Ver8.0
/
应用软件
其它系统
MPI(MessagePassingInterface)、
Mosix
曰PL月又刹I
集群管理系
统
Scali集群管理软件(forInfiniBand)
Ver3.1
用于系统管
理
I系列
我们在I系列集群计算机中的高速互连网络采用现在备受业内尖注的
InfiniBand技术。
凭借极高的理论带宽一一30Gbit/S(InfiniBand12X),和较
低的CPU占用‘InfiniBand必将在未来的HPC市场占据重要地位节点规模:
2-1024个节点(目前,我们可以提供&
PORT,24-PORT,96-PORT的IB交换机,大于96个节点需要级联)
强调超大通讯带宽。
地震预测预报、石油勘探、气候模拟与天
气预报、科学计算等。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 性能 计算 集群