企业案例广州超算中心 企业案例广州超算中心项目建设规划项目需求分析 13项目建设规划.docx
- 文档编号:9779493
- 上传时间:2023-02-06
- 格式:DOCX
- 页数:7
- 大小:20.86KB
企业案例广州超算中心 企业案例广州超算中心项目建设规划项目需求分析 13项目建设规划.docx
《企业案例广州超算中心 企业案例广州超算中心项目建设规划项目需求分析 13项目建设规划.docx》由会员分享,可在线阅读,更多相关《企业案例广州超算中心 企业案例广州超算中心项目建设规划项目需求分析 13项目建设规划.docx(7页珍藏版)》请在冰豆网上搜索。
企业案例广州超算中心企业案例广州超算中心项目建设规划项目需求分析13项目建设规划
企业案例广州超算中心企业案例广州超算中心、项目建设规划、项目需求分析1.3项目建设规划
项目建设规划PAGE17/NUMPAGES17项目建设规划魏道付(华云数据集团)摘要:
本文描述华云数据集团承建广州超算中心云计算平台项目的项目建设规划关键字:
华云数据;中山大学;超算中心;云计算平台规划1.1系统总体概要规划1.1.1总体方案规划广州超算中心云平台总体拓扑如图1所示:
图1广州超算云平台总体拓扑图广州超算中心云平台逻辑结构如图2所示:
图2广州超算云平台逻辑图eq\o\ac(○,1)系统总体规划包括计算子系统、存储子系统、网络子系统。
eq\o\ac(○,2)计算节点分为4个机柜,每个机柜4个刀框,每个刀框32台刀片。
每个刀框内置一台接入交换机,通过背板和刀片服务器互联,有4个10GE口和汇聚互联。
eq\o\ac(○,3)管理节点采用5台作为controller节点,3台作为mariadb…rabbitmq节点,1台做为stackwatch…influxdb节点。
eq\o\ac(○,4)存储使用x-sky存储,共10台,分别和controller节点以及compute节点互联。
eq\o\ac(○,5)网络子系统按照核心层、汇聚层、接入层、虚拟层的四层结构,云平台各网络包括管理网、存储网、数据网。
1.1.2命名规则云计算平台节点命名规则如表1所示表1云计算平台节点规划类别命名规则举例备注管理节点CS_角色编号_编号cs-controller-01第一个controller节点cs-db-02第二个数据库节点计算节点CS_COMPUTE_编号cs-computer-0020第二十个计算节点cs-computer-0160第一百六十个计算节点1.1.3集群概要规划云计算集群服务节点数量规划如表2所示表2云计算集群服务节点类别数量controller节点数量(台)5mariadb节点数量(台)3stackwatch节点数量(台)1compute节点数量(台)512内存虚拟化比例1:
1CPU虚拟化比例(非独占)1:
4此方案为简化方案,对于集群来说,有如下一些缺点1、rabbitmq…mariadb节点的资源负载会比较高,rabbitmq和mariadb都比较消耗内存2、rabbitmq…mariadb节点只能宕机一个,否则mariadb集群失效,整个云平台无法进行操作3、当rabbitmq…mariadb节点内存利用率很高时,rabbitmq和mariadb可能会互相抢占资源,从而引发OOM,进一步引发云平台故障最优化的方案如表3所示:
表3云计算平台集群服务节点规划类别参数controller节点数量(台)5mariadb节点数量(台)5rabbitmq节点数量(台)3stackwatch节点数量(台)1compute节点数量(台)512内存虚拟化比例1:
1CPU虚拟化比例(非独占)1:
4最优化的方案优势为:
1、512个计算节点,会有非常多的心跳报文,因此,对控制的负载会比较高,将重要的模块拆开,可以有效减少每一个节点的负载2、pacemaker集群要求一半以上的节点存活,5个controller节点可以宕机2个,如果是3个只能宕机1个,可靠性降低,而在大规模的环境中,负载高会导致引发异常的概率提升,因此推荐5个controller3、controller的负载主要在nova和keystone上,从3个节点增加至5个,每个节点可以有效减少40%的负载4、同理,mariadb使用galera集群方案,也要求一半以上的节点存活,所以推荐5个5、拆开控制的模块,可以有效减小故障发生时的影响面,否则如果都混合在一起,一旦一个节点宕机,对controller服务、rabbitmq、mariadb都有影响,对整个云平台的打击也比较大1.1.4主机概要规划云计算平台主机的配置信息如表4所示表4主机的配置信息类别服务器型号服务器配置Controller华为RH2288cpu:
E5-2692v2mem:
128GBdisk:
2块sas系统盘(500GB)network:
4千兆+4万兆Mariadb华为RH2288cpu:
E5-2692v2mem:
256GBdisk:
2块sas系统盘(500GB)+2块ssd数据盘(480G)network:
2千兆+2万兆Stackwatch华为RH2288cpu:
E5-2692v2mem:
128GBdisk:
2块sas系统盘(500GB)+2块ssd数据盘(480G)network:
2千兆+2万兆Compute天河cpu:
E5-2692V2mem:
64G,disk:
1块sas系统盘(1TB)network:
2千兆1.1.5VM概要规划云计算平台虚拟机的规格配置如表5所示表5虚拟机规格类别说明虚拟机规格1cpu:
1mem:
2GBdisk:
20GB虚拟机规格2cpu:
2mem:
4GBdisk:
20GB虚拟机规格3cpu:
2mem:
8GBdisk:
20GB虚拟机规格4cpu:
4mem:
8GBdisk:
20GB虚拟机规格5cpu:
4mem:
16GBdisk:
20GB虚拟机规格6cpu:
8mem:
32GBdisk:
20GBGuestOS类型Centos6、Centos7、Ubuntu12.04、Ubuntu14.04、Ubuntu16.04、Ubuntu17.04、Windows7、Windows20xxR2、Windows20xxR2、Windows20xxR21.2网络子系统概要规划1.2.1网络拓扑概要规划交换机组网规划广州超算中心云平台总体整体组网规划如图3所示图3云平台总体组网eq\o\ac(○,1)网络子系统按照核心层、汇聚层、接入层、虚拟层的四层结构,云平台各网络包括管理网、存储网、数据网、存储集群网、IPMI网、业务网。
eq\o\ac(○,2)虚拟网络:
对虚拟机提供各种网络服务;接入层网络:
实现服务器/存储和接入交换机连通;汇聚层网络:
实现多接入交换机的互通;核心层网络:
实现所有网络设备间的消息转发。
eq\o\ac(○,3)业务网:
用来承载用户侧到VM的流量以及VM之间的流量;管理网:
用来承载云计算系统设备之间的管理消息交互和云计算系统的维护和监控流量;存储网:
用来承载计算子系统和存储子系统之间的存储流量。
存储集群网:
用来保证存储间数据的互拆访问。
服务器连线规划Controller节点:
服务器使用4千兆+4万兆口,其中万兆口做两个bond,承载管理和存储流量,千兆口做两个bond,承载业务网的dhcp流量,如图4所示。
图4控制节点服务器连线规划Mariadb…rabbitmq节点:
服务器使用2万兆口,万兆口做bond,承载管理流量,如图5所示。
图5消息队列和数据库节点连线Stackwatch…influxdb节点:
服务器使用2万兆口,万兆口做bond,承载管理流量,如图6所示。
图6监控节点连线Compute节点:
计算节点规划如图7所示图7计算节点连线规划用于管理和存储的万兆交换机使用双电源,但是还会有单点故障,如果交换机宕机,则管理网和存储网无法连接,会导致云平台服务不可用1.2.2网络地址概要规划服务器网络规划如表6所示表6服务器网络规划项目VLAN/VXLAN规划IP地址段网关地址管理集群管理网2852控制节点:
0-14/16DB节点:
0-22/16监控节点:
0/1654管理集群存储网2851-5/2054管理集群vxlanvtep2850-5/2054管理集群IPMI2853控制节点:
0-14/24DB节点:
0-22/24监控节点:
0/2454P120管理网1120-32/16-32/16-32/16-32/1654P120存储网2851-32/20-32/20-32/20-32/2054P120vxlanvtep2850-32/20-32/20-32/20-32/2054P121管理网1121-32/16-32/16-32/16-32/1654P121存储网2851-32/20-32/20-32/20-32/2054P121vxlanvtep2850-32/20-32/20-32/20-32/2054P122管理网1122-32/16-32/16-32/16-32/1654P122存储网2851-32/20-32/20-32/20-32/2054P122vxlanvtep2850-32/20-32/20-32/20-32/2054P125管理网1125-32/16-32/16-32/16-32/1654P125存储网2851-32/20-32/20-32/20-32/2054P125vxlanvtep2850-32/20-32/20-32/20-32/2054业务vxlan10001-100000----业务vlan2860-2959----各机柜服务器物理网络为云下网络,每个机柜用一个单独的B类网虚拟机的业务网络为云上网络,从云的角度来看,不需要区分物理上的位置。
因此,所有虚拟机业务网络在所有机柜都会存在。
各物理节点网关为管理网,其他网络通过配置静态路由的形式进行互通。
虚拟机内部网络为vxlan,外部网络为vlan。
建议每一个租户配置一个外部网络,暂时规划30个vlan的外部网络,有以下几点优势1、构建vpc,租户隔离更好2、方便运维管理,根据IP可以很快对应到租户,在故障情况下方便定位3、外部网络也不是一次性就全部配置的,根据客户租户的数量,一点点增加如果觉得外部网络太多,则可以所有租户都使用相同的外部网络,或者几个租户用一个外部网络,但是有一些缺点1、租户隔离性差,所有租户/某几个租户都在同一个网络2、IP和租户的对应关系复杂,不方便管理,故障时不方便定位12.3网络带宽概要规划管理服务器所以流量都有单独的物理网口,不需要进行带宽的考虑。
计算节点只有2个千兆网口,需要承载管理、存储、业务所有的流量,如果业务网流量过大,会对管理造成一定的冲击,因此,需要对管理的流量进行最小化保证1、管理带宽管理网主要负责整个系统的监控、操作维护(系统配置、系统加载、告警上报)和虚拟机管理(创建/删除虚拟机、虚拟机调度)等。
其中,VM热迁移、模板导入虚拟机、导出模板、VNC访问虚拟机以及虚拟机挂载光驱等操作会通过管理网传输数据,占用一定的管理带宽。
管理网带宽规划需考虑系统内计算节点数量,以及各种系统维护操作的并发量,建议至少200Mb。
2、业务带宽业务网为虚拟机的虚拟网卡对内以及对外通信的网络。
业务网络带宽规划须了解VM上承载的各种业务对带宽的需求,根据现网前期的信息采集带宽(要采集到带宽高峰值和低峰值)进行规划,并预留一定冗余。
如是新业务,没有业务采样数据,建议按照平台出口上行的最大配置来进行规划。
在可以采集或预估VM带宽的情况下,结合VM的数量以及VM上业务的并发度与业务出口带宽的峰值比(=正常带宽/峰值带宽)进行规划,可估算出业务带宽。
参考公式如下如下:
业务带宽=(∑VM的带宽/VM数量)*VM数量*并发度/峰值比3、存储带宽存储网是虚拟机对本地磁盘进行写入时产生的流量,业务大多数为CPU密集型,对存储的需求并不是很大,存储网使用默认配置即可,不需要进行带宽的保证。
1.2.4虚拟网络服务概要规划网络服务概要规划示例如表7所示表7网络服务概要规划网络服务数量备注dhcp-agent5Controller节点部署vFW每个虚拟机1个创建虚拟机时选择需要的防火墙Compute节点为512个,虚拟机的数量至少在2000的数量级,对于网关会有很大的压力。
将网关放置在交换机上,物理交换机有转发芯片,能提供更高的性能,并且比软件路由更加稳定。
虚拟机的防火墙放置在宿主机上,对于虚拟机不可访问的流量第一时间进行过滤,防止无效流量进入交换机,提高带宽的利用率。
出于性能和稳定性考虑,推荐方案为将网关设置于物理交换机,不使用网络节点。
折中方案为增加至少4台网络节点设备(最好8台),但是有以下几个缺点1、需要额外的网络节点,至少4台,且配置较高2、性能不如物理交换机3、稳定性不如物理交换机,在负载较高的情况下会阻塞网络4、vrouter心跳报文较多,会占用部分带宽5、在大规模环境下,任一网络节点发生故障会导致其余网络节点负载瞬时增高,根据网络规模引发时间不等的网络中断1.3存储子系统概要规划1.3.1系统部署概要规划广州超算中心云平台存储子系统概要规划说明,如表8所示。
表8存储子系统概要规划项目参数存储厂家X-SKY主机数量10集群数量单CEPH集群数量Ceph版本存储IOPS存储带宽部署形式分离部署Cephmon地址1.3.2存储资源概要规划存储的详细资源数据规划表,实际存储容量分配,如表9所示。
表9存储系统的详细资源数据规划pool名称存储分配容量(GB)副本数Pool作用images3存储镜像volumes3存储volumevolumes23存储volume1.4安全性概要规划1.4.1网络安全性Openstack系统的通信平面主要包括业务网、管理网和存储网。
从网络安全性的角度考虑,各个网络需要隔离,本节根据项目实际情况,描述项目中所采用的网络隔离方案:
管理网:
VLAN隔离存储层:
VLAN隔离VLAN业务网:
VLAN隔离,虚拟机出口防火墙VXLAN业务网:
VXLAN隔离
(1)账号安全概要规划为了保证账号安全,要求系统中各账号的密码要求采用一定复杂度的密码,如表10所示。
表10账号安全设置管理员角色帐号密码AdminProject1管理员Project2管理员使用英文大小写,数字和符号的组合作为密码。
密码位数超过8位。
密码不包含账号名称。
定期修改密码,且不和前五次密码相同。
不同运维组织使用不同的登录帐号和密码。
(2)存储安全性概要规划存储的要求是稳定,对其他业务没有影响,这就要求ceph达到如下要求1、不同组件的pool独立,不要混用2、权限划分,客户端只能操作给云平台使用的pool1.5高可用性概要规划1.5.1设备高可用概要规划设备高可用概要规划如表11所示表11设备高可用概要规划类别高可用性规划说明备注Controller每个网络2网卡做绑定双电源硬盘组RAID15台服务器组成高可用集群Mariadb每个网络2网卡做绑定双电源硬盘组RAID13台服务器组成高可用集群Stackwatch每个网络2网卡做绑定双电源硬盘组RAID1Compute网络2网卡做绑定存储10台存储组成集群多副本1.5.2网络高可用概要规划
(1)业务网络高可用所有节点都是用集群和双链路模式,不存在单点或者单链路故障导致系统全部失效的的情况,业务网络高可用方案如表12所示:
表12业务网络高可用规划类别高可用性规划说明备注服务器业务网双网口,网口负载分担模式接入层接入交换机采用堆叠模式接入交换机上行连接到汇聚交换机的两条链路配置聚合汇聚层汇聚交换机配置VRRP为服务器提供冗余网关。
(2)管理网络高可用管理网络组网为接入层堆叠+汇聚层VRRP+核心层VRRP,管理流高可用性分析参考业务流高可用性分析。
(3)存储网络高可用存储网络组网为接入层堆叠+汇聚层VRRP+核心层VRRP,管理流高可用性分析参考业务流高可用性分析。
1.5.3管理高可用概要规划
(1)管理节点管理节点部署为多主模式,vip运行于controller节点,使用pacemaker来管理;openstack各控制服务在所有controller节点都运行,通过haproxy来进行负载分担。
Rabbitmq和mariadb运行于mariadb节点,mariadb通过vip来连接,rabbitmq通过管理网IP连接Stackwatch和influxdb运行于stackwatch节点,通过管理网IP连接,总体高可用设计如图7所示。
图7管理节点高可用规划
(2)计算节点Controller节点和compute节点构建consul集群,并周期性检测compute节点的管理网、存储网、业务网连通性。
如果compute节点网络不可达,则触发故障恢复操作。
考虑到数据一致性,需要将故障compute节点彻底隔离,有如下两种方案:
1、通过IPMI管理2、关闭compute节点上联交换机网口因超算中心环境不具备,目前只给管理员发送告警邮件,不做任何恢复操作。
1.6监控概要规划云平台的监控架构如图8所示图8监控节点高可用规划api提供外部的访问,供云平台查询监控数据、设置监控任务、管理告警规则、管理监控规则etcd存储配置信息,用户定义的信息监控数据存放于influxdb中alarm负责处理告警任务,通过设置的告警规则,对Stackwatch中的数据进行分析,并触发http告警agent负责采集数据,将数据发送到stackwatch中。
目前Stackwatch提供3种agent:
1、libvirt负责监控虚拟机2、host负责监控物理机3、network负责监控tcp、http、ping云平台提供了丰富的监控功能,支持:
虚拟机CPU使用率虚拟机内存使用率虚拟机磁盘空间占用率虚拟机磁盘IOPS虚拟机磁盘吞吐量虚拟机网卡流量宿主机CPU利用率宿主机内存利用率宿主机磁盘利用率系统服务监控告警管理历史告警查询登录日志查询操作日志查询故障恢复日志大屏监控展示虚拟网络拓扑展示如果对监控功能有更多的需求,比如多种告警方式(QQ、短信、微信)、分类表展示等,可以使用opsultra监控产品1.7时间同步概要规划时间同步概要规划如表13所示表13时间同步概要规划序号规划类别概要规划1外部时钟源时钟源地址:
同步周期:
64ms物理时钟源。
1Controller同步外部时钟2Mariadb同步外部时钟3Stackwatch同步外部时钟4Compute物理机:
同步外部时钟源虚拟机:
同步宿主机时钟源Openstack云计算解决方案时钟同步方案参考如图9所示。
图9时钟同步方案
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 企业案例广州超算中心 企业案例广州超算中心项目建设规划项目需求分析 13项目建设规划 企业 案例 广州 中心 项目 建设 规划 需求 分析 13