科研大数据平台项目Word文件下载.docx
- 文档编号:19745817
- 上传时间:2023-01-09
- 格式:DOCX
- 页数:23
- 大小:1.29MB
科研大数据平台项目Word文件下载.docx
《科研大数据平台项目Word文件下载.docx》由会员分享,可在线阅读,更多相关《科研大数据平台项目Word文件下载.docx(23页珍藏版)》请在冰豆网上搜索。
快速响应
以并行计算为核心,按需调度计算任务分配和计算资源,并提供从数据导入整合处理、计算模型设定到计算结果输出、多形式展现、应用API等完整的数据处理服务。
高可用
采用分布式存储系统,数据互备,快速备份和恢复。
支持各种数据处理、计算模型,满足不同领域、不同特点的计算需求。
多副本容错,数据安全无忧。
数据分析
构建大数据存储应用平台,围绕大数据应用构建大数据处理基础软件平台的关键问题是如何解决结构化和非结构化不同类型的数据融合,以及实现不同类型数据处理模式的整合。
单一的MPP数据库或Hadoop产品已经很难满足研究所对结构化和非结构化数据融合的业务需求。
应用云
云计算并不是一个突兀全新的理念,云计算的快速发展,是需求驱动、技术进步和商业模式转变共同发展和促进的结果。
随着我校大规模计算和海量数据存储需求的出现,使得科研大数据平台对IT基础设施的需求也随之增长。
云计算技术的应用能够给我校在节约投资、节省空间、简化管理、数据高度共享和系统高度可靠等方面提供帮助。
因此,本方案的核心价值在于将这两种方式的界限在实际应用部署中打破,形成以全数据处理为核心,垂直整合操作系统、MPP数据库、Hadoop、统一数据服务的基础软件平台解决方案。
2.设计方案
2.1.设计原则
为保证科研大数据平台项目建设的成功,在技术方案中我们主要遵循了以下几个原则:
先进性与成熟技术的集合:
在设备选型设计中,我们要考虑采用当今业界的主流技术,同时要选用在众多关键领域中已经得到充分验证的产品,以保证系统的更高的可靠性和可用性;
高效的可管理性:
对于日益复杂的IT系统架构,对系统的管理要求越来越重,浪潮所推荐的解决方案整体的设计思想是利于以后的管理;
性能价格比:
保证充分满足用户的性能的同时,考虑最优的性价比;
坚持系统建设投资经济合理性的原则;
高可靠性:
全冗余设计,避免任何的单点故障,以保证系统的可靠性,同时便于维护,减少计划内停机次数;
高安全性:
保证系统数据的安全,做到重要数据冗余存储,提供备份、容灾及应急设计;
平滑扩展性:
基于统一标准设计的硬件平台架构,具有平滑扩展的能力,可在未来方便的根据客户需求增添新的硬件;
开放性与标准化:
采用标准的技术以保证与其他厂家的产品相兼容;
产品利用率:
考虑现有设备的使用情况,提高产品的利用率。
降低总体拥有成本、提升服务水平、管理系统风险是整个硬件平台方案的设计战略思想。
本次设计满足当前阶段应用需求的同时,具备升级扩容能力,继续满足下一阶段的应用需求。
2.2.系统架构
2.3.分布式数据库系统
2.3.1.MPP+ShareNothing架构
分布式数据库采用完全并行的MPP+ShareNothing的分布式扁平架构,这种架构中的每一个节点(Node)都是独立的、自给的、节点之间对等,而且整个系统中不存在单点瓶颈,具有非常强的扩展性。
2.3.2.核心组件
分布式数据库产品总共包含三大核心组件,即GCluster、GCware和GNode。
GCWare用于各节点GCluster和GNode实例间共享信息,GCluster负责集群调度,每个GNode就是最基本的存储和计算单元。
GCluster:
GCluster负责SQL的解析、SQL优化、分布式执行计划生成、执行调度。
GCWare:
GCWare用于各节点GCluster和GNode实例间共享信息(包括集群结构,节点状态,节点资源状态等信息),以及控制多副本数据操作时,提供可操作节点,并在多副本操作中,控制各节点数据一致性状态。
GCWare对于集群的管理工作是以节点为基本单位的。
GNode:
GNode是GCluster中最基本的存储和计算单元。
GNode是由GCWare管理的一个8a实例,每个GCluster节点上有一个GNode实例运行。
GNode负责集群数据在节点上的实际存储,并从GCluster接收和执行经分解的SQL执行计划,执行结果返回给GCluster。
数据加载时,GNode直接从集群加载服务接收数据,写入本地存储空间。
2.3.3.高可用
分布式数据库通过SafeGroup组内冗余机制来保证集群的高可用特性:
每个SafeGroup可提供1个或2个副本数据冗余;
SafeGroup内数据副本自动同步;
复制引擎自动管理数据同步;
采用扁平架构,每一个节点都可以充当主控节点,避免了Master节点产生的瓶颈以及当Master与Stand-by宕机产生的整个集群不可用。
2.3.4.高性能在线扩展
分布式数据库具备在线扩展技术:
通过SafeGroup动态扩展集群节点,实际可扩展到64×
3(192)个节点;
每个节点可以处理100TB有效数据,同时提供计算和存储能力;
GCware负责新节点的数据同步。
因为浪潮分布式数据库采用高性能单节点的MPP扁平架构,因此进行集群扩展时,可以保证平滑扩展和性能的线性增长特性。
2.3.5.高性能数据加载
数据加载功能作为浪潮分布式数据库的一部分而存在,目的是将用户从其他数据源得到的原始数据文件,按照某种加载规则分发至集群节点,集群各节点接收数据入库保存到本地磁盘。
分布式数据库支持数据高效并行加载,数据加载速度随节点的扩展而呈现线性增加。
集群加载采用C/S架构,包括数据分发服务器和数据分发客户端两个应用程序。
数据分发服务器接收到客户端的数据加载请求后,服务器端负责原始数据文件切分和数据文件的下发;
各节点调用本地的集群加载服务接收数据入库并保存到本地磁盘。
2.3.6.OLAP函数
分布式数据库提供OLAP函数,用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持。
可根据分析人员的要求,快速灵活地进行大数据量的复杂查询处理,以便他们准确掌握企业的经营状况,了解被服务对象的需求,制定正确的方案。
2.4.Hadoop集群
Hadoop技术给客户提供稳定的、可靠的、易用的大数据设计架构,其组件包括:
:
Hadoop企业版,HIVE分布式内存分析引擎,HBASE分布式实时在线数据处理引擎和Stream流处理引擎。
其特点如下:
2.4.1.Hadoop企业版
Hadoop企业版具有高模块化和松耦合的五层架构,针对不同的应用领域通过组件之间的灵活组合与高效协作来提供定制化的支撑。
数据存储层:
基于HDFS2.2的大数据存储和在线服务体系,支持ErasureCode,在副本数降低至1.5倍的情况下,提高了可靠性,可同时容忍四个数据块丢失,支持可靠存储TB级到数十PB级的数据量。
资源管理层:
缺省采用下一代资源管理框架YARN进行资源的分配和调度,支持同时运行多个计算框架。
计算引擎层:
采用Map/Reduce2完成大部分离线批处理计算任务。
数据分析与挖掘层:
支持离线批量SQL统计,支持R语言以及机器学习算法库Mahout。
数据集成层:
Sqoop支持从DB到Hadoop的数据迁移,Flume支持从日志系统采集数据。
2.4.2.HIVE分布式内存分析引擎
HIVE内存分析引擎提供大数据的交互式SQL统计和R语言挖掘能力。
它具有以下一些特点:
高性能:
HIVE支持将二维数据表缓存入独立的分布式内存(或SSD)中,建立列式存储、分区/分块和索引,采用改进后的ApacheSpark作为执行引擎,SQL执行性能比ApacheHadoop/Hive快10~100倍左右。
更强的SQL支持:
HIVE同时兼容OraclePL/SQL和HiveQL语法,自动识别不同语法,支持存储过程和函数,支持常用Oracle扩展函数。
完整的SQL支持帮助用户平滑地从原有关系数据库迁移到大数据平台。
更强的统计分析能力:
用户可以通过RStudio或者R命令行访问存储在分布式内存中的数据,R语言中数千个统计算法可以和浪潮HIVE提供的分布式并行数据挖掘算法交替混合使用,为各行业进行大数据挖掘提供了易用而强大的分析工具。
支持广泛的BI和报表工具:
HIVE可以和常用的BI工具对接,包括Tableau,SAPBusinessObjects,OracleOBIEE等,用户无需编程就可以方便地为大数据创建美丽的报表,通过浪潮HIVE提供的高速大数据统计分析能力提高决策效率;
高扩展能力:
Inceptor可以随着集群规模的扩展,线性扩展处理能力,可以支持从GB到数百TB的数据处理。
2.4.3.HBASE分布式实时在线数据处理引擎
HBASE实时在线数据处理引擎以ApacheHBase为基础,是企业建立高并发的在线业务系统的最佳选择。
它有以下特点:
多种数据类型支持:
HBASE支持从GB到数十PB数据的处理,支持广泛的数据类型,包括对结构化记录、半结构化文本、图数据、非结构化数据(图片、音频、二进制文档等)的存储、搜索、统计和分析。
高速数据处理能力:
HBASE支持高速的数据检索、搜索和统计;
根据索引进行检索的延时在数毫秒到数百毫秒量级;
支持上亿的并发用户同时进行数据插入、修改、查询和检索;
支持对文本建立增量全文索引并且支持秒级的全文关键字搜索。
高效OLAP和批量统计:
HBASE为HIVE引擎提供高效数据扫描接口,通过HIVE的扩展SQL语法,充分利用浪潮HBASE的内部数据结构以及全局/辅助索引进行SQL执行加速,可以满足高速的OLAP数据分析应用需求;
同时也支持高速的SQL离线批处理,性能接近于存储在HDFS上的相同数据的统计。
高效图计算:
HBASE提供构造图形的API,帮助用户构造由上亿顶点组成的复杂大图,同时提供专有的高效图算法,包括关联网络的高速分析。
2.4.4.Stream流处理引擎
Stream实时流处理引擎以SparkStreaming为基础。
SparkStreaming提供了强大的流计算(Streaming)表达能力,支持DAG(有向无环图)计算模型;
而Hadoop类的批处理系统只能通过外围组件连接多个批次的作业完成复杂多阶段作业处理,系统复杂而低效。
Streaming中的复杂应用逻辑以DAG形式的服务常驻在集群内存中,生产系统的消息通过实时消息队列进入计算集群,在集群内以Pipeline方式被依次处理,完成ETL、特征提取、策略检查、分析告警等复杂服务计算,最终输出到HBase等存储集群、告警页面、实时展示页面等。
系统具备强扩展性、强容错、低延迟、高吞吐等特点,成熟应用于传感器网络数据处理、服务监控、反作弊、实时报表系统等业务。
Streaming支持Kafka,Flume等常见消息队列或采集工具。
2.5.服务器虚拟化
2.5.1.设计理念
浪潮云海•服务器虚拟化系统是浪潮云计算解决方案的核心基础,主要负责完成底层物理资源的虚拟融合、按需分配与高效管理,可以显著提高资源交付的敏捷性和灵活性,提升资源的使用效率,为上层业务提供不间断地资源保障与可伸缩的资源供给。
浪潮云海•服务器虚拟化系统为计算、存储和网络提供了完整的虚拟化解决方案,支持资源的灵活分配、动态组合、在线调整与智能调度,并以虚拟机或虚拟集群的形式将最终资源呈现给用户。
该系统既可以单独使用,也可以配合浪潮云计算管理平台来构建更大范围的云数据中心或者IaaS系统,同时本系统还提供了开放接口,支持二次开发,方便与其他管理平台整合。
在设计理念上,整个系统遵循了以下几个原则:
命令查询职责分离(CQRS)
CQRS原则基于一个简单的事实:
资源(对象)的行为只有两种,即命令(Command)和查询(Query)。
命令可以改变资源的状态,而查询不会。
基于这一原则,系统可以分为两个部分,命令部分和查询部分,并采用不同的技术加以实现和优化,简化整个系统的设计,提升整个系统的性能和可维护性。
独立的认证服务
服务器虚拟化是一个复杂的软件系统,由多个不同功能的模块组合而成,安全认证是每个模块必须的逻辑。
独立的认证服务从系统层面划分出来一个切面,实现集中式的认证管理,其他模块只需与认证服务交互,将复杂的认证过程交由认证服务处理,这一过程对模块而言是透明的。
独立的认证服务对于实现SSO和系统集成具有重要的意义。
独立的监控服务
系统状态是进行决策的数据基础,这些数据多数是由监控服务提供的,监控服务几乎存在于任何大型的软件系统之中。
浪潮服务器虚拟化系统将监控服务剥离出来,以易复用、易扩展、轻量级为目标独立发展,使其可以在不同的系统中提供监控服务。
监控服务为服务器虚拟化系统监控资源状态提供了极高的灵活性和扩展性,大大缩短了系统故障的排查时间。
业务数据与监控数据分离
业务数据与监控数据的分离,主要体现在存储、UI显示以及持久化三个方面。
从存储方面来说,业务数据和监控数据的分离主要体现在存储方式,前者存到关系数据库,后者存到NOSQL数据库。
从UI显示来说,UI显示的主要是业务数据,通过查询关系数据库获取,而对于监控数据,则通过查询NOSQL数据库中获取告警信息。
从持久化方面的讲,业务数据具有关系性强和逻辑紧密,体现用户的业务需求,需要较高的可靠性和稳定性,因此需要持久化到关系型数据库中较为合适,这样既保证了业务关系又确保了数据的稳定性;
而监控数据强调实时性,体现被监控对象的当前状况,数据关系性不强,结构单一,而且不需要进行持久化,因此使用易扩展、可用性高的内存型数据库来存储这类数据比较合适,以最大程度保证数据的实时性。
资源操作与资源状态维护分离
资源操作与资源状态维护分离主要体现在虚拟机的管理上,资源操作基于业务流程,而资源状态维护基于事务的原子操作实现,例如通过监控数据更新虚拟机状态,并维护数据的一致性。
这种机制在虚拟机管理中体现最为明显,主要包括状态切换和虚拟机并发操作处理。
首先,对于状态切换失败处理,如果当前存在其他工作流正在处理当前虚拟机,将终止整个工作流并记录失败原因;
否则强制同步业务状态,使之与监控状态相同,然后终止整个工作流并记录失败原因。
其次,阻止对同一个虚拟机的并发操作,以避免上述的第一个可能分支出现。
2.5.2.系统结构
服务器虚拟化系统可分为四个层次,分别为虚拟层、应用层、展示层、运维层,虚拟层是整个系统的基础,在虚拟层之上构建了应用层,实现高级的业务逻辑,展示层用于对外交互,为了便于系统运维,专门划分了运维层,涵盖系统的安装、部署和安全管理。
虚拟层直接构建在物理硬件之上,在功能上主要是完成物理资源的池化与重新组合:
基于Hypervisor实现计算资源的池化,基于分布式存储/集中式存储实现存储资源的池化,基于虚拟交换机和虚拟路由器实现网络资源的池化,经由这几种技术形成了统一的计算池、存储池和网络池,在此基础之上通过按需组合构建虚拟主机和虚拟集群对外提供服务。
虚拟层同时提供了资源调度(DRS/DPM/HA)、镜像管理和资源管理等功能,为上层实现高级功能提供支持。
应用层基于虚拟层构建高级功能,通过组合虚拟层的功能模块支撑系统的业务逻辑实现,这些主要的业务逻辑包括系统任务管理、物理资源管理(主机、存储、网络)、系统配置、虚机、模板管理以及容灾备份等,这些高级功能全部封装在应用层实现。
展示层是系统对外的交互接口,提供WEBGUI界面和API接口两种形式,方便系统集成和二次开发;
在运维层,提供资源访问控制、PXE安装和在线升级等功能,简化系统运维。
2.5.3.服务器虚拟化系统组成
上图中计算资源和存储资源均由控制中心统一控制与管理。
服务器虚拟化系统包括三条通信链路:
控制网,用于控制中心与各计算节点、存储节点及文件系统主控间传输资源信息与控制指令;
数据网,连接计算节点与存储系统,用于传输虚拟机正常所需的存储数据;
业务网,资源租户及云业务用户通过此网访问虚拟机及部署在虚拟机里的业务,业务网通过VLAN等技术实现隔离。
2.6.云管理平台
浪潮云海OS是浪潮自主设计的系统架构,自主研发的国产云资源管理平台,支持底层VMWarevSphere平台及浪潮自研虚拟化产品iVirtual的异构虚拟资源池,对已部署的vSphere环境无需停机即可被云海OS接管,实现对现有vSphere环境的无缝兼容,实现安全可控。
浪潮云海OS的架构秉承模块化设计理念,结合浪潮对云数据中心客户需求的理解,以超越用户所想,提供超值的用户体验而完成的系统设计。
2.6.1.浪潮云海OS架构图
2.6.2.浪潮云海OS实现的功能
云资源管理
(1)资源池管理:
通过添加vCenter/iVirtual将多个异构资源池整合成一个更大的资源池,进行统一管理和资源分配。
资源池管理包括对资源池的扩充和缩减,暂停使用某些资源等操作。
(2)资源池集群管理:
集群是云资源的载体,是资源池分配的组成单位。
通过集群管理功能实现为不同用户提供不同等级的资源服务,扩充资源池容量。
可重新导入资源池的新增集群,也可暂停在某些集群上新建虚拟数据中心及应用服务。
(3)虚拟数据中心管理:
虚拟数据中心(vdc)界定了组织能够使用资源的范围,组织管理员可将vdc资源分配给组织内用户。
虚拟数据中心管理包括创建、导入,暂停使用、重新启用等操作。
(4)虚拟网络管理:
虚拟网络允许组织及组织用户像定义物理网络一样定义组织自己内部的网络,以及与组织外网络的连接方式,包括直连、NAT等,组织内部网络的地址分配、VLAN划分等。
(5)应用服务管理:
应用服务(vApp)是指提供某种服务的一个或多个通过特定网络连接在一起的虚拟机集合。
可通过服务模板、新建虚拟机2种方式创建应用服务。
操作包括开启、关闭、重启、删除、复制、更改所有者、导出为模板等操作。
(6)虚拟机管理:
单独对组成vApp的虚拟机操作。
功能包括虚拟机控制台、开启、关闭、重启、挂起、恢复、删除、快照、复制、移动至其他应用服务中、导出为模板等操作。
(7)模板/镜像管理:
通过FTP方式将应用服务模板或操作系统安装镜像上传至组织存储空间下,用于部署应用服务和安装操作系统,也可将服务模板和镜像文件共享给其他组织使用。
业务管理
(1)业务审批:
审批系统用户提交的虚拟数据中心(vdc)、虚拟网络、虚拟应用(vApp)申请。
(2)业务流程管理:
审批流程引擎实现虚拟数据中心、虚拟网络、虚拟应用服务审批流程的自定义。
(3)审批历史查询:
查询每个订单的详细信息,包括订单内容,审批流程上的各节点的审批情况,包括审批人、审批时间和是否通过等。
计费管理
(1)计费设置:
设置用户帐户余额的提醒周期及提醒方式(邮件、短信);
定义资源单价(元/资源度量单位/小时)。
(2)计费等级:
资源按一定标准分为不同的等级,各等级的资源计费系数不同,组织分为不同的等级,不同等级的组织计费系数也不同;
系统可自行设置资源等级、组织等级对应的折扣率,从而为不同的用户提供不同的等级的服务。
(3)组织账户充值:
为组织账户充值,并可查询充值历史。
(4)查询组织账户余额:
查询各组织的帐户余额。
(5)查询组织账单:
查询组织每月的消费金额及费用明细。
管理监控
(1)监控视图:
显示服务器、网络设备、数据库、操作系统、web服务、虚拟化资源组及组内各节点的状态统计信息。
(2)资源管理:
开启、关闭、重启服务器组内所有机器或某些服务器;
配置服务器BMC信息;
获取并显示网络设备、数据库、web服务、操作系统、虚拟化资源的相关状态参数信息。
(3)节能管理:
节能管理在不影响正常业务的情况下,通过降低服务器CPU频率来降低服务器组或服务器的能耗。
功能包括节能策略制定及服务器组或服务器的能耗曲线显示。
(4)告警分析:
分时段显示服务器、网络设备、数据库、操作系统、web服务、虚拟化资源等的各监测器返回的异常告警信息。
(5)报表中心:
图表显示服务器、网络设备、数据库、操作系统、web服务、虚拟化资源等的资源状态统计、各监测项状态。
(6)系统配置:
监控管理功能模块的基础性配置。
如添加资源(服务器、网络设备、操作系统、web服务、数据库、虚拟化资源、),为资源选择添加监测项,通知时间表设置,告警通知联系人设置,备份与恢复当前的监控管理配置信息。
系统管理
(1)组织管理:
组织是用户的集合,是虚拟数据中心(VDC)及vApp的所有者,也是资源使用费用的承担者。
组织管理功能包括添加组织、编辑、启用、禁用、删除等操作。
(2)用户管理:
系统管理员管理各组织的组织管理员,各组织管理员管理其组织内部的组织用户。
用户管理操作包括:
添加、删除、修改基础信息、重置密码、启用、禁用等操作。
(3)角色管理:
角色是系统操作的集合,界定了相同角色的用户拥有的操作权限范围。
角色管理包括:
添加、编辑、删除等操作。
(4)日志查询:
根据时间、组织、用户、操作对象等条件查询相关联的操作记录。
(5)系统设置:
配置系统发送提醒、告警类信息的邮件、短信信息。
导出、删除日志,设置日志停留时长。
(6)序列号管理:
系统序列号分为正式序列号和试用期序列号,序
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 科研 数据 平台 项目