大数据平台设计方案.docx
- 文档编号:30309146
- 上传时间:2023-08-13
- 格式:DOCX
- 页数:9
- 大小:934.30KB
大数据平台设计方案.docx
《大数据平台设计方案.docx》由会员分享,可在线阅读,更多相关《大数据平台设计方案.docx(9页珍藏版)》请在冰豆网上搜索。
大数据平台设计方案
大数据平台设计方案
1
2
(一)大数据采集平台
大数据采集平台是承接外部与内部数据交换的一个基础数据平台,主要由实时数据接入服务、离线批量数据接入服务和数据总线服务组成,是整个通用数据摄取平台,可以从各种数据源中提取,转换和加载海量数据。
比如:
数据库、FTP、RESTAPIs、Files、Stream等等。
大数据接入平台能够处理日常规划任务需要所有数据摄取,包括作业/任务规划,任务分配,错误处理,状态管理,数据质量检测,数据发布等等。
数据源格式包括结构化、半结构化、或非结构化。
数据的接入方式包括批量数据处理模块到数据源主动拉取(pull)数据和实时数据处理模块被动的接受数据源推送(push)的数据。
在数据接入的时效性上有实时数据接入,也有离线数据接入,收集各种数据源数据为大数据平台所用。
数据接入到本系统后,将放入数据总线子系统缓冲起来。
接下来,数据将会进行同步存储到数据平台的分布式文件存储系统中,作为后续系统的数据源;数据也可通过实时计算,存储到数据平台的分布式实时存储系统中。
大数据采集平台通过同样的执行框架从不同数据源摄取数据,在同一个地方管理所有不同数据源的元数据。
同时结合了其他特性,比如自动伸缩,容错,数据质量保证,可扩展和处理数据模型改革等等。
大数据采集平台非常容易使用,是个高效的数据摄取平台。
(二)大数据清洗平台
数据清洗(DataCleaning/DataScrubbing),是在数据仓库/数据库中去除冗余、清除噪音、消除错误和不一致数据的过程。
数据清洗并不是简单地选取优质数据,它同时还涉及到对原有数据的删除、添加、分解或重组等。
数据清洗的任务是对不满足数据挖掘要求的数据进行清洗,将清洗的结果提交给数据挖掘的下一个环节。
根据数据来源不同,数据源分为:
单数据源。
单个数据源的数据质量,主要取决于它的模式设定,以及对数据源中数据的完整性约束的控制程度。
因为数据模式和完整性约束需要控制数据的范围,如果一个数据源没有数据模式,那么对于输入或者存储的数据缺乏相应的限制,这样出现错误数据或者不一致数据的几率就会大大提高。
多数据源。
由于各业务系统在设计、实现时功能的需求、设计的重点不同,多数据源中存在的主要问题是字段名称冲突、属性值和结构的冲突。
例如:
不同表中使用相同字段表示不同属性,不同名称的字段表示相同属性。
(三)大数据挖掘与分析平台
针对海量的数据挖掘需求,平台提供基于海量数据的模型和机器学习分布式计算引擎,相对于传统平台提供的数据挖掘工具,XX大数据所提供的分布式数据挖掘平台更加适合大数据分析场景,除了内置主流的所有算法包以外,还提供分布式计算引擎,可支撑超大规模数据量的离线模型计算和实施模型计算。
平台的总体架构从下到上分为四层:
数据整合、资源管理、数据分析以及数据展示。
每个层次之间相对独立,模块之间以松耦合的形式连接起来,
在数据整合层中,可以对原始关系型数据库,以及普通日志文件数据进行抽取,然后将数据存储到大数据管理平台中。
还有,对取得的数据按照任务的配置参数进行相应的预处理等操作,以便后续挖掘分析做好基础。
在资源管理层中,对各种需要用到的分布式开源框架进行整合和封装,例如Hadoop、storm、spark等框架。
这些框架部署在若干个节点上,对这些框架进行封装以提供给上层分布式存储和分布式计算的能力。
在资源管理层中,同时也提供集群的监控信息,以便用户能观察到集群中各节点的CPU、内存、网络等利用情况,以及各个节点和任务的运行健康状况,便于集群的维护。
图:
平台总体架构图
在数据分析层中,封装各种数据挖掘算法,如聚类、协同过滤推荐、关联规则等。
这些算法都是能够处理大规模的数据,具有很好的可扩展性,能够运行在多个计算节点上。
并且算法都是基于MapReduce或者Spark的基础之上实现的并行化算法。
数据分析层也是整个平台的核心,用户可针对特定的需要对不同的数据集连接不同的算法。
算法运行结束后,将结果存储到HDFS中,或者关系型数据库中,以便上层的结果可视化。
在数据展示层中,将数据分析后的结果通过图表和报表的形式用户展示,或者直接将结果数据以接口的方式对外提供。
在数据分析层和数据展示层之间,通过RESTAPI的方式进行交互,以达到模块之间以松耦合的方式进行连接。
在消费层中,用户可以根据平台分析后的结果进行相应的业务分析,如推荐系统引擎、关联规则分析以及BI应用等。
通过结果的可视化展示,业务分析师能够挖掘数据潜在的价值。
(四)大数据治理平台
医疗健康大数据能够成就人类的伟大梦想,为中国梦的实现增添力量,但同时,在大数据面前我们也必须应对各种前所未有的挑战。
首先是数据质量问题,如何确保原始医疗数据从各级别医院高质量上报?
数据质量、数据盲点问题不容忽视;其次,数据标准,大体量的医疗数据,就意味着规范健康的标准化管理,否则基于数据的应用便无从谈起。
再次,数据监控,如何对医疗健康大数据发展的各个生命周期的各个环节做到可视化监控,让数据从产生到应用的全过程一目了然?
最后,数据安全。
医疗健康大数据完整的记录着一个人的健康状况,关乎每一个人的安全隐私,数据安全保障是头等大事。
在考虑如何充分利用这些大数据进行分析决策的同时,先应该考虑如何在整个医疗数据生命周期中去制定由业务推动的数据质量、数据标准、数据监管以及数据治理等,保障医疗大数据资源持续健康发展,为各类应用业务的开展提供高质量的数据服务。
通过治理制度、元数据管理、标准管理、数据质量管理、工单管理、监控管理等多种管理手段,实现对区域医疗数据标准的统一管理,实现医疗数据标准与国家标准的对照,提升医疗健康数据的质量,对大数据平台各数据节点进行统一管理,并形成长效的实施管控机制,以确保医疗健康大数据优良的运行环境。
●元数据管理:
作为描述数据的“数据”,元数据从不同语境定义着数据,是数据治理的基础。
分为技术元数据和业务元数据。
●标准管理:
数据标准包括数据的结构标准、编码(字典标准),是用来统一规范管理数据的准则。
●数据质量管理:
对医疗数据采集的质量进行校验、管理,并以评分和分报告的形式反馈,便于医院改进并提高上报数据质量。
另外,区域内针对数据质量形成评比机制,公开数据质量得分,从而确保数据的准确性、关联性、饱和度等指标;
●工单管理:
用于记录、处理、跟踪一项工作的完成情况。
提供系统化、标准化的工作处理流程。
比如,治理中出现的任何问题需要指派专人处理,工单管理对工作进行管理。
●监控管理:
提供平台运维人员的监控管理手段,可视化、实时了解数据的动态情况,对不达标、违规数据进行监工甚至干预,并提供告警功能,对整体平台的运行情况进行管理、监控。
(五)大数据可视化平台
本平台基于B/S架构,采用HTML5、CSS3、JavaScript技术构建,实现MVC分层的交互界面和可视化控制,与分析平台通过标准HTTPRESTful资源化风格接口进行对接。
通过模块化封装,使主体框架、业务逻辑与可视化组件库相互分离,实现功能模块的按需装载,并引入高性能的图形库及可视化组件,提供流畅的人机交互体验。
基于XX自主研发的JavaScript核心框架,为本平台提供了灵活的面向对象动态类型定义环境,其所具备的依赖与引用管理能力可为按需装载提供支持,同时框架还引入了标准的事件驱动模型。
本平台从实现层面可划分为3个层次:
数据访问层、业务控制层与视图层。
数据访问层负责封装并向外层透明化与分析平台对接的各种调用接口、数据转换与处理逻辑,使得底层通信、数据组装与业务控制层解耦。
视图层包含Dashboard容器与丰富的可视化组件库,均以模块形式按需装载,提供统一的人机交互、图表呈现,同时提供控制入口供业务控制层管控。
业务控制层实现了基础的控制器逻辑,可连接和管控数据层和视图层。
其中的业务功能均以模块形式定义,按需装载,提供了极强的延展性。
本平台的图表绘制基于HTML5Canvas技术,通过对底层原生绘制API的封装与优化,实现高性能的图形绘制能力。
图表组件同样采用MVC分层设计,遵循数据可视化定义,可准确呈现数据关系,模块化的设计提供很高的可复用性。
(六)大数据交换共享平台
九连环城市级数据交换平台的部署方式有两种,一是通过大数据采集平台采集前置机系统的数据;二是对各个地域或各个部门的业务应用系统开放标准的openapi,不同地域,不同部门,甚至不同业务系统要做一个合理的openapi规划,使得每个业务系统都有唯一标识的openapi接口,这样九连环就通过标准的openapi接口于具有唯一标识,采集所需要的数据源。
九连环城市级数据交换平台主要是通过两种技术实现大数据平台与政府业务系统的对接,一是通过数据管道的数据采集模块,主要有etl,sqoop,flume来采集政府数据交换中心的前置子系统的业务数据,而是通过标准的openapi接口,与政府每个业务系统具有唯一标识的openapi进行连接,这种方式有很强的灵活性强,只要是可对外共享的数据,都通过唯一标识的openapi方式,且更具安全性。
技术架构如下:
大数据交换平台主要包含三种技术,传统的数据共享交换平台,数据管道技术。
传统的数据共享交换平台技术的方法,其特征包括:
前置子系统:
又称之为前置交换节点,是数据共交换平台的重要组成部分。
前置子系统部署在与各种应用系统相衔接的前置机上,前置子系统是数据交换平台同各应用系统交互的技术通道,它负责提供各类技术协议适配器来支持同各种应用系统的底层衔接,实现同各应用系统进行数据交换的顺利衔接,并完成数据转换、数据封装和从中心交换子系统的消息监听、消息处理、数据交换服务控制及前置交换节点信息监控管理等功能。
中心交换子系统:
又称之为中心交换节点,中心子系统在数据交换平台架构框架中包括交换层、服务层、管理层,是整个数据交换平台的核心。
中心交换子系统按照应用层次的划分由接入层、内容处理层、数据存储层构成。
各业务系统通过接入层接入数据交换平台,待交换数据在接入层经过简单加工处理后发送到交换层;交换层根据交换路由信息通过消息中间件的可靠传输到达目的地,调用数据交换平台基础服务层完成对数据的解压、解密、报文检验、数据处理操作后,根据业务服务路由数据经与接收业务系统相连接的接入层发送给接收业务系统。
整个数据交换平台从逻辑划分为五个层次:
应用层:
涵盖各地域或各部门的业务应用系统。
接入层:
实现各地域或各部门业务数据的交换接入。
实现不同应用系统的接入和不同数据格式的转换。
交换层:
实现中心交换节点与交换中心之间、中心交换节点与前置交换节点之间、前置交换节点与前置交换节点之间的数据交换。
服务层:
包括基础服务和业务服务。
其中基础服务实现报文检验、消息包的压缩解压、加密解密、安全认证等功能。
管理层:
对交换中心、交换总线、交换节点进行管理和监控。
从整体上来看,平台主要是在JCA国 际规范基础之上,结合XML、J2EE、Web Services和JMS等技术,采用集中式的交换应用服务器和多种数据传输方式、面向服务的框架结构体系(SOA),实现对各业务应用系统的有机整合。
资源库:
用于存储数据交换节点的交换任务及交换数据。
共享信息库:
用于存储各数据交换节点交换的数据信息,在共享信息库进行数据挖掘,形成信息资源目录,并可以发布订阅。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 平台 设计方案