数据清洗与整合数据交换平台解决方案.docx
- 文档编号:5589378
- 上传时间:2022-12-28
- 格式:DOCX
- 页数:17
- 大小:698.87KB
数据清洗与整合数据交换平台解决方案.docx
《数据清洗与整合数据交换平台解决方案.docx》由会员分享,可在线阅读,更多相关《数据清洗与整合数据交换平台解决方案.docx(17页珍藏版)》请在冰豆网上搜索。
数据清洗与整合数据交换平台解决方案
数据清洗与整合平台解决方案
1.概述
1.1.什么是数据清洗与整合
数据清洗(DataCleaning)就是发现和清除数据中的错误与不一致,从而保证数据的质量,其目标是保证数据的一致性,确保数据的参照完整性和数据的精确性,清洗和刷洗是两个可以互换的术语,是比简单变换更复杂的一种数据变换。
在这种变换中,要检查的是字段和字段组的实际内容和隐含内容,而不是存储格式。
一种清洗是检查数据字段中的异常值。
这可以通过范围检验、枚举和相关检验来完成。
另一种是检查整条记录是否重复。
数据整合(DataConsolidation)是把在不同的数据源的数据收集、整理经过清洗和转换后加载到一个新的数据源,为数据消费者提供统一数据视图的数据集方式。
1.2.数据清洗与整合特点
1.2.1.数据清洗特点
(1)轻松实现数据整合业务定义与设计
数据整合业务面对不同类型、不同格式的异构数据进行清洗与整合,传统的做法是针对特定的数据要求进行数据整合业务的定制开发,这种方式虽然能够满足数据整合业务的需求,但是专业技术水平要求高,同时也带来了较大的维护难度。
(2)智能完成各种异构数据的清洗与整合
提供数据整合执行引擎,自动智能地依照已定义的数据整合业务过程对各种结构化、半结构化、非结构化、文件数据、数据库数据进行清洗与整合,整个处理过程无须人工干预。
(3)统一管理数据整合作业
提供数据整合作业管理系统,完成对数据整合作业的统一管理,在数据整合管理系统中你可以实现数据整合作业的灵活调度启动、数据整合作业的状态控制、数据整合作业处理过程实时监控以及数据整合的日志、影响分析。
(4)快速集成第三方应用的数据整合服务
提供的数据整合服务不仅面向系统内的使用用户,而起支持SOAP的WebService调用,能够很好的和其他第三方应用程序实现集成。
1.2.2.数据整合特点
(1)底层数据结构的透明
为数据访问提供了统一的接口,消费应用无需知道数据在哪里保存,源数据库支持哪种方式的访问
(2)性能和扩展性
数据整合把数据集成和数据访问分成了两个过程,当访问时数据已经处于准备好的状态。
(3)准确与可靠性
提供真正的单一数据视图(dataview),数据整合的优势是经过了数据校验和数据清理,提供消费的数据更加真实、准确和可靠。
(4)可重用性
由于有了实际的物理存储,数据可以为各种应用提供可重用的数据视图,而不用担心底层实际的数据源的可用性。
(5)加强数据管控能力
数据整合的优势是数据规则可以在数据加载,转换中实施,保证了数据管控。
2.产品技术架构
2.1.技术架构
3.产品特色功能
数据交换平台是把在不同的数据源的数据收集、整理经过清洗和转换后加载到一个新的数据源,为数据消费者提供统一数据视图的数据集方式。
主要的特色功能有如下内容:
3.1.支持主流数据源
数据库操作控制台是数据交换平台作业设计工作空间中专门用于进行底层数据库访问的图形化操作界面。
它支持常用的数据库SQL语句操作,支持的底层数据涵盖了主流的数据库类型,包括:
Oracle、Mysql、MSAccess、MSSQLServer、IBMDB2、AS/400和Sybase。
数据库操作控制台向用户提供了数据库连接信息管理、图形化SQL语句编辑器和数据库浏览器。
3.2.可视化的任务设计
业务流程绘图面板采用所见即所得的图形化方式实现对数据整合业务处理流程的定义,操作简单方便,允许用户对各种业务流程组件进行拖拽与编辑,关联各项业务组件之间的上行下行关系,完成对数据整合业务流程的设计。
业务流程绘图面板支持对业务流程图的一键保存功能,已保存的业务流程图能够被绘图面板进行自动的动态渲染,完成其“复制-粘贴”式的完全还原。
通过数据交换平台提供的数据整合业务流程绘图面板,用户可以轻松的实现各种数据整合业务流程图的创建、修改与浏览操作。
3.3.灵活多变的数据整合作业调度
数据交换平台作业的内置的作业调度器,采用了灵活多变的任务触发机制,除了支持平台作业的手动启动以外,还支持定时自启动与周期性循环自启动两种方式。
用户可以根据实际需要对数据交换平台作业的启动方式进行相应的配置,支持按照用户指定的特定时间点定时或周期性启动。
通过平台提供的灵活多变的作业调度器,用户可以根据其实际的需要对平台作业的调度启动进行灵活配置,特别是对于比较规律的作业,为其指定定时启动或者周期性启动,将为用户减轻许多工作量。
3.4.灵活而高细粒度的权限控制
数据交换平台安全认证体系基于URL拦截与ACL控制列表访问技术,对系统完成了灵活而高细粒度的权限控制,能有效的针对系统级权限、功能级权限、资源级权限和数据级权限进行控制与保护,并且允许用户根据实际需要进行各种权限控制规则的自定义,自定义的权限规则即时生效无需重启服务器。
3.5.多用户在线管理
传统的数据整合业务管理工作往往都由某一个人或者某一部门单独来完成,例如一所学校的数据整合业务管理工作往往都是集中于该校的网络信息中心,这样“独揽大权”的管理模式虽然也能满足学校数据整合业务的需求,但是在日益复杂繁琐的数据整合背景下,网络信息中心的数据整合业务管理工作也将日益繁重,最终该校极有可能出现数据整合业务管理“有心无力”的局面。
更为重要的是一个部门“需要整合那些数据”、“怎么整合”、“什么时候整合”等问题只有该部门本身才最清楚答案,只有让其自身来管理自己的数据整合业务才能真正的扫清业务死角,从而彻底的消除信息孤岛的存在。
数据交换平台采用了多用户分工的数据整合业务管理模式,将所有的DCI作业按照不同的组织机构(部门)进行划分,为每个部门提供“一键式”的DCI作业管理操作界面,每个组织机构(部门)的管理员都能且仅能对本部门内的数据清洗与整合作业进行管理操作。
数据整合业务的管理不再是某一个人或者部门的“特权”,每个部门都参与到数据整合业务的管理工作中来,彻底打破了传统“独揽大权”的数据整合管理模式,使得各个部门实现了数据整合业务的“当家做主”。
3.6.个性化的消息定制服务
数据交换凭条个性化的消息定制服务,支持针对于系统性能预警消息、平台作业运行监控消息以及业务数据源监控消息的个性化定制功能,允许用户对这些消息的内容、发送方式和接收对象进行灵活的配置。
消息内容定制采用了消息模板的方式,消息模板中内置的运行时变量,如系统时间、定制对象、消息类型等等,可以帮助用户完成消息内容的动态定制。
消息发送方式的定制支持邮件发送、短信发送与网页即时发送三种类型,接受对象的定制支持包括平台用户和外部匿名的手机或电子邮箱。
通过平台提供的个性化消息定制功能,根据用户的定制的传送方式,主动地将系统性能消息、作业运行监控消息和业务数据源监控消息推送至用户指定的接收端,使用户达到对系统性能、作业运行状态以及业务数据源的实时监控目的。
3.7.基于业务的数据整合影响分析
在数据交换平台中,在狭义的角度上看,一项DCI作业是一项数据整合流程的定义,从广义的角度来看,一项作业实际上也是一条数据整合业务的代表。
数据交换平台对每一项作业的运行日志进行记录,通过对这些运行日志的分析,提炼出数据清洗与整合作业对用户数据的影响,在界面上通过直观、漂亮的报表向用户进行展示,比如“数据整合数据处理总量统计报表”、“部门业务数据流量统计报表”等。
通过数据交换平台提供的数据整合影响分析功能,使用户能够清晰的了解到数据整合对业务的影响与成果,进而使得数据整合进程对用户更加透明化,帮助用户快速定位业务死角与信息孤岛。
3.8.智能的集群负载均衡设计
集群负载均衡是基于JavaRMI技术实现了热插拔式的分布式集群部署。
数据清洗与整合管理系统内置的作业调度器,采用了基于系统性能负载的调度算法,总是会智能地将作业分发至当前数据清洗与整合执行引擎集群环境中性能负载最小的一个数据清洗与整合执行引擎进行处理,实现了平台的数据整合负载均衡,有效提高数据整合数据吞吐量。
4.产品功能体系
DCI产品实现了针对于数据的清洗与整合处理。
它分别由数据整合管理系统(DCI-MS)、数据整合客户端作业设计器(DCI-Studio)和数据整合执行引擎(DCI-Engine)三个子系统组成,三个子系统在DCI产品中各司其职,扮演着不同的角色,完成各自的业务功能。
DCI-MS在DCI产品中充当DCI作业的管理者角色,在整个数据清洗与整合业务处理过程中,完成DCI作业的综合管理功能,负责调度DCI-Engine执行DCI作业,并对DCI作业的运行进行实时监控,最后完成对DCI作业的数据影响分析。
DCI-Studio在DCI产品中充当DCI作业的设计者角色,在整个数据清洗与整合业务处理过程中,完成DCI作业的创建、编辑以及发布功能。
DCI-Engine在DCI产品中充当的DCI作业的执行者角色,它在整个数据清洗与整合业务处理过程中接受DCI-MS的调度,完成DCI作业的执行功能。
三个子系统组成了最终的DCI产品,实现了对DCI作业的设计、管理、执行、监控和数据影响分析。
4.1.数据整合客户端作业设计器
数据整合客户端作业设计器(DCI-Studio),是DCI产品的三大子系统之一,为实施工程师提供了简易友好的DCI作业定义、编辑图形化操作界面。
DCI-Studio作为DCI作业的设计者角色,除了能够在本地创建、编辑DCI作业以外,还实现了与DCI-MS端的远程通信功能。
使用DCI-Studio,实施工程师可以轻松的完成对DCI-MS端DCI作业的创建、编辑、设计和保存的功能。
4.1.1.用户身份信息认证
DCI-Studio内置了对实施工程师的身份信息认证机制,保证只有通过身份认证信息的人员才能够使用DCI-Studio进行DCI作业的设计操作。
DCI-Studio对实施工程师进行身份信息认证,采用了账号登录验证和登录超时退出两项措施。
4.1.2.DCI作业资源信息库
DCI作业资源信息库中存储了远程DCI-MS端的DCI作业资源文件和本地DCI作业资源文件。
通过DCI作业资源信息库,用户可以直接对这些DCI作业资源进行二次设计开发,而无需重新新建DCI作业。
在DCI-Studio中将DCI作业资源信息库有DCI作业远程资源库和DCI作业本地资源库两种类型。
前者保存了远程DCI-MS端的DCI作业资源文件,后者保存了DCI-Studio本地的DCI作业资源文件。
4.1.3.数据库操作控制台
数据库操作控制台是DCI作业设计工作空间中专门用于进行底层数据库访问的图形化操作界面。
它支持常用的数据库SQL语句操作,支持的底层数据涵盖了主流的数据库类型,包括:
Oracle、Mysql、MSAccess、MSSQLServer、IBMDB2、AS/400和Sybase。
数据库操作控制台向用户提供了数据库连接信息管理、图形化SQL语句编辑器和数据库浏览器。
4.1.4.数据库连接信息管理
数据库连接是描述了DCI作业如何连接到数据库的方法,DCI作业可根据数据库连接访问不同的数据库,达到其数据清洗与整合的目的。
数据库连接管理正是为用户提供了对这些数据库连接信息的创建、浏览、删除以及修改功能。
当DCI作业可以完成对目前市场上大部分主流数据库的访问,完成其数据清洗与转换,包括以下数据库类型:
数据库
访问方法
服务器名称/地址
数据库名称
端口(缺省)
用户名/密码
Oracle
Native
需要
OracledatabaseSID
需要(1521)
需要
ODBC
ODBCDSNname
需要
OCI
DatabaseTNSname
需要
MySQL
Native
需要
Databasename
可选(3306)
密码可选
ODBC
ODBCDSNname
密码可选
MSAccess
ODBC
ODBCDSNname
可选
MSSQLServer
Native
需要
Databasename
需要(1433)
需要
ODBC
ODBCDSNname
需要
IBMDB2
Native
需要
Databasename
需要(50000)
需要
ODBC
ODBCDSNname
需要
AS/400
Native
需要
AS/400Libraryname
可选
需要
ODBC
ODBCDSNname
需要
Sybase
Native
需要
Databasename
需要(5001)
需要
ODBC
ODBCDSNname
需要
4.1.4.1.图形化SQL语句编辑器
当实施工程师在进行DCI作业设计的时候,需要创建表、删除索引或者修改字段,有一个图形化的SQL编辑器再好不过了。
DCI-Studio提供的图形化SQL编辑器能完全帮助实施工程师实现这些操作。
4.1.4.2.数据库浏览器
数据库浏览器允许实施工程师浏览当前设计DCI作业所连接的数据库。
包括表数据、表结构、表的DDL语句以及在其他数据库中生成该表的DDL语句。
并支持直接在SQL编辑器中生成读取该表数据的SQL语句。
4.1.5.DCI作业设计工作区
DCI作业设计工作空间,是DCI-Studio中专门用于DCI作业设计的功能区。
在DCI作业设计工作空间中提供了各种友好的DCI作业设计图形界面,帮助实施工程师完成DCI作业的设计。
其中包括,DCI作业步骤组件库、DCI作业属性编辑器、DCI作业步骤编辑器、DCI作业步骤流程连接。
4.1.5.1.使用DCI作业步骤组件库
DCI作业步骤组件是实现了某种的业务处理功能的组件。
一项DCI作业实际上就是由多个DCI作业步骤组件按照具体业务流程组合而成。
DCI作业步骤组件库提供一系列常用的DCI作业步骤组件,比如:
数据库输入输出组件、文本文件输入输出组件、数据排序、合并、去除重复字段等数据处理组件等。
4.1.5.2.DCI作业运行调试
DCI作业设计操作空间为DCI作业设计人员提供了验证DCI作业正确性的调试环境。
在DCI作业的调试环境下,用户可以在本地运行DCI作业,查看该DCI作业的运行日志信息、运行结果来分析该DCI作业是否能够正确工作。
4.1.6.用户界面设置
实施工程师可以改变很多选项来设置用户操作界面。
用户界面的设置分为操作方式设置和图形样式设置两方面。
操作方式设置功能提供了快速改变DCI-Studio的各种操作体验、习惯的途径,例如:
设置DCI作业设计撤销最大步数、DCI启动提示信息展示等。
图形样式设置功能提供了快速改变DCI-Studio图形化界面的显示样式的途径,例如:
字体设置、对话框背景颜色设置、图标尺寸设置等。
4.2.数据整合执行引擎
数据整合执行引擎(DCI-Engine)是DCI产品的三大子系统之一,主要完成了远程集群部署以及并行执行多个DCI作业的功能。
4.2.1.快速集成DCI-MS
4.2.1.1.数据整合服务远程注册
DCI-Engine在启动之后会自动寻找DCI-MS端进行自己服务的注册,告诉DCI-MS端自己已经准备好接受调度执行DCI作业。
4.2.1.2.DCI-Engine集群与DCI-MS集成
DCI-Engine与DCI-MS可以部署在本地局域网中不同的机器上。
同时支持多DCI-Engine的集群部署,集群中的每一个DCI-Engine同时支持部署在局域网中不同的机器上。
所有的DCI-Engine都接受同一个DCI-MS的调度,提供相应的数据整合服务。
4.2.2.开放的DCI作业服务接口
4.2.2.1.DCI作业执行服务
DCI-Engine接受DCI-MS的调度,能够并行的执行多个DCI作业,如图所示。
4.2.2.2.DCI作业运行状态监控服务
DCI-Engine在运行DCI作业的过程中实时的将DCI作业的运行状态反馈至DCI-MS端,并向DCI-MS端提供DCI作业的暂停/恢复、中断服务。
同时还提供作业运行状态一览图,可以直观的看到每个作业的状况。
如图所示。
4.2.2.3.DCI作业处理进度监听服务
DCI-Engine在运行DCI作业的过程中实时的将DCI作业的处理进度信息反馈至DCI-MS端,包括:
DCI作业总体数据吞吐量以及DCI作业步骤数据吞吐量,如图所示。
4.2.2.4.DCI作业日志信息服务
DCI-Engine在运行DCI作业的过程中完成对DCI作业运行日志的记录,并将日志信息进行临时存储,向DCI-MS端进行反馈,如图所示。
4.2.2.5.性能负载信息监控服务
DCI-Engine自启动开始便实时的对本地JVM使用率、物理内存使用率、CPU使用率等本地性能负载信息进行收集,产生其自身的性能快照反馈至DCI-MS端,如图所示。
4.2.3.配置信息管理
DCI-Engine提供了一个关于自身参数的配置文件,可以在该配置文件对DCI-Engine的各项参数进行配置。
包括对DCI-MS连接、本地数据整合服务和性能快照缓存、DCI作业运行日志缓存和DCI作业运行进度信息进行配置。
4.2.3.1.DCI-MS连接配置
DCI-Engine支持对远程DCI-MS端的连接IP地址、端口号以及服务名称参数通过配置文件的方式进行配置。
DCI-Engine会根据配置的连接信息对DCI-MS端进行远程连接与通信。
4.2.3.2.本地数据整合服务配置
DCI-Engine支持对本地提供的数据整合服务进行配置,包括本地服务开放的端口号、服务名称、最大DCI作业并发数量和DCI作业数据文件临时目录等参数。
4.2.3.3.性能快照缓存配置
DCI-Engine性能快照是指在某一时间段内,DCI-Engine本地机器的内存消耗、CPU使用率的性能使用信息的副本。
可在配置文件中对DCI-Engine性能快照缓存的容量、最长保存时间参数进行配置。
4.2.3.4.DCI作业运行日志缓存配置
DCI作业运行日志是指DCI作业在DCI-Engine本地运行所产生的日志信息。
DCI-Engine对这些日志信息进行了临时性的存储。
可以在配置文件中对DCI-Engine存储DCI作业运行日志的缓存进行容量和最长保存时间的配置。
4.2.3.5.DCI作业运行进度信息缓存配置
DCI作业运行进度信息是指DCI作业在运行过程中的数据整合吞吐量以及DCI作业的运行状态等信息。
DCI-Engine在运行DCI作业的过程中,对这些运行进度信息进行了收集并临时保存。
可以在配置文件中对DCI作业运行进度信息的缓存进行配置,包括缓存容量、最大存储时间。
4.3.数据整合作业管理系统
4.3.1.数据整合作业综合管理
在数据整合作业管理中,支持系统管理员和部门管理员对DCI作业管理控制台、DCI作业审核中心、DCI作业回收站、DCI作业监控中心、数据整合业务影响分析进行管理操作。
4.3.1.1.DCI作业管理控制台
DCI作业管理控制台根据部门管理员身份信息对部门内的DCI作业信息进行集中展示,部门管理员可在DCI作业管理控制台完成对DCI作业的查询、调度、启动、停止、基本信息修改、注销以及运行日志查看系列操作。
界面原型图参考附图
4.3.1.2.DCI作业审核中心
DCI作业审核中心根据部门管理员身份信息对部门内的待审核的DCI作业信息进行集中展示,部门管理员可在DCI作业审核中心完成对DCI作业的审核操作。
只有审核通过的DCI作业才能被调度启动,审核失败DCI作业将被系统放入DCI作业回收站。
界面原型图参考附图
4.3.1.3.DCI作业回收站
DCI作业回收站负责将部门中被回收的DCI作业进行保存,部门管理员可在DCI作业回收站中浏览本部门内被回收的DCI作业信息,将DCI作业恢复至回收前状态或将DCI作业彻底删除。
界面原型图参考附图
4.3.1.4.DCI作业监控中心
DCI作业监控中心负责对系统中的DCI作业运行状态进行全程实时监控,部门管理员通过DCI作业监控中心查看实时的DCI作业的详细运行进度信息,包括运行状态、读、写、输入、输出、错误数据条数等信息。
界面原型图参考附图
4.3.1.5.DCI作业数据影响分析
DCI作业数据影响分析是对系统中DCI作业的运行报告统计,在DCI中针对DCI作业实现了DCI作业执行成功率统计、部门DCI作业最近运行记录以及各个部门的DCI作业的数据处理量统计。
4.3.2.数据整合业务流程管理
数据整合业务流程代表了数据清洗与整合处理的完整过程,可以通过业务流程绘图面板完成对数据整合业务流程图的设计与保存。
系统管理员可以在业务流程管理控制台中实现对数据业务流程图的增、删、改、查功能。
4.3.2.1.业务流程绘图面板
DCI-MS内置的业务流程图绘制面板,支持用户通过图形化拖拽的方式轻松完成一个数据整合业务流程图的设计。
绘制完成业务流程图支持进行持久化的保存,业务流程图绘制面板可以自动地将持久化的业务流程图进行还原展示。
4.3.2.2.业务流程图管理控制台
业务流程图管理控制台实现了对数据整合业务流程图的增、删、改、查功能。
4.3.2.3.业务流程监控控制台
业务流程监控控制台,根据实际业务流程中将保存的业务流程图进行动态渲染与展示。
4.3.3.数据整合业务数据源管理
业务数据源是指被DCI作业运行所涉及到的各种数据源信息,在DCI产品中分为数据库数据源和文件数据源。
数据整合业务数据源的管理向部门管理员提供了针对于数据库数据源和文件数据源的管理操作。
4.3.3.1.数据库数据源管理
DCI-MS按照以部门为单位,对DCI作业涉及到的数据库数据源进行统一集中管理。
DCI-MS内置的数据库数据源嗅探器可自动地从DCI作业中将有效的数据库数据源信息进行抽取,部门管理员可在数据库数据源管理中完成对数据库数据源增、删、改、查操作。
4.3.3.2.文件数据源管理
DCI-MS按照以部门为单位,对每一项DCI作业涉及到的输入输出文件资源进行统一集中管理。
部门管理员可在文件数据源管理中完成对DCI作业数据文件的增、删、改、查、上传输入文件和下载输出文件操作。
4.3.3.3.数据库数据源监控
DCI-MS对数据库数据源的平均使用率以及使用次数进行统计与监控。
部门管理员可以在数据库数据源监控中完成对数据库数据源的平均使用率以及使用次数的查看。
4.3.4.系统安全认证服务
DCI-MS提供了一套可靠的系统安全认证服务体系,系统管理员可以在系统安全认证服务中完成用户管理、角色管理、组织机构管理、资源管理以及权限管理相关操作。
4.3.4.1.用户管理
用户管理实现了系统中所有用户信息的集中展示,系统管理员可在用户管理中完成用户的增、删、改、查操作,并支持浏览用户的登录日志、账号手机绑定,分配用户角色操作。
4.3.4.2.角色管理
角色管理实现了系统中所有角色信息的集中展示,系统管理员可在角色管理中完成针对角色的增、删、改、查操作,也可完成针对角色的授权操作。
4.3.4.3.组织机构管理
组织机构管理实现了系统中部门的树状展示,系统管理员可在组织机构管理中完成针对部门信息的增、删、改、查操作,也可以查看每个部门下的部门成员信息。
4.3.4.4.权限管理
权限管理实现了系统中所有权限信息的集中展示,系统管理员可在权限管理中完成针对权限信息的增、删、改、查操作,为系统资源设置权限保护。
4.3.5.系统综合信息管理
4.3.5.1.系统健康指数监控
系统健康指数用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 清洗 整合 交换 平台 解决方案