书签分享收藏举报版权申诉 / 56

立即下载加入VIP,免费下载

当前位置：首页 > 人文社科 > 哲学历史 > 罗贤杰论文基于ETL应用的商业决策信息系统的设计与实现0906Word文档下载推荐.docx

罗贤杰论文基于ETL应用的商业决策信息系统的设计与实现0906Word文档下载推荐.docx

文档编号：18490384
上传时间：2022-12-17
格式：DOCX
页数：56
大小：1.54MB

《罗贤杰论文基于ETL应用的商业决策信息系统的设计与实现0906Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《罗贤杰论文基于ETL应用的商业决策信息系统的设计与实现0906Word文档下载推荐.docx（56页珍藏版）》请在冰豆网上搜索。

罗贤杰论文基于ETL应用的商业决策信息系统的设计与实现0906Word文档下载推荐.docx

StudentID：

EastChinaNormalUniversity

BasedontheETLapplicationinformationsystemdesignandimplementationofbusinessdecisions

Department：

SoftwareEngineeringInstitute

Type：

MasterofEngineering

Domain：

SoftwareEngineering

Supervisor：

PuGeguangprofessor

Applicant：

LuoXianjie

华东师范大学学位论文原创性声明

郑重声明：

本人呈交的学位论文《基于ETL应用的商业决策信息系统的设计与实现》，是在华东师范大学攻读硕士/博士（请勾选）学位期间，在导师的指导下进行的研究工作及取得的研究成果。

除文中已经注明引用的内容外，本论文不包含其他个人已经发表或撰写过的研究成果。

对本文的研究做出重要贡献的个人和集体，均已在文中作了明确说明并表示谢意。

作者签名：

日期：

年月日

华东师范大学学位论文著作权使用声明

《基于ETL应用的商业决策信息系统的设计与实现》系本人在华东师范大学攻读学位期间在导师指导下完成的硕士/博士（请勾选）学位论文，本论文的研究成果归华东师范大学所有。

本人同意华东师范大学根据相关规定保留和使用此学位论文，并向主管部门和相关机构如国家图书馆、中信所和“知网”送交学位论文的印刷版和电子版；

允许学位论文进入华东师范大学图书馆及数据库被查阅、借阅；

同意学校将学位论文加入全国博士、硕士学位论文共建单位数据库进行检索，将学位论文的标题和摘要汇编出版，采用影印、缩印或者其它方式合理复制学位论文。

本学位论文属于（请勾选）

（）1.经华东师范大学相关部门审查核定的“内部”或“涉密”学位论文*，

于年月日解密，解密后适用上述授权。

（）2.不保密，适用上述授权。

导师签名本人签名

年月日

*“涉密”学位论文应是已经华东师范大学学位评定委员会办公室或保密委员会审定过的学位论文（需附获批的《华东师范大学研究生申请学位论文“涉密”审批表》方为有效），未经上述部门审定的学位论文均为公开学位论文。

此声明栏不填写的，默认为公开学位论文，均适用上述授权）。

摘要

随着信息管理系统的应用的增多，企业的业务系统中产生了越来越多的数据孤岛。

怎样把数据孤岛利用起来，于是就产生了ETL概念。

ETL指的是数据抽取、数据转换和数据加载，他们在构建数据仓库过程中占到了极其重要的地位。

在如今社会中，信息在企业中的地位日趋重要，是企业进行科学的管理以及决策分析的基础。

目前，大部门企业在构建业务系统和办公自动化系统中花费了大量的时间和资金，用来记录业务处理的各类数据。

在普遍情况中，企业的数据量每2年左右就会翻倍增长，数据中隐藏着大量的商业价值，但是往往企业所能运用的仅仅只占总量的4％左右。

企业并没有将这些数据资源加以最大化地利用，从而浪费了更多的资金以及时间，更在制定商业决策时候失去了先机。

于是，企业如何运用技术手段，将这些业务数据更好加以利用，已成为提高企业竞争力的瓶颈。

本文以国内某企业为研究背景，根据公司决策层的需求，分析和设计了适合公司决策支持的数据仓库物理结构和逻辑模型，并对数据抽取、转换、装载（ETL）和数据清洗等技术进行了具体地应用实践，设计并实现了可满足决策分析所需的数据仓库及其相关的ETL工具。

本论文的主要研究内容和成果概述如下：

首先，在调研该企业的组织机构、业务系统和企业管理流程的基础上，分析和设计了适合该公企业实际需要的数据仓库的五大模块，即财务模块、供应链模块、成本模块、生产制造模块和人力资源模块。

采用星型和雪花模型结合的方式，设计了五大模块的逻辑和物理模型。

根据企业具体情况，在操作数据存储（ODS）下创建了数据仓库。

其次，设计了一个ETL工具以解决半结构化数据的抽取。

运用DOM对象对数据源进行分析，从企业实际出发设计的ETL工具，能够将企业财务软件导出的XML格式数据加载到数据仓库中，也解决了商用的ETL工具无法对XML文档进行直接抽取、加载的弊端，解决了企业数据分析的实际困难。

最后，设计了基于结构化数据的ETL工具。

在该企业实际运行的业务系统中，基于ORACLE和SQLSERVER的结构化数据占了大多数，基于结构化数据的ETL工具，给用户开放了自行设计清洗函数接口，解决了商用ETL工具清洗函数的不可扩展问题。

另外，并且在元数据中保存了数据提取的SQL脚本，降低了同种SQL多次执行时重编译的时间开销。

关键词：

ETL，ERP，数据仓库，XML，ODS

Abstract

Withtheincreasingapplicationoftheinformationmanagementsystem,enterprisesinthebusinesssystemhashadmoreandmoredataisland.Howtousethesedataisland,thiscreatedtheconceptofETL.ETLisadataextraction（Extract）,dataconversion（Transform）anddataloading（Loading）,istobuildadatawarehouseisextremelyimportantpart.Intoday'

ssociety,informationistheimportantresourceofenterprise,istheenterprisewithscientificmanagement,decisionanalysisbased.Atpresent,mostcompaniesspendalotoftimeandmoneytobuildonlinetransactionprocessingmanagementsystemandofficeautomationsystem,usedtostorethetransactionrelateddata.Accordingtostatistics,theamountofdataevery2to3yearstimewillgrowexponentially,thesedatacontainsahugecommercialvalue,andenterpriseconcernoftenonlyaccountsforthetotalamountofdatafrom2%to4%.Therefore,theenterprisestillnotmaximizetheuseofexistingdataresources,sowastemoretimeandmoney,butalsolostthebestopportunitytomakecriticalbusinessdecisions.Then,howtheenterprisesthroughavarietyoftechnicalmeans,andtoconvertdataintoinformation,knowledge,hasbecomethemainbottlenecktoimproveitscorecompetitiveness.

Inthispaper,adomesticenterpriseastheresearchbackground,accordingtothecompany'

sdecision-makingneeds,analysisanddesignforthecompany'

sdecisionsupportdatawarehousephysicalstructureandthelogicalmodel,dataextraction,transformationandloading（ETL）,andthedatacleaningtechniqueforspecificapplicationpractice,thefinaldesignandimplementationcanmeetthedecisionanalysisofthedesireddatawarehouseandrelatedETLtools.Thepresentpapermainresearchcontentsandresultsaresummarizedasfollows:

Firstofall,intheinvestigationoftheenterpriseorganization,businesssystemandmanagementonthebasisofanalysisanddesignforthecompany,decision-makingsupportrequiredbythedatawarehouseinthefivemajorthemes,namelythefinancialsubject,theme,thethemeofsupplychaincost,manufacturingandhumanresourcesthemetheme.Adoptstartypemodelandsnowflakemodelcombining,establishedthefivemajorthemesofthelogicalmodelandphysicalmodel.Accordingtothecompany'

sspecificsituation,intheoperationdatastorage（ODS）environmenttoachievedatawarehouse.

Secondly,thedesignofaXMLbasedsemistructureddataETLtools.UseDOMobjectanalysisofXMLdatasource,fromtheenterpriseactualsituationthedesignandimplementationofsemistructureddataETLtools,solvethecompany'

sfinancialsoftwaresysteminterfaceXMLsemi-structureddataisloadedintoadatawarehouseoftheproblems,butalsosolvethecommerciallyavailableETLtoolscannotbedirectlyextractedandloadedintothedatawarehouseXMLdocumentmalpractice,tomeettheactualneedsofenterprises.

Then,thedesignofastructureddataETLtools.Inthecompany'

sexistingbusinesssystems,mostofthedataarebasedonORACLE9andSQLSERVER2005structureddatathroughstructureddata,designandimplementationofETLtool,totheusertoreservethecustomdatacleaningfunctioninterface,makeupthecommercialETLtoolcleaningfunctioncannotbeextendeddefects.Inaddition,insupportofETLtoolsoperationmetadatatoretainthedataextractedfromtheSQLtext,reducesthesimilarSQLisexecutedagaintorecompilebringstimeoverhead.

Keywords:

ETL，ERP，DW，XML，ODS

第一章绪论

1.1相关背景

1.1.1课题背景

自从数据库相关技术产生以来，越来越多的企业使用计算机来替代纸质文档记录生产活动中产生的业务信息，以提高工作的效率。

但是，系统开发人员往往只是针对独立的问题来设计应用程序以完成特定的目的，从而导致这些系统程序之间由于缺少必然的联系不能协同工作，使得在现有的独立系统基础上无法实现企业高层次的信息共享。

企业如果要从这些积累下的信息数据中提取所需要的的信息，就必须要将这些相互独立的信息数据集成起来，创建数据仓库，从而达到各系统信息共享的目的，这样企业才能迅速、更准确的对当前和过往数据进行分析，对今后事态发展进行预测，才能为做出理想的决策提供依据[1,2]。

企业的日常业务数据是建立数据仓库的基础，而建立数据仓库的目的是为了能够从数据仓库中筛选出所需要的信息以更好的支持企业决策。

而建立数据仓库的整个过程，它是面向主题、集成并且不可更新的，是不断变化的，需要从基本框架的建立入手，不断完善和丰富整个系统[3]。

数据集成是建立数据仓库的难点，而在数据集成的过程之中又将解决三个主要问题：

数据的更新同步，数据源之间各类数据的不一致表现，如何融合不同的数据源[4]。

ETL即数据提取、转换和装载，是数据仓库的核心技术之一[5]，是构建数据仓库的重要一环。

数据仓库项目中60％-80％的工作量是用来进行ETL过程的建立与执行的[6,7,8,9]。

将数据从不同的数据源中采集到各自的目标数据库的过程，就是所谓的ELT过程，ETL能够管理数据的质量，并且将其贯穿于整个方案的全过程中。

数据仓库建设过程的主要部分就是ETL，其效率和数据质量直接影响数据仓库的建设和企业决策分析的有效性。

1.1.2项目背景

----------公司主要生产、销售给类油封制品、密封罩、保护圈、减震橡胶等其他工业橡胶制品。

产品广泛应用于汽车船舶、航空航天、铁路车辆、建筑机械、农用机械、石油化工、家用电器等领域。

公司成立于1995年，由于受当时条件限制，公司对企业信息化建设仅仅是从应用层面上展开，没有以企业整体角度进行规划，导致企业如今同时存在财务、生产、销售、采购、仓存、人事、客户管理等多套业务系统，并且各个业务系统的品牌和平台各不相同。

一方面经过这么多年的使用，存储了海量的业务数据，随着数据量的剧增导致企业业务系统的响应速度越来越慢；

另一方面企业管理层人员所需要的报表五花八门，有业务数据也有有财务数据的，但是同样的数据经过各自系统的加工之后就会存在很大差异，给企业决策带来了困难。

这些运行在各个业务部门，满足部门级应用的业务软件系统给企业带来的问题表现为：

1整体系统数据响应速度越来越慢。

2缺乏分析数据一致性。

来源于不同口径的统计数据出现了不一致现象，带来了决策上的不便。

3多数据源并存，数据统计分析困难。

4历史数据管理越来越繁杂。

5目前系统对企业的宏观管理缺乏数据支撑。

为解决这些问题，加强企业的决策力，把握未来企业的发展方向，公司高层决定使用ETL技术建立企业级数据仓库满足企业的财务、供应链、生产、成本、人事分析的需要。

1.2国内外研究现状

从20世纪70年代中期开始人们就进行了数据集成的研究，其发展可归纳两个过程，过程一针对多数据库系统[10,11]的研究。

这个过程可分为三类。

第一，物理上分布而逻辑上集中的结构；

第二，逻辑和物理均分布的结构，每个结点采用邦联的独立模式，而并非采用全局模式；

三是多语言数据集成。

20世纪80年代至90年代，随着计算机及和网络的日益普及，传统的数据集成方案对人们获取更多数据的要求已经无法满足，这时数据仓库理论开始被人们接受，相关技术随之产生和应用。

数据仓库的集成工具：

ETL技术的研究也随着数据仓库技术的发展日益活跃，研究主要涉及以下方面[12,13]：

（1）为避免扫描整个庞大的数据集而进行的高效数据检测算法的研究；

（2）在数据自动化清洗和检测中增加人工判断过程为了提高处理的精度；

（3）并行处理海量数据集的研究；

（4）消除合并数据冗余的研究；

（5）数据清洗框架通用性的研究；

（6）数据仓库数据更新的研究；

（7）ETL工作流的研究；

（8）ETL过程优化的研究。

由于ETL在数据仓库中的重要地位，其已成为各类软件厂商占领市场的战略要地。

众多国外数据仓库项目被成功实施，软件厂商纷纷推出了自己的相关产品，如IBM的WarehouseManager，Microsoft的DTS，Oracle的WarehouseBuilder，Informatica的DataStage等[14,15,16]。

目前国内对ETL的研究也有了一定的基础[17,18]。

在实际系统的开发应用中，一部分数据集成工具只能在该系统下使用，仅仅是针对该特定系统开发的；

另一部分对数据的抽取、转换和加载的过程是通过脚本的编写来实现的。

无论是上面的哪种，都存在需要克服的弊端，比如灵活度很低，其次设计过程的代价很大，无论是设计过程的周期，还是对人力、物力的消耗，是一个耗时耗力的过程。

此外，处理异构数据库系统的转换工具功能相对简单，在处理复杂数据时达不到好的效果。

[19,20]。

1.3研究意义

数据集成在数据仓库的建立以及系统集成应用中占重要地位，数据的一致性、完整性、有效性，对数据仓库的建立和数据挖掘的成败起着关键作用。

ETL作为数据集成的解决方案，有着重要的实际意义。

ETL研究理论意义

（1）ETL工具研究使得不同数据源间的异构性得以解决。

数据仓库中的数据都来自多个不同的数据源，每个数据源又往往是异构的，如：

不同数据库数据、XML文件甚至是平板文件。

因此，在数据集成过程之中，如果针对不同的数据源进行设计、编码就会极大延长开发得周期，增加开发成本。

支持异构数据源作为ETL工具的一个特点，它能够从多种数据源中读取或加载数据，这样，开发人员就能够节省时间、提高效率从而投入更多的时间在数据挖掘的方面。

（2）ETL工具便于数据清洗。

由于数据源多样性的原因，导致了大量“脏数据”（DirtyData）的存在[21]。

这些所谓的“脏数据”会在被数据仓库装载的过程中增加数据仓库的负载，在数据质量无法保证的情况下，那么就会对数据仓库的后续操作和数据挖掘产生严重的影响。

ETL作为数据源与数据仓库间的一座桥梁，以克服“脏数据”对数据仓库的影响，提高处理效果。

ETL研究应用意义

（1）加快企业各个系统及数据的整合，以便数据仓库为企业决策提供支持。

如前文所讲，大多数企业尽管具备了各类计算机业务处理系统，积累了大量的基础数据，但数据系统之间相互隔离，信息共享度低，网络、信息资源利用度不高，信息化水平不高。

数据仓库、数据挖掘、ETL等技术能够帮助企业从积累的大量数据中挖掘信息、提炼知识，因此，这些技术必会慢慢普及；

而作为建立数据仓库所需的ETL技术，也会随之发展。

（2）将原先异构数据源中的数据进行同一输出。

如在电子商务领域，基于Internet的XML方式正逐步取代传统的EDI方式。

由于XML的结构非常严格，使得对XML的分析变得容易。

在研究中，元数据管理和转换规则的描述非常适合用XML来实现，而且XML能够成为不同应用程序数据的中间形式[22]，这为解决数据源异构问题提供了便利。

数据集成工具必须要能够提供数据交换接口：

根据用户定义的数据格式，经过ETL工具在多个的数据源中抽取数据，并存入定义好的XML文件中，为电子商务做好数据的准备。

1.4论文研究内容

1.4.1研究思路

本课题来源于客户商业智能系统的开发项目，主要目的是利用现有数据资源建立一个数据交换平台，为企业能够快速、有效地对业务数据进行分析提供保证。

因此本文主要研究了以下问题：

1、数据增量抽取法。

在上一次数据抽取基础上，只对数据表中新增或者修改的数据进行抽取，从而降低ETL后续数据处理的消耗。

快速准确捕获变化的数据而又不对现有系统增加太大压力是增量抽取能够实施的关键，所以，增量抽取的算法相对全量抽取来说更为复杂。

捕获方法的要求有两点：

一是准确，能够将业务系统中的数据变化准确及时的捕获到；

二是性能，要实现组件各部分的独立运行而不能增加对整个系统的负荷。

2、分布式增量数据ETL方法。

串行和并行使数据转换过程中的两种基本方式，串行不同于并行，串行方式直接按照顺序按部就班执行就可以，但对执行效率而言没有太大优势，而并行就可以解决这个弊端，并行方式是将串行方式进行分割，转换成多个过程，这就提高了执行的效率，在这里我们通过分布式的处理方法，就能够真正提高执行的效率，同时加入正确的协同处理机制，保证处理以后的数据具有规范性和正确性。

3、基于增量数据ETL分布式数据转换平台。

数据转换平台能够在不同的数据库之间、不同数据格式之间，进行数据转换。

它主要面对的问题在于：

安全性、高效性、完整性、一致性、异构性等，本文主要在完整性和高效性上进行了研究。

1.4.2主要工作

本文以提高增量ETL执行效率为目标，针对以上问题进行研究，主要取得了以下成果：

1、研究了增量数据抽取方法。

通过对增量数据抽取方法和全量数据抽取方法的比较，并根据企业的业务特点，提出新的提取算法，这种算法是根据数据抽取前后数据属性的变化来建立的，属性的挑选是根据变化明显的特征进行的。

根据比较的结果来进行增量数据的抽取，由于增量数据抽取的属性相比较全量数据抽取要大大减少，从达到减轻数据抽取复杂度，提高数据抽取效率的目的。

2、设计了一个ETL工具以解决半结构化数据的抽取。

3、设计了基于结构化数据的ETL工具。

在该企业实际运行的业务系统中，基于ORACLE和SQLSERVER的结构化数据占了大多数，基于结构