数据仓库历史与现在发展状况.docx
- 文档编号:9864878
- 上传时间:2023-02-07
- 格式:DOCX
- 页数:14
- 大小:28.81KB
数据仓库历史与现在发展状况.docx
《数据仓库历史与现在发展状况.docx》由会员分享,可在线阅读,更多相关《数据仓库历史与现在发展状况.docx(14页珍藏版)》请在冰豆网上搜索。
数据仓库历史与现在发展状况
数据仓库
一数据仓库简介
随着处理信息量的不断加大,企业需要多角度处理海量信息并从中获取支持决策的信息,面向事务处理的操作型数据库就显得力不从心,面向主题集成大量数据的数据仓库技术产生。
数据仓库因其面向主题性,集成性,稳定性和时变性,不仅在数据的集成,存储上效果好,在从操作系统提取信息和支持系统造作者的前端工具上更是充分利用了数学严谨的逻辑思维和统计学知识,以及先进的信息技术,使企业的信息利用更有价值。
数据仓路按照特定的方法(ETL)从数据源中提取数据,以特定主题作维度利用特定的算法集成数据,给数据用户提供实时查询,最终集成有效信息供决策者使用。
数据仓库是个过程而不是一个项目,是一个解决方案而不是一个产品。
数据仓库之父比尔·恩门(BillInmon)在1991年出版的“BuildingtheDataWarehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受,数据仓库是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策。
二数据仓库历史
1.1981年NCR公司(nationalcashregistercorporation)为Walmart建立了第一个数据仓库,总容量超过101TB(十年的会计文档还不足1TB)
2.商务智能的瓶颈是从数据到知识的转换。
1979年,一家以决策支持系统为已任、致力于构建单独的数据存储结构的公司Teradata诞生了。
Tera,是万亿的意思,Teradata的命名表明了公司处理海量运营数据的决心。
1983年,该公司利用并行处理技术为美国富国银行(WellsFargoBank)建立了第一个决策支持系统。
这种先发优势令Teradata至今一直雄居数据行业的龙头榜首。
3.1988年,为解决企业集成问题,IBM公司的研究员BarryDevlin和PaulMurphy创造性的提出了一个新的术语:
数据仓库(DataWarehouse)
4.1992年,比尔·恩门(BillInmon)出版了《如何构建数据仓库》一书,第一次给出了数据仓库的清晰定义和操作性极强的指导意见,真正拉开了数据仓库得以大规模应用的序幕。
5.1993年,毕业于斯坦福计算机系的博士拉尔夫·金博尔,也出版了一本书:
《数据仓库的工具》(TheDataWarehouseToolkit),他在书里认同了比尔·恩门对于数据仓库的定义,但却在具体的构建方法上和他分庭抗礼。
最终拉尔夫金博尔尔由下而上,从部门到企业的数据仓库建立方式迎合人们从易到难的心理,得到了长足的发展。
6.1996年,加拿大的IDC(internationaldatecorporation)公司调查了62家实现数据仓库的欧美企业,结果表明:
数据仓库为企业提供了巨大的收益、进行数据仓库项目开发的公司在平均2.72年内的投资回报率为321%。
7.到如今,数据仓库已成为商务智能由数据到知识,由知识转化为利润的基础和核心技术。
8.在国内,因数据仓库的实施需要较多的投入,再加之需要足够的数据积累才能看到结果,不能很好的被企业普遍接受。
对数据仓库的发展产生了一些负面影响。
但实时的,多维的处理海量数据已成为信息时代企业发展所必须的工作。
三主流数据仓库产品
IBM、Oracle、Sybase、CA、NCR、Informix、Microsoft和SAS等有实力的公司相继通过收购或研发的途径推出了自己的数据仓库解决方案。
BO和Brio等专业软件公司也前端在线分析处理工具市场上占有一席之地。
根据各个公司提供的数据仓库工具的功能,可以将其分为3大类:
解决特定功能的产品(主要包括BO的数据仓库解决方案)、提供部分解决方案的产品(主要包括Oracle、IBM、Sybase、Informix、NCR、Microsoft及SAS等公司的数据仓库解决方案)和提供全面解决方案的产品(CA是目前的主要厂商)。
1、BusinessObjects(BO)数据仓库解决方案
BO是集查询、报表和OLAP技术为一身的IDSS,它使用独特的语义层和动态微立方技术来表示数据库中的多维数据,具有较好的查询和报表功能,提供钻取等多维分析技术,支持多种数据库,同时还支持基于Web浏览器的查询、报表和分析决策。
虽然BO在不断增加新的功能,但从严格意义上讲,只能算是一个前端工具。
也许正是因为如此,几乎所有的数据仓库解决方案都把BO作为可选的数据展现工具。
BO支持多种平台和多种数据库,同时支持Internet/Intranet。
BO主要作为第三方产品或其它公司的产品结合进行使用。
BO是集成查询,报表和分析功能工具,它还提供了世界上第一个通过Web进行查询、报表和分析的决策支持工具Webintelligence,第一个可以在MicrosoftExcel集成企业公共数据源中数据的工具Businessquery和面向主流商业用户的数据挖掘工具Businessminer,用其可以实现深入的分析用以发掘深层次的数据之间的关系。
BO是商务智能行业不折不扣的领导者,在美国加利福尼亚圣何塞和法国巴黎设有两个总部。
BusinessObjects还在业内创建了最强大、最全面的合作伙伴社区,在全球拥有3000多家合作伙伴,包括Accenture、BearingPoint、Capgemini、HP、IBM、Microsoft、Oracle(PeopleSoft)、Sysbase、BEA、Teradata和SAP等企业。
另外,公司还提供咨询和培训服务,以帮助客户有效地部署商务智能项目。
2007年10月被SAP收购,但是保持独立运营。
BusinessObject是一个由多个产品组成的产品族,主要包BusinessObject,Designer,DocumentAgent,Supervisor,BusinessMiner五个产品。
这几个产品功能如下:
(1)supervisor:
Supervisor是BO自身的安全管理工具。
在Spervisor中可以建立和维护资料库,在资料库中可以建立BO的用户和用户组,通过对不同用户赋予不同的操作权限,来实现对BusinessObject的使用用户、定制查询(universe)以及查询报告的安全管理。
实际上多个用户定制查询及查询结果的共享时通过资料库实现的。
(2)Designer:
Designer是一个多编模型构建工具,它可以将关系库中的表通过类、对象及对象明细等工具映射到多维模型的维、维元素及度量指标上,使用户在符合业务逻辑的多维模型上构建查询。
(3)BusinessObject:
BusinessObject是一个查询定制和统计报表(图形)生成工具。
它利用Designer建立多维模型定制各类查询,查询方式包括BusinessObject定制查询语义层(universe)、手写SQL语句、存储过程及个人数据文件等,在BusinessObject41版中还将支持OLAPPannel,从而使其可以利用其他厂商的OLAP服务器的功能。
BusinessObject将查询结果以多种报表形式及统计图形的方式提交给用户。
用户可以在查询结果上进行进一步的分析,如向下/向上钻取(DrillUp/DrillDown)等。
另外,在BusinessObject中还提供了一种script语言,?
该语言风格类似VisualBasic,在程序中可以以面向对象的编程风格调用BusinessObject提供的丰富类库。
得script语言可以定制出更为友好的查询界面。
(4)DocumentAgent:
DocumentAgent是专为工作组用户的文档管理及查询结果刷新而建立的。
一组用户对应一个DocumentAgent,不同用户的查询报表(图形)均可发送到DocumentAgent供同组的其他用户共享。
DocumentAgent还可以定义统计报表(图形)的刷新频度。
BusinessObject具有以下几个特点:
前端分析手段灵活,表现方式多样,语义层构建工具应用面广,应用简单,具有文档管理的数据刷新功能,可以利用资料库对不同用户的操作权限进行管理【文来自XX空间】
2、IBM数据仓库解决方案
IBM公司提供了一套基于可视数据仓库的商业智能解决方案,具有集成能力强,高级面向对象SQL等特性。
包括:
VisualWarehouse(VM)、Essbase/DB2OLAPServer5.0和IBMDB2UDB,以及来自第三方的前端数据展现工具(如BO)和数据挖掘工具(如SAS)。
其中,VW是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。
Essbase/DB2OLAPServer支持:
“维”的定义和数据装载,它不是关系型OLAP,而是混合型的OLAP。
IBM采取合作伙伴战略,例如其前端数据展现工具可以使BusinessObjects的BO、Lotus的Approach、Cognos的Impromptu或IBM的QueryManagementFacility,多维分析工具支持ArborSoftware的Essbase和IBM的DS2OLAP服务器,统计分析工具采用SAS系统。
IBM公司推出的DB2UDB7.1主要实现以下功能:
电子商务,包括e-commerce、ERP、客户关系管理、供应链管理、网络自助和商业智能,帮助企业实现电子商务。
商业智能利用已有的数据资源来支持企业决策,包括数据访问、数据分析、成本控制、获取新的商业机会和提高客户忠诚度;数据管理包括准确高效的运行查询和应用、安全的存储、访问数据、数据恢复和在复杂的硬件环境下实现应用;增强DB2家族产品,满足当今异构计算环境的需要,实现开放时机决方案。
IBM联合了550多家合作伙伴,可以提供多达800种商业信息应用和工具。
在世界范围内,IBM的9500多家合作伙伴为支持DB2通用数据库设计了16300种应用程序。
它主要有以下特性:
◆集成能力强
主要包括通用数据支持、免费新增数据仓库中心和DB2OLAPstarterkit。
用户可以使用DB2的数据连接器(DataJoiner),象访问DB2数据资源一样访问Oracle、Sybase、Informix、SQLServer等数据库。
DB2UDB的用户现在可以跨越DB2数据库、Oracle数据库或者一个OLEDB资源进行分布式的查询,也就是可以通过使用DB2通用数据库的SQL句法和API在一个工作单元的查询内访问和处理保存在异构数据资源中的数据。
◆高级面向对象SQL
DB2UDBV7中包含了一些先进的SQL功能,对开发人员和分析员都非常有用。
DB2可以提供临时表格支持、应用存储点(savingpoint)、标识栏(IDColumn)和嵌套存储过程。
◆Windows集成
DB2UDB7.1增加了对于Windows环境集成的支持:
OLE-DB2.0版本的客户端支持功能;OLE存储过程的集成支持;VisualStudio集成;LDAPonWin2000支持;扩展用户ID支持。
DB2V7.1加强了对OLE-DB的支持功能。
现在用户可以用OLE-DB的应用工具通过本地的OLE界面来访问或查询DB2数据,也可以通过OLE-DB的表格功能把数据装载到DB2中。
提供三个新的扩展器:
◆空间扩展器(SpatialExtender)
新版DB2提出了空间SQL查询概念(SpatiallyEnabledSQLQueries),使用户可以在关系型数据库中集成空间数据(通过坐标确定位置)和普通的SQL数据。
这两种技术的结合使用户可以进行新型查询。
新的空间扩展器将能够存储和索引空间数据(坐标信息),并使用户通过特定的空间数据查询对其进行访问。
◆DB2XML扩展器
IBMDB2XMLExtender体现了IBM全面的XML技术策略,在电子商务领域居业界领导地位。
XML扩展器是IBMB2B服务器的组成部分,使DB2服务器可以支持XML。
通过XML扩展器提供了XML文档在DB2中的存储和恢复机制,并可高效地查询XML内容。
通过数据交换,XML扩展器提供新的和已存在的DB2相关表格和XML格式文档之间的映射。
DB2用户可以在任何地方通过XML扩展器进行电子商务,实现企业之间(B2B)和企业与消费者之间(B2C)的应用。
◆Net.Search扩展器
DB2SearchExtender包括一个DB2存储过程,提高了Net.Data、Java和DB2CallLevel界面应用的快速全文本查询功能。
它为应用编程者提供了大量查询功能,例如模糊查询、逆序查询、布尔操作和分区查询。
在Internet中使用DB2Net.SearchExtender进行查询具有极大的优势,特别是在遇到并行查询的大型检索时。
【文来自天极网<<数据仓库白皮书>>】
盒装数据仓库”
为了使企业尽可能轻松、快捷和成本有效地建立一个功能数据仓库,IBM及IBM服务人员提供一个集成的S/390Multiprise3000服务器硬件、关系数据库、操作系统和查询管理软件以及咨询和实施服务包-“盒装数据仓库”,能够比以前更加轻松地使您的系统运行起来。
该产品的主要组件包括:
IBMDB2UniversalDatabase™forOS/390:
业界主要的Web使能的数据库,用于处理不同的任务,例如分布式数据仓库和数据仓库、复杂的查询和事务处理。
如果与OS/390一起运行,它可以为您的数据仓库应用提供无与伦比的可用性、安全性和易于管理特性。
IBMDB2ServerforVSE和VM:
DB2家族的关键成员,它为客户建立分布式数据库解决方案和一周7天一天24小时管理复杂的数据库环境提供所需的一切。
DB2ServerforVSE和VM能以大型系统所需的效率和速度管理大量的数据,允许使用不同的工具直接访问数据。
IBMQueryManagementFacility(QMF)forWindows:
紧密集成、功能强大而且可靠的查询和报表工具集,用于DB2关系数据库管理系统。
QMFforWindows(与安装在Multiprise3000中的一个QMF程序协作,能使用户轻松地访问存储在分布式数据库网络中许多DB2子系统中的大量关系数据,包括DB2forOS/390。
S/390Multiprise3000EnterpriseServer:
功能强大、易于管理的服务器,它在S/390平台上成本有效地为中型企业提供增加的计算功能。
它包括三种简化的型号配置,每一种型号都提供领先的S/390处理技术、额外的存储容量、更高的数据传输速率和更快的处理速度。
为商业智能解决方案选择S/390平台有助于利用现有的技能和资源降低您的总拥有成本。
它可以单独使用或者与任何基于UNIX(和WindowsNT(的应用服务器一起使用。
IBM服务人员:
IBM服务人员将向您的企业咨询,以了解您的业务需求,帮助准备和组织用在数据仓库中的数据,提供教育、培训和安装服务。
IBM服务人员提供的全面的FastStart解决方案-包括硬件、软件和服务-能够快捷、成本有效地帮助使您的数据市场应用运行起来[文来自IBM中国主页产品介绍]
3、Oracle数据仓库解决方案
Oracle作为世界上最大的数据库厂商之一,凭借其在技术、资源和经验上的优势,一直致力于为企业提供最能满足企业竞争需要的数据仓库解决方案,其数据仓库解决方案包含了业界领先的数据库平台、开发工具和应用系统。
Oracle数据仓库突破了现有数据仓库产品的局限,能够帮助企业以任何方式访问存放在任何地点的信息,在企业中的任何层次上,满足信息检索和商业决策的功能需要。
数据仓库解决方案能够提供一系列的数据仓库工具和服务,具有多用户数据仓库管理能力,多种分区方式,较强的与OLAP工具的交互能力,以及快速和便捷的数据移动机制等。
Oracle数据仓库解决方案主要包括两部分:
(1)OracleEcpress:
它由4部分组成,OracleExpressServer是一个MOLAP服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时也能够访问多种关系型数据库;OracleExpressWebAgent通过CGI或Web插件支持基于Web的动态多维数据展现;OracleExpressObjects前端数据分析工具提供了图形化建模和假设分析功能,支持可视化开发和事件驱动编程技术,提供了兼容VisualBasic语法的语言,支持OCX和OLE;OracleExpressAnalyzer是通用的面向最终用户的报告和分析工具。
(2)、OracleDiscoverer:
即席查询工具,专门为最终用户设计,分为最终用户版和管理员版,在其数据仓库解决方案实施过程中,通常把汇总数据存储在Express多维数据库中,而将详细数据存储在Oracle关系数据库中。
需要详细数据时,ExpressServer通过构造SQL语句访问关系数据库。
但目前的Express还不够灵活,数据仓库设计的一个变化往往导致数据库重构。
最新的oracle数据仓库产品有:
oracle数据库11g,sunoracleexadata存储服务器,sunoracle数据库机,oracle分区,oracle高级压缩,oracle在线分析处理,oracle零售数据模型,oracle数据挖掘,oracle数据集成器企业版等。
(文摘自甲骨文中国主页)
4、Sybase数据仓库解决方案
Sybase公司提供的数据仓库解决方案以能够支持多种关系型数据库而受到业界的推崇。
它能够同时处理几十个即席查询,其垂直数据存储技术是系统只访问特定的少量数据,使得查询速度比传统的关系型数据库管理系统快100倍。
Sybase提供的数据仓库解决方案称为Sybase企业级关系型数据库,AdaptiveServerIQ是专门为数据仓库设计的关系型数据库,它为高性能的DSS和数据仓库的建立作了专门的优化处理,SybaseIQ支持各种流行的前端展现工具(如CognosImpromptu、BusinessObjects和BrioQuery等)。
数据分析与展望工具包括PowerDimensions、EnglishWizard、InfoMaker和PowerDynamo等,PowerDimensions是图形化的OLAP工具,支持SMP和多维缓存技术,能够集成异构的关系型数据仓库和分布的数据集市,从而形成单一新型的多维模式,数据仓库的维护与管理工具包括WarehouseControlCenter、SybaseCentral和DistributionDirector,其中WarehouseControlCenter是为数据仓库库开发人员提供的元数据管理工具。
Sybase提供了完整的数据参股解决方案QuickStartDataMart,具有良好的性能,并支持第三方数据展现工具,它尤其适合于数据集市应用。
另外,Sybase可以提供面向电信、金融、保险和医疗保健4个行业的客户关系管理产品。
成功案例有:
广东电信运营分析系统,大鹏证券数据仓库项目,全国铁路客票系统,招商银行数据仓库项目以及最新的贵州电信等。
5、Infomix数据仓库解决方案
Infomix于1998和1999年相继收购了国际上享有盛誉的数据仓库供应商RedBrickSystem和数据管理软件供应商Ardent,并提供了完整集成的数据仓库解决方案。
该解决方案还包括了一个快速启动咨询服务,能够帮助用户快速完成数据仓库或数据集市的开发。
Infomix产品能够集成MicrosoftIIS或NetscapeEnterprise/FastTrack服务器,从而支持基于Web的数据仓库应用。
Infomix没有提供自己的报表和数据挖掘工具,但与Brio和SAS公司建立了战略联盟,并推出了“Infomix商业智能联盟计划”,该计划以Infomix为主,结合Brio的前端数据分析和报表功能,以及SAS的数据挖掘功能,形成了一个“BI中心”打包方案。
Infomix公司发布的集成可伸缩的FastStart数据仓库解决方案,使用户能够快速而便捷的设计开发具有可伸缩的数据仓库或数据集市。
InfomixDataStage是一个可以简化和自动从任意数据源中抽取、转换、集成和装载数据的集成化工具,其可视化设计使用户可以通过一个直观的可视模型设计数据的转换过程,它允许开发者添加更多的数据源、目标及转换程序,而无须重建应用程序,因此可降低成本,减少时间和资源。
由于能快速确定解决方案,用户可以在短时间内存取他们需要的数据,从而做出更明智的商业决策。
构建一个数据集市包含许多普通的操作,而每个执行过程都不可避免的需要制定解决方案,使之适应特定的分析需求。
有经验的开发者懂得如何定制以便处理特殊的数据格式、专业化的商业规划处理和复杂的逻辑转换,这些工作大约占用构建数据集市或数据仓库所需的80%以上的成本和时间。
InfomixDataStage提供一个基于组件的体系结构,可以通过模型化、重复使用模块(如文件载入和集合)来简化和加快开发过程。
另外还提供了更为强大的可伸缩性和经济性,允许用户建立反映特定应用需求的组件,然后封装这些组件以重用。
InfomixDataStage利用开放的应用程序接口(API)和开发工具箱扩展基于组件的体系结构,使用这个接口,用户能够方便的构建新的被称为“Plug-In”的组件。
利用这些Plug-In,用户可以捕获定制的转换和商业规划,自动归档并在InfomixDataStage环境中重复使用,从而构建一个可扩展的附加功能库。
InfomixDataStage包括如下组件:
(1)设计器。
这是一个强大的,基于图形用户界面的开发工具,包含一个转换引擎,一个元数据存储和二种编程语言(SQL和BASIC)。
使用设计器的拖拉功能,用户能在准备数据集市中建立一个数据转换过程模型,防止操作系统的中断及避免执行错误。
(2)存储管理器。
在开发数据集市的过程中,使用存储管理器浏览、编辑和输入元数据,可能包括来自操作系统的元数据或目标集市及开发项目中新的元数据(如新的数据类型定义、传输定义和商业规则)。
(3)控制器。
使用控制器和运行引擎规划运行中的解决方案,测试和调试其组件,并肩控执行版本的结果(以特别要求或预定为基础)。
(4)管理器。
简化数据集市的多种管理,用其为用户或用户组分配器权限(控制InfomixDataStage客户应用或看到或执行的工作),建立全局设置(如用于自动清除日志文件的默认设置),移动、重命名或删除项目和管理或发布从开发到生产的状态。
(5)服务器。
提供了很高的性能,如高速转换引擎、临时的数据存储、支持legacy及关系数据结构和强大的预定义转换等。
另外,服务器通过多个处理器平台优化强化可伸缩性,支持多种数据输入/输出方法,容易添加新的数据源及转换方法。
6、NCR数据仓库解决方案
NCR提出了一套独特的数据仓库方法论和实施框架理论,成为“可扩展数据仓库”(ScalableDataWarehouse,简称为SDW),其基本框架主要分为3个部分:
(1)数据装载。
把操作数据或源数据利用一定的方法,如提取、过滤(Filer)、清理(Scurb)、家庭关系识别(Household)等,从生产系统中转换到中央数据仓库中。
这种转换分成逻辑与物理两部分,即根据业务问题建立数据库逻辑模型。
然后在此基础上构造物理模型,将操作数据加载到物理表中。
逻辑建模应基于要解决的业务问题,而不是基于目前的系统能提供的数据进行。
换言之,数据仓库的出发点是解决业务问题,而不是只提供一个信息转换与访问的工具。
(2)数据管理这一部分是整个数据仓库的心脏,它必须采用一个具有优良并行处理性能的关系数据库管理
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 历史 现在 发展 状况