数据仓库与数据挖掘论文Word文件下载.docx
- 文档编号:22676408
- 上传时间:2023-02-05
- 格式:DOCX
- 页数:7
- 大小:267.58KB
数据仓库与数据挖掘论文Word文件下载.docx
《数据仓库与数据挖掘论文Word文件下载.docx》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘论文Word文件下载.docx(7页珍藏版)》请在冰豆网上搜索。
2012年11月2日
摘要
通过对数据仓库与数据挖掘的学习和大致的了解,主要提出了一种基于数据仓库的数据挖掘系统的决策支持系统的框架。
该文章把数据仓库、数据挖掘工具和知识库结合在一起,提高了数据挖掘的效率。
增加了挖掘数据的效率和价值实用性!
一、概述
今天,越来越多的企业认识到要从以往的事务处理和决策中总结经验,利用现有的数据进行分析和推理,建立企业的决策支持系统(DSS)以提高决策的质量。
企业如果不能快速精确的收集和分析信息,将无法进行科学而有效的决策。
建立数据仓库(Datawarehouse)将能很的解决这一问题,使企业从大量的业务信息中筛选出所需的信息,并做出正确的决策。
数据仓库不是单一的产品,而是综合了多种信息技术的计算环境。
它将全企业的运行数据汇集到一个精心设计的关系数据库中,并将它们转换成面向主题(Subject-oriented)的形式,使最终用户很容易的从历史的角度对这些数据进行访问和分析。
以银行为例,通常,银行的应用系统是按业务分类的,如储蓄、信贷、信用卡等,一个客户的信息分布在不同的业务系统中,要想得到一个客户的全面信息非常困难。
银行通过建立数据仓库,可以将分离在各个业务系统中的数据合并成一个统一的图表,这样就可以看到客户在各个系统中的全貌,而且可以从历史的角度对客户档案进行分析,以便做出为每一个客户进一步服务的决策。
二、数据仓库和数据挖掘的基本概念
数据仓库是支持管理决策过程的、面向主题的、集成的、随时间而变的、持久的数据集合。
数据仓库系统负责从操作型数据库中抽取数据,实现对集成和综合后的数据的管理,并把数据呈现给一组数据仓库前端工具,以满足用户的各种分析和决策的需求。
数据仓库系统的前端工具以OLAP工具和数据挖掘工具为代表,是用户赖以从数据仓库中提取、分析数据,以及实施决策的必经途径。
数据挖掘DM(DataMining),是指从数据中识别出潜在有用的、先前未知的、最终可理解的模式的非平凡过程。
研究基于数据仓库的数据挖掘系统结构框架是很有意义的。
三、数据仓库的结构、功能
1、数据仓库的基本结构
数据仓库中的信息存储,根据对数据的不同深度的分析处理而区分为不同的层次,其基本结构分为以下几个部分:
(1)历史性详细数据层:
它存储历史数据,用于数据对比、回归、汇总等供分析、建模预测之用。
历史数据一般为5至10年或更久的数据,它纵向只对数据/信息进行分类存储。
(2)当前详细数据层:
存储当前最新详细数据,重点用于了解当前情况,是进一步分析数据的基础。
在一定时刻,这些数据会转移到历史数据层去。
(3)不同程序的归纳总结信息层:
可包含多个层次,根据所需分类和归纳的不同深度而定。
如按周、月、年统计的数据。
这些信息只是一些简单的汇总,尚不能形成高级的决策信息。
(4)专业信息分析层:
进一步专业分析的结果,如统计分析、运筹分析、时间序列分析以及表面数据的内在规律分析等。
(5)仓库结构信息:
数据仓库的内部结构信息,反映各种信息在数据仓库中的位置分布和处理方式等,以便检索查询之用。
组织数据仓库的数据时,应根据数据访问概率把数据分为经常被访问但较少被修改的数据和经常被修改但较少被访问的数据。
对于前者可以做较多的索引(一般可做8至12个)来提高访问的效率;
对于后者就必须少建索引,否则,由于它经常被修改,重索引的概率就很大,反而会降低系统的效率。
2、数据仓库的功能特点
数据仓库的主要功能是提供企业决策支持系统或执行信息系统(EIS)所需要的信息,它把企业日常运行中分散不一致的数据经归纳整理后转换为集中统一的、可随时取用的深层信息,这种信息虽然也是按关系数据库的存储结构存储的,单与面向逐条记录的联机时务处理(OLTP)不同,在数据仓库中的一条记录,有可能是基础数据中若干个表、若干条记录的归纳和汇总。
数据仓库的基本特点是:
(1)面向对象性。
数据仓库中存储的信息是面向主题来组织的。
它根据所需要的信息,分不同类、不同角度等主题把数据加工、整理之后存储起来(按横向对数据进行分类存储)。
(2)数据历史性。
数据仓库中可以专门存储5至10年或更久的历史数据,数据具有时间标示,以满足信息比较、分析预测等的数据需求(按纵向对数据进行分类存储)。
(3)数据集成性。
无论数据来源于何处,进入数据仓库后都具有统一的数据结构和编码规则,数据仓库中的数据具有一致性的特点。
(4)数据只读性。
数据仓库是一个信息源,它只是为在其上开发的DSS或EIS等提供信息服务,因此它应是只读数据库,一般不能轻易改动,只能定期刷新。
(5)操作集合性。
数据仓库可通过快照机制,成批的更新来自不同资源的数据,将其载入数据仓库;
也可以成批的访问数据。
(6)应用C/S(客户机/服务器)性。
数据仓库通过定义信息(元信息)把整个数据组织起来。
在元信息中有一类记录系统信息,定义了数据存储、修改权限等,记录系统将原始数据转换成适合于数据仓库应用的数据,所以这实际上是C/S应用模式。
四、数据挖掘技术
数据挖掘是一种大型数据库(如数据仓库)中提取隐藏的预测性信息的新技术。
数据挖掘是一种展望和预测性的信息分析工具,它能挖掘数据间潜在的关系模式,发现用户可能忽略的信息,为企业管理者提供前摄的(Proactive)、基于知识的决策。
数据挖掘技术使DSS的应用向效益型卖出了重要的一步。
传统的DSS通常是在某个假设的前提下通过数据查询和分析来验证或否定这个假设,而数据挖掘技术则能够自动分析数据,进行归纳性推理,从中发掘出潜在模式或产生联想,建立新的业务模型,帮助决策者调整市场策略,做出正确的决策。
五、一种基于DW的DMS结构框架
根据数据仓库系统的特点,提出一种基于数据仓库的通用数据挖掘系统的结构框架,如图1。
该结构框架的概念模型包括如下组成部分:
(1)用户查询接口它可分为查询分类、查询解释及规格化两部分。
其作用是将数据挖掘请求解释成规格化的查询语言,并交由查询协同机处理。
(2)查询协同机它的工作是协同数据仓库管理系统、数据挖掘工具管理系统和知识库管理系统,共同对查询接口提交的查询请求进行处理。
图1一种基于数据仓库的数据挖掘系统的结构框架
(3)数据仓库管理系统它直接负责对数据仓库进行管理,并完成对各种异构分布数据源中数据的提取工作,以最大限度屏蔽各异构数据源对系统的影响。
(4)知识库管理系统它对知识库进行管理和控制,包括知识的增加、删除、更新和查询等。
一方面,处理由查询协同机处理后产生的知识库查询请求,并将结果提交给数据挖掘模块;
另一方面,接受通过知识评价的知识模式,并存入知识库。
(5)数据挖掘工具的管理系统它的作用是对数据挖掘工具进行管理。
(6)数据挖掘预处理模块它的任务是在数据仓库管理系统的协同下,根据元数据和维表,对整个数据仓库中储存的数据进行处理,生成符合用户查询需要的,并能满足数据挖掘工具集要求的待处理数据子集。
(7)知识评价模块数据挖掘阶段发现出来的模式需要经过知识评价模块的评估。
如果存在冗余或无关的模式,则将其剔除了;
如果模式不能满足用户要求,则需要重新选取数据,设定新的数据挖掘参数值,甚至更换数据挖掘算法重新进行数据挖掘。
(8)结论表达模块它将得到的结论按语义层次结构进行普化,得出各语义层上的结论,并对其进行解释,将发现的模式以可视化或自然语言的形式呈现给用户。
六、基于数据仓库与数据挖掘技术的DSS
创建数据仓库的目的是为企业的DSS和EIS提供科学的决策依据。
数据仓库用于大量数据存储和组织;
数据挖掘用于从大量的数据中发现知识,为用户进行预测决策。
数据挖掘以数据仓库和多维数据库为基础,通过OLAP和多维分析工具自动发现数据中的潜在模式,并以这些模式为基础自动做出预测。
数据仓库与数据挖掘技术的结合为企业DSS和EIS的建立提供了新的、更有效的解决方案。
图2表明了这种方案的一种结构。
七、结束语
通过对数据仓库与数据挖掘教程的学习,我了解了数据仓库对相关数据进行分析的方法,以及用相关软件预测的步骤。
并且懂得了企业未来的成功,很大程度上取决于准确的数据挖掘能力,许多领域都需要对潜在的数据进行深层次的分析,困难主要有对数据的一些概念和方法方法不太熟悉,导致思想比较懵懂,会时不时出现差错,导致出现的结果与预期的不一致。
但总体来说还是有很多收获的,通过这次学习,我巩固了所学的理论知识,进一步理解了相关的概念和方法。
也明白了一些深刻的道理,即在遇到困难时不要放弃,要有持之以恒的精神,遇到不懂的问题时要及时请教老师和同学,要在实际动手操作时进一步完善自己的所学的知识,要善于思考,善于总结,这样才能有所学有所想,学有所得。
八、参考文献:
1、赖福军,周婷,数据仓库及其本关技术,软件世界,1997.2
2、王珊,数据仓库联机分析处理数据挖掘.计算机世界报1997.01.06.
P123-125
3、骆斌,面向对象的数据仓库技术的研究,南京大学博士学位论文,1999.12.
4、陈兆乾,周志华、骆斌、陈世福,"
增量式IHMCAP算法的研究及其应用"
,计算机学报,1998,8.
5、陈坚志,广东外语外贸大学,"
数据仓库与数据挖掘在决策系统中的应用"
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 论文