数据挖掘的应用现状及发展Word格式文档下载.docx
- 文档编号:16767936
- 上传时间:2022-11-25
- 格式:DOCX
- 页数:7
- 大小:28.30KB
数据挖掘的应用现状及发展Word格式文档下载.docx
《数据挖掘的应用现状及发展Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《数据挖掘的应用现状及发展Word格式文档下载.docx(7页珍藏版)》请在冰豆网上搜索。
发现了其存在的问题,并且对其的理论研究和实际应用提出了一些建议。
根本概念
1、数据挖掘
数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
这些数据可以是构造化的,如关系数据库中的数据,也可以是半构造化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。
发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。
发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进展数据自身的维护。
数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是一个穿插学科领域,可以集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。
2、数据挖掘技术
数据挖掘就是对观测到的数据集进展分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。
它利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。
3、数据挖掘功能
数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。
数据挖掘的目标是从数据库中发现隐含的、有意义的知识,按其功能可分为以下几类:
〔1〕关联分析〔AssociationAnalysis〕
关联分析能寻找到数据库量数据的相关联系,常用的一种技术为关联规那么和序列模式。
关联规那么是发现一个事物与其他事物间的相互关联性或相互依赖性。
〔2〕聚类
输入的数据并无任何类型标记,聚类就是按一定的规那么将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差异很大。
聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。
聚类技术主要包括传统的模式识别方法和数学分类学。
〔3〕自动预测趋势和行为
数据挖掘自动在大型数据库中进展分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势,这样以往需要进展大量手工分析的问题如今可以迅速直接由数据本身得出结论。
。
〔4〕概念描述
对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述聚集的数据集。
概念描述就是对某类对象的涵进展描述并概括出这类对象的有关特征。
概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。
生成一个类的特征性只涉及该类对象中所有对象的共性。
生成区别性描述的方法很多,如决策树方法、遗传算法等。
〔5〕偏差检测
数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。
偏差包括很多潜在的知识,如分类中的反常实例、不满足规那么的特例、观测结果与模型预测值的偏差、量值随时间的变化等。
偏差检测的根本方法是寻找观测结果与参照值之间有意义的差异。
这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消费习惯。
数据挖掘对象
数据挖掘的对象主要是数据库数据、数据仓库数据和事务数据。
随着数据挖掘技术的开展,逐步进入到空间数据库,时态数据库,文本数据库,多媒体数据库,环球网WEB等。
文字、音频、图象、视频等多媒体数据已逐渐成为信息领域的重要表现形式。
音频、视频的数据量很大,要从千万计的多媒体数据中找出需要的数据和信息是很困难的。
目前,对多媒体数据的处理只能在存取,编辑,集成,快进快退等根本操作上,对多媒体信息的检索仅靠文件标识、关键字等进展检索,局限性很大。
目前兴起的基于容的多媒体检索,通过实例的查询方式,检索相似图象,音频,视频信息,基于容的音频、视频信息的聚类、分类、相似查询等,已成为研究的热点。
一般过程
数据挖掘的过程就是知识发现的过程,其所能发现的知识有如下几种:
广义型知识,反映同类事物共同性质的知识;
特征型知识,反映事物各方面的特征知识;
差异型知识,反映不同事物之间属性差异的知识;
关联型知识,反映事物之间依赖或关联的知识;
预测型知识,根据历史的和当前的数据推测未来数据;
偏离型知识,提醒事物偏离常规的异常现象。
所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。
知识发现过程由以下步骤的迭代序列组成:
1、数据清理:
消除噪声和删除不一致数据;
2、数据集成:
多种数据源可以组合在一起;
3、数据选择:
从数据库中提取与分析任务相关的数据;
4、数据变换:
通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式;
5、数据挖掘:
根本步骤,使用智能方法提取数据模式;
6、模式评估:
根据某种兴趣度度量,识别代表知识的真正有趣的模式;
7、知识表示:
使用可视化和知识表示技术,向用户提供挖掘的知识。
主要技术及方法
1、统计学:
研究数据的收集、分析、解释和表示。
2、机器学习:
考察计算机如何基于数据数据学习。
其主要研究领域之一是,计算机程序基于数据自动的学习识别复杂的模式,并做出智能决断。
3、数据库系统与数据仓库:
〔1〕数据库系统研究关注为单位和最终用户创立、维护和使用数据库;
〔2〕数据仓库集成来自多种数据源和各个时间段的数据。
4、信息检索:
搜索文档或文档息的科学。
应用的领域
数据挖掘已在各个部门得到广泛的应用,并收到明显的效益。
下表是摘自Kdnuggets.的关于常用数据挖掘技术应用领域的一份调查。
Banking(37)
13%
Bioinformatics/Biotech(27)
10%
DirectMarketing/Fundraising(29)
emerce/Web(15)
5%
Entertainment/News(4)
1%
FraudDetection(24)
9%
Insurance(23)
8%
Investment/Stocks(8)
3%
Manufacturing(5)
2%
Medical/Pharma(16)
6%
Retail(17)
Scientificdata(24)
Security(6)
SupplyChainAnalysis(3)
Telemunications(21)
Travel(5)
Other(12)
4%
None(3)
此表说明了数据挖掘软件应用主要集中在以下领域:
1、金融方面:
银行信用卡和保险行业,预测存/贷款趋势,优化存/贷款策略,用DM将市场分成有意义的群组和部门,从而协助市场经理和业务执行人员更好地集中于有促进作用的活动和设计新的市场运动。
2、生物信息:
基因工程中的染色体、基因序列的识别、分析。
基因挖掘、基因表达路径分析、基因表达相似性分析、基因表达共发生分析。
制药、生物信息、科学研究等。
3、直销市场〔即零售业/市场营销〕:
是数据挖掘技术应用最早也是最重要的领域,DM用于顾客购货篮的分析可以协助货架布置,促销活动时间,促销商品组合以及了解滞销和畅销商品状况等商业活动。
通过对一种厂家商品在各连锁店的市场共享分析,客户统计以及历史状况的分析,可以确定销售和广告业务的有效性。
4、在客户关系管理方面:
DM能找出产品使用模式或协助了解客户行为,从而可以改良通道管理〔如银行分支和ATM等〕。
又如正确时间销售〔RightTimeMarKeting〕。
基于顾客生活周期模型来实施的产品推荐、客户细分、客户流失、客户利润、客户响应等。
5、电子商务:
用于在线交互式营销系统经营模式、市场策略及效果分析,WEB广告效果分析,在线购物的消费者行为分析。
构造优化、网页推荐、商品推荐等。
6、在过程控制/质量监视保证方面:
DM协助管理大数量变量之间的相互作用,DM能自动发现出某些不正常的数据分布,暴露制造和装配操作过程中变化情况和各种因素,从而协助质量工程师很快地注意到问题发生围和采取改正措施。
7、在远程通讯部门:
基于DM的分析协助组织策略变更以适应外部世界的变化,确定市场变化模式以指导销售方案.在网络容量利用方面,DM能提供对客户组类效劳使用的构造和模式的了解,从而指导容量方案人员对网络设施作出最正确投资决策。
8、化学/制药行业:
从各种文献资料总自动抽取有关化学反响的信息,发现新的有用化学成分。
在遥感领域针对每天从卫星上及其它方面来的巨额数据,对气象预报,臭氧层监测等能起很大作用。
9、军事方面:
使用DM进展军事信息系统中的目标特征提取、态势关联规那么挖掘等。
总之,DM可广泛应用于银行金融、零售与批发、制造、保险、公共设施、政府、教育、远程通讯、软件开发、运输等各个企事业单位及国防科研上。
据报导,DM的投资回报率有达400%甚至10倍的事例。
当前国际现状
自KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议以来。
迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了13次,规模由原来的专题讨论会开展到国际学术大会,人数由二三十人到超过千人,论文收录数量也迅速增加,研究重点也从发现方法逐渐转向系统应用直到转向大规模综合系统的开发,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。
其他容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。
目前,数据挖掘的研究方面主要有:
数据库知识发现方面,将知识发现〔KDD〕与数据库系统、数据仓库系统和Web数据库系统严密结合,力图充分利用Web中的丰富资源;
机器学习方面,进一步研究知识发现方法,希望抑制现存算法的计算性瓶颈,如注重对Bayes〔贝叶斯〕方法以及Boosting算法的研究和提高;
统计领域,加大传统统计方法在数据挖掘中的应用。
世界上研究数据挖掘的组织、机构或大学很多。
比拟著名的如卡基梅隆大学〔有机器制造DM、多媒体数据库DM、互连网DM三个研究中心〕、斯坦福大学、麻省理工学院。
当前国现状
与国外相比,国对DMKD的研究稍晚,没有形成整体力量。
1993年国家自然科学基金首次支持我们对该领域的研究工程。
目前,国的许多科研单位和高等院校竞相开展知识发现的根底理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。
其中,系统工程研究所对模糊方法在知识发现中的应用进展了较深入的研究,大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、大学、中国科技大学、中科院数学研究所、大学等单位开展了对关联规那么开采算法的优化和改造;
大学、联合大学和交通大学等单位探讨、研究了非构造化数据的知识发现以及Web数据挖掘。
存在的问题
虽然数据挖掘技术已经在各方面都得到了广泛的应用,但数据挖掘技术的研究还不够成熟,在应用上有很大的局限性。
正是这些局限性,促使数据挖掘技术进一步的开展:
〔1〕挖掘的对象。
数据库更大,维数更高,属性之间更复杂,数据挖掘处理的数据通常十分巨大。
〔2〕数据丧失问题。
因大局部数据库不是为知识发现而定做的,那么它就有可能会存在一些重要的数据和属性丧失的问题。
〔3〕多种形式的输入数据。
目前数据挖掘工具能处理的数据形式有限,一般只能处理数值型的构造化数据。
〔4〕网络与分布式环境的KDD问题。
随网络的开展,资源的丰富,技术人员各自独立处理别离数据库的工作方式应是可协作的。
促进数据挖掘在中国开展的建议
1、加强对复杂数据的挖掘技术的研究,目前数据挖掘的所处理的数据类型已经由简单的构造化数据开展到复杂的半构造化数据及非构造化数据,并且由单维、低维上升为多维、高维。
数据挖掘技术开展的整体趋势由处理简单的挖掘问题逐步到解决复杂的挖掘问题。
2、加强对数据挖掘应用系统和对算法测试的研究。
目前国关于数据挖掘理论研究较多,但对数据挖掘应用系统和算法测试的研究方面较少,在算法的性能改良方面,可以采用国际上相关研究所采用的一样数据集对现有的算法和新改良的算法进展比照测试,以检验新算法的合理性和有效性。
除了选择人工测试数据集外最好能够采用真实测试数据集。
3、加强对挖掘结果的有效性研究。
由于计算机软硬件技术的快速开展,今后的算法研究将更多的集中在挖掘结果的有效性上,现在的一些算法所花费的时间已以秒计算了,但是其挖掘结果的数量却远远超出了可以理解的围。
对于挖掘结果的有效性需要有科学的方法加以评估。
此外提高算法的可伸缩性、对算法的动态维护和基于约束的挖掘算法等也都是主要的研究方向。
4、多种数据挖掘方法的结合使用。
数据挖掘的方法各有其优缺点,很多模式特别是与分类有关的模式,可以用不同的算法来实现,以适应不同的需求环境。
因此集成的数据挖掘系统应该能够提供多种途径来解决复杂问题。
5、重视数据挖掘技术的实际应用。
目前国有关应用的成功案例较少。
有关方面可以借鉴其他先进国家的经历,引入成功系统进展外乡化研究等。
实际数据挖掘应用的开发有助于对数据挖掘的理解,从而更好地改良数据挖掘的技术。
6、随着数据仓库技术的进一步开展,并行分布式数据挖掘算法的研究需要加强。
7、加强人机交互能力的完善解释机制。
需要把用户所要解决的问题方便地转化为数据挖掘技术人员能够理解并解决的问题,并将挖掘结果以用户能理解的方式表达出来。
对算法的研究也将趋向于简单化和易于理解。
8、多语言挖掘,对于处理多种语言的工具研究。
9、保护隐私权的研究。
数据挖掘能从不同的角度及层次上对待数据,这将有可能影响数据的私有性和平安性,如何在保护隐私权的情况下又能够进展充分的数据挖掘是一个重要的研究方向。
另外需要指出的是,中国在技术研究中对技术本身研究较多,而对技术经济问题研究较少。
数据挖掘技术归根结底是一种手段或工具,对于数据挖掘技术的研究是为了更好的促进社会经济的开展。
如何对数据挖掘技术系统进展有效的管理和利用是一个值得关注的重要问题。
开展趋势
数据挖掘研究正蓬勃开展,在今后还会掀起更大的波澜,其研究焦点集中到以下几个方面:
应用探索;
课伸缩的和交互的数据挖掘方法;
与搜索引擎、数据库系统、数据仓库和云计算系统的集成;
挖掘社会和信息网络;
挖掘时间空间数据移动对象和物联网系统;
挖掘多媒体、文本和Web数据;
挖掘生物学和生物药学数据;
数据挖掘与软件工程和系统工程;
可视和听觉数据挖掘;
分布式数据挖掘和实时数据流挖掘;
数据挖掘哄的隐私保护和信息平安。
小结
本文通过各方面资料的查找,介绍了根本的数据挖掘概念、数据挖掘技术、数据挖掘的实际应用及国外现状,也结合当前的研究成果,分析了数据挖掘的领域及开展趋势。
数据挖掘技术是一个年轻而充满希望的研究领域。
经过十多年来的风雨历程,总的来说,数据挖掘理论及技术研究下逐步走向成熟。
其应用也已经深入到众多的领域,在各行业的应用越来越广泛;
数据挖掘软件功能日益强大、完善,正向多技术综合及集成化方向开展。
并以其显著的经济效益推动着其应用的迅速普及,同时又以强大的市场需求剌激着其理论及技术研究的不断升温,其相关软件的开发产业正以前所未有的速度迅速崛起,其理论或技术的重大突破将导致导致信息社会发生质的飞跃。
参考书籍
1、数据挖掘概念与技术〔原书第三版〕机械工业
2、网上相关数据挖掘资料
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 应用 现状 发展