数据挖掘的现状及趋势研究Word下载.docx
- 文档编号:13181460
- 上传时间:2022-10-07
- 格式:DOCX
- 页数:20
- 大小:50.65KB
数据挖掘的现状及趋势研究Word下载.docx
《数据挖掘的现状及趋势研究Word下载.docx》由会员分享,可在线阅读,更多相关《数据挖掘的现状及趋势研究Word下载.docx(20页珍藏版)》请在冰豆网上搜索。
现在,国外 DM的最新研究在于更深入的
KDD采用算法研究,在行业应用中技术运用相当成熟;
相对来说国内在研究方面
2
还处在缓慢发展阶段,技术运用也不太成熟,但总体上还是稳步上升的。
本文主要从数据挖掘理论出发,着重研究了其实际的应用现状,同时提出了在发展过程中存在的问题以及应对策略,并最后指出了几种数据挖掘未来可能的发展趋势。
1.2研究目的与意义
1.2.1研究目的
本文通过一系列的研究,其目的如下:
(1)通过对比突出国内外在数据挖掘领域研究现状的差距。
(2)举出实例展示数据挖掘在各行业的广泛应用优势。
(3)正确对待数据挖掘发展中自身存在的问题,并客观分析了相关应对策略效果。
(4)明确发展方向,进一步完善数据挖掘未来的发展趋势和规划。
1.2.2研究意义
(1)分析各领域应用现状,探讨未来的发展趋势,为决策者在行业应用提供理论依据。
(2)针对数据挖掘的广泛应用实例,各行业应紧跟发展潮流,合理利用信息资源,有利于在行业中取得优势并占据领导地位。
(3)通过提出对相关问题的应对策略,减少发展过程中的错误,避免数据信息漏洞出现,完善数据挖掘技术。
(4)面对数据挖掘的发展潮流以及信息传播的趋势,通过讨论发展的方向,有利于决策者对行业进行统一规划。
1.3研究现状
1.3.1国外研究现状
当知识发现首次被提出于一次人工智能会议上之后,国际上便开始了对知识发现与数据挖掘的重视和研究,并在每年召开一次研讨会议,这些为数据挖掘的萌芽期做出了很大的贡献。
刘帅等(2015)认为到了九十年代,拓展了数据挖掘技术在学术领域和工程项目中的应用,各国科研工作者加大了对数据挖掘技术的
重视程度,并不断改进创新,如今已取得显著成效[1]。
如此延续到20世纪后,各国研究人员对DM技术的学术研究已取得很多研究成果,实际应用上也产生很好的应用实例。
DavidTaniar(2008)认为数据研究与趋势挖掘技术和应用的重点是数据领域之间的集成仓储和数据挖掘,强调对现实世界问题的适用性[2]。
StefanSlater(2017)认为在进行数据挖掘之前,首先必须对数据集进行清洗和准备原始状态[3]。
因此,国外在数据挖掘方面的研究仍然注重数据集、数据库之间的集成等等。
当前社会信息发展迅速,数据量巨大,造成了数据仓库的满负荷,从而积压了太多的无法利用的数据,但行业市场又急需各种数据挖掘软件来发掘价值信息,于是一些国际知名数据软件开发公司致力于研发数据挖掘软件工具,从未知到尝试,了解到熟悉,数据挖掘软件开发行业已然走向成功,技术也趋于成熟,足以应付现在的需求量,从而可以实现数据与软件的双向价值。
像Angoss软件公司开发的KnowledgeStudio软件,程序灵活简单易于接受、反应速度极快;
IBMIntelligentMiner软件能够完成自动化操作步骤,同时融合多种算法建立特定模型等等。
1.3.2国内研究现状
相对国外的研究成果,国内对于DM的研究仅仅处在开始阶段,各项研究起步太晚,技术方面也很不成熟,但研究人员坚持以国外先进的成果为榜样,紧跟他们步伐,并针对国内数据挖掘形势,结合实际情况,演变为属于自己的研究成果。
徐述(2011)认为时至今日,数据挖掘的对象已经远远不止步于大型数据库、数据仓库而是海量数据、大数据[4]。
闫燕(2014)表示目前市场上以出现文本挖掘设备的应用,虽其功能性有待加强,但也有效提升了企业的工作效率,文本挖掘设备的应用必将成为一种趋势[5]。
张莉(2014)表示目前应用比较广泛的数据挖掘技术包含神经系统法、树形分析法、自然选择法、估算法、结合法等[6]。
刘勇
(2016)认为真正制约或者成为大数据发展和应用的三个瓶颈:
数据收集的合法性、产业链各个环节企业的均衡、大数据有效解读[7]。
到现在为止,国内对于发展DM软件工具还处在尝试阶段,软件研发还停留在高校,由导师和学生组成的科研人员实在太过不成熟,其主要研究的都是关于
DM的算法及理论知识,缺乏一定的科研产品,因此在社会上的认可度不高。
不过研究人员仍在学习阶段,相信未来会有很多成果出现。
任新社等( 2016)指出在我国已有部分部门与企业开发出了先进的挖掘系统,如国家科技研究部门的最新成果BSNiner。
此外我国政府还加大对数据挖掘系统研发的投资力度,在全国多
4
所高等院校内成立研究机构,从事数据挖掘系统的开发[8]。
1.4研究内容与方法
1.4.1研究内容
本文研究的主要内容有以下几个方面:
(1)运用数据挖掘的相关理论知识对DM在各行业的应用现状进行分析,并总结总体现状和影响意义。
(2)分析数据挖掘在其发展过程中存在的问题,针对一系列相关问题提出应对方法策略。
(3)明确数据挖掘所处环境,讨论了数据挖掘未来的发展趋势,为决策者提
供借鉴。
1.4.2研究方法
(1)文献资料法。
首先寻找所需文献,通过对文献的仔细阅读和理解,充分了解数据挖掘的发展史、相关概念和算法,以及当前数据挖掘发展的现状,为数据挖掘的研究提供理论依据。
(2)宏观与微观分析法相结合。
从宏观处着手,找到数据挖掘在国内外的总体现状和存在的问题,然后以我国数据挖掘技术发展为例,进一步分析发展现状和研究成果。
(3)理论分析法。
针对数据挖掘基本算法和研究成果,深入分析数据挖掘发展过程中出现的问题,并根据实际情况,提出一些应对策略。
(4)举例验证法。
举例说明数据挖掘在实际应用方面的现状,比较数据挖掘各行业的应用情况,验证DM在各领域的广泛应用。
2数据挖掘的相关理论及发展历程
作为一种分析数据的强大技术,数据挖掘是综合性技术,源于自身的属性,它融合了至今为止仍然先进的一些科学技术,像人工智能系统,机器学习知识。
所以DM技术的理论基础很是庞大,面对错综复杂的数据库系统,理论知识围绕数据查询、整理再分析的挖掘过程,从基础理论应用上升到深度发掘信息,再到为决策者服务,DM理论发挥了决定性作用,同时这些也都为未来发展提供了坚实的后盾。
在理论知识充足的前提下,国内外数据市场发展迅速、信息产业需求量巨大,从而数据挖掘的发展一帆风顺,在数据热潮中慢慢演变。
2.1相关理论
数据挖掘是近些年来信息数据库应用技术中比较热门的话题,其实看似新颖,实际上却不是新东西,西方国家早已经在二战前就把它运用到生产生活方面。
所以DM技术的理论知识非常充足,覆盖面也更加广泛。
2.1.1数据挖掘的概念
数据挖掘(DM)在本质上是对资料的再分析整理,又可以说成对数据的再挖掘。
由于数据库系统的存在,使得数据挖掘与之联系紧密,因而在数据库知识发现(KDD)的基础上,提取数据并找到关键知识信息的过程尤为重要,这就是数据挖掘能够做的,因此它属于知识发现,是复杂过程中的一步。
陈建伟( 2016)认为数据挖掘就是一种借助于多种数据分析工具在海量的数据信息中挖掘模数据信息和模型之间关系的技术总裁[9]。
DM技术的基础学科就是计算机科学技术,并融入统计学和其他专业学科知识,运用专业算法和规则对数据进行二次挖掘。
卓广平(2015)认为数据挖掘是从大量的、不完全的、模糊的、有噪声的以及具有随性的数据中,对隐含的、具有潜在作用和有意义知识进行提取的过程 [10]。
首先对于数据库中的复杂数据,运用初始数据检索功能进行筛选、获取,其次对数据统一转换处理,结合相关算法规则,进行模型化建立,最后获得能够帮助决策者的数据信息。
数据挖掘技术关键在于能够在初次提取的数据信息中找到隐藏在深处的数据规律,这些信息的价值远超过其它,是未来决策的重要依据,也是处理数据最高层次的应用,提高了数据的重复利用率,对数据行业做出了突出贡献。
8
2.1.2数据挖掘的特点及任务
数据挖掘的特点:
(1)处理的数据量非常大;
(2)用户可以在任何时间和地点使用查询系统,以保证和满足用户的要求;
(3)满足数据库的需求,分别对所有数据进行分析,覆盖全面,为以后应用提供依据;
(4)面对数据库中样本的特点,从数据本身规律出发,其发掘的算法规则只适用于自身。
同样这些特点与
DM挖掘的样本数据和所要达到的目标有紧密的关联。
数据挖掘的任务可以分为:
分类、聚类、关联、回归、预测、序列分析等
(1)分类:
分类就是把数据样本中的数据按照某一概念进行排列组合,这个概念就代表这类的特征,因而分成很多类别,然后利用分类算法,建立分类模型,最终目标则是获得分类规则。
在应用上能够根据客户类型,描述特征,进行分析预测。
常用的一些分类算法包括决策树模式、神经网络算法等。
(2)聚类:
聚类是把样本数据库根据其相似性分成许多类别,使得同类中具有更多相似性,反之,不同类中尽可能不同。
虽然在应用方面与分类相近,但两者区别在于聚类个数和细分程度。
(3)关联:
关联是指两个以上(包含两个)变量在取值上存在联系,进而由
这种联系能够发现两者之间的规律。
在数据库中,数据关联是一种非常重要的、能够发掘的知识。
它可分为简单、时序以及因果关联。
其目的在于发现数据库中藏在数据背后的关联网。
对于有些数据库没有对应的关联函数,因此在衡量关联规则时常用可信度来表示,以便判断其相关性。
(4)回归:
回归与之前的分类相近,两者任务大体相同,但不同于分类的寻找描述模式,只为确定数值,让后使用线性回归方程,最后得到一个简单函数,因此可以方便依据初始数值得到输出结果。
所以在这种优势下,面对两个或多个变量之间看似不明显的相关关系都可以使用回归分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 现状 趋势 研究