书签分享收藏举报版权申诉 / 35

立即下载加入VIP,免费下载

当前位置：首页 > 求职职场 > 自我管理与提升 > 浅谈数据挖掘.docx

浅谈数据挖掘.docx

文档编号：29729308
上传时间：2023-07-26
格式：DOCX
页数：35
大小：751.79KB

浅谈数据挖掘.docx

《浅谈数据挖掘.docx》由会员分享，可在线阅读，更多相关《浅谈数据挖掘.docx（35页珍藏版）》请在冰豆网上搜索。

浅谈数据挖掘.docx

浅谈数据挖掘

计算机与信息学院

本科毕业论文（设计）文献综述

浅谈数据挖掘

0前言

随着网络的迅猛发展，依托于网络的网络购物做为一种新型的消费方式脱颖而出，在全国乃至全球范围内都在迅猛的发展。

网络购物行业也越来越得到更多人的关注，与此同时，各种研究方法、数据分析方法也被运用到了关于网络购物的研究当中。

数据挖掘技术作为一种新的数据分析方法逐步应用到网络购物的分析中，获取数据、抽取规律、预测趋势、建立模式，这对促进网络购物行业的健康、有序发展是十分有益的。

本研究使用数据挖掘的方法，借助SAS工具，以阿里巴巴大数据竞赛的真实数据为基础，对天猫用户购物行为进行了研究分析。

1什么是数据挖掘

数据挖掘（英语：

Datamining），又译为资料探勘、数据采矿。

它是数据库知识发现（英语：

Knowledge-DiscoveryinDatabases，简称：

KDD）中的一个步骤。

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

在较浅的层次上，它利用现有数据库管理系统的查询、检索及数据挖掘功能，与多维分析、统计分析方法相结合，进行联机运算分析处理，从而得出可供决策参考的统计分析数据的一个有商业意义的结果，这个结果可以出售给需要的卖家，这就是所谓的大数据分析。

在深层次上，则从数据库中发现前所未有的、隐含的知识。

例如：

在大街上川流不息的车流量，在普通人眼里，当你通过一个十字路口时，可能会看到除了塞车就是车祸，亦或者没有事的安全通行，没有其他的信息可能会有，如果是一个数据挖掘人员就会发现其中的数据信息，一小时会有横向会有多少车流量，竖向会有多少车流量，这样可以得到一组数据，通过数据挖掘分析后得到更有的结果，十字路口的红绿灯就可以根据车流量设置时间长短。

而从另一个角度，如果在十字路口进行路线测绘的话，就可以得到类似地图的数据，手机中的导航软件就是通过这样实现的，所以我们生活中数据挖掘无处不在，只是在我们不认识数据挖掘时，不会去发现。

2数据挖掘的任务

数据挖掘的两个高层目标是建立模型和预测。

前者指用一些变量或数据库的若干已知字段通过相应的数据挖掘分析软件，以及某些情况下需要实地考察，再结合团队间的分析，结合数据挖掘的相应模块导出一个比较合理性、可行性、具有预测性的模型，而后者是建立在前面的分析好后，通常，预测是通过分类或估值起作用的，也就是说，通过分类或估值得出模型，该模型用于对未知变量的预测。

从这种意义上说，预测的目的就是对未来未知变量的预测，这种预测需要时间来验证，所以他需要更加具体化的分析出一些较为能大众接受的信息，分析出相应的规律，总结出相关的报告，来确认验证这一预测。

3数据挖掘的特点

数据挖掘技术具有以下特点：

（1）数据挖掘基本分为3步骤：

数据准备、规律寻找和规律表示。

（2）数据的主要分析方法有：

关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。

（3）需要处理的数据规模十分庞大，达到GB、TB数量级，甚至更大，所以数据挖掘常被较为“大数据挖掘”。

（4）在许多些应用（如商业投资等）中，由于数据变化迅速，因此要求数据挖掘能快速做出相应反应以随时提供决策支持。

（5）数据挖掘往往需要把一些无规律，大数量级的，含有偏离点的（因特殊因素而导致的不正常的数值），在有效的时间内转换成有规律，无瑕疵的，主要预测动向的模型。

（6）在某种角度上，数据挖掘也是可以与用户知识库交互，从用户的数据中寻找规律，并且规律是可视化的。

4数据挖掘的过程

数据挖掘的步骤会随不同领域的应用可能有所变化，每一种数据挖掘技术也会有各自的特性和使用步骤，所以首先需要明确业务对象清晰地定义出业务问题，认清数据挖掘的目的是数据挖掘的重要一步。

挖掘的最后结构同样是不可预测的，但要探索的问题应是有预见的，为了数据挖掘而数据挖掘则带有盲目性，是不会得到理想的结果的。

（1）数据的准备与选择。

搜索所有与研究对象有关的内部和外部数据信息，并从中选择出适用于数据挖掘应用的数据。

（例：

在中国统计局官网上就可以搜索到往年的与国家经济有关的数据资料）官方的数据也较为真实可靠，具有挖掘价值。

（2）数据的预处理。

主要是分析并提高数据的质量，排除一些因某些特殊因素而引起的特殊值，会影响整个数据组的最后预测效果。

（3）模型的建立。

通过数据挖掘软件（例如：

SAS）将数据转换成一个分析模型，这个分析模型是针对挖掘算法建立的，建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

（4）数据的预测。

建立模型之后，在模型上会有一些本来用于分析的数据,也会有未来的一些经过分析后预测的数据，通过这些数据，我们就可以知道一些即将发生的现象或者问题，并对其进行提前预防，或其他措施。

（5）数据预测的结论整理。

数据挖掘这项任务的工作者，往往不是最后的执行者，所以我们需要将预测的结果整理成一份通俗易懂的报告，最好附上图表，让上司或领导更易理解，这也是十分关键的一步，一个好的结论没有表述好，可能就会被抛弃。

5天猫用户数据挖掘的分析及作用

数据挖掘如果运用到天猫、淘宝上，那么他就目的只有一个就是盈利。

我们都知道双十一网购狂欢节，今年2014年1分钟就交易额突破了1亿，如此巨大的交易额，不光需要他庞大的用户量，还需要就是分析他们的需求信息。

天猫用户那么多，首先一点就是需要明确每一个用户需要买什么东西，这就是我们数据挖掘需要做的，在我们上网点击的过程，其实就是他们数据采集的过程，他们通过你点击浏览的网站就预测你的喜好及可能还会去点击的网站，并在一个栏目对你播放相对应的广告，促使你更有欲望去购买这些东西。

6数据挖掘的应用领域及前景

与国外相比，国内对DMKD的研究稍晚，1993年国家自然科学基金首次开始支持对该领域的研究项目。

近年来发展迅速，进行的大多数研究项目是由政府资助进行的，如国家自然科学基金、863计划、“九五”计划等。

所涉及的研究领域很多，一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。

国内从事数据挖掘研究的机构主要在大学，也有部分在研究所或公司。

当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。

5结论

数据挖掘技术是一个让你从无知到有知的探索，商业利益的强大驱动力将会不停地促进它的发展，每年都有新的数据挖掘方法和模型问世，人们对它的研究正日益广泛和深入，他也将变得更加具有交互性、可视性。

[参考文献]

[1]彭剑芳.基于数据挖掘的网络购物行为的分析[D].云南：

云南大学，2011.5.1.

[2]毛国君.数据挖掘技术与关联规则挖掘算法研究[D].北京：

北京工业大学，2003.5.1.

[3]李菁菁，邵培基，黄亦潇，等.数据挖掘在中国的现状和发展研究[J].管理工程学报，2004（03）：

10～15.

[4]毛国君，等.数据挖掘原理与算法[M].北京:

清华大学出版社,2005.

[5]Pang-NingTan，MichaelSteinbach，VipinKum.数据挖掘导论[M]北京：

人民邮电出版社,2010.12.10

[6]DavidHand，HelkkiMannila，PadhraicSmyth.数据挖掘原理[J]北京:

机械工业出版社,2009,09（12）：

1721-1741.

[7]陈京民，等.数据仓库与数据挖掘技术[M].北京:

电子工业出版社，2002.

[8]陈文伟，等.数据挖掘技术[M].北京:

北京工业大学出版社，2002.

[9]史忠植.知识发现[D].北京：

清华大学出版社，2002

[10]蔡元龙.模式识别[D].西安：

西北电讯工程学院出版社，1986.6

通过系统地查阅与所选课题相关的国内外文献，进行收集、整理和加工，从而制定的综合性叙述和评价的文章（见P42）。

字数:

2000~3000字。

五号宋体字，1.5倍行间距，除了[参考文献]是顶格以外，其余都是首行缩进2字符。

参考文献不少于10个，具体要求同P19正文一致。

计算机与信息学院

一级标题：

三号宋体，居中，加粗，1.5倍行间距，段前后0.5行间距

凡是学生所写东西的页面，必须有此页眉。

四号宋体字，加粗，单倍行间距。

本科毕业论文（设计）外文文献翻译

　外文文献译文

数据挖掘

2应用领域

数据挖掘是广泛用于一系列科学学科和业务场景。

一些值得注意的例子：

管理、机器学习贝叶斯-伊恩推理、知识获得专家系统、模糊逻辑、神经网络和遗传算法。

在日常业务场景的例子：

包括航空公司、数据库营销面板数据的研究和创造，基于定制的贸易出版物为数百种不同的用户数据用户组。

Piatetsky-Shapiro与相关学术人员在99年提供一个详细的进一步的使用领域的概述。

是另一个国际米兰——毛利分析美国东部时间在数据挖掘领域的研究。

现代成本会计的帮助下软件公司可以对个人所得税进行多维分析物品。

由于大量引用（e.g.产品客户托马、销售渠道、区域）和需要的对象的数量检查控制器需要方法自动识别数据模式。

在这种情况下,这些模式的组合属性值（e.g。

“DIY商店”和“力量训练”）以及（e.g.毛利率）措施。

一个公司,开发数据挖掘程序必须也考虑到大量数据参与。

即使在一个中型公司是很常见的,成百上千项流入每月损益表。

基于案例的推理（CBR）是其中之一数据最小的有趣的例子荷兰国际集团（ING）和机器学习在一起。

CBR组件尝试跟踪当前问题的问题已经解决了过去。

帮助桌子,协助澄清的问题客户有购买产品,是一个实际的使用类型的过程。

尽管一些公司使用帮助台支持他们的电信电话热线,其他人给他们定制-人通过远程数据的直接访问转移。

可以非常价值——数据挖掘在这种情况下,因为它巩固聚集在成千上万的信息关键的发现——个人历史病例老年男性。

这种方法的优点是较短的过程,寻找先例可以用来回答当前客户的问题。

3方法

有许多不同类型的方法分析和分类数据。

一些常见的方法包括聚类分析、贝叶斯推理和归纳

学习。

可以使用聚类分析基于数值以及措施概念聚类的形式。

数据挖掘系统的结构天生是非常不同的，当然这些都很常见的:

因为分析方法,识别和分析模式,是系统的核心。

因为输入可以包括组件原始数据等信息数据字典、知识的使用场景中,或缩小用户条目搜索过程。

因为输出包含发现措施,规则或信息在一个适当的形式呈现给用户,纳入系统作为新知识或集成

成一个专家系统。

3.1聚类分析

不论在其传统的形式还是概念聚类,聚类分析试图分裂或合并一组数字基于误码率的对象组接近这些对象之间的存在。

集群分组以便有大的对象之间的相似之处类以及大型之间的异同不同的类的对象。

3.1.1传统聚类分析

不管的缩放级别对象变量,有多种方法衡量相似性和区别的距离。

基本的例子包括欧几里得（即平方根总平方差异）和曼哈顿差异（即绝对的总和个体差异变量）。

在我们可以检查指标,名义以及不同数据集的混合距离测量。

当对象有不同的类型的属性,例如,考夫曼和Rousseeuw推荐计算个人名义的差异为0属性值是相同的,和不同的是不同的。

指标变量,我们第一次需要建立之间的区别对象的值。

然后我们标准化把他们的最大区别。

结果是一个0和之间的差异。

然后我们计算总差异两个对象之间的向量的总和个体差异（考夫曼和Rousseeuw990）。

我们可以使用这种类型的测量（最终延长individ——的重量性属性）集群生产总值（gdp）数据集边际分析。

这些包含名义属性（如产品、客户、地区）以及数值（收入或措施毛利率）。

有一个普遍的分化在划分和层次之间分类方法。

简而言之,合适的婚姻对象一对迭代方法试图最小化一个给定的初始分配——的异质性表示“状态”的对象到集群。

分层方法,这几乎是重要的,采取一种完全不同的方法。

最初,每一个对象都位于自己的俱乐部怪兽。

然而,对象,然后结合先后,因此只有最小程度的同质性是迷失在每一个步骤。

我们可以很容易地生成的层次结构嵌套的集群在一个所谓的系统树图。

3.3归纳学习

让我们假设有一个给定的一组对象（即一个训练集）类。

归纳学习试图定义一个规则,基于其组织一个新对象属性到一个现有的类。

一个常见的方法是可视化作为一个决策树学习规则。

树叶而树的代表类主要降低分支机构代表测试分别检查一个属性值。

每个测试接收的可能的结果自己的分公司,反过来,导致到另一个分支或熊一片叶子。

的ID算法,一个著名的例子这种方法,从这一段开始训练集,我们可以在几个迭代建立一个树与0000集对象和50属性。

ID子结果把剩下的对象的训练集,如果分类不正确,算法将重启一个训练集的扩展部分的对象是不正确的分类（昆兰986）。

银行,例如,可以使用一个方法构建和维护这样一个专业的系统检查的信用评级个人客户。

如果一个训练集包含一个大客户群体高或低信用评级,该算法可以使用规则来评估未来的贷款申请,银行员工可以处理在系统中。

4关键因素

以下部分概述了一些与数据挖掘相关的问题。

在我们认为,这些关键因素的成功将为未来打下坚实的基础研究和发展。

4.1算法的效率

关于数据挖掘的效率算法,我们应该考虑以下方面。

jCalculation时期是一个关键因素。

如果算法的计算时间增长速度比线性依赖关系的平方数的数据记录搜索,我们可以假设他们不会适合更大应用程序。

我们可以提高计算时间通过限制搜索区域通过用户输入或减少通过有针对性的搜索数据量（如基于用户）选择和压缩。

最近的进展显示,算法的计算时间将变得不那么相关了由于技术发展（e.g.更快的过程-传感器、并行计算机）。

因为算法必须足够健壮处理不完整和/或有缺陷的数据。

这里的问题是有缺陷的数据产生明显的模式。

如果一个销售区域有不小心遗忘了计划收入的一系列文章,该系统应诊断极高budget-actual方差。

然而,系统不应该呈现这些类型的语句的一部分正常的分析结果,而是检测真实性检查和报告在一个单独的不完整的部分报告。

1、字数要求：

2000汉字，可以是2篇文档。

2、五号宋体字，首行缩进2字，1.5倍行间距。

外文文献原文

DataMining

四号宋体，加粗，居中。

一定要指明出处，作者名。

翻译的外文文献应主要选自学术期刊、学术会议的文章、有关著作及其他相关材料，应与毕业论文（设计）主题相关，由指导教师对外文文献的选择把关，可直接复印。

格式要求：

（1）打印稿：

五号罗马字体（TimesNewRoman），首行缩进4英文字符，1.5倍行间距。

（2）复印稿：

用A4纸复印，要清晰，并留出装订线。

2Usagescenarios

Dataminingiswidelyusedinarangeofscientificdisciplinesandbusinessscenarios.Somenoteworthyexamplesincludefindingsintheareasofdatabasemanagement,machinelearning,Bayesianinference,knowledgegainforexpertsystems,fuzzylogic,neuralnetworks,andgeneticalgorithms.

Examplesineverydaybusinessscenariosincludedatabasemarketingforairlines,paneldataresearchaswellasthecreationofcustomizedtradepublicationsbasedonsubscriberdataforhundredsofdifferentusergroups.FrawleyandPiatetsky-Shapiro（Frawleyetal.99）offeradetailedoverviewoffurtherareasofusage.

Grossmarginanalysisisanotherinterestingfieldofresearchindatamining.Withthehelpofmoderncostaccountingsoftware,companiescanperformmultidimensionalanalysisonindividualincomeitems.Fig.2listsafewsamplequestionsrelatedtothistopic.Duetothenumer-ousreferenceobjects（e.g.products,customers,saleschannels,regions）andtheresultingnumberofobjectsthatneedtobeexamined,controllersrequiremethodsthatautomaticallyidentifydatapatterns.

Inthiscase,thesepatternsareacombinationofattributevalues（e.g.“DIYstores”and“powerdrills”inFig.1）aswellasmeasures（e.g.grossmargin）.Acompanythatdevelopsadataminingprogrammustalsoconsiderthelargevolumesofdatainvolved.Eveninamidsizecompany,forexample,itiscommonthatseveralhundred-thousanditemsflowintoamonthlyincomestatement.

CaseBasedReasoning（CBR）isoneinterestingexampleofhowdataminingandmachinelearningcouldworktogether.CBRcomponentsattempttotracecurrentquestionstoproblemsthathavealreadybeensolvedinthepast.Helpdesks,whichassistinclarifyingthequestionsacustomerhasaboutpurchasedproducts,areonepracticalusageofthistypeofprocedure.Whilesomecompaniesusehelpdeskstosupporttheirtelephonehotlines,othersgivetheircustomersdirectaccessthrougharemotedatatransfer.Dataminingcanbeveryvaluableinthiscontextbecauseitconsolidatestheinformationgatheredinthousandsofindividualhistoricalcasesintokeyfindings.Theadvantageofthisprocedureistheshorterprocessofsearchingforprecedentswhichcanbeusedtoanswerthecurrentcustomer’squestion.3Methods

Therearemanydifferenttypesofmethodstoanalyzeandclassifydata.Somecommonmethodsincludeclusteranalysis,Bayesianinferenceaswellasinductivelearning.Clusteranalysiscanbeusedbasedonnumericalmeasuresaswellasintheformofconceptualclustering.

Thestructuresofdataminingsystemsareverydifferentbynature.Thefollowingconfiguration,however,isverycommon:

jTheanalysismethod,whichidentifiesandanalyzespatterns,formsthecoreofthesystem.jTheinputcanincludecomponentssuchasrawdata,informationfroma

datadictionary,knowledgeoftheusagescenario,oruserentriestonarrowthesearchprocess.jTheoutputencompassesthefoundmeasures,rulesorinformationwhicharepresentedtotheuserinanappropriateform,incorporatedintothesystemasnewknowledgeorintegratedintoanexpertsystem.

3.1Clusteranalysis

Whetherinitstraditionalformorasconceptualclustering,clusteranalysisattemptstodivideorcombineasetnumberofobjectsintogroupsbasedontheproximitythatexistsamongtheseobjects.

Theclustersaregroupedsothattherearelargesimilaritiesamongtheobjectsofaclassaswellaslargedissimilaritiesamongtheobjectsofdifferentclasses.

3.1.1Traditionalclusteranalysis

Regardlessofthescalingleveloftheobjectvariables,therearemultiplewaystomeasurethesimilarityanddifferenceoftheproximity.BasicexamplesincludetheEuclidean（i.e.thesquarerootofthetotalsquareddifference）andManhattandifferences