书签分享收藏举报版权申诉 / 20

立即下载加入VIP,免费下载

当前位置：首页 > 工程科技 > 电力水利 > 数据挖掘技术吉根林Word文档格式.docx

数据挖掘技术吉根林Word文档格式.docx

文档编号：21046196
上传时间：2023-01-27
格式：DOCX
页数：20
大小：31.99KB

《数据挖掘技术吉根林Word文档格式.docx》由会员分享，可在线阅读，更多相关《数据挖掘技术吉根林Word文档格式.docx（20页珍藏版）》请在冰豆网上搜索。

数据挖掘技术吉根林Word文档格式.docx

用于处理逻辑性质的决策支持,比如回答“是什么因

素影响公司的销售情况?

”这样的问题,这些信息就

是通过数据挖掘得到的;

变化空间负责回答某种变

化的过程和速度问题.在上述4个空间中,数据挖掘

处于影响空间中,从中可以看出数据挖掘在决策支

持中所处的重要地位.

1　数据挖掘技术的分类

数据挖掘技术有根据发现知识的种类分类、根

据挖掘的数据库种类分类、根据采用的技术分类等

几种分类方法[3].

其中,根据发现知识的种类分类有关联规则挖

掘、分类规则挖掘、特征规则挖掘、离群数据挖掘、聚

类分析、数据总结、趋势分析、偏差分析、回归分析、

序列模式分析等;

根据挖掘的数据库种类分类有关

系型、事务型、面向对象型、时间型、空间型、文本型、

多媒体型、主动型和异构数据库等;

根据采用的技术

分类,最常用的数据挖掘技术有如下7种:

（1）规则归纳　即通过统计方法归纳、提取有价

值的if-then规则,例如关联规则挖掘.

（2）决策树方法[4]　即用树形结构表示决策集

合,这些决策集合是通过对数据集的分类来产生规

则.决策树方法是首先利用信息熵来寻找数据库中

具有最大信息量的字段,从而建立决策树的一个结

点,再根据字段的不同取值来建立树的分支;

然后在

每个分支子集中,重复建立树的下层结点和分支,即

可建立决策树.国际上最有影响的决策树方法是由

Quinlan研制的ID3方法.具体算法参见文献[4].

其典型的应用是分类规则挖掘.

（3）人工神经网络[5]　这种方法主要是模拟人

脑神经元结构,也是一种通过训练来学习的非线性

预测模型.它可以完成分类、聚类、特征规则等多种

数据挖掘任务,同时它又以MP模型和HEBB学习

规则为基础,来建立前馈式网络、反馈式网络、自组

织网络3类神经网络模型.

（4）遗传算法[6]　这是一种模拟生物进化过程

的算法,最早由Holland于20世纪70年代提出.它

是基于群体的、具有随机和定向搜索特征的迭代过

程,这些过程有基因组合、交叉、变异和自然选择4

种典型算子.遗传算法作用于一个由问题的多个潜

在解（个体）组成的群体上,并且群体中的每个个体

都由一个编码表示,同时每个个体均需依据问题的

目标函数而被赋予一个适应值.另外,为了应用遗传

算法,还需要把数据挖掘任务表达为一种搜索的问

题,以便发挥遗传算法的优势搜索能力.

（5）模糊技术[7]　即利用模糊集合理论对实际

问题进行模糊评判、模糊决策、模糊模式识别和模糊

716中国图象图形学报第6卷（A版）

分析.这种模糊性是客观存在的,且系统的复杂

性越高,模糊性越强,一般模糊集合理论是用隶属度

来刻画模糊事物的亦此亦彼性的,而李德毅教授在

传统模糊理论和概率统计的基础上,提出了定性定

量不确定性转换模型——云模型[8],并形成了云理

论.云模型是用期望值、熵和超熵来表达定性概念,

同时将概念的模糊性和随机性结合在一起,因而它

为数据挖掘提供了一种概念和知识表达、定性定量

转换、概念的综合和分解的新方法.

（6）粗（Rough）集方法[9]　它是1982年由波兰

逻辑学家Pawlak提出的一种全新的数据分析方

法,近年来在机器学习和KDD等领域获得了广泛

的重视和应用.这种粗集方法是一种研究信息系统

中不确定、不精确问题的有效手段,其基本原理是基

于等价类的思想,而这种等价类中的元素在粗集中

被视为不可区分的,其基本方法是首先用粗集近似

的方法来将信息系统（关系）中的属性值进行离散

化;

然后对每一个属性划分等价类,再利用集合的等

价关系来进行信息系统（关系）的约简;

最后得到一

个最小决策关系,从而便于获得规则.

（7）可视化技术[10]　即采用直观的图形方式来

将信息模式、数据的关联或趋势呈现给决策者,这样

决策者就可以通过可视化技术来交互地分析数据关

系,而可视化技术主要包括数据、模型和过程3方面

的可视化,其中,数据可视化主要有直方图、盒须图和

散点图;

模型可视化的具体方法则与数据挖掘采用的

算法有关,例如,决策树算法采用树形表示;

而过程可

视化则采用数据流图来描述知识的发现过程.

上述数据挖掘技术虽各有各的特点和适用范

围,但它们发现知识的种类不尽相同,其中规则归纳

法一般适用于关联规则、特征规则、序列模式和离群

数据的挖掘;

决策树方法、遗传算法和粗集方法一般

适用于分类模式的构造;

而神经网络方法则可以用

于实现分类、聚类、特征规则等多种数据挖掘;

模糊

技术通常被用来挖掘模糊关联、模糊分类和模糊聚

类规则.

2　关联规则的挖掘

2.1　什么是关联规则

关联规则的挖掘[11]是数据挖掘领域中一个非

常重要的研究课题,它是由Agrawal等人首先提出

的.关联规则的挖掘问题可形式化描述如下:

设I={i1,i2,…,im}是由m个不同的项目组成

的集合,给定一个事务数据库D,其中的每一个事务

T是I中一组项目的集合,即TI,T有唯一的标识

符TID.一条关联规则就是一个形如XY的蕴含

式,其中,XI,YI,X∩Y=.关联规则XY成

立的条件是:

①它具有支持度S,即事务数据库D中

至少有S%的事务包含X∪Y;

②它具有置信度C,

即在事务数据库D所包含X的事务中,至少有C%

的事务同时也包含Y,关联规则的挖掘问题就是在

事务数据库D中找出具有用户给定的最小支持度

Smin和最小置信度Cmin的关联规则.

挖掘关联规则可以分解为以下两个子问题:

①找出存在于事务数据库中的所有大项集.大

项集是指支持度不小于用户给定的最小支持度的

项集.

②利用大项集生成关联规则.对于每个大项集

A,若aA,a≠,且Support（A）/Support（a）≥

Cmin,则aA-a.这里,Support（A）、Support（a）分

别表示A和a的支持度.

第②个子问题比较容易,其生成算法可参见文

献[11].目前大多数研究均集中在第一个子问题上,

因为这个问题的主要挑战性在于数据量巨大,所以

算法的效率是关键.

3.2　关联规则的研究现状及研究领域

如今,关联规则的挖掘已经取得了令人瞩目的

成果,到目前为止,主要研究工作有:

（1）多循环方式的挖掘算法[12]

多循环方式的挖掘算法是关联规则挖掘的基本

方法.此类算法包括Agrawal等人提出的AIS;

Apriori和AprioriHybrid,Park等人提出的DHP算

法和分割算法Partition以及Toivonen提出的抽样

算法Sampling等等.其中,Apriori算法的基本思想

是重复扫描数据库,并在第K次扫描时产生出长度

为K的大项集LK,而在第K+1次扫描时,只考虑

由LK中的K项集产生长度为K+1的备选集

CK+1;

DHP算法是使用Hashing技术来改进备选集

CK的产生过程;

Partition算法是将数据库进行分

割,以减少挖掘过程中I/O操作次数;

Sampling算

法则是首先对数据库进行抽样,然后对抽样数据库

进行挖掘,从而提高了挖掘效率.国内研究人员还提

出了一些Apriori算法的改进算法.

（2）并行挖掘算法

目前已经提出的有关并行挖掘关联规则的算法

717第8期吉根林等:

Agrawal等人提出的CD（CountDistribution）算

法、CaD（CandidateDistribution）算法、DD（Data

Distribution）算法[13]和由Park等人提出的PDM算

法,以及由Chueng等人提出的算法DMA[14]算法和

FDM算法,虽然这些算法均是基于分布式数据库的

挖掘算法,但也适用于并行挖掘.

（3）增量式更新算法

关联规则的增量式更新问题主要有两种情况:

①在给定的最小支持度和最小置信度条件下,当数

据库添加了新记录后,如何生成数据库中的关联规

则;

②给定一个数据库,在最小支持度和最小置信度

发生变化时,如何生成数据库中的关联规则.文献

[15],[16]已对关联规则更新问题进行了讨论,并提

出了相应算法FUP、IUA、PIUA和NEWIUA.

（4）基于约束条件的关联规则挖掘

基于约束条件的关联规则挖掘的主要目的就是

发现更有趣、更实用、更特别的关联规则,文献[17]

就研究了在提供布尔表达式约束情况下的关联规则

发现问题.

（5）挖掘多值属性关联规则

关联规则可分为布尔型关联规则和多值属性关

联规则,而多值属性又可分为数量关联规则和类别

关联规则,其中数量关联规则是指同时包含布尔属

性和连续属性的关联规则,如Agrawal等人扩展布

尔属性的关联规则算法,就将其应用于数量关联规

则的挖掘,并提出了基于支持度的部分K度完全方

法;

Fukuda提出了等深度划分的实现方法[18];

苑森

淼教授提出的在数量关联规则挖掘中的聚类方法

PKCCA[19]等.目前提出的类别属性关联规则的挖

掘算法,大多是将类别属性关联规则的挖掘问题转

化为布尔型关联规则的挖掘问题[20],即将类别属性

中的每一个类别当作一个属性.

2.3　关联规则衡量标准的不足

目前,生成关联规则的标准主要有如下两个,即

支持度和置信度,但如果仅仅使用用户给定的最小

支持度和置小置信度来生成关联规则,则往往会生

成大量冗余的、虚假的和用户不感兴趣的关联规则.

下面用一个例子来说明这个问题.如表1所示,

设有3个项目数据集分别为X,Y和Z,则可以发现

关联规则XY和XZ,其支持度与信任度见表1.

但从表1中可看出,事实上Z与X之间并不相

关,即XZ是一个虚假规则.奇怪的是,虚假规则

XZ的支持度和信任度却分别超过规则XY的

表1　X、Y、Z数据集及其相应的支持度、信任度

数据集

XYZ

规则支持度

（%）

信任度

110

111XY2537.5

101

001

001XZ5075

支持度和信任度,然而,还不可能找到合适的最低支

持度和最低信任度,使得仅生成XY,而不生成虚

假规则XZ.

这种问题已经引起了不少学者的注意,并提出

在关联规则生成时要加限制条件,如将兴趣度这个

标准加入到关联规则的定义之中.

3　分类规则的挖掘

3.1　分类的基本概念

分类是数据挖掘的一种非常重要的任务,它是

在已有数据的基础上学会一个分类函数或构造一个

分类模型（即通常所说的分类器）,而且该函数或模

型能够把数据库中的数据记录映射到给定类别中的

某一个,从而可以应用于数据预测;

若要构造分类模

型,则需要有一个训练样本数据集作为输入,该训练

样本数据集由一组数据库记录或元组构成,其一个

具体的样本记录形式可以表示为（V1,V2,…,Vn,

C）,其中,Vi表示样本的属性值,C表示类别.

3.2　分类模型的构造方法

分类模型的构造方法通常有统计方法（如贝叶

斯方法）、机器学习方法（如决策树方法）、神经网络

方法和等.其中,基于统计方法的分类算法包括

NaiveBayes,K-nearestNeighbor,Kerneldensity,

Lineardiscriminant,Quadraticdiscriminant,

Logisticregression,Projectionpursuit,Bayesian

network等算法;

而基于机器学习的分类算法则包

括CART,C4.5,NewID,AC2,CAL5,CN2,

Itrule等;

基于神经网络的分类算法包括

Backpropagation,Radialbasisfunction,Kohonen

等;

另外,基于粗集方法的分类方法国内外有关学者

也提出了一些算法,如RSBIDM[21]等.

其中,决策树方法、神经网络方法和粗集方法的

718中国图象图形学报第6卷（A版）

基金项目:

国家自然科学基金项目（79970092）

收稿日期:

2000-06-22;

改回日期:

2000-12-14

摘　要　数据挖掘技术是当前数据库和人工智能领域研究的热点课题,为了使人们对该领域现状有个概略了解,

在消化大量文献资料的基础上,首先对数据挖掘技术的国内外总体研究情况进行了概略介绍,包括数据挖掘技术

的产生背景、应用领域、分类及主要挖掘技术;

结合作者的研究工作,对关联规则的挖掘、分类规则的挖掘、离群数

据的挖掘及聚类分析作了较详细的论述;

介绍了关联规则挖掘的主要研究成果,同时指出了关联规则衡量标准的

不足及其改进方法,提出了分类模式的准确度评估方法;

最后,描述了数据挖掘技术在科学研究、金融投资、市场营

销、保险业、制造业及通信网络管理等行业的应用情况,并对数据挖掘技术的应用前景作了展望.

关键词　数据挖掘　决策支持　关联规则　分类规则　KDD

中图法分类号:

TP391　TP182　　文献标识码:

A　　文章编号:

1006-8961（2001）08-0715-07

SurveyoftheDataMiningTechniques

JIGen-lin1,2）,SUNZhi-hui2）

1）（Departmentofcomputer,NanjingNormalUniversity,Nanjing210097）

2）（Departmentofcomputer,SoutheastUniversity,Nanjing210096）

Abstract　Dataminingisanemergingresearchfieldindatabaseandartificialintelligence.Inthispaper,thedata

miningtechniquesareintroducedbroadlyincludingitsproducingbackground,itsapplicationanditsclassification.

Theprincipaltechniquesusedinthedataminingaresurveyedalso,whichincluderuleinduction,decisiontree,

artificialneuralnetwork,geneticalgorithm,fuzzytechnique,roughsetandvisualizationtechnique.Association

rulemining,classificationrulemining,outlierminingandclusteringmethodarediscussedindetail.Theresearch

achievementsinassociationrule,theshortcomingsofassociationrulemeasurestandardsanditsimprovement,the

evaluationmethodsofclassificationrulesarepresented.Existingoutlierminingapproachesareintroducedwhich

includeoutlierminingapproachbasedonstatistics,distance-basedoutlerminingapproach,datadetectionmethod

fordeviation,rule-basedoutlierminingapproachandmulti-strategymethod.Finally,theapplicationsofdata

miningtoscienceresearch,financialinvestment,market,insurance,manufacturingindustryandcommunication

networkmanagementareintroduced.Theapplicationprospectsofdataminingaredescribed.

Keywords　Datamining,Decisionsupport,Associationrule,Classificationrule,KDD

0　引　言

数据挖掘（DataMining）,也称数据库中的知识

发现（KDD:

KnowledgeDiscoveryinDatabase）,是

指从大型数据库或数据仓库中提取人们感兴趣的知

识,这些知识是隐含的、事先未知的潜在有用信息,

提取的知识一般可表示为概念（Concepts）、规则

（Rules）、规律（Regularities）、模式（Patterns）等形

式[1].大家知道,如今已可以用数据库管理系统来存

储数据,还可用机器学习的方法来分析数据和挖掘

大量数据背后的知识,而这两者的结合就促成了数

思想已在前面介绍,而贝叶斯方法的基本思想

是:

假定对研究对象已有一定的认识,那么即可先用

先验概率分布来描述这种认识,然后用样本来修正

已有的认识,得后验概率分布,最后通过后验概率分

布来建立分类函数,其具体方法参见文献[22].

3.3　分类模式的准确度评估方法

由于分类模式正确率与训练集的记录数量、属

性的数目及待测记录的分布等因素有关,且通常训

练集越大,分类模式就越可靠,而属性数目越多,则

生成分类模式的难度就越大,其需要的时间也越长,

有时还会将分类器引入歧途,致使构造出不准确的

分类模式,因此,如果可以通过常识确认某个属性与

分类无关,则应将它从训练集中移走.

对产生的分类模式,可以用如下两种方法来进

行准确度评估[23]:

①保留方法（Holdout）,即将数据

库中的一部分（通常是2/3）作为训练集,而保留剩

余的部分用作测试集,分类器是首先使用2/3的数

据来构造分类模式,然后再使用该分类模式对测试

集进行分类,其得出的正确率就是评估的正确率;

②

交叉纠错方法,即将数据集分成K个没有交叉数据

的子集,且使所有子集的大小大致相同,这种分类器

训练和测试共K次,且每一次,分类器使用其中

（K-1）个子集来作为训练集,然后在另一个子集上

进行测试,最后把所有得到的正确率的平均值作为

评估正确率.

4　聚类分析

聚类是数理统计中研究“物以类聚”的一种方

法,它的任务是把一组个体按照相似性归成若干类,

其目的是使得属于同一个类别数据之间的相似性尽

可能大,而不同类别的数据之间的相似性尽可能小.

它与分类分析不同,聚类分析输入的是一组未分类

的记录,并且这些记录应分成几类事先也不知道.聚

类分析就是首先通过分析数据库中的数据,合理地

来划分记录,然后再确定每个记录所在类别.另外,

从技术上看,聚类分析可以采用统计方法、机器学习

方法、人工神经网络方法、模糊技术来加以实现.其

中,在统计方法中,聚类算法一般分为基于概率的聚

类算法和基于距离的聚类算法两种[22],如欧氏距离

等.其中,基于概率的聚类算法在挖掘海量数据集合

时效率非常低;

而基于距离的聚类算法在数据挖掘

领域应用则相当广泛,而且其基本思想是属于同一

类别的个体之间的距离尽可能小,而不同类别上的

个体间距离尽可能大.

5　离群数据挖掘

所谓离群数据,是指明显偏离其它数据,不满足

数据一般模式或行为,即与存在的其他数据不一致

的数据.离群数据的挖掘是数据挖掘的重要内容,它

包括离群数据的发现和离群数据的分析,其中离群

数据的发现往往可以使人们发现一些真实的,但又

出乎意料的知识;

而离群数据的分析则可能比一般

数据所包含的信息更有价值.

据研究,离群数据挖掘有着广阔的应用前景,例

如,在数据分析时,错误数据的查找;

金融、通信领域

的欺诈分析与检测;

网络安全管理中,网络入侵的检

测;

市场分析中,分析消费极高或极低的客户的行

为;

治疗过程中,异常反映的发现等.目前这一领域

正逐渐引起数据库、机器学习和统计学等方面学者

的研究兴趣.离群数据的发现主要有下列几种方

法[24,25]:

（1）基于统计的离群数据发现方法

它是根据已知的数据分布模型,使用不一致性

检验（discordancetest）来确定离群数据,但它的应

用需要事先知道数据集参数（如正态分布）、分布参

数（如均值、标准差）和离群数据的个数,而且这种方

法通常对数值型数据有效,而对高维、周期性数据、

分类数据则较难进行挖掘.

（2）基于距离的离群数据发现方法

通过数据间距离的计算,即可求得离群数据.设

数据集T,T=t1,t2,…,tn;

o为数据对象,如果数据集

T中有p部分数据S,远离于对象o及与之距离为d

的邻域,则o即为基于

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据挖掘技术吉根林

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：数据挖掘技术吉根林Word文档格式.docx
链接地址：https://www.bdocx.com/doc/21046196.html

数据挖掘技术吉根林Word文档格式.docx

热门标签