数据挖掘技术吉根林Word文档格式.docx
- 文档编号:21046196
- 上传时间:2023-01-27
- 格式:DOCX
- 页数:20
- 大小:31.99KB
数据挖掘技术吉根林Word文档格式.docx
《数据挖掘技术吉根林Word文档格式.docx》由会员分享,可在线阅读,更多相关《数据挖掘技术吉根林Word文档格式.docx(20页珍藏版)》请在冰豆网上搜索。
用于处理逻辑性质的决策支持,比如回答“是什么因
素影响公司的销售情况?
”这样的问题,这些信息就
是通过数据挖掘得到的;
变化空间负责回答某种变
化的过程和速度问题.在上述4个空间中,数据挖掘
处于影响空间中,从中可以看出数据挖掘在决策支
持中所处的重要地位.
1 数据挖掘技术的分类
数据挖掘技术有根据发现知识的种类分类、根
据挖掘的数据库种类分类、根据采用的技术分类等
几种分类方法[3].
其中,根据发现知识的种类分类有关联规则挖
掘、分类规则挖掘、特征规则挖掘、离群数据挖掘、聚
类分析、数据总结、趋势分析、偏差分析、回归分析、
序列模式分析等;
根据挖掘的数据库种类分类有关
系型、事务型、面向对象型、时间型、空间型、文本型、
多媒体型、主动型和异构数据库等;
根据采用的技术
分类,最常用的数据挖掘技术有如下7种:
(1)规则归纳 即通过统计方法归纳、提取有价
值的if-then规则,例如关联规则挖掘.
(2)决策树方法[4] 即用树形结构表示决策集
合,这些决策集合是通过对数据集的分类来产生规
则.决策树方法是首先利用信息熵来寻找数据库中
具有最大信息量的字段,从而建立决策树的一个结
点,再根据字段的不同取值来建立树的分支;
然后在
每个分支子集中,重复建立树的下层结点和分支,即
可建立决策树.国际上最有影响的决策树方法是由
Quinlan研制的ID3方法.具体算法参见文献[4].
其典型的应用是分类规则挖掘.
(3)人工神经网络[5] 这种方法主要是模拟人
脑神经元结构,也是一种通过训练来学习的非线性
预测模型.它可以完成分类、聚类、特征规则等多种
数据挖掘任务,同时它又以MP模型和HEBB学习
规则为基础,来建立前馈式网络、反馈式网络、自组
织网络3类神经网络模型.
(4)遗传算法[6] 这是一种模拟生物进化过程
的算法,最早由Holland于20世纪70年代提出.它
是基于群体的、具有随机和定向搜索特征的迭代过
程,这些过程有基因组合、交叉、变异和自然选择4
种典型算子.遗传算法作用于一个由问题的多个潜
在解(个体)组成的群体上,并且群体中的每个个体
都由一个编码表示,同时每个个体均需依据问题的
目标函数而被赋予一个适应值.另外,为了应用遗传
算法,还需要把数据挖掘任务表达为一种搜索的问
题,以便发挥遗传算法的优势搜索能力.
(5)模糊技术[7] 即利用模糊集合理论对实际
问题进行模糊评判、模糊决策、模糊模式识别和模糊
716中国图象图形学报第6卷(A版)
分析.这种模糊性是客观存在的,且系统的复杂
性越高,模糊性越强,一般模糊集合理论是用隶属度
来刻画模糊事物的亦此亦彼性的,而李德毅教授在
传统模糊理论和概率统计的基础上,提出了定性定
量不确定性转换模型——云模型[8],并形成了云理
论.云模型是用期望值、熵和超熵来表达定性概念,
同时将概念的模糊性和随机性结合在一起,因而它
为数据挖掘提供了一种概念和知识表达、定性定量
转换、概念的综合和分解的新方法.
(6)粗(Rough)集方法[9] 它是1982年由波兰
逻辑学家Pawlak提出的一种全新的数据分析方
法,近年来在机器学习和KDD等领域获得了广泛
的重视和应用.这种粗集方法是一种研究信息系统
中不确定、不精确问题的有效手段,其基本原理是基
于等价类的思想,而这种等价类中的元素在粗集中
被视为不可区分的,其基本方法是首先用粗集近似
的方法来将信息系统(关系)中的属性值进行离散
化;
然后对每一个属性划分等价类,再利用集合的等
价关系来进行信息系统(关系)的约简;
最后得到一
个最小决策关系,从而便于获得规则.
(7)可视化技术[10] 即采用直观的图形方式来
将信息模式、数据的关联或趋势呈现给决策者,这样
决策者就可以通过可视化技术来交互地分析数据关
系,而可视化技术主要包括数据、模型和过程3方面
的可视化,其中,数据可视化主要有直方图、盒须图和
散点图;
模型可视化的具体方法则与数据挖掘采用的
算法有关,例如,决策树算法采用树形表示;
而过程可
视化则采用数据流图来描述知识的发现过程.
上述数据挖掘技术虽各有各的特点和适用范
围,但它们发现知识的种类不尽相同,其中规则归纳
法一般适用于关联规则、特征规则、序列模式和离群
数据的挖掘;
决策树方法、遗传算法和粗集方法一般
适用于分类模式的构造;
而神经网络方法则可以用
于实现分类、聚类、特征规则等多种数据挖掘;
模糊
技术通常被用来挖掘模糊关联、模糊分类和模糊聚
类规则.
2 关联规则的挖掘
2.1 什么是关联规则
关联规则的挖掘[11]是数据挖掘领域中一个非
常重要的研究课题,它是由Agrawal等人首先提出
的.关联规则的挖掘问题可形式化描述如下:
设I={i1,i2,…,im}是由m个不同的项目组成
的集合,给定一个事务数据库D,其中的每一个事务
T是I中一组项目的集合,即TI,T有唯一的标识
符TID.一条关联规则就是一个形如XY的蕴含
式,其中,XI,YI,X∩Y=.关联规则XY成
立的条件是:
①它具有支持度S,即事务数据库D中
至少有S%的事务包含X∪Y;
②它具有置信度C,
即在事务数据库D所包含X的事务中,至少有C%
的事务同时也包含Y,关联规则的挖掘问题就是在
事务数据库D中找出具有用户给定的最小支持度
Smin和最小置信度Cmin的关联规则.
挖掘关联规则可以分解为以下两个子问题:
①找出存在于事务数据库中的所有大项集.大
项集是指支持度不小于用户给定的最小支持度的
项集.
②利用大项集生成关联规则.对于每个大项集
A,若aA,a≠,且Support(A)/Support(a)≥
Cmin,则aA-a.这里,Support(A)、Support(a)分
别表示A和a的支持度.
第②个子问题比较容易,其生成算法可参见文
献[11].目前大多数研究均集中在第一个子问题上,
因为这个问题的主要挑战性在于数据量巨大,所以
算法的效率是关键.
3.2 关联规则的研究现状及研究领域
如今,关联规则的挖掘已经取得了令人瞩目的
成果,到目前为止,主要研究工作有:
(1)多循环方式的挖掘算法[12]
多循环方式的挖掘算法是关联规则挖掘的基本
方法.此类算法包括Agrawal等人提出的AIS;
Apriori和AprioriHybrid,Park等人提出的DHP算
法和分割算法Partition以及Toivonen提出的抽样
算法Sampling等等.其中,Apriori算法的基本思想
是重复扫描数据库,并在第K次扫描时产生出长度
为K的大项集LK,而在第K+1次扫描时,只考虑
由LK中的K项集产生长度为K+1的备选集
CK+1;
DHP算法是使用Hashing技术来改进备选集
CK的产生过程;
Partition算法是将数据库进行分
割,以减少挖掘过程中I/O操作次数;
Sampling算
法则是首先对数据库进行抽样,然后对抽样数据库
进行挖掘,从而提高了挖掘效率.国内研究人员还提
出了一些Apriori算法的改进算法.
(2)并行挖掘算法
目前已经提出的有关并行挖掘关联规则的算法
717第8期吉根林等:
Agrawal等人提出的CD(CountDistribution)算
法、CaD(CandidateDistribution)算法、DD(Data
Distribution)算法[13]和由Park等人提出的PDM算
法,以及由Chueng等人提出的算法DMA[14]算法和
FDM算法,虽然这些算法均是基于分布式数据库的
挖掘算法,但也适用于并行挖掘.
(3)增量式更新算法
关联规则的增量式更新问题主要有两种情况:
①在给定的最小支持度和最小置信度条件下,当数
据库添加了新记录后,如何生成数据库中的关联规
则;
②给定一个数据库,在最小支持度和最小置信度
发生变化时,如何生成数据库中的关联规则.文献
[15],[16]已对关联规则更新问题进行了讨论,并提
出了相应算法FUP、IUA、PIUA和NEWIUA.
(4)基于约束条件的关联规则挖掘
基于约束条件的关联规则挖掘的主要目的就是
发现更有趣、更实用、更特别的关联规则,文献[17]
就研究了在提供布尔表达式约束情况下的关联规则
发现问题.
(5)挖掘多值属性关联规则
关联规则可分为布尔型关联规则和多值属性关
联规则,而多值属性又可分为数量关联规则和类别
关联规则,其中数量关联规则是指同时包含布尔属
性和连续属性的关联规则,如Agrawal等人扩展布
尔属性的关联规则算法,就将其应用于数量关联规
则的挖掘,并提出了基于支持度的部分K度完全方
法;
Fukuda提出了等深度划分的实现方法[18];
苑森
淼教授提出的在数量关联规则挖掘中的聚类方法
PKCCA[19]等.目前提出的类别属性关联规则的挖
掘算法,大多是将类别属性关联规则的挖掘问题转
化为布尔型关联规则的挖掘问题[20],即将类别属性
中的每一个类别当作一个属性.
2.3 关联规则衡量标准的不足
目前,生成关联规则的标准主要有如下两个,即
支持度和置信度,但如果仅仅使用用户给定的最小
支持度和置小置信度来生成关联规则,则往往会生
成大量冗余的、虚假的和用户不感兴趣的关联规则.
下面用一个例子来说明这个问题.如表1所示,
设有3个项目数据集分别为X,Y和Z,则可以发现
关联规则XY和XZ,其支持度与信任度见表1.
但从表1中可看出,事实上Z与X之间并不相
关,即XZ是一个虚假规则.奇怪的是,虚假规则
XZ的支持度和信任度却分别超过规则XY的
表1 X、Y、Z数据集及其相应的支持度、信任度
数据集
XYZ
规则支持度
(%)
信任度
110
111XY2537.5
101
001
001XZ5075
支持度和信任度,然而,还不可能找到合适的最低支
持度和最低信任度,使得仅生成XY,而不生成虚
假规则XZ.
这种问题已经引起了不少学者的注意,并提出
在关联规则生成时要加限制条件,如将兴趣度这个
标准加入到关联规则的定义之中.
3 分类规则的挖掘
3.1 分类的基本概念
分类是数据挖掘的一种非常重要的任务,它是
在已有数据的基础上学会一个分类函数或构造一个
分类模型(即通常所说的分类器),而且该函数或模
型能够把数据库中的数据记录映射到给定类别中的
某一个,从而可以应用于数据预测;
若要构造分类模
型,则需要有一个训练样本数据集作为输入,该训练
样本数据集由一组数据库记录或元组构成,其一个
具体的样本记录形式可以表示为(V1,V2,…,Vn,
C),其中,Vi表示样本的属性值,C表示类别.
3.2 分类模型的构造方法
分类模型的构造方法通常有统计方法(如贝叶
斯方法)、机器学习方法(如决策树方法)、神经网络
方法和等.其中,基于统计方法的分类算法包括
NaiveBayes,K-nearestNeighbor,Kerneldensity,
Lineardiscriminant,Quadraticdiscriminant,
Logisticregression,Projectionpursuit,Bayesian
network等算法;
而基于机器学习的分类算法则包
括CART,C4.5,NewID,AC2,CAL5,CN2,
Itrule等;
基于神经网络的分类算法包括
Backpropagation,Radialbasisfunction,Kohonen
等;
另外,基于粗集方法的分类方法国内外有关学者
也提出了一些算法,如RSBIDM[21]等.
其中,决策树方法、神经网络方法和粗集方法的
718中国图象图形学报第6卷(A版)
基金项目:
国家自然科学基金项目(79970092)
收稿日期:
2000-06-22;
改回日期:
2000-12-14
摘 要 数据挖掘技术是当前数据库和人工智能领域研究的热点课题,为了使人们对该领域现状有个概略了解,
在消化大量文献资料的基础上,首先对数据挖掘技术的国内外总体研究情况进行了概略介绍,包括数据挖掘技术
的产生背景、应用领域、分类及主要挖掘技术;
结合作者的研究工作,对关联规则的挖掘、分类规则的挖掘、离群数
据的挖掘及聚类分析作了较详细的论述;
介绍了关联规则挖掘的主要研究成果,同时指出了关联规则衡量标准的
不足及其改进方法,提出了分类模式的准确度评估方法;
最后,描述了数据挖掘技术在科学研究、金融投资、市场营
销、保险业、制造业及通信网络管理等行业的应用情况,并对数据挖掘技术的应用前景作了展望.
关键词 数据挖掘 决策支持 关联规则 分类规则 KDD
中图法分类号:
TP391 TP182 文献标识码:
A 文章编号:
1006-8961(2001)08-0715-07
SurveyoftheDataMiningTechniques
JIGen-lin1,2),SUNZhi-hui2)
1)(Departmentofcomputer,NanjingNormalUniversity,Nanjing210097)
2)(Departmentofcomputer,SoutheastUniversity,Nanjing210096)
Abstract Dataminingisanemergingresearchfieldindatabaseandartificialintelligence.Inthispaper,thedata
miningtechniquesareintroducedbroadlyincludingitsproducingbackground,itsapplicationanditsclassification.
Theprincipaltechniquesusedinthedataminingaresurveyedalso,whichincluderuleinduction,decisiontree,
artificialneuralnetwork,geneticalgorithm,fuzzytechnique,roughsetandvisualizationtechnique.Association
rulemining,classificationrulemining,outlierminingandclusteringmethodarediscussedindetail.Theresearch
achievementsinassociationrule,theshortcomingsofassociationrulemeasurestandardsanditsimprovement,the
evaluationmethodsofclassificationrulesarepresented.Existingoutlierminingapproachesareintroducedwhich
includeoutlierminingapproachbasedonstatistics,distance-basedoutlerminingapproach,datadetectionmethod
fordeviation,rule-basedoutlierminingapproachandmulti-strategymethod.Finally,theapplicationsofdata
miningtoscienceresearch,financialinvestment,market,insurance,manufacturingindustryandcommunication
networkmanagementareintroduced.Theapplicationprospectsofdataminingaredescribed.
Keywords Datamining,Decisionsupport,Associationrule,Classificationrule,KDD
0 引 言
数据挖掘(DataMining),也称数据库中的知识
发现(KDD:
KnowledgeDiscoveryinDatabase),是
指从大型数据库或数据仓库中提取人们感兴趣的知
识,这些知识是隐含的、事先未知的潜在有用信息,
提取的知识一般可表示为概念(Concepts)、规则
(Rules)、规律(Regularities)、模式(Patterns)等形
式[1].大家知道,如今已可以用数据库管理系统来存
储数据,还可用机器学习的方法来分析数据和挖掘
大量数据背后的知识,而这两者的结合就促成了数
思想已在前面介绍,而贝叶斯方法的基本思想
是:
假定对研究对象已有一定的认识,那么即可先用
先验概率分布来描述这种认识,然后用样本来修正
已有的认识,得后验概率分布,最后通过后验概率分
布来建立分类函数,其具体方法参见文献[22].
3.3 分类模式的准确度评估方法
由于分类模式正确率与训练集的记录数量、属
性的数目及待测记录的分布等因素有关,且通常训
练集越大,分类模式就越可靠,而属性数目越多,则
生成分类模式的难度就越大,其需要的时间也越长,
有时还会将分类器引入歧途,致使构造出不准确的
分类模式,因此,如果可以通过常识确认某个属性与
分类无关,则应将它从训练集中移走.
对产生的分类模式,可以用如下两种方法来进
行准确度评估[23]:
①保留方法(Holdout),即将数据
库中的一部分(通常是2/3)作为训练集,而保留剩
余的部分用作测试集,分类器是首先使用2/3的数
据来构造分类模式,然后再使用该分类模式对测试
集进行分类,其得出的正确率就是评估的正确率;
②
交叉纠错方法,即将数据集分成K个没有交叉数据
的子集,且使所有子集的大小大致相同,这种分类器
训练和测试共K次,且每一次,分类器使用其中
(K-1)个子集来作为训练集,然后在另一个子集上
进行测试,最后把所有得到的正确率的平均值作为
评估正确率.
4 聚类分析
聚类是数理统计中研究“物以类聚”的一种方
法,它的任务是把一组个体按照相似性归成若干类,
其目的是使得属于同一个类别数据之间的相似性尽
可能大,而不同类别的数据之间的相似性尽可能小.
它与分类分析不同,聚类分析输入的是一组未分类
的记录,并且这些记录应分成几类事先也不知道.聚
类分析就是首先通过分析数据库中的数据,合理地
来划分记录,然后再确定每个记录所在类别.另外,
从技术上看,聚类分析可以采用统计方法、机器学习
方法、人工神经网络方法、模糊技术来加以实现.其
中,在统计方法中,聚类算法一般分为基于概率的聚
类算法和基于距离的聚类算法两种[22],如欧氏距离
等.其中,基于概率的聚类算法在挖掘海量数据集合
时效率非常低;
而基于距离的聚类算法在数据挖掘
领域应用则相当广泛,而且其基本思想是属于同一
类别的个体之间的距离尽可能小,而不同类别上的
个体间距离尽可能大.
5 离群数据挖掘
所谓离群数据,是指明显偏离其它数据,不满足
数据一般模式或行为,即与存在的其他数据不一致
的数据.离群数据的挖掘是数据挖掘的重要内容,它
包括离群数据的发现和离群数据的分析,其中离群
数据的发现往往可以使人们发现一些真实的,但又
出乎意料的知识;
而离群数据的分析则可能比一般
数据所包含的信息更有价值.
据研究,离群数据挖掘有着广阔的应用前景,例
如,在数据分析时,错误数据的查找;
金融、通信领域
的欺诈分析与检测;
网络安全管理中,网络入侵的检
测;
市场分析中,分析消费极高或极低的客户的行
为;
治疗过程中,异常反映的发现等.目前这一领域
正逐渐引起数据库、机器学习和统计学等方面学者
的研究兴趣.离群数据的发现主要有下列几种方
法[24,25]:
(1)基于统计的离群数据发现方法
它是根据已知的数据分布模型,使用不一致性
检验(discordancetest)来确定离群数据,但它的应
用需要事先知道数据集参数(如正态分布)、分布参
数(如均值、标准差)和离群数据的个数,而且这种方
法通常对数值型数据有效,而对高维、周期性数据、
分类数据则较难进行挖掘.
(2)基于距离的离群数据发现方法
通过数据间距离的计算,即可求得离群数据.设
数据集T,T=t1,t2,…,tn;
o为数据对象,如果数据集
T中有p部分数据S,远离于对象o及与之距离为d
的邻域,则o即为基于
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 技术 吉根林