数据挖掘作业完整版.docx
- 文档编号:447588
- 上传时间:2022-10-10
- 格式:DOCX
- 页数:10
- 大小:49.44KB
数据挖掘作业完整版.docx
《数据挖掘作业完整版.docx》由会员分享,可在线阅读,更多相关《数据挖掘作业完整版.docx(10页珍藏版)》请在冰豆网上搜索。
数据挖掘作业完整版
LOGO
HENsystemofficeroom[HEN16H-HENS2AHENS8Q8-HENH1688]
1、给出KDD的定义和处理过程。
KDD的定义是:
从大量数据中提取出可信的、新颖的、有用的且可以被人理解的模式的高级处理过程。
因此,KDD是一个高级的处理过程,它从数据集中识别出以模式形式表示的知识。
这里的“模式〞可以看成知识的雏形,经过验证、完善后形成知识:
“高级的处理过程〞是指一个多步骤的处理过程,多步骤之间相互影响反复调整,形成一种螺旋式上升的过程。
KDD的全过程有五个步骤:
1、数据选择:
确定发现任务的操作对象,即目标数据,它是根据用户的需要从原始数据库中抽取的一组数据;2、数据预处理:
一般可能包括消除噪声、推到技术却只数据、消除重复记录、完成数据类型转换等;3、数据转换:
其主要LI的是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征或变量个数;4、数据挖掘:
这一阶段包括确定挖掘任务/LI的、选择挖掘方法、实施数据挖掘;5、模式解释/评价:
数据挖掘阶段发现出来的模式,经过用户或机器的评价,可能存在冗余或无关的模式,需要剔除;也有可能模式不满足用户的要求,需要退回到整个发现阶段之前,重新进行KDD过程。
2、阐述数据挖掘产生的背景和意义。
数据挖掘产生的背景:
随着信息科技的进步以及电子化时代的到来,人们以更快捷、更容易、更廉价的方式获取和存储数据,使得数据及信息量以指数方式增长。
据粗略估计,一个中等规模企业每天要产生100MB以上的商业数据。
而电信、银行、大型零售业每天产生的数据量以TB来计算。
人们搜集的数据越来越多,剧增的数据背后隐藏着许多重要的信息,人们希望对其进行更高层次的分析,以便更好的利用这些数据。
先前的数据库系统可以高效的实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系与规那么,无法根据现有的数据来预测未来的发展趋势。
缺乏挖掘数据背后隐藏的知识的手段。
导致了“数据爆炸但知识贫乏〞的现象。
于是人们开始提出“要学会选择、提取、抛弃信息〞,并且开始考虑:
如何才能不被信息淹没如何从中及时发现有用的知识、提高信息利用率如何从浩瀚如烟海的资料中选择性的搜集他们认为有用的信息这给我们带来了另一些头头疼的问题:
第一是信息过量,难以消化;笫二是信息真假难以区分;笫三是信息平安难以保证;第四是信息形式不一致,难以统一处理
面对这一挑战,面对数量很大而有意义的信息很难得到的状况面对大量繁杂而分散的数据资源,随着计算机数据仓库技术的不断成熟,从数据中发现知识
〔KnowledgeDiscoveryinDatabase〕及其核心技术数据挖掘〔DataMining〕便
应运而生,并得以蓬勃开展,越来越显示出其强大的生命力。
数据挖掘的意义:
数据挖掘之所以被称为未来信息处理的骨干技术之一,主要在于它正以一种全新的概念改变着人类利用数据的方式。
在20世纪,数据库技术取得了重大的成果并且得到了广泛的应用。
但是,数据库技术作为一种根本的信息储存和管理方式,仍然是以联机事务处理为核心应用,缺少对决策、分析、预测等高级功能的支持机制。
众所周知,随着硬盘存储容量及的激增以及磁盘阵列的普及,数据库容量增长迅速,数据仓库以及Web等新型数据源出现,联机分析处理、决策支持以及分类、聚类等复杂应用成为必然。
面对这样的挑战,数据挖掘和知识发现技术应运而生,并显现出强大的生命力。
数据挖掘和知识发现使数据处理技术进入了一个更加高级的阶段。
它不仅能对过去的数据进行查询,而且能够找出过去数据之间的潜在联系,进行更高层次的分析,以便更好地作出决策、预测未来的发展趋势等等。
通过数据挖掘,有价值的知识、规那么或更高层次的信息就能够从数据库的相关数据集合中抽取岀来,从而使大型数据库作为一个丰富、可靠的资源为知识的提取效劳。
3、给出一种关联规那么的算法描述,并举例说明。
Apriori算法描述:
Apriori算法由Agrawal等人于1993年提出,是最有影响的挖掘布尔关联规那么频繁项集的算法,它通过使用递推的方法生成所有频繁项U集。
根本思想是将关联规那么挖掘算法的设计分解为两步:
〔1〕找到所有频繁项集,含有k个项的频繁项集称为k-项集。
Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索〔k+1〕-项集。
首先,出频繁1-项集的集合。
该集合记作LI。
L1用于找频繁2-项集的集合L2,而L2用于找L3,如下去,直到不能找到频繁k-项集。
找出每个Lk都需要一次数据库扫描。
为提高频繁项集层产生的效率,算法使用Apriori性质用于压缩搜索空间。
〔2〕使用第一步中找到的频繁项集产生关联规那么。
从算法的根本思想可知,Apriori算法的核心和关键在第一步。
而第一步的关键是如何将Apriori性质用于算法,利用Lk-1找Lk。
这也是一个山连接和剪枝组成的两步过程:
〔1〕连接步:
为找Lk,通过Lk-1与自己连接产主候选k-项集的集合。
该候选项集的集合记作Ck。
设11和12是Lk-l中的项集。
记号li[j]表示li的第j项〔例如,11吐-2]表示11的倒数第3项〕。
为方便计,假定事务或项集中的项按字典次序排序。
执行连接Lk-lLk-1;其中,Lk-l的元素是可连接的,如果它们前化-2)项相同;即Lk-1的元素11和12是可连接的,如果(11[1]=12[1])A(11[2]=12[21)A...A(U[k-2]=12[k-2j)A(U[k-l]<12[k-lJ)o条件(11[k-l]<12[k-l])是简单地保证不产生重复。
连接11和12产生的结果项集是11[1]11[2]...ll[k-l]12[k-l]o
(2)剪枝步:
Ck是Lk的超集;即,它的成员可以是,也可以不是频繁的,但所有的频繁k-项集都包含在Ck中。
扫描数据库,确定Ck中每个候选的计数,从而确定Lk(即,根据定义,计数值不小于最小支持度计数的所有候选是频繁的,从而属于Lk)。
然而,Ck可能很大,这样所涉及的计算量就很大。
为压缩Ck,可以用以下方法使用Apriori性质:
任何非频繁的住-1)-项集都不可能是频繁k-项集的子集。
因此,如果一个候选k-项集的(k-l)-子集不在Lk-l中,那么该候选也不可能是频繁的,从而可以由Ck中删除。
Apriori算法举例:
如有如下数据
TID
Listof
s
T100
II,12,15
T200
12,14
T300
12,13
T400
II,12,14
T500
II,13
T600
12,13
T700
II,13
T800
II,12,13,15
T900
II,12,13
每一行表示一条交易,共有9行,既9笔交易,左边表示交易ID,右边表示商品名称。
最小支持度是22%,那么每件商品至少要出现9*22%二2次才算频繁。
第一次扫描数据库,使得在每条交易中,按商品名称递增排序。
笫二次扫描数据,找频繁项集为1的元素有:
项集
支持度计数
{ID
6
{12}
7
项集是2的元素,方法是两两任意组合,第三次扫描数据得到它们出现的次数:
项集
支持度计数
{11,12}
4
{11,13}
4
{11,14}
1
{11,15}
2
{12,13}
4
{12,14}
2
{12,15}
2
{13,14}
0
{13,15}
1
{14,15}
0
此时就有规律性了,在频繁项集为K的元素上找频繁项集为K+1的元素的方法是:
在频繁项集为K的项日〔每行记录〕中,假设共有'行,两两组合,满足两两中前K-1个元素相同,只后一个元素要求前一条记录的商品名称小于后一条记录的商品名称,这样是为了防止重复组合,求它们的并集得到长度为K+1的准频繁项集,那么最多共有Apriori算法种可能的组合,有:
{II,12,
13}
{II,12,
15}
{II,12,
14}
{II,13,
15}
{12,13,
14}
{12,13,
15}
{12,14,
15}
想想如果'很大的话,Apriori算法是一个多么庞大的数字,这时就要用到Apriori的核心了:
如果K+1个元素构成频繁项集,那么它的任意K个元素的子集也是频繁项集。
然后将每组K+1个元素的所有长度为K的子集,有Apriori算法中组合,在频繁项集为K的项集中匹配,没有找到那么删除,用第一条记录{11,12,13}它的长度为2的频繁项集有:
Apriori算法分别是:
{11,12},{11,13},{12,13}种情况,幸好这三种情况在频繁项集为2的项集中都找到了。
通过这步过滤,得到的依旧是准频繁项集,它们是:
{II,12,
13}
{II,12,
15}
{II,12,
14}
此时第四次扫描数据库,得到真正长度为3的频繁项集是:
项集
支持度计数
{11,12,
13}
2
{11,12,
15}
2
因为{11,12,14}只出现了1次,小于最小支持度2,删除。
就这个例子而言,它的最大频繁项集只有3,就是{II,12,13}和{11,12,15}o
4、给出一种聚类算法描述,并举例说明。
k-means算法是一种属于划分方法的聚类算法,通常采用欧氏距离作为2个样本相似程度的评价指标,其根本思想是:
随机选取数据集中的k个点作为初始聚类中心,根据数据集中的各个样本到k个中心的距离将其归到距离最小的类中,然后计算所有归到各个类中的样本的平均值,更新每个类中心,直到平方误差准那么函数稳定在最小值。
算法步骤:
1.为每个聚类确定一个初始聚类中心,这样就有K个初始聚类中心。
2.将样本集中的样本按照最小距离原那么分配到最邻近聚类3.使用每个聚类中的样本均值作为新的聚类中心。
4.重复步骤步直到聚类中心不再变化。
k-means算法举例:
数据对象集合S见下表,作为一个聚类分析的二维样本,要求的簇的数量22。
0
X
y
1
0
2
2
0
0
3
0
4
5
0
5
5
2
⑴选择q(0,2),。
2(0,0)为初始的簇中心,即M严q=(0,2),m2=o2=(o,o)
(2)对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇。
对Q(M|,OJ=J(0—1.5)2+(2-0『=2.5〃()2+(0-0)2
显然,故将Q分配给C
对于O4:
〃=J(O—+(2一0『=V55/(M2,Q)=J(O-5)2+(O_O)2=5因为J(M2,O4) 4分配给巾 对于O5: =』0-5),+(2-2)2=5〃M,O5)=J(O一5『+(0一2)-=冋 因为d(Mg)Sd(M2,O5),所以将分配给G 更新,得到新簇q={q,oj和C2={O2,O3,O4} 计算平方误差准那么,单个方差为 总体牌专他是0)2+运勾平[但列年去)5扌迈5 (3)计算新的簇的中心。 M}=((0+5)/2,(2+2)/2)=(2.5,2) 重复 (2)和(3),得到(X分配给G;0: : 分配给G,03分配给G,分配给 G,Os分配给G。 更新,得到新簇q={O^O5}和C2={O2,O3,O4}。 中心为M]=(2.5,2),陆=(2.17,0)。 单个方差分别为 总初国误塑蒐扌(2—2『]+[(2.5—5)'+(2—2打= 由上可以看出,第一次迭代后,总体平均误
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 作业 完整版