数据分析与挖掘实验报告.docx
- 文档编号:25620251
- 上传时间:2023-06-10
- 格式:DOCX
- 页数:49
- 大小:4.10MB
数据分析与挖掘实验报告.docx
《数据分析与挖掘实验报告.docx》由会员分享,可在线阅读,更多相关《数据分析与挖掘实验报告.docx(49页珍藏版)》请在冰豆网上搜索。
数据分析与挖掘实验报告
《数据挖掘》实验报告
1.关联规则的基本概念和方法...............................
1
1.1
数据挖掘..........................................
1
1.1.1
数据挖掘的概念................................
1
1.1.2
数据挖掘的方法与技术..........................
1
1.2
关联规则..........................................
2
1.2.1
关联规则的概念................................
2
1.2.2
关联规则的实现——Apriori算法................
3
2.用Matlab实现关联规则..................................
5
2.1Matlab概述........................................
5
2.2
基于Matlab的Apriori算法..........................
6
3.用java实现关联规则...................................
10
3.1java
界面描述......................................
10
3.2java
关键代码描述..................................
13
4、实验总结
.............................................
18
4.1
实验的不足和改进..................................
18
4.2
实验心得.........................................
19
1.关联规则的基本概念和方法
1.1数据挖掘
1.1.1数据挖掘的概念
计算机技术和通信技术的迅猛发展将人类社会带入到了信息时代。
在最近十几年里,数
据库中存储的数据急剧增大。
数据挖掘就是信息技术自然进化的结果。
数据挖掘可以从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的但又是潜在有用的信息和知识的过程。
许多人将数据挖掘视为另一个流行词汇数据中的知识发现(KDD)的同义词,而另一
些人只是把数据挖掘视为知识发现过程的一个基本步骤。
知识发现过程如下:
·数据清理(消除噪声和删除不一致的数据)
·数据集成(多种数据源可以组合在一起)
·数据转换(从数据库中提取和分析任务相关的数据)
·数据变换(从汇总或聚集操作,把数据变换和统一成适合挖掘的形式)
·数据挖掘(基本步骤,使用智能方法提取数据模式)
·模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式)
·知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。
1.1.2数据挖掘的方法与技术
数据挖掘吸纳了诸如数据库和数据仓库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像和信号处理以及空间数据分析技术的集成等许多应用领域的大量技术。
数据挖掘主要包括以下方法。
神经网络方法:
神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存
储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。
典
型的神经网络模型主要分3大类:
以感知机、bp反向传播模型、函数型网络为代表的,用
于分类、预测和模式识别的前馈式神经网络模型;以hopfield的离散模型和连续模型为代
表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以art模型、koholon模型为
代表的,用于聚类的自组织映射方法。
神经网络方法的缺点是"黑箱"性,人们难以理解网络的学习和决策过程。
遗传算法:
遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生
全局优化方法。
遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。
sunil已成功地开发了一个基于遗传算法的数据挖掘工具,利用该工具对两
个飞机失事的真实数据库进行了数据挖掘实验,结果表明遗传算法是进行数据挖掘的有效方
法之一。
遗传算法的应用还体现在与神经网络、粗糙集等技术的结合上。
如利用遗传算法优
化神经网络结构,在不增加错误率的前提下,删除多余的连接和隐层单元;用遗传算法和bp算法结合训练神经网络,然后从网络提取规则等。
但遗传算法的算法较复杂,收敛于局部极小的较早收敛问题尚未解决。
决策树方法:
决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从
1
中找到一些有价值的,潜在的信息。
它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。
粗糙集方法:
粗糙集理论是一种研究不精确、不确定知识的数学工具。
粗糙集方法有几
个优点:
不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。
粗糙集处
理的对象是类似二维关系表的信息表。
目前成熟的关系数据库管理系统和新发展起来的数据
仓库管理系统,为粗糙集的数据挖掘奠定了坚实的基础。
但粗糙集的数学基础是集合论,难
以直接处理连续的属性。
而现实信息表中连续属性是普遍存在的。
因此连续属性的离散化是
制约粗糙集理论实用化的难点。
覆盖正例排斥反例方法:
它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。
首
先在正例集合中任选一个种子,到反例集合中逐个比较。
与字段取值构成的选择子相容则舍
去,相反则保留。
按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。
比较
典型的算法有michalski的aq11方法、洪家荣改进的aq15方法以及他的ae5方法。
统计分析方法:
在数据库字段项之间存在两种关系:
函数关系(能用函数公式表示的确
定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采
用统计学方法,即利用统计学原理对数据库中的信息进行分析。
可进行常用统计(求大量数
据中的最大值、最小值、总和、平均值等)、回归分析(用回归方程来表示变量间的数量关系)、
相关分析(用相关系数来度量变量间的相关程度)、差异分析(从样本统计量的值得出差异来
确定总体参数之间是否存在差异)等。
模糊集方法:
即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别
和模糊聚类分析。
系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模
糊事物的亦此亦彼性的。
李德毅等人在传统模糊理论和概率统计的基础上,提出了定性定量
不确定性转换模型--云模型,并形成了云理论。
还有接下来重点介绍的关联规则方法。
1.2关联规则
1.2.1关联规则的概念
关联规则的一个典型例子是购物篮分析。
它是由著名的全国五百强沃尔玛发现的,
沃尔
玛有着世界最大的数据仓库系统,
为了能够准确了解顾客在其门店的购买习惯,
沃尔玛对其
顾客的购物行为进行购物篮分析,
想知道顾客经常一起购买的商品有哪些。
沃尔玛数据仓库
里集中了其各门店的详细原始交易数据。
在这些原始交易数据的基础上,
沃尔玛利用数据挖
掘方法对这些数据进行分析和挖掘。
一个意外的发现是:
"跟尿布一起购买最多的商品竟是
啤酒!
经过大量实际调查和分析,
揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为
模式:
在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,
而他们中有
30%~40%
的人同时也为自己买一些啤酒。
产生这一现象的原因是:
美国的太太们常叮嘱她们的丈夫下
班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
关联规则由此进入
人们的视野。
关联规则挖掘被定义为假设
I是项的集合。
给定一个交易数据库
D,其中每个事务
(Transaction)t是I的非空子集,即每一个交易都与一个唯一的标识符
TID(TransactionID)对
应。
关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;
置
信度(confidence)是包含X的事务中同时又包含
Y的百分比,即条件概率。
下面举个例子来更好地说明关联规则。
2
给定AllElectronics关系数据库,一个数据挖掘系统可能发现如下形式的关联规则
Age(X,“20⋯.29”)^income(X,“20,000⋯.29,000”)?
=>buys(X,“CD-Player”)
[Support=20%,Confident=60%]
其中X是变量,代表顾客,该关联规则表示所研究的AllElectronics数据库中,顾客有
20%在20-29岁,年收入在20,000-29,000之间,并且购买CD机;
这个年龄和收入组的顾客购买CD机的可能性有60%。
1.2.2关联规则的实现——Apriori算法
1.2.2.1算法描述
Apriori算法在发现关联规则领域具有很大影响力。
算法命名源于算法使用了频繁项集
性质的先验(prior)知识。
在具体实验时,Apriori
算法将发现关联规则的过程分为两个步
骤:
第一步通过迭代,检索出事务数据库中的所有频繁项集,
即支持度不低于用户设定的阈
值的项集;第二步利用频繁项集构造出满足用户最小信任度的规则。
其中,挖掘或识别出所
有频繁项集是该算法的核心,占整个计算量的大部分。
Apriori算法使用一种称作逐层搜索的迭代方法,
K项集用于搜索(
K+1)项集。
首先,
通过扫描数据库,累积每个项的计数,并收集满足最小支持度的项,
找出频繁1项集的集合。
该集合记作L1。
然后,L1用于寻找频繁2项集的集合L2,L2用于寻找
L3,如此下去,直
到不能再找到频繁K项集。
为提高频繁项集逐层产生的效率,一种称作
Apriori
的重要性质用于压缩搜索空间。
Apriori性质:
频繁项集的所有非空子集也必须是频繁的。
如何在算法中使用
Apriori性质?
主要有两步过程组成:
连接步和剪枝步。
(1)连接步:
为找LK,通过将L(k-1)与自身连接产生候选
K项集的集合。
该候选项集合
记作CK。
设l1和l2是Lk-1中的项集。
记号li[j]表示li中的第j项。
执行L(k-1)连接L(k-1),如
果它们的前(K-2)项相同的话,其中
L(k-1)的元素是可连接的。
(2)剪枝步:
为压缩CK,可以用
Apriori的性质:
任何非频繁的(
K-1)项集都不是频
繁K项集的子集。
因此,如果候选
K项集的(K-1)项子集不在
L(k-1)中,则该候选也不可
能是频繁的,从而可以从
CK中删除。
1.2.2.1算法举例
Apriori算法的伪代码
Input:
DB,min_sup
Output:
result=所有频繁项集的他们的支持度
方法:
Result:
={};
K:
=1;
C1:
=所有的1-项集
While(Ck)do
begin
为每一个Ck中的项集生成一个计数器;
For(i=1;i<[DB];i++)
3
begin
对第i个记录T支持的每一个
Ck中的项集,其计数器加1;
end
Lk:
=Ck中满足大于min_sup的全体项集;
Lk支持度保留;
Result:
=Result?
LK
Ck+1:
=所有的(k+1)-项集中满足其
k-子集都在Lk里的全体;
k=k+1;
enddo
下面举个例子来说明Apriori算法。
设某个数据库中有9个事务。
即|D|=9。
使用图1.2解释Apriori算法发现D中的频繁项集。
表1.1某超市的销售项目的事务记录
(1)
在算法的第一次迭代时,每个项都是候选1项集的集合C1的成员。
算法简单地扫描
所有的事务,对每个项的出现次数计数。
(2)
假设最小支持度计数为
2,即,min_sup=2。
可以肯定频繁
1项集的集合L1。
(3)
为了发现频繁2项集的集合L2,算法使用L1和L1的连接C2。
注意,在剪枝步中,
没有候选从C2中删除,因为这些候选的每个子集也是频繁的。
(4)
扫描数据库D中的事务,累计C2中每个候选相集的支持计数,
如图1.2的第二行中
间的表所示。
(5)
然后确定频繁2项集的集合L2,它由C2中满足最小支持度的候选
2项集组成。
(6)
候选3项集的集合C3的产生要用到Apriori的逐层搜索技术,频繁项集的所有子集
都必须是频繁的,给定一个候选
k项集,只需要检查它们的(
k-1)项集是否频繁。
如图1.2中的第三行的第一个表所示。
(7)
扫描D中事务以确定
L3,它由C3中满足最小支持的的候选
3项集组成,如图1.2
中的第三行的第三个表所示。
(8)
算法使用L3和L3连接产生候选
4项集C4。
尽管会产生结果{I1,I2,I3,I5},但是
这个项集被剪去,因为它的子集
{I2,I3,I5}不是频繁的。
所以
C4=空集,所以算法
终止,找出所有的频繁项集。
4
图6.2候选相集合频繁项集的产生,最小支持度为2
2.用Matlab实现关联规则
2.1Matlab概述
Matlab是由美国mathworks公司发布的主要面对科学计算、可视化以及交互式程序设计的高科技计算环境。
它将数值分析、矩阵计算、科学数据可视化以及非线性动态系统的建模
和仿真等诸多强大功能集成在一个易于使用的视窗环境中,为科学研究、工程设计以及必须
进行有效数值计算的众多科学领域提供了一种全面的解决方案,并在很大程度上摆脱了传统
非交互式程序设计语言(如C、Fortran)的编辑模式,代表了当今国际科学计算软件的先进水平。
Matlab的基本数据单位是矩阵,它的指令表达式与数学、工程中常用的形式十分相似,
故用MATLAB来解算问题要比用C,FORTRAN等语言完成相同的事情简捷得多,并且
5
MATLAB也吸收了像Maple等软件的优点,使MATLAB成为一个强大的数学软件。
由于Matlab使用矩阵作为其基本数据单位,所以使用Matlab进行Apriori算法的编辑
有着先天的优势,可以使代码简洁易懂。
下面就来介绍用Matlab编写的Apriori算法。
2.2基于Matlab的Apriori算法
采用的原始数据是上节表
1.1的某超市的销售项目的事务记录。
以下为基于Matlab的Apriori算法的源代码以及相关解释。
sup=2;
%假设支持度为2
shw=[11001;01010;01100;11010;10100;01100;1
0100;11101;11100];
%shw是事务矩阵,行表示一个事务,列表示项目;若某一事务没有某项,则该项目用
0表示。
将
上述表1.1
的数据表示为事务矩阵,每个项目都用数字表示。
shw=
1
1
0
0
1
0
1
0
1
0
0
1
1
0
0
1
1
0
1
0
1
0
1
0
0
0
1
1
0
0
1
0
1
0
0
1
1
1
0
1
1
1
1
0
0
[m1,n1]=size(shw);
m1=
9
n1=
5
%寻找1项集
col=(1:
n1)';
col=
1
2
3
4
5
6
count_sup=sum(shw,1)';%求出所有候选项集C1的支持度
count_sup=
6
7
6
2
2
temp=find(count_sup>=sup);%查找候选项集C1中支持度>2的项集,生成频繁项集L1
temp=
1
2
3
4
5
col=col(temp);
count_col_sup=count_sup(temp);
L1=[colcount_col_sup];
L1=
1
6
2
7
3
6
4
2
5
2
%产生2项集
i=0;
j=0;
co2=nchoosek(col,2);%
产生候选项集C2
co2=
12
13
14
15
23
24
25
34
35
7
45
[m2,n2]=size(co2);
count_co2_sup=zeros(m2,1);
fori=1:
m2
forj=1:
m1
if(shw(j,co2(i,1))==1)&&(shw(j,co2(i,2))==1)
count_co2_sup(i)=count_co2_sup(i)+1;
end
j=j+1;
end
end
temp=find(count_co2_sup>=sup);%查找候选项集C2支持度>2的项集,生成频繁项L2
co2=co2(temp,:
);
count_co2_sup=count_co2_sup(temp,:
);
L2=[co2count_co2_sup];
L2=
1
2
4
1
3
4
1
5
2
2
3
4
2
4
2
2
5
2
%寻找3项集
A=[co2(:
1)co2(:
2)];
A=
12
13
15
23
24
25
[mA,nA]=size(A);
B
(1)=A
(1);
k=2;
fori=1:
mA
forj=1:
nA
if(A(i,j)~=B(1:
end))%查找重复出现的商品号
B(k)=A(i,j);
k=k+1;%B=[12354]
8
end
j=j+1;
end
i=i+1;
end
co3=nchoosek(B,3);%产生候选项集C3
co3=
1
2
3
1
2
5
1
2
4
1
3
5
1
3
4
1
5
4
2
3
5
2
3
4
2
5
4
3
5
4
[m3,n3]=size(co3);
count_co3_sup=zeros(m3,1);
fori=1:
m3
forj=1:
m1
if(shw(j,co3(i,1))==1)&&(shw(j,co3(i,2))==1)&&
(shw(j,co3(i,3))==1)
count_co3_sup(i)=count_co3_sup(i)+1;
end
j=j+1;
end
m3=m3+1;
end
temp=find((count_co3_sup)>=sup);%查找候选项集C3支持度>2的项集,生成频繁项L3
co3=co3(temp,:
);
count_co3_sup=count_co3_sup(temp,:
);
L3=[co3count_co3_sup];
L3=
1232
1252
%寻找4项集
C=[co3(:
1)'co3(:
2)'co3(:
3)'];
[mC,nC]=size(C);
D
(1)=C
(1);
9
K=2;
fori=2:
nC
if(C(i)~=D(1:
end))%查找重复出现的商品号
D(K)=C(i);
K=K+1;
end
i=i+1;
end
co4=nchoosek(D,4);
[m4,n4]=size(co4);
count_co4_sup=zeros(m4,1);
fori=1:
m4
forj=1:
m1
if(shw(j,co4(i,1))==1)&&(shw(j,co4(i,2))==1)&&
(shw(j,co4(i,3))==1)&&(shw(j,co4(i,4))==1)
count_co4_sup(i)=count_co4_sup(i)+1;
end
j=j+1;
end
end
temp=find((count_co4_sup)>=sup);
co4=co4(temp,:
);
count_co4_sup=count_co4_sup(temp,:
);
L4=[co4count_co4_sup];
C4=
Emptymatrix:
0-by-5
上述基于Matlab的Apriori算法的结果与上节的图6.2一致,由于C4是空集,所以算法终止,共找到频繁项集L1,L2,L3。
3.用java实现关联规则
3.1java界面描述
运行程序Apriori,进入关联规则主界面,如图
3.1所示
10
图3.1关联规则主界面
点击“载入”选择“
g:
/1.txt”,选择“打开”,载入到java界面中,如图
3.2所示
图3.2载入界面
11
载入完成后的界面,如图
3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 挖掘 实验 报告