数据挖掘 主题第五章作业.docx
- 文档编号:30573990
- 上传时间:2023-08-16
- 格式:DOCX
- 页数:11
- 大小:321.13KB
数据挖掘 主题第五章作业.docx
《数据挖掘 主题第五章作业.docx》由会员分享,可在线阅读,更多相关《数据挖掘 主题第五章作业.docx(11页珍藏版)》请在冰豆网上搜索。
数据挖掘主题第五章作业
本科生实验报告
实验课程数据挖掘
学院名称信息科学与技术学院
专业名称计算机科学与技术
学生姓名代星
学生学号201413030317
指导教师
实验地点
实验成绩
二〇一六年11月二〇一六年11月
第五章作业题一
第1章实验内容
在UCI上下载一个用于分类的数据集,使用C4.5算法,设置不同的参数建立两个有指导的学习,记录检验集错误率。
使用式(5,9)确定两个模型的检验集错误率是否存在显著差异。
第2章实验目的
对于一个用于分类的数据集,使用C4.5算法,设置不同的参数建立两个有指导的学习,记录检验集错误率。
使用式(5,9)确定两个模型的检验集错误率是否存在显著差异,从而学会评估有指导的学习模型。
第3章算法思想
选择具有最大增益率的属性作为分支节点来分类实例数据。
第4章实验过程
4.1数据准备
数据集名为IRIS.xls,选择所有150个实例和5个属性,其中4个属性作为输入属性,第5个属性Iris_type作为输出属性,生成.csv文件,加载到Weka。
4.2建立模型
使用Weka进行有指导的学习训练,选择C4.5数据挖掘算法,在Weka中名为J48,将testoptions设置为Percentagesplit,使用百分比72%,选择Iris_type作为输出属性。
单击Moreoptions按钮,打开Classifierevaluationoptions对话框,在Outputpredictions点击choose选中PlainText。
表示将在输入结果中显示作为检验集实力的计算输出。
单击Start按钮,执行程序。
查看混淆矩阵,计算错误率为9.5%。
通过分析混淆矩阵,重新设置参数使用百分比66%,重复上述步骤,执行程序,计算错误率为3.9%,较之前有了些许提升。
接下来通过假设检验来比较两个用同样训练集创建的有指导的学习模型。
公式如上图所示。
其中E1为模型M1的检验集分类错误率;E2为模型M2的检验集分类错误率;q为两个模型分类错误率的平均值,即q=(E1+E2)/2;n1和n2分别是检验集A和B的实例个数;q(1-q)是用E1和E2计算出来的方差值。
代入数据可得最后的Z=0.057,如果Z值大于等于1.96,就有95%的把握认为M1和M2的检验集性能差别是显著的。
此时算出来的是0.057,就说明两个聚类算法的性能差别不是显著的。
第5章实验结果
1、修改参数前:
C4.5数据挖掘算法:
2、修改参数后:
C4.5数据挖掘算法:
第6章结果分析
通过观察混淆矩阵,并记录检验集错误率,从而修改参数使错误率减小,虽然通过计算结果改进的不明显,但是通过实验掌握了学习方法。
第7章心得体会
通过这次试验,在以前的基础上更加深入的了解了C4.5决策树算法以及Weka软件的使用。
第五章作业题二
第1章实验内容
使用心脏病人数据集(CardiologyNumerical)的前150个实例作为训练集实例,剩下的153个实例作为检验集实例,选择两种或多种数据挖掘技术建立有指导的学习模型,利用混淆矩阵和检验集错误率评估所建模型,并使用假设检验确定这些模型之间是否存在显著性差异。
第2章实验目的
选择两种或多种数据挖掘技术建立有指导的学习模型,利用混淆矩阵和检验集错误率评估所建模型,并使用假设检验确定这些模型之间是否存在显著性差异,从而学会评估有指导的学习模型。
第3章算法思想
一、k-means算法:
(1)随机选择一个K值,用以确定簇的总数。
(2)在数据集中任意选择K个实例,将它们作为初始的簇中心。
(3)计算K个簇中心与其他剩余实例简单欧氏距离,用这个距离作为实例之间相似性的度量,将与某个簇相似度高的实例划分到该簇中,成为其成员之一。
(4)使用每个簇中的实例来计算该簇新的簇中心。
(5)如果计算得到新的簇中心等于上次迭代的簇中心,终止算法过程。
否则用新的簇中心作为簇中心并重复步骤(3)~(5)。
二、最大期望(EM)算法:
是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(LatentVariable)。
最大期望经常用在机器学习和计算机视觉的数据聚类(DataClustering)领域。
最大期望算法经过两个步骤交替进行计算:
第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。
M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。
第4章实验过程
4.1数据准备
心脏病人数据集(CardiologyNumerical)的前150个实例作为训练集实例,剩下的153个实例作为检验集实例,生成.csv文件,加载到Weka。
4.2建立模型
(1)加载数据集,选择Instance列,单击Remove按钮,使该属性不参加训练。
切换到Cluster选项卡,单击Choose按钮,打开算法选择对话框,选择SimpleKMeans算法。
(2)单击Choose按钮右方的文本框,打开参数设置对话框,查看参数,并保持默认。
注意将K值(numCluster)设置为2,距离函数选择欧氏距离。
(3)单击Start按钮,查看结果。
(4)结果中将151个实例分为0和1两个参数分别由91个和60个实例。
使用Kmeans算法最终分类为0的有84个,分类为1的有68个。
与原始的数据集中的分类有一定的偏差。
计算得分类错误率为5.6%。
(5)单击Choose按钮,打开算法选择对话框,使用EM算法进行实验,结果中分类为0的有74个,分类为1的有78个。
与原始数据集中的分类有一定差别,分类错误率为4.9%。
(6)
接下来通过假设检验来比较两个用同样训练集创建的有指导的学习模型。
公式如上图所示。
其中E1为模型M1的检验集分类错误率;E2为模型M2的检验集分类错误率;q为两个模型分类错误率的平均值,即q=(E1+E2)/2;n1和n2分别是检验集A和B的实例个数;q(1-q)是用E1和E2计算出来的方差值。
代入数据可得最后的Z=1.076,如果Z值大于等于1.96,就有95%的把握认为M1和M2的检验集性能差别是显著的。
此时算出来的是1.076,就说明两个聚类算法的性能差别是不显著的。
第5章实验结果
SimpleKMeans算法:
EM算法:
第6章结果分析
结果中将151个实例分为0和1两个参数分别由91个和60个实例。
使用Kmeans算法最终分类为0的有84个,分类为1的有68个。
与原始的数据集中的分类有一定的偏差。
计算得分类错误率为5.6%。
使用EM算法进行实验,结果中分类为0的有74个,分类为1的有78个。
与原始数据集中的分类有一定差别,分类错误率为4.9%。
第7章心得体会
从这次的作业中更加深入的了解了Kmeans算法以及Weka软件的使用,还学习了新的算法。
第五章作业题三
第1章实验内容
使用MSExcel的CORREL函数和散点图确定心脏病人数据集(CardiologyNumerical)的maximunheartrate和peak属性之间的关系。
第2章实验目的
学会使用MSExcel的CORREL函数和散点图确定心脏病人数据集(CardiologyNumerical)的maximunheartrate和peak属性之间的关系。
第3章算法思想
函数作用:
返回单元格区域array1和array2之间的相关系数。
使用相关系数可以确定两种属性之间的关系。
第4章实验过程
4.1数据准备
在Excel中加载心脏病人数据集(CardiologyNumerical)
4.2建立模型
4.2.1CORREL函数
(1)在Excel中加载心脏病人数据集(CardiologyNumerical)。
(2)在一个空白单元格中输入=CORREL(H2:
H304,J2:
J304),单机确定按钮。
得出的结果为-0.34419,说明maximunheartrate和peak属性具有一定的但较小的负相关性。
4.2.2散点图
(1)在Excel中加载心脏病人数据集(CardiologyNumerical)。
(2)选中maximunheartrate和peak列,打开“插入”菜单,单机“散点图”按钮,插入以这两个属性为x坐标和y坐标的散点图,结果如下。
选中maximunheartrate和peak列,打开“插入”菜单,单机“散点图”按钮,插入以这两个属性为x坐标和y坐标的散点图。
第5章实验结果
1.由函数计算得出的结果为-0.34419,说明maximunheartrate和peak属性具有一定的但较小的负相关性。
2.散点图:
第6章结果分析
1.由函数计算得出的结果为-0.34419,说明maximunheartrate和peak属性具有一定的但较小的负相关性。
2.散点图中的点没有明显的线性分布,说明这两个属性的相关性很小。
第7章心得体会
通过这次试验,学会使用MSExcel的CORREL函数和散点图确定相关度。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘 主题第五章作业 数据 挖掘 主题 第五 作业
![提示](https://static.bdocx.com/images/bang_tan.gif)