原创附数据WEKA数据挖掘课程论文文档格式.docx
- 文档编号:14902548
- 上传时间:2022-10-25
- 格式:DOCX
- 页数:14
- 大小:426.01KB
原创附数据WEKA数据挖掘课程论文文档格式.docx
《原创附数据WEKA数据挖掘课程论文文档格式.docx》由会员分享,可在线阅读,更多相关《原创附数据WEKA数据挖掘课程论文文档格式.docx(14页珍藏版)》请在冰豆网上搜索。
数据挖掘会议的目的是确定趋势和模式的数据。
大量的数据库数据挖掘的处理已发现的亮点。
它涉及数据库管理,人工智能,机器学习,模式识别和数据可视化和边缘区域以外的区域。
从统计的观点来看,由计算机,可以作为探索性分析的大量复杂的数据集的自动化的观看。
有下同“
此外,它说,被称为数据集,收集数据,收集数据,数据收集的数据集。
数据集(或数据集),通常以表格形式的数据的集合。
每一列表示特定变量。
每一行对应于该部件组中的问题的数据。
如身高和体重这样的对象或值的随机数的,表示各变量的值。
每个值被称为数据。
对应于数据的行数的数据集,则可以包括构件中的一个或多个。
WEKA作为一个公开的数据挖掘工作平台,多项数据挖掘任务的集合,数据预处理,分类,回归,聚类,包括可视化和一个全新的界面交互关联规则,你能忍受的机器学习算法。
因为如果你想实现自己的数据挖掘算法,你是他们的算法WEKA的整合。
还看文件的WEKA界面,你可以为了从自己的方式学习,实现了不是很困难的可视化工具。
1.1问题描述
对所有naiveBayes,KNN和决策树C4.5进行训练,对训练数据进行分类模型,每个模型找出最优参数值,以及三个模型:
使用三个常见分类弱点比较评估给出了最佳分类模型模型参数和所有设置。
1.2设计思路与方案概述
第一步:
ancer.arff复制,训练数据的总和。
文件名build_model.arff。
步骤:
检查数据集(validate_data.arff)和86数据行从胸部癌症分类标准数据文件中选择胸部复发事件。
第三阶段:
我们从其余的chest-cancer.arff文件中更改了train_data.arff的名称。
第四部分:
原因老师有各种标签数据集,为了方便测试预测,我们使用分类标签作为预测数据集,86行检索数据集被归类为复发事件数。
2.数据准备
2.1数据介绍
基于UCI数据集文件的乳腺癌。
属性(属性):
年龄:
患者年龄
更年期:
更年期障碍
肿瘤大小:
肿瘤大小
INV-node:
淋巴结转移数
节点帽:
无节点
DEG-malig:
恶性程度
胸围:
肿瘤位置
母乳喂养四分之一:
象限质量
Irradiat:
是否放疗?
类:
复发
2.2数据的统计量分析
数据预处理:
在分类之前,规范化属性以消除第一维中的差异。
选择归一化特征变量。
选择需要归一化的特征变量。
3.1决策树模型
决策树是一组规则,用于对数据进行分类的规则。
构建决策树,根据下中央节点的不同值建立树,使第一个记录字段分支,每个分支和子分支重复。
使用所选属性的信息增益建立记录字段选择分支时关于不同的值。
ID3决策树分类算法基于熵,根据属性集类实例的值选择算法。
作为速度增益选择标准的属性信息,如非叶节点测试时,为了获得关于在决策树节点中选择的每个类别的测试例的最大信息Level属性。
C4.5决策树算法:
使用信息增益比的概念。
由以下等式给出的特征信息增益的比率:
'
资源管理器'
只打开'
traindata.arff'
并切换到'
class'
。
点“选择”按钮选择“树(weka.classifiers.trees.j48)”,这是WEKA的实现决策树算法。
10次交叉验证测试精度。
精度是一般的测试方法。
数据将被设置为训练9部分以便按顺序进行测试,平均结果为10倍,因为算法的估计精度通常也将乘以10次的平均值交叉验证是必要的,例如更准确10次以上,10次交叉验证。
选择CrossValidatioin=10并选择“开始”按钮:
10次选择测试使用BFTree决策树的分类,10次交叉验证],10次相互验证手段,10部分训练集,9部分进行测试培训,使用第1部分,该循环最后,总体结果。
分类是用于选择输出预测(输出预测)的评估选项
在设置纠错决策树(调试)和启发式搜索(启发式)后,修剪修剪策略,学习决策树,完美样本划分到决策木修剪后的每个分支的两个样本的最小值。
该图显示了分类和具体实验参数,实验名称,样品数量,使用的功能数量以及测试图案的特性。
在内部右侧的分类器的输出中,我们看到了实验的结果。
该图显示了决策树和学习节点,树节点,模型训练时间。
进一步预测下面的结果,您可以看到每个样本的实际分类和预测分类,预测信息是否被错误分类的概率。
最下面是验证结果,整体的accuracy是89.4492%,no类准确率是91.2%,召回率97.5%,yes类准确率是59.1%,召回率27.4%。
在记录分类中,您可以看到水平轴上的结果列表显示实际类别,纵轴显示类别的预测,大部分点是,左下角和右上角将显示预测误差小。
实例数/叶节点
2
3
4
5
6
实例数/叶节点
2
3
4
5
6
准确率(%)
89.4492%
89.6483%
89.9137%
89.6041%
89.7368%
因此,可以选择叶节点为4
3.2朴素贝叶斯模型
同样选择交叉验证,即把数据集分成10份,1份作为验证集,其余部分作为训练集合。
这样的方法保证了数据集的所有元素都被验证过。
如图所示,这里把数据集分为10份来进行训练。
设置参数
Class作为分类属性。
分类器的输出结果如图所示
结果中列出了分类器运行的信息,分类器训练的结果,分类器验证验证的结果、准确性计算等信息,可以看到整体的accuracy是86.5295%,no类准确率是93.4%,召回率91.2%,yes类准确率是42.9%,召回率50.9%。
相对决策树算法的准确率稍低。
从判断误差图来看分布在左上角和右下角的点也比较多,因此,误判的样本比较多。
3.3knn模型
设置最近邻为3,并对距离加权处理(distaneWeighting)
从上图可以看到整体的accuracy是86.5%,no类准确率是90.7%,召回率94.5%,yes类准确率是37.5%,召回率25.5%。
准确率要高于贝叶斯和决策树算法。
B)
决策树
贝叶斯
KNN近邻
准确率
89.9137%
86.5295%
86.5%
混淆矩阵
标准误差
0.15
0.16
0.13
5讨论与思考
K最近邻
朴素贝叶斯
校验准确率
86%
88.3%
79%
训练
校验
0.4464
0.3756
0.437
预测结果表明,相对于贝叶斯和knn近邻模型来说基于决策树的分类以较小的时间代价换取了更高的覆盖率和命中率,且可更好地处理二义性以及不完整数据。
由于这个实验更顺利进行,我的理解更深入的分析和Weka中的分类方式。
KNN算法,决策树算法的朴素贝叶斯算法,弱者将进一步了解,但我们都深深认识到数据预处理的数据挖掘的重要性。
人们会考虑原始数据作为知识的来源,如矿石。
的原始数据,并在关系数据库中的数据,文本,图形,图像数据,诸如被分布在网络上的半结构化数据,如异构数据,它可以被结构化。
知识的发现可能是一个数学的,它可能不是数学。
可以推断,它可以概括。
发现的知识,信息管理,查询优化,决策支持,可以使用,例如,过程控制,还可以用于数据维护。
因此,数据挖掘是一个非常广泛的领域的跨学科研究,尤其是数据库,人工智能,数理统计,可视化,并行计算,学者和工程技术,已经引起了技术人员的各方面的研究人员。
参考文献
[1]
MATLAB中文论坛.MATLAB神经网络30个案例分析[M].北京:
北京航空航天大学出版社,2010
[2]
史峰,王辉,郁磊,胡斐.
MATLAB智能算法30个案例分析[M].
北京:
北京航空航天大学出版社,2011
[3]
钱晓东.数据挖掘中分类方法综述[J].
LIBRARY
AND
INFORMATION
SERVICE,2007
[4]
张维东,张凯,董青,等.利用决策树进行数据挖掘中的信息熵计算[J].
计算机工程,2001,27(3):
71-72.
[5]
刘红岩,陈剑,陈国青.
数据挖掘中的数据分类算法综述[J].
清华大学学报(自然科学版),2002,42(6):
727-730.
[6]
郭炜星.
数据挖掘分类算法研究[D].
杭州:
浙江大学,2008
[7]
张丽娟,李丹军.
分类方法的新发展:
研究综述[J].
计算机科学,2006,33(10):
11-12.
[8]
Han
Jiawei,Kamber
M.
数据挖掘概念与技术[M].北京:
机械工业出版社,2001
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 原创 数据 WEKA 挖掘 课程 论文