广金大数据工具应用第二次实验报告答案.docx
- 文档编号:24784457
- 上传时间:2023-06-01
- 格式:DOCX
- 页数:13
- 大小:818.53KB
广金大数据工具应用第二次实验报告答案.docx
《广金大数据工具应用第二次实验报告答案.docx》由会员分享,可在线阅读,更多相关《广金大数据工具应用第二次实验报告答案.docx(13页珍藏版)》请在冰豆网上搜索。
广金大数据工具应用第二次实验报告答案
广东金融学院实验报告
课程名称:
大数据工具应用
实验编号
及实验名称
实验二数据分析入门
(一)
学院
姓名
学号
班级
实验地点
新电1001
实验日期
实验时数
2
指导老师
钟雪灵
同组其他成员
无
成绩
一、实验目的及要求
通过实验进一步掌握大数据工具的基础知识,独立使用工具获取网页数据并对数据进行预处理。
二、实验环境及相关情况(包含使用软件、实验设备、主要仪器及材料等)
1.使用软件:
Weka
2.实验设备:
装有Windows7的联网的个人计算机
三、实验内容
1.完成文件到arff文件的转换。
2.对数据集中的数值型属性“温度(temperature)”离散成低温(cool),中温(mild),高温(hot)三个等级。
3.生成数据集的决策树。
4.对数据集使用M5P分类器进行线性回归。
5.使用SimpleKMeans聚类器对数据集进行聚类,选择2个簇和欧氏距离,其他参数保持默认值,忽略play属性。
6.使用EM聚类器对数据集进行聚类,选择2个簇,其他参数保持默认值,忽略play属性。
四、实验结果(对必要的实验步骤进行截图,并加以文字描述)
1、完成文件到arff文件的转换。
(1)打开“”-点击“文件”-点击“另存为”-保存类型选中“CSV(逗号分隔)”-点击“保存”。
(2)打开weka-点击“Tools”-点击“ArffViewer”-点击“File-open”–文件类型选中“所有文件”-选中“”-“打开”
点击“file”-点击“saveas”-文件类型选中“Arffdatafiles”-“保存”
2、对数据集中的数值型属性“温度(temperature)”离散成低温(cool),中温(mild),高温(hot)三个等级。
(1)打开weka-点击“Explorer”-点击“Openfile”-选中“点击“打开”
点击“Choose”-选中“Discretize”-点击空白处-在“attributelndices”中输入2,在“bins”中输入3,其他保持不变-点击“OK”,再点击“Apply”
为避开可读性较差的问题,先另存为,点击“Save”。
(2)打开“word”,打开“这个文件
选中“'\'(-inf-71]\''”,点击“替换”
选中“'\'(71-78]\''”,替换成“mild”
选中“'\'(78-inf)\''”,替换成“hot”
点击“保存”。
(3)用weka打开查看
3、生成数据集的决策树。
(1)打开weka-点击“Explorer”-点击“Openfile”-选中“点击“打开”,切换到“Classify”-单击“Choose”-打开“trees”条目-点击“J48”,选择“Usetraningset”,单击“Strart”。
(2)在结果列表中右击“J48”条目,选择可视化菜单项“Visualizetree”
4.对数据集使用M5P分类器进行线性回归。
打开weka-点击“Explorer”-点击“Openfile”-选中“”-点击“打开”,点击“Classify”-“Choose”,打开“function”条目-点击“LinearRegressio”,单击“Strart”。
在结果列表中右击条目,选择可视化分类结果误差菜单项“Visualizeclassifiererrors”
5.使用SimpleKMeans聚类器对数据集进行聚类,选择2个簇和欧氏距离,
其他参数保持默认值,忽略play属性。
(1)打开weka-点击“Explorer”-点击“Openfile”-选中“点击“打开”,切换到“Cluster”-单击“Choose”-选择“SimpleKMeans”,单击文本框-保持默认设置,单击“Ignoreattributes”-选择“play”-单击“select”,单击“Start”。
(2)在结果列表中右击条目,选择“Visualizeclusterassignments”
(3)单击“Save”,再次打开文件查看
6.使用EM聚类器对数据集进行聚类,选择2个簇,其他参数保持默认值,忽略play属性。
(1)打开weka-点击“Explorer”-点击“Openfile”-选中“点击“打开”,切换到“Cluster”-单击“Choose”-选择“EM”,单击文本框-“numClusters”设置为“2”-其他参数保持不变,选中“Classestoclustersevaluation”,单击“Ignoreattributes”-弹出框中选择“play”-单击“select,”单击“Start”。
(2)在结果列表中右击条目,选择“Visualizeclusterassignments”
(3)单击“Save”,再次打开文件查看
五、实验总结(包括心得体会、问题回答及实验改进意见,可附页)
1、这次实验很有难度,基本都要依靠视频,逐步跟进,第一次接触Weka,所以一轮实验过后对weka也只能算是有了接触,还算不上理解。
2、决策树较其他几个实验项目易懂,有图形,很形象了然。
3、大致懂得分类、聚类的操作步骤,但由于缺乏相应的数学知识储备,相应的计算机术语,不明白结果要如何分析,所以距离用weka做实际分类聚类的应用还很远。
4、希望自己有时间的时候能多看点资料,多补充点计算机和数学的知识,多了解软件里各个英文的含义,多去分析分析数据结果。
六、教师评语
□实验态度端正,实验步骤、结果正确,实验总结认真,评分:
优秀
□实验态度端正,实验步骤、结果正确,评分:
良好
□实验步骤、结果正确,评分:
中等
□能够按照实验步骤完成实验,评分:
及格
□无法完成实验,评分:
不及格
指导老师:
钟雪灵
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 广金大 数据 工具 应用 第二次 实验 报告 答案