数据挖掘实验指导书.docx
- 文档编号:2974900
- 上传时间:2022-11-16
- 格式:DOCX
- 页数:45
- 大小:1.06MB
数据挖掘实验指导书.docx
《数据挖掘实验指导书.docx》由会员分享,可在线阅读,更多相关《数据挖掘实验指导书.docx(45页珍藏版)》请在冰豆网上搜索。
数据挖掘实验指导书
《商务数据分析》实验指导书
(适用于国际经济与贸易专业)
江西财经大学国际经贸学院
编写人:
戴爱明
目录
前言1
实验一、SPSSClementine软件功能演练5
实验二、SPSSClementine数据可视化9
实验三、决策树C5.0建模17
实验四、关联规则挖掘30
实验五、聚类分析(异常值检测)38
前言
一、课程简介
商务数据分析充分利用数据挖掘技术从大量商务数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。
数据挖掘的广义观点:
数据挖掘就是从存放在数据库,数据仓库或其他信息库中的大量的数据中“挖掘”有趣知识的过程。
数据挖掘,又称为数据库中知识发现(KnowledgeDiscoveryinDatabase,KDD),因此,数据挖掘和数据仓库的协同工作,一方面,可以迎合和简化数据挖掘过程中的重要步骤,提高数据挖掘的效率和能力,确保数据挖掘中数据来源的广泛性和完整性。
另一方面,数据挖掘技术已经成为数据仓库应用中极为重要和相对独立的方面和工具。
数据挖掘有机结合了来自多学科技术,其中包括:
数据库、数理统计、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理、空间数据分析等,这里我们强调商务数据分析所处理的是大规模数据,且其算法应是高效的和可扩展的。
通过数据分析,可从数据库中挖掘出有意义的知识、规律,或更高层次的信息,并可以从多个角度对其进行浏览察看。
所挖掘出的知识可以帮助进行商务决策支持。
当前商务数据分析应用主要集中在电信、零售、农业、网络日志、银行等方面。
二、课程的任务和实验的教学目标
课程编号:
课程属性:
专业任选课
实验学时:
8
适用专业:
国际经济与贸易
先修课程:
数据库技术、概率论与数理统计、统计学
《商务数据分析》是一门理论和实践相结合的课程,其上机实验的目的主要是实现数据挖掘的主要算法,训练学生实际动手进行数据挖掘设计和软件应用的能力,加深对数据挖掘相关概念和算法的理解。
本课程具有技术性和实践性较强的特点,因此,配合基本原理的讲授,应当安排相应的实习操作。
通过实验和操作,使学生巩固和加深数据仓库与数据挖掘理论知识,进一步加强学生独立分析问题和解决问题的能力、综合设计及创新能力的培养,为今后工作打下良好的基础。
经过多层次、多方式的全面训练后,学生应达到下列要求:
1.进一步巩固和加深数据挖掘基本知识的理解,提高综合运用所学知识,建立、管理和分析商务数据的能力。
2.能根据需要选学参考书,查阅相关的工具,通过独立思考,深入钻研有关问题,学会自己独立分析问题、解决问题,具有一定的创新能力。
3.能正确处理大规模数据,选择数据挖掘工具的开发平台和相关的软件解决实践问题。
4.能独立撰写实验报告,准确分析实验结果,总结有关的问题,提出相关的建议。
三、实验教材及参考书
理论课教材及参考书:
☞数据仓库与数据挖掘教程(丛书名:
高等院校信息管理与信息系统专业系列教材)作者:
陈文伟编著,清华大学出版社,2006.8
☞数据仓库和数据挖掘,苏新宁等编著,清华大学出版社,2006.4
☞数据仓库与数据挖掘技术(第2版),陈京民编著,电子工业出版社,2007.11
☞JiaweiHan,MichelineKamber.DataMining:
ConceptsandTechniques.高等教育出版社(影印版),2001.5.
☞IanH.Witten,EibeFrank.DataMining:
PracticalMachineLearningToolsandTechniques(第二版).机械工业出版社(影印版),2005.
☞RichardJ.Roiger,MichaelW.Geatz.DataMining:
ATutorial-BasedPrimer.清华大学出版社,2003.
实验教材:
☞数据挖掘Clementine应用实务,谢邦昌主编,机械工业出版社,2008.4
☞数据挖掘原理与SPSSClementine应用宝典,元昌安主编,电子工业出版社,2009.8
四、实验基本内容及学时分配
按照《商务数据分析》实验教学大纲的要求,共设立实验4个,总计20学时。
试验基本内容与学时分配如下表:
序号
实验名称
实验学时
每组人数
实验属性
实验者类别
开出
要求
1
SPSSClementine软件功能演练
1
1
演练
本科
必开
2
实验二、SPSSClementine数据可视化
1
1
演练
本科
必开
3
分类发现
2
1
验证综合
本科
必开
4
关联规则
2
1
验证综合
本科
必开
5
聚类分析(异常检测)
2
1
验证综合
本科
必开
五、实验方式与基本要求
1、本课程的实验为非单独设课,因此,应该课程的内容安排和进度,配合技术原理的讲授,进行相应的操作和实验。
2、该课以综合性实验为主,教师给出实验题目,实验前学生必须进行预习,
3、在规定的时间内,由学生独立完成,出现问题,教师要引导学生独立分析、解决,不得包办代替。
4、实验中按要求做好学生实验情况及结果记录,实验后认真填写实验记录。
5、实验指导书仅作为上机时的参考步骤,不能作为唯一的依据,以教材和课堂讲授为准。
实验一、SPSSClementine软件功能演练
【实验目的】
1、熟悉SPSSClementine软件功能和操作特点。
2、了解SPSSClementine软件的各选项面板和操作方法。
3、熟练掌握SPSSClementine工作流程。
【实验内容】
1、打开SPSSClementine软件,逐一操作各选项,熟悉软件功能。
2、打开一有数据库、或新建数据文件,读入SPSSClementine,并使用各种输出节点,熟悉数据输入输出。
(要求:
至少做access数据库文件、excel文件、txt文件、可变文件的导入、导出)
【实验步骤】
1、启动Clementine:
请从Windows的“开始”菜单中选择:
所有程序
SPSSClementine11.1
SPSSClementineclient11.1
2、Clementine窗口
当第一次启动Clementine时,工作区将以默认视图打开。
中间的区域称作流工作区。
在Clementine中,这将是用来工作的主要区域。
Clementine中绝大部分的数据和建模工具都在选项板中,该区域位于流工作区的下方。
每个选项卡都包含一组以图形表示数据挖掘任务的节点,例如访问和过滤数据,创建图形和构建模型。
要将节点添加到工组区,可在节点选项板中双击图标或将其拖拽至工作区后释放。
随后可将各个图标连接以创建一个表示数据流动的流。
窗口的右上方是输出和对象管理器。
这些选项卡用于查看和管理各种Clementine对象。
“流”选项卡包含了当前会话中打开的所有流。
可以将这些流保存并关闭,也可将其添加到工程中。
“输出”选项卡包含了由Clementine中的流操作产生的各类文件。
可以显示、重命名和关闭此处所列的表格、图形和报告。
“模型”选项卡是一个功能强大的工具,包含了在一次会话中产生的所有模型(即,已在Clementine中构建完毕的模型)。
通过它,可以对模型作更深入的查看、将其添加至流中、导出或为其加注解。
窗口右侧底部的部分是工程工具,它用来创建和管理数据挖掘工程。
查看在Clementine中创建的工程有两种方式-类视图或CRISP-DM视图。
“CRISP-DM”选项卡提供了一种组织工程的方式。
“类”选项卡提供了一种在Clementine中按类别(即,按照所创建对象的类别)组织工作的方式。
当要获取数据、流、模型等对象的详尽目录时,这种视图十分有用。
实验二、SPSSClementine数据可视化
【实验目的】
1、熟悉SPSSClementine绘图。
2、了解SPSSClementine图形选项面板各节点的使用方法。
3、熟练掌握SPSSClementine数据可视化流程。
【实验内容】
1、打开SPSSClementine软件,逐一操作各图形选项面板,熟悉软件功能。
2、打开一有数据库、或新建数据文件,读入SPSSClementine,并使用各种输出节点,熟悉数据输入输出。
(要求:
至少做分布图、直方图、收集图、多重散点图、时间散点图)
【实验步骤】
1、启动Clementine:
请从Windows的“开始”菜单中选择:
所有程序
PSSClementine11.1
SPSSClementineclient11.1
2、建立一个流、导入相关数据,打开图形选项面板
3、绘制以下各类图形
(1)以颜色为层次的图
(2)以大小为层次的图
(3)以颜色、大小、形状和透明度为层次的图
(4)以面板图为层次的图
(5)三维收集图
(6)动画散点图
(7)分布图
(8)直方图
(9)收集图
(10)多重散点图
未标准化时的多重散点图
标准化后的多重散点图
(11)网络图
实验三、决策树C5.0建模
【实验目的】
1、熟悉SPSSClementine建模方法。
2、掌握SPSSClementine分布图、散点图、网络图的创建方法。
3、掌握决策树C5.0决策方法。
【实验内容】
1、创建散点图。
2、创建分布图。
3、创建网络图。
【实验步骤】
假设你是一位正在汇总研究数据的医学研究员。
已收集了一组患有同一疾病的患者的数据。
在治疗过程中,每位患者均对五种药物中的一种有明显反应。
的任务就是通过数据挖掘找出适合治疗此疾病的药物。
此示例使用名为druglearn.str的流,此流引用名为DRUG1n的数据文件。
可以从任何ClementineClient安装软件的Demos目录下找到这些文件,也可以通过从Windows的“开始”菜单选择Start>[All]Programs>SPSSClementine11.1>Demos访问这些文件。
文件druglearn.str位于Classification_Module目录中。
此demo中使用的数据字段包括:
年龄
(数值)
性别
M或F
BP
血压:
高、正常或低
胆固醇
血液中的胆固醇含量:
正常或高
Na
血液中钠的浓度
K
血液中钾的浓度
药品
对患者有效的处方药
1、读取文本数据
使用变量文件节点读取定界文本数据。
可以从选项板中添加变量文件节点,方法是单击源选项卡找到此节点,或者使用收藏夹选项卡(默认情况下,其中包含此节点)。
然后,双击新添加的节点以打开相应的对话框。
单击紧挨“文件”框右边以省略号“...”标记的按钮,浏览到系统中的Clementine安装目录。
打开demos目录,然后选择名为DRUG1n的文件。
选择从文件读取字段名,并注意已载入此对话框中的字段和值。
单击数据选项卡,覆盖和更改某个字段的存储。
注意,存储不同于类型或数据字段的用途。
类型选项卡可帮助了解数据中的更多字段类型。
还可以选择读取值来查看各个字段的实际值,具体
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 实验 指导书