数据挖掘实验报告Word文件下载.docx
- 文档编号:13066658
- 上传时间:2022-10-04
- 格式:DOCX
- 页数:9
- 大小:544.98KB
数据挖掘实验报告Word文件下载.docx
《数据挖掘实验报告Word文件下载.docx》由会员分享,可在线阅读,更多相关《数据挖掘实验报告Word文件下载.docx(9页珍藏版)》请在冰豆网上搜索。
二、实验目的
1、掌握数据挖掘的基础知识,能够深刻理解并熟练运用GRI和C5.0规则,能够熟练运用SPSSClementine11.1软件进行数据分析。
2、利用GRI和C5.0规则对商场客户交易数据进行分析,从中发现客户购买的商品之间的关联关系,并进一步归纳出购买相似商品的顾客群的特征。
3、理解并操作实验中数据挖掘的两个部分,一是关联规则建模和一个显示所购买商品关联关系的网络图;
二是C5.0规则归纳,显示购买建立的产品组合的顾客群具有的特征。
三、操作环境
1、系统环境:
WindowsXP
2、软件环境:
SPSSClementine11.1
3、软件简介:
作为一个数据挖掘平台,Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。
强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。
同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比,Clementine其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。
四、实验数据
本实验所使用的数据是SPSSClementine11.1自带的数据,名为BSAKETS1n,该数据包含18个字段,1000条记录。
1、购物篮摘要:
cardid(购买此篮商品的客户的忠诚卡标识符)、Value(购物篮的总购买价格)、pmethod(购物篮的支付方法);
2、卡持有者的个人详细信息:
Sex、homeown(卡持有者是否拥有住房)、收入、age;
3、购物篮内容—产品类别的出现标志:
fruitveg,freshmeat,dairy,cannedveg,cannedmeat,frozenmeal,beer,wine,softdrink,fish,confectionery。
五、实验步骤
1、新建工作流,附加数据
1.1、该模型的数据存储为BSAKETS1n,首先在选择面板选择可变文件节点作为数据读入节点,双击该结点进行编辑,加入数据存储文件。
结果如图1。
图1
2、使用一般规则归纳(GRI)大致了解购物篮内容的关系(关联)以生成关联规则
2.1、选择要在此建模过程中使用的字段,方法是:
编辑“类型”节点,将所有产品类别的方向设置为双向,其他方向设置为无,如图2。
其中,双向表示该字段可以是结果模型的输入或输出。
然后,连接一个“表”节点,执行查看需要字段的数据,如图3。
图2
图3
2.2、在选择面板中的建模目录中选择GRI节点连接到到数据流中,然后对该节点进行编辑,选择选项只显示值为真的标志变量,然后执行GRI节点。
在管理器的模型栏中显示产生未精炼模型,这些规则显示冻肉、罐装蔬菜和啤酒之间存在多种关联;
酒和糖果也具有关联。
如图4与图5。
这些规则显示冻肉、罐装蔬菜和啤酒之间存在多种关联;
图4
图5
结果分析:
图四结果显示了购买各种商品之间的关联关系。
这个表的每一行表明了购买某种商品的时候还有可能购买哪些商品,它是用关联分析中的支持度和置信度来分析的。
支持度越大,说明同时被购买的可能性越大。
我们以第一行结果为例分析,支持度为3.0%,置信度为96.67,顾客在购买cannedveg时有可能会同时购freshmeat,frozenmeal,beer这三种商品,对于其它行同样用此方法分析。
2.3、在“图形”中选择“网络”节点拖入到工作框,然后与“类型”节点连接。
编辑“网络”节点,选择购物篮所有产品字段,选择仅显示真值,如图6。
图6
2.4执行网络节点,得到如图7所示的网络图。
然后指定弱连接和强连接,单击工具栏上的黄色双箭头按钮。
这会展开显示Web输出摘要和控件的对话框。
选择大小表示强/正常/弱。
将弱链接设置为低于90,将强接连设置为101。
结果如图8示。
图7
图8
在图中有三个客户群突出显示:
购买鱼和果蔬,我们将该组合定义为“健康”,
购买酒和粮果,该组合定义为“小资”,购买啤酒、冻肉和罐装蔬菜,该组合定义为“火锅”。
3、C5.0规则归纳
3.1、选中网络图中连接鱼和果蔬的连线,导出“与”节点,字段命名“健康”。
如图9和图10。
在真值和假值栏分别填写新字段的两种数据值,其中真值表示当条件满足时该字段的值,假值表示当条件不满足时该字段的值。
图9
图10
3.2、设置字段的输入与输出。
在健康节点后连接一个类型结点,通过该类型节点来制定字段的输入或输出方向。
这里我们要分析购买健康食物的顾客特征,所以我们将健康字段的方向选项设置为输出,将顾客的个人特征设置为输入,将其他商品设置为无。
如图10
图11
3.4附加C5.0节点。
在选择面板中选择C5.0拖到工作框中。
将输出类型设置为规则集,然后执行。
如图12。
图12
图中的结果显示了14.5%的人会选择购买健康食物,85.5%的人不会购买健康食物。
下一个分支中,按照年龄特征来划分,小于等于24岁的人中购买健康食品占40.4%,其余的59.6%的人则不会购买。
年龄大于24岁的人中,4.6%的人选择购买健康食物,95.4%的人不会购买健康食物。
而在小于24岁且有房子的人中,1.4%的人会购买健康食品,98.6%的人不会购买。
年龄小于24岁且没有房子的人中80.3%的人会选择购买健康食物,19.3%的人不会购买健康食物。
3.5、对定义的其它组合重复上述操作,然后对于火锅组合的规则集执行,结果如图12。
图13
图中的结果显示了16.7%的人会选择购买火锅组合,83.3%的人不会购买火锅组合。
下一个分支中,按照收入特征来划分,收入小于等于16900元的人42.604%购买该组合,其余的57.396%的人则不会购买。
收入大于16900元的人中,3.474%的人选择购买火锅组合,96.526%的人不会购买。
而在收入小于等于16900的男性中,84.242%的人会购买火锅组合,15.758%的人不会购买。
收入小于等于16900的女性中2.89%的人会购买火锅组合,97.11%的人不会购买火锅组合。
3.6、最终工作框的流程如图13示。
六、实验总结
本实验一共分为三个部分,第一部分主要是附加数据,第二部分是通过GRI关联规则来建模,以此来揭示购买的商品之间的关联关系,并用网络图显示出来;
我在第三部分探索了用C5.0模型来归纳其中的规则。
通过本次的实验,我能熟练的操,并且对GRI与C5.0模型应用有了更进一步的理解,提高了运用Clementine11.1的能力。
最为一名企业管理专业的学生,将来很可能成为企业中的管理人员,在信息时代,管理人员需具备在大量的数据中找寻数据的价值的能力,数据挖掘技术就是来解决这一问题的,挖掘实验为我提供了深入学习数据挖掘技术的机会。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 实验 报告