基于clementine的数据挖掘指导.doc
- 文档编号:235928
- 上传时间:2022-10-07
- 格式:DOC
- 页数:29
- 大小:1.20MB
基于clementine的数据挖掘指导.doc
《基于clementine的数据挖掘指导.doc》由会员分享,可在线阅读,更多相关《基于clementine的数据挖掘指导.doc(29页珍藏版)》请在冰豆网上搜索。
基于clementine的数据挖掘实验指导
目录
clementine决策树分类模型 2
一.基于决策树模型进行分类的基本原理概念 2
二.范例说明 2
三.数据集说明 3
四.训练模型 3
五.测试模型 8
clementine线性回归模型 11
一. 回归分析的基本原理 11
二. 范例说明 11
三. 数据集说明 11
四. 训练模型 11
五. 测试模型 16
Clementine聚类分析模型 20
一.聚类分析的基本原理 20
二.范例说明 21
三.数据集说明 21
四.建立聚类模型 22
Clementine关联规则模型 27
一. 关联规则的基本原理 27
二. 范例说明 27
三. 数据集说明 28
四. 关联规则模型 29
clementine决策树分类模型
一.基于决策树模型进行分类的基本原理概念
分类就是:
分析输入数据,通过在训练集中的数据表现出来的特性,为每一个类找到一种准确的描述或者模型。
由此生成的类描述用来对未来的测试数据进行分类。
数据分类是一个两步过程:
第一步,建立一个模型,描述预定的数据类集或概念集;
第二步,使用模型进行分类。
clementine8.1中提供的回归方法有两种:
C5.0(C5.0决策树)和NeuralNet(神经网络)。
下面的例子主要基于C5.0决策树生成算法进行分类。
C5.0算法最早(20世纪50年代)的算法是亨特CLS(ConceptLearningSystem)提出,后经发展由JRQuinlan在1979年提出了著名的ID3算法,主要针对离散型属性数据;C4.5是ID3后来的改进算法,它在ID3基础上增加了:
对连续属性的离散化;C5.0是C4.5应用于大数据集上的分类算法,主要在执行效率和内存使用方面进行了改进。
优点:
在面对数据遗漏和输入字段很多的问题时非常稳健;通常不需要很长的训练次数进行估计;比一些其他类型的模型易于理解,模型推出的规则有非常直观的解释;也提供强大的增强技术以提高分类的精度。
二.范例说明
该范例的背景是客户详细的个人投资计划作为一种市场营销活动的结果,snapshottrainN.db(训练数据)描述的是不同age(年龄),不同sex(性别),不同region(地域),不同income(收入),不同married(婚姻),等等的数据,通过分类算法对训练数据进行建模得到决策树模型,通过得到的决策树模型来判断测试数据集(snapshottestN.db)里面的每个记录的pep(个人投资计划)属性是yes还是no。
使用clementine建立流程图,如图1所示:
图1总流程图
三.数据集说明
数据集snapshottrainN.db,以下是该数据集的所有字段名:
•id.唯一的识别号
•age.年龄
•sex.性别
•region.地理位置
•income.收入
•merried.是否已婚
•children.有几个孩子
•car.是否有汽车
•save_act.是否有储蓄账户
•current_act.是否有活期存款
•mortgage.是否有抵押
•pep.是否有个人投资计划
四.训练模型
通过下面的操作,将完成如图2所示的流。
图2训练模型
(1)导入数据及预处理
插入一个变项文件节点(Source\Var.File),双击该节点,在File框输入snapshottrainN.db的物理路径,如图3所示:
图3输入节点
(2)变量类型的定义及实例化:
在建模之前,我们首先将一个类型节点TypeNode加到目前的流程中。
点击ReadValues以读取数据。
因为需要用年龄,性别,地区,收入等等为引数来估计个人投资计划,所以将id的Direction设为“None”,将pep设为“Out”,其他字段设为“In”。
如图4所示:
图4Type节点
(3)查看数据源
通过一个Table节点(Output\Table)与源数据连接,Excute(执行)Table结点即可,如图5所示:
图5Table节点
(4)用C5.0算法建立决策树模型
建立一个C5.0结点(Modeling\C5.0)与Type节点相连,如图6所示:
:
图6建模过程
双击C5.0结点可对其进行编辑,这里取其Modelname为默认值“Auto”(进入法),其他选项也不做修改,Excute(执行)该节点,如图7所示:
图7建模过程参数选择
(5)模型结果分析
执行C5.0结点即可得到判断pep取值的决策树模型,如图8所示:
图8查看模型
右键单击模型,单击Browse查看模型结果,如图9所示:
图9模型结果
将模型图标与Type节点相连,再添加一个“分析”节点,执行Analysis节点显示预测值和真实值的匹配程度如何的信息,如图10所示:
图10模型好坏分析
五.测试模型
现有新的数据snapshottestN.db,将建好的分类模型(pep)加入到流程中,并利用Analysis节点分析结果,如图11所示:
图11测试模型
(1)导入数据及预处理
与上面的方法相同,建立变项文件节点,选取源数据snapshottestN.db,如图12所示:
图12输入节点
预处理数据,与训练模型操作相同,如图13所示:
图13测试数据筛选
(2)查看数据源
通过一个Table节点(Output\Table)与源数据连接,Excute(执行)Table结点即可,如图14所示:
图14查看测试数据
(3)连接模型
将得到的回归模型加入到Type节点,如图15所示:
图15连接模型
双击C5.0结点可对其进行编辑,这里取其Modelname为默认值“Auto”(进入法),其他选项也不做修改,Excute(执行)该节点,如图16所示:
图16测试模型参数选择
(6)分析模型
将模型图标与Type节点相连,再添加一个“分析”节点,执行Analysis节点显示预测值和真实值的匹配程度如何的信息,如图17所示:
图17测试模型的分析结果
clementine线性回归模型
一.回归分析的基本原理
所谓回归分析法,就是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量间的回归关系函数表达式,也称为回归方程,而其中最简单最基础的回归分析法就是线性回归分析。
clementine8.1中提供的回归方法有两种:
Regression和Logistic,其中clementine8.1中的Regression算法就是指线性回归模型。
下面的例子主要基于线性回归算法Regression算法,其主要思路如下.
回归节点用于生成线性回归模型。
这种模型可根据输入字段估计出用于预测输出字段的最佳拟合线性方程。
回归方程表示将预测输出值与实际输出值之间的平方差最小化的直线或平面。
这是用于数据汇总和进行预测的十分常见的统计技术。
要求:
只有数值型字段可用于回归模型。
必须只有一个“Out”字段和一个以上的“In”字段。
字段方向为“Both”或者“None”的字段将被忽略,同样被忽略的还有非数值型字段。
优点:
回归模型相对简单,并为生成的预测给出易于解释的数学方程。
由于回归建模是一个比较成熟的统计方法,回归模型的特点容易理解。
而且,回归模型训练起来也非常快。
回归节点提供自动选择字段的方法以删除方程中的不显著的输入字段。
二.范例说明
该范例的背景是关于农业发展贷款的申请,每一条记录描述的是一个农场对某种具体贷款类型的申请。
我们主要考虑两种贷款类型:
土地开发贷款(arable_dev)和退耕贷款(decommission_land)。
要解决的业务问题是:
根据农场类型和大小,找出那些申请贷款过多的农场。
三.数据集说明
数据集grantfraudN.db,以下是该数据集的所有字段名:
•id.唯一的识别字
•name.申请人名
•region.地理位置(midlands/north/southwest/southeast)
•farmsize整型—农场大小
•rainfall.整型—农场的年降雨量
•landquality.整型—农场主对土地质量的声明
•farmincome.实型—农场的年产量
•maincrop.主要作物(maize/wheat/potatoes/rapeseed)
•claimtype.申请贷款类(decommission_land/arable_dev)
•claimvalue.实型—申请贷款数额
我们可以使用Clementine建立一个回归模型,以农场大小、农场的年降雨量、土地质量和农场的收入为引数来估计农场申请贷款数额。
四.训练模型
通过下面的操作,将完成如下图所示的流。
图18要建立的流
(1)导入数据及预处理
插入一个变项文件节点(Source\Var.File),双击该节点,在File框输入grantfraudN-train.db的物理路径。
图19导入数据文件grantfraudN-train.db
(2)变量类型的定义及实例化
在建模之前,我们首先将一个类型节点TypeNode加到目前的流程中。
点击ReadValues以读取数据。
因为需要用农场大小、农场的年降雨量、土地质量和农场的收入为引数来估计农场申请贷款数额,所以将farmsize、rainfall、landquality、farmincome的Direction设为“In”,将claimvalue设为“Out”,其他字段设为“None”。
如下图所示:
图20添加并设置类型节点
(3)查看数据源
通过一个Table节点(Output\Table)与源数据连接,执行Table结点即可。
图21通过Table节点查看数据源
(4)建立Regression回归模型
建立一个Regression结点(Modeling\Regression)与Type节点相连:
图22建立Regression结点
双击Regression结点可对其进行编辑,这里取其Method为默认值“Enter”(进入法),其他选项也不做修改。
图23配置Regression结点
(5)模型结果分析
执行Regression结点即可得到回归模型。
图24右键单击模型查看模型结果
右键单击模型,单击Browse查看模型结果。
图25显示模型结果
结果显示模型的详细情况:
farmincome*0.3173+farmsize*-9.131+landquality*-724.2+rainfall*38.29+11587.4
将模型图标与Type节点相连,再添加一个“分析”节点,执行Analysis节点显示预测值和真实值的匹配程度如何的信息。
图26添加一个“分析”节点
图27显示所建立的模型与grantfraudN-train.db的比较结果
五.测试模型
现有新的数据grantfraudN-test.db,将建好的回归模型(claimvalue)加入到流程中,并利用Analysis节点分析结果。
图28要建立的流
(1)导入数据及预处理
与上面的方法相同,建立变项文件节点,选取源数据grantfraudN-test.db,
图29添加变项文件节点,导入数据文件
预处理
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 clementine 数据 挖掘 指导