实验六分类和回归树节点.docx
- 文档编号:23448218
- 上传时间:2023-05-17
- 格式:DOCX
- 页数:10
- 大小:151.58KB
实验六分类和回归树节点.docx
《实验六分类和回归树节点.docx》由会员分享,可在线阅读,更多相关《实验六分类和回归树节点.docx(10页珍藏版)》请在冰豆网上搜索。
实验六分类和回归树节点
实验报告
学院
南徐学院
班级
09428031
姓名
朱亚军
成绩
课程
名称
数据挖掘
实验项目
名称
分类和回归树节点(C&RT)
指导教师
教师评语
教师签名:
年月日
一、实验目的
1、掌握C&RT分类算法。
2、掌握决策树的建立和修剪
3、了解C&RT分类算法在管理决策中的应用。
二、实验内容
1、C&RT分类算法建立决策树
三、实验步骤
分类和回归树节点(C&RT)是一种基于树的分类和预测方法,此方法使用递归分区将训练记录分割为多个具有相似的输出字段值的段。
在本示例中,将C&RT应用于某市场研究,其中的目标字段为有意预订有线电视交互服务。
预测变量字段包括年龄、性别、教育、收入类别、每天看电视的时间和子女数(按有序集合编码,因为值8表示8个或更多)。
此示例使用名为Newschancart.str的流,此流引用名为NewsChan.sav的数据文件。
可以从任何ClementineClient安装软件的Demos目录下找到这些文件,也可以通过从Windows的开始菜单下选择Start>[All]Programs>SPSSClementine12.0>Demos来访问这些文件。
文件Newschancart.str位于Base_Module目录下。
1、创建树
要创建流,可执行下列操作:
在Demos文件夹中添加指向NewsChan.sav的SPSS文件源节点。
为流添加类型节点。
在类型节点中选择读取值以实例化字段。
选择NEWSCHAN并将其类型设置为标志,将其方向设置为输出。
其他所有字段用作预测变量(输入)。
将C&RT节点连接到类型节点。
在“模型”选项卡上,选择启动交互会话作为构建选项。
这样,在执行节点时将启动“交互树”窗口,通过该窗口可以在生成模型之前生成并编辑树。
在“专家”选项卡上选择专家模式并选择修剪树和使用标准误规则。
将最小杂质改变值设置为0.003。
增加此值可避免进行改进意义十分微小的分割,从而倾向于生成较简单的树。
要指定停止标准,可在“专家”选项卡上单击停止。
在“停止标准”对话框中选择使用绝对值。
将最小绝对临界值更改为25和10,然后单击确定。
行节点。
此时将出现交互树窗口,在其中可以生成并编辑树。
最初,仅显示根节点。
统计显示训练数据中有442个记录。
因为尚未分割树,因此所有的记录(100%)都落在此节点中。
在整个示例中,有215个记录对预订的响应为是,其总响应率为48.6%。
使用树模型,我们可以尝试是否能够通过找到最有可能作出积极响应的子组来提高此匹配率。
提示:
要查看字段标签,例如否和是响应的标签,可单击菜单栏上的显示字段和值的标签按钮
在“查看器”选项卡上,单击根节点以选中它并从菜单中选择以下项:
树生成树和修剪
生成的树具有五层和五个终端节点。
(要查看整个树,可使用缩放工具或单击工具栏右侧的图窗口工具按钮。
)如果尚未选中修剪选项,则树可能会复杂得多。
修剪操作基于成本复杂性算法,此算法可根据终端节点数调整风险评估。
2、生成模型和节点以便评分
使用决策树时,共有几个选项可用于生成或导出会话结果。
其中两个常用的选项为根据当前树生成模型或根据当前树生成选择节点。
这些选项会在下面各节中进行说明。
有关其他选项的说明,例如过滤节点和规则集,请参阅Clementine帮助。
根据当前树生成模型
可使用此流生成模型,该模型可根据分配到节点的记录的积极响应率对这些记录进行评分。
在交互树窗口的“查看器”选项卡上,从“生成”菜单中选择生成模型。
此时将出现“生成新模型”对话框。
在“生成新模型”对话框中,输入新模型的名称(可选),然后单击确定。
该模型位于流工作区中。
在流工作区中,将生成的NEWSCHAN1模型连接到类型节点。
在生成的NEWSCHAN1模型中,单击设置选项卡,选择计算置信度和规则ID,然后单击确定。
连接表节点并执行流。
已执行的表中显示了可能接受有线电视服务预订的用户的记录。
$R-NEWSCHAN列显示了对这些记录的预测结果。
如果某记录显示的值为1,则可以预测该用户对预订的响应为是。
如果需要,可将此生成的模型保存到模型选项板上以备将来的数据使用。
右键单击流中的NEWSCHAN1模型并选择添加到模型选项板。
然后单击模型选项板上的模型并选择保存模型。
生成选择节点
还可以生成选择节点,该节点包括所有落在节点2和13中的记录。
然后,可以使用具有新数据的选择节点确定哪些用户最有可能对预订做出积极的响应。
►在交互树窗口中,使用按住Ctrl键并单击的方法选中节点2和13。
►从“生成”菜单中,选择选择节点。
生成的选择节点位于流工作区中。
该生成的选择节点可根据在交互树窗口中为节点2和13选择的标准来构建表达式。
►将生成的选择节点连接到流中的类型节点上。
►将表连接到选择节点并执行该表以查看记录。
注意,此次仅选中226个记录而不是原来的442个记录。
今后还可将此选择节点应用于其他数据集中;可根据同样的已定义的年龄、收入、教育和性别属性过滤这些新数据。
本示例演示了如何在市场研究中应用C&RT节点和决策树来确定那些愿意预订有线电视交互服务的用户。
通过使用预测变量,例如年龄、性别、教育、收入类别、每天看电视的时间和子女数,我们可以预测和分类响应以便在商业竞争中获取最高响应率。
树模型使用简单,易于理解。
系统将构建树并递归分割每个分支直到符合一个或多个停止标准为止。
然后,可根据使用的建模方法在每个分割处自动选择最合适的预测变量。
如本示例所示,可使用树生成模型或选择节点并将其应用到以后的数据集中。
四、实验体会
掌握了C&RT分类算法,掌握了决策树的建立和修剪并了解了C&RT分类算法在管理决策中的应用。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实验 分类 回归 节点
![提示](https://static.bdocx.com/images/bang_tan.gif)