数据仓库与数据挖掘决策树实验Word格式.docx
- 文档编号:21483878
- 上传时间:2023-01-30
- 格式:DOCX
- 页数:14
- 大小:603.27KB
数据仓库与数据挖掘决策树实验Word格式.docx
《数据仓库与数据挖掘决策树实验Word格式.docx》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘决策树实验Word格式.docx(14页珍藏版)》请在冰豆网上搜索。
准备工作:
三国志4武将数据.xls数据导入数据库中。
(1)打开visualstudio2008,新建项目,选择商业智能项目,analysisservices项目
图1新建项目
(2)在解决方案资源管理器中,右键单击数据源,选择新建数据源
图2数据源向导
(3)在该界面中选择新建,进行数据源具体设置
图3新建数据源
(4)在服务器名中填写要连接的数据库服务器名称,或者单击服务器名右方下拉按钮进行选择;
勾选使用windows身份验证;
选择或输入一个数据库名中填写将要分析数据所在的数据库或者单击右方下拉按钮进行选择
图4数据源具体设置
(5)确定后配置完的数据源已显示在窗口上,继续下一步
图5完成数据源具体设置
(6)勾选使用服务账户,继续下一步
图6模拟信息设置
(7)数据源名称保持默认,完成
图7完成数据源设置向导
(8)在解决方案资源管理器中,右键单击数据源视图,选择新建数据源视图
图8数据源视图向导
(9)下一步
图9选择数据源
(10)在可用对象中,将要分析数据所在表添加到包含的对象中,继续下一步
图11选择包含对象
(11)默认名称,完成
图12完成数据源视图向导
(12)在解决方案资源管理器中,右键单击挖掘结构,选择新建挖掘结构
图13数据挖掘向导
(13)勾选从现有关系数据库或数据仓库,继续下一步
图14选择定义方法
(14)选择microsoft决策树,继续下一步
图15创建数据挖掘模型结构
(15)下一步
图16选择数据源视图
(16)勾选事例,继续下一步
图17指定表类型
(17)在键列勾选序号码,在输入列勾选出身、国别、魅力、统御、武力、政治、智慧、忠诚,在可预测列勾选身份,继续下一步
图18指定定型数据
(18)下一步
图19指定内容和数据类型
(19)勾选允许钻取,完成
图21完成数据挖掘向导
(20)单击挖掘模型查看器
图22完成设置
(21)询问是否部署项目,是
图23部署项目
(22)询问是否继续,是
图24处理模型
(23)单击运行
图25运行挖掘项目
(24)待处理完成后,关闭
图26处理结果
(25)关闭处理窗口后,就可在挖掘模型查看器的决策树中看到系统经过分析得出的结果
图27分类关系图
依赖关系网络:
图27分类剖面图
(26)在挖掘模型中,右键单击挖掘模型可以设置算法参数
图28算法参数
(27)算法参数的意义
COMPLEXITY_PENALTY:
禁止决策树生长。
减少此值会增加拆解的可能性,而增加此值则会减少拆解的可能性。
FORCE_REGRESSOR:
强制算法使用的数据行作为回归公式的回归输入变量,而不考虑其在算法计算中的重要性为何。
MAXIMUM_INPUT_ATTRIBUTES:
指定在叫用功能选项之前,算法可以处理输入属性的最大数目。
MAXIMUM_OUTPUT_ATTRIBUTES:
指定在叫用功能选项之前,算法可以处理输出属性的最大数目。
MINIMUM_SUPPORT:
指定分叶节点必须包含的最小个例数目
SCORE_METHOD:
指定用来计算分割准则的方法。
SPLIT_METHOD:
指定用来节点分杈的模式。
图29设置算法参数
(28)设定完算法后,再次点击挖掘模型查看器进行数据处理,处理完成后所得出的结果就是设置算法后的结果。
五、实验心得体会
通过这次关于决策树的实验,让我对决策树的应用有了相对具体的理解,并且为决策树的学习提供了一个好的铺垫,在学习过程中,决策树中的算法由于利用系统本身,所以并没有具体理解ID3这个算法的具体运转环节,但是有了这次实验的铺垫,使自己能够更加容易之后的ID3算法的学习。
六、思考题
决策树对数据分类的正确率是否可以达到100%?
答:
不可以达到100%
决策树一般都是自上而下来生成的。
决策树由一个决策图和可能的结果(包括资源成本和风险)组成,用来创建到达目标的规划。
每个决策或事件都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,所以称作决策树。
对于那些各类别样本数量不一致的数据,在决策树当中信息增益的结果偏向于那些具有更多数值的特征。
决策树的这种明确性可能带来误导。
决策树分类准确率极限理论:
定理1:
有经验风险和结构风险时,决策树分类准确率的极限不存在。
定理2:
无经验风险、有结构风险时,决策树分类准确率的极限不存在。
定理3:
有经验风险、无结构风险时,决策树分类准确率的极限存在。
定理4:
无经验风险和结构风险时,决策树分类准确率的极限存在。
以上定理都认可100%是决策树分类准确率的上边界,0%是其下边界;
“不存在”的意义并不是无确定上边界,而是在[0%,100%]内五确定上边界;
“存在”的意义是有确定上边界,当然这个上边界不超过100%
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 决策树 实验