咨询工具:决策树算法及应用拓展PPT格式课件下载.ppt
- 文档编号:15274080
- 上传时间:2022-10-29
- 格式:PPT
- 页数:41
- 大小:300KB
咨询工具:决策树算法及应用拓展PPT格式课件下载.ppt
《咨询工具:决策树算法及应用拓展PPT格式课件下载.ppt》由会员分享,可在线阅读,更多相关《咨询工具:决策树算法及应用拓展PPT格式课件下载.ppt(41页珍藏版)》请在冰豆网上搜索。
n合理合理比较新/旧数据的挖掘结果,并清晰的描述其变化部分预备知识一(BuildingTree)n基本思想:
n用途:
提取分类规则,进行分类预测判定树分类算法output训练集决策树input使用决策树进行分类n决策树n一个树性的结构n内部节点上选用一个属性进行分割n每个分叉都是分割的一个部分n叶子节点表示一个分布n决策树生成算法分成两个步骤n树的生成n开始,数据都在根节点n递归的进行数据分片n树的修剪n去掉一些可能是噪音或者异常的数据n决策树使用:
对未知数据进行分割n按照决策树上采用的分割属性逐层往下,直到一个叶子节点决策树算法n基本算法(贪心算法)n自上而下分而治之的方法n开始时,所有的数据都在根节点n属性都是种类字段(如果是连续的,将其离散化)n所有记录用所选属性递归的进行分割n属性的选择是基于一个启发式规则或者一个统计的度量(如,informationgain)n停止分割的条件n一个节点上的数据都是属于同一个类别n没有属性可以再用于对数据进行分割伪代码(BuildingTree)ProcedureBuildTree(S)用数据集S初始化根节点R用根结点R初始化队列QWhileQisnotEmptydo取出队列Q中的第一个节点NifN不纯(Pure)for每一个属性A估计该节点在A上的信息增益选出最佳的属性,将N分裂为N1、N2属性选择的统计度量n信息增益Informationgain(ID3/C4.5)n所有属性假设都是种类字段n经过修改之后可以适用于数值字段n基尼指数Giniindex(IBMIntelligentMiner)n能够适用于种类和数值字段信息增益度度量(ID3/C4.5)n任意样本分类的期望信息:
nI(s1,s2,sm)=Pilog2(pi)(i=1.m)n其中,数据集为S,m为S的分类数目,PinCi为某分类标号,Pi为任意样本属于Ci的概率,si为分类Ci上的样本数n由A划分为子集的熵:
nE(A)=(s1j+smj)/s*I(s1j+smj)nA为属性,具有V个不同的取值n信息增益:
Gain(A)=I(s1,s2,sm)E(A)训练集(举例)ID3算法使用信息增益进行属性选择gClassP:
buys_computer=“yes”gClassN:
buys_computer=“no”gI(p,n)=I(9,5)=0.940gComputetheentropyforage:
HenceSimilarlyDecisionTree(结果输出结果输出)age?
overcaststudent?
creditrating?
noyesfairexcellent40nonoyesyesyes30.40基尼指数GiniIndex(IBMIntelligentMiner)n集合T包含N个类别的记录,那么其Gini指标就是pj类别j出现的频率n如果集合T分成两部分N1andN2。
那么这个分割的Gini就是n提供最小Ginisplit就被选择作为分割的标准(对于每个属性都要遍历所有可以的分割方法).预备知识二(PruningTree)n目的:
n消除决策树的过适应(OverFitting)问题n实质:
消除训练集中的异常和噪声n两种方法:
n先剪枝法(Public算法)n后剪枝法(Sprint算法)两种剪枝标准n最小描述长度原则(MDL)n思想:
最简单的解释最期望的n做法:
对Decision-Tree进行二进位编码,编码所需二进位最少的树即为“最佳剪枝树”n期望错误率最小原则n思想:
选择期望错误率最小的子树进行剪枝n对树中的内部节点计算其剪枝/不剪枝可能出现的期望错误率,比较后加以取舍CostofEncodingDataRecordsn对n条记录进行分类编码的代价(2种方法)nn记录数,k类数目,ni属于类i的记录数CostofEncodingTreen编码树结构本身的代价n编码每个分裂节点的代价n确定分类属性的代价n确定分类属性值的代价&
其中,v是该节点上不同属性值的个数n编码每个树叶上的记录分类的代价剪枝算法n设N为欲计算其最小代价的节点n两种情形:
nN是叶结点C(S)+1Cost1nN是内部节点,有两个子节点N1、N2n已剪去N1、N2,N成为叶子节点Cost1n计算N节点及其子树的代价,使用递归过程Csplit(N)+1+minCost1+minCost2Cost2比较Cost1和Cost2,选取代价较小者代价较小者作为返回值计算最小子树代价的伪代码ProcedureComputeCost&
Prune(NodeN)ifN是叶子节点,return(C(S)+1)minCost1=Compute&
Prune(NodeN1)minCost2=Compute&
Prune(NodeN2)minCostN=minC(S)+1,Csplit(N)+1+minCost1+minCost2ifminCostN=C(S)+1PrunechildnodesN1andN2returnminCostN引入Public算法n一般做法:
先建树,后剪枝nPublic算法:
建树的同时进行剪枝n思想:
在一定量(用户定义参数)的节点分裂后/周期性的进行部分树的剪枝n存在的问题:
可能高估(Over-Estimate)被剪节点的值n改进:
采纳低估(Under-Estimate)节点代价的策略具体思路n三种叶节点:
n有待扩展:
需计算子树代价下界n不能扩展(纯节点)n剪枝后的结点C(S)+1改进算法的伪代码ProcedureComputCoste&
Prune(NodeN)IfN是仍待扩展的结点,returnN节点的代价下界IfN是纯节点或不可扩展的叶节点,return(C(S)+1)两个子节点N1、N2minCost1=Compute&
Prune(NodeN2)minCostN=minC(S)+1,Csplit(N)+1+minCost1+minCost2ifminCostN=C(S)+1PrunechildnodesN1andN2returnminCostN计算子树代价下界nPublic
(1)n假设节点N的代价至少是1nPublic(S)Ssplitn计算以N为根且包含S个分裂点的子树代价的下界(包括确定分裂节点属性的代价)nPublic(V)Vsplitvaluen同上,还包括确定分裂节点值的代价Public(S)算法
(一)n相关概念Public(S)算法
(二)n定理:
n任何以N为根结点且有S个分裂点的子树的代价至少是2*S+1+S*loga+nii=s+2.kn证明:
n编码树结构代价2*S+1n确定节点分裂属性的代价S*logan编码S+1个叶子结点的代价nii=s+2.kPublic(S)算法(证明一)n证明:
编码S+1个叶子节点的代价至少为nii=s+2.kn相关概念:
1.主要类(MajorityClass):
if,有,则Ci为主要类2.少数类(MinorityClass):
ifthenCj为少数类Public(S)算法(证明二)n题设:
子树N有S个分裂点(Split),K个类nS+1个叶子节点n至多有S+1个主要类n至少有K-S-1个少数类n取Ci为某少数类,C(Sj)为编码叶子节点j上记录的代价nn又有C(S)nijn编码具有类i且位于叶子节点j的记录的代价是nijn所有少数类的代价Cost=nii少数类计算minCost_S的代码ProcedurecomputeMinCostS(NodeN)Ifk=1return(C(S)+1)S=1tmpCost=2*S+1+S*loga+inii=s+2.kWhiles+12+logadotmpCost=tmpCost+2+loga-ns+2S+ReturnminC(S)+1,tmpCostPublic(S)示例ageCartypelabel16truckhigh24sportshigh32sportsMedi34trucklow65familylow16,truck,high24,sports,high1+log21+11N65,family,low34,truck,low32,sports,mediN1+log21+log21116,truck,high24,sports,high32,sports,medi65,family,low34,truck,low1Public(V)算法n计算分类节点值的代价:
n编码叶子节点记录的代价i=1.k
(1)n在所有内部节点编码分裂节点值的代价
(2)总代价
(1)+
(2)其中,Cj是叶子节点j上的主要类;
M是S+1个叶子节点上的主要类的集合算法比较nSprint:
传统的二阶段“构造剪枝”算法nPublic
(1):
用保守的估计值1取代欲扩展节点的代价下界nPublic(S):
考虑具有分裂点的子树,同时计算为确定分裂节点及其属性的代价下界nPublic(V):
比前者准确,需计算确定结点上属性值的代价下界实验数据(Real-life)DataSetCannerCarLetterSatimageshuttlevehicleyeastNO_CA0600000NO_NA9016369188N_Class242675410N_R(Te)21456766322000145005591001N_R(Tr)4961161133684435435005591001实验结果
(一)DatesetDS1DS2DS3DS4DS5DS6DS7Sprint2197326565753189325Public11783321556553141237PublicS1571297945753115169PublicV1565287543553107163Maxrat40%48%14%51%0%77%99%Nodes9371991185513543产生的节点数目产生的节点数目实验结果
(二)DatesetDS1DS2DS3DS4DS5DS6DS7Sprint0.871.59334.9177.65230.6211.986.65Public10.821.51285.56167.78229.2110.585.55PublicS0.831.44289.70166.44230.269.814.94PublicV0.811.45300.48159.83227.269.644.89Maxrat9%0%17%11%2%2%3%执行时间执行时间(S)算法结果分析n总体上,比Sprint算法有较大改进n相对于最后的剪枝树仍有多余的结点,有待改进n挖掘效率与数据分布及噪声有关言归正传捕捉数据变化的挖掘方法n新生成一棵决策树n与旧树完全没有关系n生成一棵相关的树n未达到旧树中叶节点的深度n超出了旧树中相应节点的深度n相同的属性,最好的划分(bestcut)n相同的属性,相同的划分方法三的对应算法n使新树与旧树有相同的属性和划分,且能及早停止n测试在旧树中每个叶子节点的错误变化的情况n进一步生成新的树n剪枝移除那些无预测特性的分枝n比较新、旧树,识别变化部分标识几种不同的变化
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 咨询 工具 决策树 算法 应用 拓展
![提示](https://static.bdocx.com/images/bang_tan.gif)