书签分享收藏举报版权申诉 / 44

立即下载加入VIP,免费下载

当前位置：首页 > PPT模板 > 其它模板 > 决策树.pptx

决策树.pptx

文档编号：2639570
上传时间：2022-11-04
格式：PPTX
页数：44
大小：1.74MB

决策树.pptx

《决策树.pptx》由会员分享，可在线阅读，更多相关《决策树.pptx（44页珍藏版）》请在冰豆网上搜索。

决策树.pptx

决策树DecisionTree重庆大学软件信息服务工程实验室余俊良内容提要信息熵熵、联合熵、条件熵、互信息（信息增益）决策树学习算法信息增益ID3、C4.5、CARTBagging与随机森林的思想投票机制熵的概念与性质物理学物理学概念概念热力学热力学（thermodynamic）体系的熵变等于可逆过程吸收或者耗散的热量除以它的绝对温度热力学定律（Calusius1865）统计力学统计力学（statisticalmechanics）熵是大量微观粒子的位置和速度分布概率的函数，是描述系统大量微观粒子无序性的宏观参数（Boltzmann1887）量子力学量子力学（quantummechanics）度量系统中量子的纠缠，也叫冯诺依曼熵（Neumann1932）熵的概念与性质信息学概念信息学概念信息熵信息熵度量信息的不确定性，不确定性越大，熵值越大（Shannon1948）其它领域数学RelativeentropyTopologicalentropy生命科学用熵来分析一个生命体从生长、衰老、病死的全过程，称为“生命熵”信息熵“信息熵”,是香农在他著名的论文“通信的数学原理”中提出。

通常，一个信源发送出什么符号是不确定的，衡量它可以根据其出现的概率来度量。

概率大，出现机会多，不确定性小；反之就大。

在信源中，考虑的不是某一单个符号发生的不确定性，而是要考虑这个信源所有可能发生情况的平均不确定性。

若信源符号有n种取值：

U1UiUn，对应概率为：

P1PiPn，且各种符号的出现彼此独立。

这时，信源的平均不确定性应当为单个符号不确定性-logPi的统计平均值（E），可称为信息熵，即信息熵定义=2，单位比特（bit），缺省状态=，单位奈特（nat）最简单的单符号信源仅取0和1两个元素，即二元信源，其概率为P和Q=1-P，该信源的熵即为右图所示。

信息熵性质非负性：

（）0，（）=0if是确定性分布:

H（1,0）H（0,1）H（0,1,0,）0对称性：

概率分布下标置换不影响熵,H（P1，,Pn）与P1，,Pn的排列次序无关；极值性当P=0.5时，H（X）最大；而且H（X）是P的上凸函数。

可加性不确定性函数f是概率P的单调递降函数；两个独立符号所产生的不确定性应等于各自不确定性之和，即f（P1,P2）=f（P1）+f（P2），这称为可加性。

信息熵一个关于信息熵的例子：

世界杯的32支队伍里面,假设用132编码代表每一支球队,现在你想要知道那支球队获得冠军,你要用最少的询问次数获得结果.通常采用二分的方法,log32=5,最多5次结果就出来了.但是在实际应用中你不需要5次就可以了,因为你绝对不会猜日本,韩国之类的球队,你会猜西班牙,德国和意大利这样的球队.因此去除不会猜的队伍,在剩下中再次编码二分法,次数会大概34次联合熵和条件熵两个随机变量X，Y的联合分布，可以形成联合熵JointEntropy，用H（X,Y）表示H（X,Y）H（Y）（X,Y）发生所包含的信息熵，减去Y单独发生包含的信息熵在Y发生的前提下，X发生“新”带来的信息熵该式子定义为Y发生前提下，X的熵：

条件熵H（X|Y）=H（X,Y）H（Y）推导条件熵的定义式决策树什么是决策树？

分类决策树模型是一种描述对实例进行分类的树形结构。

决策树由结点和有向边组成。

结点有两种类型：

内部结点和叶节点。

内部结点表示一个特征或属性，叶节点表示一个类。

决策树什么是决策树？

分类决策树模型是一种描述对实例进行分类的树形结构。

决策树由结点和有向边组成。

结点有两种类型：

内部结点和叶节点。

内部结点表示一个特征或属性，叶节点表示一个类。

决策树决策树与if-then规则由决策树的根结点到叶结点的每一条路径构建一条规则；路径上内部结点的特征对应着规则的条件，而叶结点的类对应着规则的结论。

If-then规则集合的一重要性质：

互斥并且完备决策树与条件概率分布决策树将特征空间划分为互不相交的单元或区域，并在每个单元定义一个类的概率分布就构成了一个条件概率分布。

各叶结点（单元）上的条件概率往往偏向某一个类，即属于某一类的概率较大，决策树分类时将该结点的实例强行分到条件概率大的那一类去。

决策树与条件概率分布决策树学习决策树学习目标：

我们需要的是一个与训练数据矛盾较小的决策树，同时具有很好的泛化能力。

决策树学习的损失函数：

（通常是）正则化的极大似然函数。

但是基于损失函数找到全局最优决策树是NP-完全问题。

现实中决策树学习通常采用启发式方法，即局部最优。

具体做法：

每次选择feature时，都挑选择当前条件下最优的那个feature作为划分规则，即局部最优的feature。

特征选择特征选择在于选取对训练数据具有分类能力的特征。

如何判断一个特征对于当前数据集的分类效果？

也即确定选择特征的准则。

特征选择ID年年龄有工作有工作有自己的有自己的房子房子信信贷情况情况类别1青年否否一般否2青年否否好否3青年是否好是4青年是是一般是5青年否否一般否6中年否否一般否7中年否否好否8中年是是好是9中年否是非常好是10中年否是非常好是11老年否是非常好是12老年否是好是13老年是否好是14老年是否非常好是15老年否否一般否右表是一个由15个样本组成的贷款申请训练数据。

数据包括贷款申请人的四个特征。

表的最后一列是类别，是否同意贷款，取2个值：

是、否。

希望通过所给的训练数据学习一个贷款申请的决策树，用以对未来的贷款申请进行分类。

特征选择是决定用哪个特征来划分特征空间。

信息增益信息增益算法信息增益算法信息增益算法ID年年龄有工作有工作有自己的有自己的房子房子信信贷情况情况类别1青年否否一般否2青年否否好否3青年是否好是4青年是是一般是5青年否否一般否6中年否否一般否7中年否否好否8中年是是好是9中年否是非常好是10中年否是非常好是11老年否是非常好是12老年否是好是13老年是否好是14老年是否非常好是15老年否否一般否决策树的生成决策树的生成对上表的训练数据集，利用ID3算法建立决策树ID年年龄有工作有工作信信贷情情况况类别1青年否一般否2青年否好否3青年是好是5青年否一般否6中年否一般否7中年否好否13老年是好是14老年是非常好是15老年否一般否有自己的房子（A3）ID年年龄有工作有工作信信贷情况情况类别4青年是一般是8中年是好是9中年否非常好是10中年否非常好是11老年否非常好是12老年都好是是是否否表1表2决策树的生成决策树的生成有自己的房子是否是是否有工作ID年年龄信信贷情况情况类别3青年好是13老年好是14老年非常好是表3ID年年龄信信贷情况情况类别1青年一般否2青年好否5青年一般否6中年一般否7中年好否15老年一般否表4信息增益比C4.5的生成算法C4.5算法与ID3算法相似，C4.5算法对ID3算法进行了改进.C4.5在生成的过程中，用信息增益比来选择特征。

决策树的剪枝剪枝算法CART算法分类回归树（classificationandregressiontree,CART）同样由特征选择、树的生成及剪枝组成，即可以用于分类也可以用于回归。

CART假设决策树是二叉树二叉树，内部结点特征的取值为“是”和“否。

这样的决策树等价于递归地二分每个特征。

步骤：

（1）决策树生成：

基于训练数据集生成决策树，生成的决策树要尽量大；

（2）决策树剪枝：

用验证数据集对已生成的树进行剪枝并选择最优子树，这时用损失函数最小作为剪枝的标准。

CART生成CART的生成就是递归地构建二叉决策树的过程。

对回归树用平方误差最小化准则，对分类树用基尼指数（Giniindex）最小化准则，进行特征选择，生成二叉树。

CART剪枝随机森林随机森林随机森林顾名思义，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。

在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一类。

随机森林随机森林是一个树型分类器h（x,k）,k=1,的集合。

其中元分类器h（x,k）是用CART算法构建的没有剪枝的分类回归树；x是输入向量；k是独立同分布的随机向量，决定了单颗树的生长过程；森林的输出采用简单多数投票法（针对分类）或单颗树输出结果的简单平均（针对回归）得到。

Bagging抽样在训练的每一轮中，均从原始样本集S中有放回地随机抽取训练样本集T（T的样本个数同S），这样一个初始样本在某轮训练中可能出现多次或根本不出现（S中每个样本未被抽取的概率为（1-1/|S|）|S|0.368，当|S|很大时）。

随机森林算法随机选取训练样本集：

使用Bagging方法形成每颗树的训练集随机选取分裂属性集：

假设共有M个属性，指定一个属性数FM，在每个内部结点，从M个属性中随机抽取F个属性作分裂属性集，以这F个属性上最好的分裂方式对结点进行分裂（在整个森林的生长过程中，F的值一般维持不变）每颗树任其生长，不进行剪枝随机森林算法在建立每一棵决策树的过程中，有两点需要注意-采样与完全分裂。

首先是两个随机采样的过程，randomforest对输入的数据要进行行、列的采样。

对于行采样，采用有放回的方式，也就是在采样得到的样本集合中，可能有重复的样本。

假设输入样本为N个，那么采样的样本也为N个。

这样使得在训练的时候，每一棵树的输入样本都不是全部的样本，使得相对不容易出现over-fitting。

然后进行列采样，从M个feature中，选择m个（mM）。

之后就是对采样之后的数据使用完全分裂的方式建立出决策树，这样决策树的某一个叶子节点要么是无法继续分裂的，要么里面的所有样本的都是指向的同一个分类。

一般很多的决策树算法都一个重要的步骤-剪枝，但是这里不这样干，由于之前的两个随机采样的过程保证了随机性，所以就算不剪枝，也不容易出现over-fitting。

随机森林算法按这种算法得到的随机森林中的每一棵都是很弱的，但是大家组合起来就很厉害了。

我觉得可以这样比喻随机森林算法：

每一棵决策树就是一个精通于某一个窄领域的专家（因为我们从M个feature中选择m让每一棵决策树进行学习），这样在随机森林中就有了很多个精通不同领域的专家，对一个新的问题（新的输入数据），可以用不同的角度去看待它，最终由各个专家，投票得到结果。

影响随机森林分类性能的主要因素森林中单颗树的分类强度（Strength）：

每颗树的分类强度越大，则随机森林的分类性能越好。

森林中树之间的相关度（Correlation）：

树之间的相关度越大，则随机森林的分类性能越差。

随机森林的优点l两个随机性的引入，使得随机森林不容易陷入过拟合l两个随机性的引入，使得随机森林具有很好的抗噪声能力l在当前的很多数据集上，相对其他算法有着很大的优势l它能够处理很高维度（feature很多）的数据，并且不用做特征选择，在训练完后，它能够给出哪些feature比较重要l训练速度快l在训练过程中，能够检测到feature间的互相影响l容易做成并行化方法l实现比较简单