决策树模型.docx
- 文档编号:1863983
- 上传时间:2022-10-24
- 格式:DOCX
- 页数:9
- 大小:45.89KB
决策树模型.docx
《决策树模型.docx》由会员分享,可在线阅读,更多相关《决策树模型.docx(9页珍藏版)》请在冰豆网上搜索。
决策树模型
决策树模型(总11页)
仅作为文档封面,使用时请直接删除即H
决策树(分类与回归方法)
1.决策树模型
(1)定义:
分类决策树是一种描述对实例进行分类的树形结构
(2)组成:
节点
内部节点:
表示一个特征或者属性
叶节点:
表示一个类
有向边
(3)分类过程
从根节点开始•对实例的某一特征进行测试(特征选取)
根据测试结果•讲实例分配到其子节点(每一个子节点对应着该特征的一个取
值)
递归的对实例进行测试并分配■直到叶节点
将实例分配到叶节点的类中(决策树生成)
为避免过拟合进行剪枝处理(决策树剪枝)
⑷决策树学习:
学习的本质;从训练数据集中归纳出一组分类规则,在学习时,利用训练数据,根据
损失函数最小化的原则建立决策树模型.
决策树的构建;
构建根节点•将所有训练集都放在根节点•选择一个最优特征
按照这一特征将训练数据集分割为子集
如果这些子集能够被正确分类,构建叶节点
如果还有子集不能被正确分类
对这些子集选择新的最优特征•继续对其进行分割.构建新的节点
2.特征选择
特征选择在于选取对训练数据具有分类能力的特征,准则通常是信息増益或则信息増益比.
®(entropy)!
表示随机变量不确定性的度量]
X是一个取有限个值的离啟随机变量,其概率分布为
p(X=x()=p,.21,2,・・・皿
则随机变:
S*的爛定义为
M
嬌越大随机变量的不确定性就越大
条件爛:
H(Y/X)表示在已知随机变量X的条件下随机变量Y得不确定性.
这里,Pi=P(X=xf)tz=l,2,-%/r*.
信息增益[表示得知特征X的信息从而得到类Y的信息的不确定性减少的程度],特征A对于训练数据集D的信息增益为g(D,A)=H(D)-H(D/A)选择方法;
对训练数据集(子集)D,计算每个特征的信息增益,比较大小,选择信息增益最
大的特征
参数
设训练数据集为D.|D|表示其样本容虽.即样本个数.
r
设有kA类q・为属于类G的样本个数•tlGl=l^|.根撫特征X的取值将Q知分为n个子集A4,…Q,12I为D的样本个数,^|DJ=|D|.
I■
记子集9中属于类G的样本的集合为q,即
|6:
|为q的样本个数.
砂>4-■■/41H9、
具体算法:
输入:
训练数据集D与特征A
输出,特征/对训练数据集D的信息増益g(DM).
(1)计算数据集D的经验嬌H(D)
H(D)=-£%ogdh\D\^\D\
(2)计算特征X对数据集D的经验条件矯H(DM)
〈3)计算信息增益
g(D,A)=H(D)^H(D\A)
具体计算例子V统计学习方法〉P62
注:
信息増益值的大小是相对于训练数据集而言的,并没有绝对意义
信息増益比:
定义5・3(信恵增益比)特征人对训练数据集/>的信息增益比&(2Q定义为其信息增益gQM)与训练数据集D的经验爛H(D)之比:
3.决策树的生成[只考虑局部最优]
ID3算法
核心;在决策树的各个节点上应用信息増益准则选择特征,递归的构建决策树具体方法;
从根节点开始,对节点计算所有可能的特征的信息增益,选择信息増益最大的
特征作为节点的特征,由该特征的不同取值建立子节点
再对子节点递归的应用上述方法,构建决策树
直到所有特征的信息增益很小或者没有特征可以选择为止
算法:
K.4UKAA/eTJ
输入=训练数据集Q,特征集4,阈值£;
输出:
:
决策树T.
(1)若Q中所有实例属于同一类G,则7•为单结点树,并将类G作为该结点的类标记"返回
(2)若z4=0,则7*为单结点树,并将Q中实例数最大的类C*作为该结点的类标记,返回7;
(3)否则,按算法5.1计算R中各特征对D的信息增益,选择信息增益最大的特征九;
(4)如果心的信息增益小于阈值0则置厂为单结点树,并将D中实例数绘大的类q作为该结点的类标记,返回T;
(5)否则,对兔的毎一可能值q,依Ag=at将。
分割为若干非空子集0,将2中实例数最大的类作为标记,构建子结点,由结点及其子结点构成树几返回卩;
(6)对第f个子结点,以2为训练集,以A-{Ag}为特征集,递归地调用
步
(1)〜步(5),得到子树7;,返回7;・■
(用信息増益比来选取特征)
算法:
输入:
训练数据集特征集V,阈值£;
输出I决策树血
(1》如果D中所有实例属于同一类则置F为单结点树I并将C*作为该结点的类,返回
(2)如果4=0,则置丁为单结点树,并将。
中实例数最大的类G作为该结点的类,返回
(3)否则,按式(5」0)计算川中各特征对。
的倩怠增益比,选择佰息增益比最大的特征兔;
(4)如果兔的信息增益比小于阖值£・则置7*为单结点树.并将£?
中实例数最大的类G作为该结点的类,返回
(5)否则,对舛的每一可能值q,依A^a^D分割为子集若下非空耳,将。
中实例数垠大的类作为标记,构建子结点,由结点及其子结点构成树T,返回T;
(6)对结点儿以2为训练集,以/-{£}为特征集,递归地调用步⑴〜步($),
得到子树「返回八■
4.决策树的剪枝(解决过拟合问题)
通过极小化决策树整体的损失函数或代价函数来实现
参数:
设树厂的叶结点个数为I门.r是树T的叶结点,该
叶结点有M个样本点,其中上类的样本点有叫个,"1,2,…,K,
尽(门为叶节点t上的经验墻
公式;
决策树学习的损失函数定义为:
Ca(T^^N,Ht(T^alT\
r>l
梵中经验炯为
Hg橙啜
在损失函数中”将式(5.11)右端的第1项记作
c(r)=£州乩(门“££饥吨善
/•I#-1M叫
这时有
^Cff(r)=C(T)+Of|T|
C(T)表示模型对训练数据的预测误差,(模型与训练数据的拟合度)"/表示模型的复杂度
输入2生成算法产生的整个树7\参数";
输出;修剪后的子树
(1)计算每个结点的经验爛.
(2)递归地从树的叶结点向上回缩.
设一组叶结点回缩到其父结点之郎与之后的猿体树分别为匚与7>其对应的损失函数值分别是q(7;)与4(乙),如果
G(匚)9為)(5.15)
则进行剪枝,即将父结点变为新的叶结点,
(3)返回
(2),直至不能继续为止,得到损失函数最小的子树7;.■
图5.6决第鞫的剪枝
5.CART算法(二叉树,内部节点只能根据属性进行二分)
CART为分类与回归树,内部节点特征的取值只有”是'与'否'
对回归树用平方误差最小化准则,对分类树用基尼指数最小化准则,进行特征选取
回归树[对应着特征空间的一个划分以及在划分单元的输出值]
算法:
输入;训练数据集
输出:
回归树/(力・
在训练数据集所在的输入空间中・递归地将每个区域划分为两个子区域并决定毎个子区域上的输出值,构建二叉决第树:
(1)J&择最优切分变量;/与切分点S.求解
■■
minmin》(”-cj'+miu》U-c2)2(5.21)
遍历变屋厂对固定的切分变员丿扫描切分点£,选择使式(5.21)达到最小值的对(川)・
(2)用选定的对(_/>)划分区域并决定相应的输出值:
W,s)={x|Mw$},耳(和)=匕|少>f}
工y”xwRjW=lt2叫M心")
(3)继续对两个子区域调用步骤
(1),
(2),直至满足停上条件.
(4)将输入空间划分为M个区域&心…、Rm・生成决弟树:
/⑴=心■
■•I
分类树基尼指数:
[基尼指数值越大,样本的不确定性就越大]
定义5・4(基尼指数)分类问题中,假设有K个类,样本点属子第氏类的概率为则概率分布的基尼指数定义为
Gini(p)=工A:
(1-pj=1-Q於(5.22)
1-1Aal
对于二类分类问题,若样本点展于第1个类的概率妃P,则概率分布的基尼指数为
Gini(p)=2p(l一p)(5.23)
对于给定的样本集合Q,其基尼指数为
(5.24)
这里,G是D中属于第上类的样本子集.K是类的个数.
如果样本集合Q根据特征/是否取某-可能值d被分割成9和q两部分,即
D}={(尤,刃wD\A(x)=a],D产D」D\
则在特征为的条件下.集合Q的基尼指数定义为
算法;
输入,训练数撫集D,停止计算的条件:
输出:
CART决策树.
根据训练数据集,从根结点开始,递归地对每个结点进行以下操作,构建二叉决策树:
("设结点的训练数据集为Q,计算现有特征对该数据集的基尼指数.此时,对每一个特征力,对其可能取的毎个值a,根据样本点对A=a的测试为“是”或"否”将D分割成Q和£>2两部分,利用式<5.25)计算4=a时的基尼指数,
(2)在所有可能的特征以及它们所有可能的切分点a中,选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点.依垠优特征与最优切分点,从现结点生成两个子结点,将训练数据集依待征分配到两个子结点中去.
〈3)对两个子结点递归地调用
(1),<2),直至满足停止条件.
(4〉生成CART决策厠,■
算法停止计算的条件是结点中的样本个数小于预定阀值,或样本集的基尼指数小于预定阈值(样本基本属于同一类),或者没有更多特征.
爛与基尼指数的差别
Gni指数的计算不需要对数运算,更加高效;
Gni指数更偏向于连续属性,嫡更偏向于离散属性。
6.决策树的优缺点,主要解决问题
决策树主要用来进行分类问题的处理(可以解决回归问题),主要优点是具有可读
性,分类速度快.
・决策树易于理解和实现•人们在通过解释后都有能力去理解决策树所表达的意义。
・对于决策树,数据的准备往往是简单或者是不必要的•其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。
•能够同时处理数据型和常规型属性。
其他的技术往往要求数据属性的单一。
•在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
・对缺失值不敏感
•可以处理不相关特征数据
•效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。
缺点;
1)对连续性的字段比较难预测。
2)对有时间顺序的数据,需要很多预处理的工作。
3)当类别太多时,错误可能就会增加的比较快。
4)—般的算法分类的时候,只是根据一个字段来分类。
在处理特征关联性比较强的数据时表现得不是太好
适应条件;
如果不强调的解释度,尽量避免单棵决策树,用集成树模型
在集成数模型中,优先推荐使用xgboost
在中小数据集上,优先选择集成树模型。
大数据集上推荐神经网络
在需要模型解释度的项目上,优先使用树模型
在项目时间较短的项目上,如果数据质量低(大量缺失值、噪音等),优先使用集
成树模型
在硬件条件有限及机器学习知识有限的前提下,优先选择树模型
连续值的处理与缺失值的处理[西瓜书P83]
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决策树 模型