决策树PPT文件格式下载.ppt
- 文档编号:14694060
- 上传时间:2022-10-24
- 格式:PPT
- 页数:103
- 大小:4.68MB
决策树PPT文件格式下载.ppt
《决策树PPT文件格式下载.ppt》由会员分享,可在线阅读,更多相关《决策树PPT文件格式下载.ppt(103页珍藏版)》请在冰豆网上搜索。
第6章决策树决策树基本概念决策树基本概念解决分类问题的一般方法解决分类问题的一般方法TIDA1A2A3类1Y100LN2N125SN3Y400LY4N415MN学习算法学习模型模型模型应用模型TIDA1A2A3类1Y100L?
2N125S?
3Y400L?
4N415M?
训练集(类标号已知)训练集(类标号已知)检验集(类标号未知)检验集(类标号未知)归纳推论第6章决策树决策树基本概念决策树基本概念有指导的学习与无指导的学习有指导的学习与无指导的学习(有监督学习与无监督学习有监督学习与无监督学习)有指导的学习(有指导的学习(supervisedlearning一般用于分类)一般用于分类)模型的学习在被告知每个训练样本属于模型的学习在被告知每个训练样本属于“那个类那个类”的指导下的指导下进行。
进行。
新数据使用训练数据集中得到的规则进行分类。
无指导的学习(无指导的学习(unsupervisedlearning一般用于聚类)一般用于聚类)每个训练样本的类编号是未知的,要学习的类集合和数量每个训练样本的类编号是未知的,要学习的类集合和数量也可能是事先未知的。
也可能是事先未知的。
通过一系列的度量、观察来建立数据中的类编号或进行聚类通过一系列的度量、观察来建立数据中的类编号或进行聚类第6章决策树决策树基本概念决策树基本概念半监督学习(半监督学习(semi-supervisedlearning)传统的机器学习技术需要使用大量有标记训练样本进行学传统的机器学习技术需要使用大量有标记训练样本进行学习,但是在很多真实应用中,获取大量有标记训练样本相当困习,但是在很多真实应用中,获取大量有标记训练样本相当困难,但是很容易获得大量未标记训练样本。
半监督学习致力于难,但是很容易获得大量未标记训练样本。
半监督学习致力于利用未标记样本来提高学习性能。
利用未标记样本来提高学习性能。
半监督学习主要有三种学习方法:
自训练;
协同训练;
Co-EM算法算法第6章决策树决策树基本概念决策树基本概念半监督学习(半监督学习(semi-supervisedlearning)自训练:
先在较小的标识数据集上训练得到初始分类器,然后自训练:
先在较小的标识数据集上训练得到初始分类器,然后利用该分类器对未标识样本进行分类。
将分类置信度利用该分类器对未标识样本进行分类。
将分类置信度较高的未标识数据作为新的训练样本,添加到原训练较高的未标识数据作为新的训练样本,添加到原训练集中对模型进行更新。
如此循环多次后,输出得到的集中对模型进行更新。
如此循环多次后,输出得到的分类器及其分类结果。
分类器及其分类结果。
特点:
自训练的方法通过将训练得到的置信度高的未标识数据特点:
自训练的方法通过将训练得到的置信度高的未标识数据作为训练样本,添加到训练集重复训练的方法,增加了训练集作为训练样本,添加到训练集重复训练的方法,增加了训练集的数量,对未标识数据的信息进行了很好的利用,提高了分类的数量,对未标识数据的信息进行了很好的利用,提高了分类的性能。
但要求分类器对未标识数据具有较高的分类精度。
这的性能。
这点对于较为复杂的分类尤其重要。
点对于较为复杂的分类尤其重要。
自训练方法及特点自训练方法及特点第6章决策树半监督学习(半监督学习(semi-supervisedlearning)协同训练方法及特点协同训练方法及特点协同训练是一种利用互补的分类器对未标识样本特征空间协同训练是一种利用互补的分类器对未标识样本特征空间进行探索的半监督学习方法。
进行探索的半监督学习方法。
协同训练利用分类器之间的相互训练来提高分类性能。
可协同训练利用分类器之间的相互训练来提高分类性能。
可以弥补因一个分类器不准而对最终结果造成的影响。
最终结果以弥补因一个分类器不准而对最终结果造成的影响。
最终结果综合了两个分类器的结果得到。
协同训练结果一般要优于自训综合了两个分类器的结果得到。
协同训练结果一般要优于自训练。
但也面临未知数据分类精度对最终结果的影响问题。
练。
第6章决策树半监督学习(半监督学习(semi-supervisedlearning)Co-EM算法及特点算法及特点Co-EM算法是协同训练的改进形式,它不是直接利用当算法是协同训练的改进形式,它不是直接利用当前分类器对未标识样本的分类,而利用分类后的后验概率进前分类器对未标识样本的分类,而利用分类后的后验概率进行分类。
行分类。
优点在于对数据前几轮中的预测标识可以通过后验概率优点在于对数据前几轮中的预测标识可以通过后验概率来改变。
这样在初始分类器准确率不高的情况下优于协同训来改变。
这样在初始分类器准确率不高的情况下优于协同训练。
但其合理性和收敛性没有理论的保证。
第6章决策树半监督学习(半监督学习(semi-supervisedlearning)其它半监督学习方法还包括:
其它半监督学习方法还包括:
生成式模型(生成式模型(generativemodels);
最大化分离(最大化分离(maximizingseparation);
基于图的方法(基于图的方法(graph-basedmethods).第6章决策树决策树基本概念决策树基本概念决策树决策树决策树是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。
本质上决策树是通过一系列规则对数据进行分类的过程。
第6章决策树决策树基本概念决策树基本概念决策树的优点决策树的优点1、推理过程容易理解,决策推理过程可以表示成IfThen形式;
2、推理过程完全依赖于属性变量的取值特点;
3、可自动忽略目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量的数目提供参考。
第6章决策树决策树基本概念决策树基本概念关于归纳学习关于归纳学习
(1)决策树技术发现数据模式和规则的核心是归纳算法。
归纳是从特殊到一般的过程。
归纳推理从若干个事实中表征出的特征、特性和属性中,通过比较、总结、概括而得出一个规律性的结论。
归纳推理试图从对象的一部分或整体的特定的观察中获得一个完备且正确的描述。
即从特殊事实到普遍性规律的结论。
归纳对于认识的发展和完善具有重要的意义。
人类知识的增长主要来源于归纳学习。
第6章决策树决策树基本概念决策树基本概念关于归纳学习关于归纳学习
(2)归纳学习的过程就是寻找一般化描述的过程。
这种一般性描述能够解释给定的输入数据,并可以用来预测新的数据。
锐角三角形内角和等于180度;
钝角三角形内角和等于180度;
三角形内角和直角三角形内角和等于180度;
等于180度已知三角形ABC,A角等于76度,B角等于89度,则其C角等于15度归纳学习由于依赖于检验数据,因此又称为检验学习。
归纳学习存在一个基本的假设:
任一假设如果能够在足够大的训练样本集中很好的逼近目标函数,则它也能在未见样本中很好地逼近目标函数。
该假定是归纳学习的有效性的前提条件。
第6章决策树决策树基本概念决策树基本概念关于归纳学习关于归纳学习(3)第6章决策树决策树基本概念决策树基本概念关于归纳学习关于归纳学习(4)归纳过程就是在描述空间中进行搜索的过程。
归纳可分为自顶向下,自底向上和双向搜索三种方式。
自底向上法一次处理一个输入对象。
将描述逐步一般化。
直到最终的一般化描述。
自顶向下法对可能的一般性描述集进行搜索,试图找到一些满足一定要求的最优的描述。
第6章决策树决策树基本概念决策树基本概念从机器学习看分类及归纳推理等问题(从机器学习看分类及归纳推理等问题
(1)从特殊的训练样例中归纳出一般函数是机器学习的中心问题;
从训练样例中进行学习通常被视为归纳推理。
每个例子都是一个对偶(序偶)(x,f(x)),对每个输入的x,都有确定的输出f(x)。
学习过程将产生对目标函数f的不同逼近。
F的每一个逼近都叫做一个假设。
假设需要以某种形式表示。
例如,y=ax+b。
通过调整假设的表示,学习过程将产生出假设的不同变形。
在表示中通常需要修改参数(如a,b)。
第6章决策树决策树基本概念决策树基本概念从机器学习看分类及归纳推理等问题(从机器学习看分类及归纳推理等问题
(2)从这些不同的变形中选择最佳的假设(或者说权值集合)。
一般方法如定义为使训练值与假设值预测出的值之间的误差平方和E最小为最佳。
学习是在假设空间上的一个搜索。
概念学习也可以看作是一个搜索问题的过程。
它在预定义的假设空间中搜索假设,使其与训练样例有最佳的拟合度。
多数情况下,为了高效地搜索,可以利用假设空间中一种自然形成的结构,即一般到特殊的偏序关系。
第6章决策树决策树基本概念决策树基本概念从机器学习看分类及归纳推理等问题(从机器学习看分类及归纳推理等问题(3)分类模型的性能根据模型正确和错误预测也可以根据的检验记录计数分类模型的性能根据模型正确和错误预测也可以根据的检验记录计数进行评估。
这些计数存储在混淆矩阵(进行评估。
这些计数存储在混淆矩阵(ConfusionMatrix)的表格中,二元)的表格中,二元分类问题混淆矩阵如下:
分类问题混淆矩阵如下:
实际实际的类的类类类1f11类类0f01f10f00类类1类类0预测的类预测的类准确率准确率=正确的预测数正确的预测数/预测总数预测总数=(f11+f00)/(f11+f01+f10+f00)差错率差错率=错误的预测数错误的预测数/预测总数预测总数=(f10+f01)/(f11+f01+f10+f00)第6章决策树决策树基本概念决策树基本概念从机器学习看分类及归纳推理等问题(从机器学习看分类及归纳推理等问题(4)混淆矩阵一般可以用于衡量分类器的精度。
混淆矩阵一般可以用于衡量分类器的精度。
例如例如有有150个数据,分个数据,分3类,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决策树