第4章-1-分类与决策树.ppt
- 文档编号:1882957
- 上传时间:2022-10-24
- 格式:PPT
- 页数:72
- 大小:997.50KB
第4章-1-分类与决策树.ppt
《第4章-1-分类与决策树.ppt》由会员分享,可在线阅读,更多相关《第4章-1-分类与决策树.ppt(72页珍藏版)》请在冰豆网上搜索。
第第3章章分类与预测分类与预测主要内容v分类与决策树概述分类与决策树概述vID3、C4.5与与C5.0vCART分类VS.预测v分类和预测是两种数据分析形式,用于提取描述重要数据类或预测未来分类和预测是两种数据分析形式,用于提取描述重要数据类或预测未来的数据趋势的数据趋势的模型的模型分类:
分类:
v预测类对象的分类标号(或离散值)预测类对象的分类标号(或离散值)v根据训练数据集和类标号属性,构建模型来分类现有数据,并用根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据来分类新数据预测:
预测:
v建立连续函数值模型建立连续函数值模型v比如预测空缺值,或者预测顾客在计算机设备上的花费比如预测空缺值,或者预测顾客在计算机设备上的花费v典型应用典型应用欺诈检测、市场定位、性能预测、医疗诊断欺诈检测、市场定位、性能预测、医疗诊断v分类是一种应用非常广泛的数据挖掘技术分类是一种应用非常广泛的数据挖掘技术v分类与预测的区别:
分类与预测的区别:
当估计的属性值是离散值时,这就是当估计的属性值是离散值时,这就是分类分类;当估计的属性值是连续值时,这就是当估计的属性值是连续值时,这就是预测预测。
分类和预测分类和预测-示例示例v分类分类银行贷款员需要分析数据,来弄清哪些贷款申请银行贷款员需要分析数据,来弄清哪些贷款申请者是安全的,哪些是有风险的(将贷款申请者分者是安全的,哪些是有风险的(将贷款申请者分为为“安全安全”和和“有风险有风险”两类)两类)v我们需要构造一个分类器来预测类属编号,比如预测我们需要构造一个分类器来预测类属编号,比如预测顾客属类顾客属类v预测预测银行贷款员需要预测贷给某个顾客多少钱是安全银行贷款员需要预测贷给某个顾客多少钱是安全的的v构造一个预测器,预测一个连续值函数或有序值,常构造一个预测器,预测一个连续值函数或有序值,常用方法是回归分析用方法是回归分析数据分类数据分类一个两步过程一个两步过程
(1)v第一步,也成为学习步,目标是建立描述预先定义的数第一步,也成为学习步,目标是建立描述预先定义的数据类或概念集的分类器据类或概念集的分类器分类算法通过分析或从训练集分类算法通过分析或从训练集“学习学习”来构造分类器。
来构造分类器。
训练集由数据库元组(用训练集由数据库元组(用n维属性向量表示)和他们相对维属性向量表示)和他们相对应的类编号组成;假定每个元组属于一个预定义的类应的类编号组成;假定每个元组属于一个预定义的类v训练元组:
训练数据集中的单个元组训练元组:
训练数据集中的单个元组学习模型可以用分类规则、决策树或数学公式的形式提学习模型可以用分类规则、决策树或数学公式的形式提供供数据分类数据分类一个两步过程一个两步过程
(2)v第二步,使用模型,对将来的或未知的对象进行分类第二步,使用模型,对将来的或未知的对象进行分类首先评估模型的预测准确率首先评估模型的预测准确率v对每个测试样本,将已知的类标号和该样本的学习模型类预测比对每个测试样本,将已知的类标号和该样本的学习模型类预测比较较v模型在给定测试集上的准确率是正确被模型分类的测试样本的百模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比分比v测试集要独立于训练样本集,否则会出现测试集要独立于训练样本集,否则会出现“过分拟合过分拟合”的情况的情况第一步建立模型训练数据集分类算法IFrank=professorORyears6THENtenured=yes分类规则第二步用模型进行分类分类规则测试集未知数据(Jeff,Professor,4)Tenured?
监督学习监督学习VS.无监督学习无监督学习v监督学习(用于分类)监督学习(用于分类)模型的学习在被告知每个训练样本属于哪个类的模型的学习在被告知每个训练样本属于哪个类的“指导指导”下进行下进行新数据使用训练数据集中得到的规则进行分类新数据使用训练数据集中得到的规则进行分类v无监督学习(用于聚类)无监督学习(用于聚类)每个训练样本的类编号是未知的,要学习的类集每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的合或数量也可能是事先未知的通过一系列的度量、观察来建立数据中的类编号通过一系列的度量、观察来建立数据中的类编号或进行聚类或进行聚类数据预测的两步过程数据预测的两步过程v数据预测也是一个两步的过程,类似于前面描述的数据分类数据预测也是一个两步的过程,类似于前面描述的数据分类对于预测,没有对于预测,没有“类标号属性类标号属性”要预测的属性是连续值,而不是离散值,该属性可简称要预测的属性是连续值,而不是离散值,该属性可简称“预测属性预测属性”vE.g.银行贷款员需要预测贷给某个顾客多少钱是安全银行贷款员需要预测贷给某个顾客多少钱是安全的的v预测器可以看作一个映射或函数预测器可以看作一个映射或函数y=f(X)其中其中X是输入;是输入;y是输出,是一个连续或有序的值是输出,是一个连续或有序的值与分类类似,准确率的预测,也要使用单独的测试集与分类类似,准确率的预测,也要使用单独的测试集3.1决策树概述决策树概述v决策树决策树(DecisionTree)一种描述概念空间的有效的归纳推理办法。
一种描述概念空间的有效的归纳推理办法。
基于决策树的学习方法可以进行不相关的基于决策树的学习方法可以进行不相关的多概念学习,具有简单快捷的优势,已经多概念学习,具有简单快捷的优势,已经在各个领域取得广泛应用。
在各个领域取得广泛应用。
v决策树是一种树型结构,其中每个内部结决策树是一种树型结构,其中每个内部结点表示在一个属性上的测试,每个分支代点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶结点代表一种类表一个测试输出,每个叶结点代表一种类别。
别。
v决策树学习是以实例为基础的归纳学习。
决策树学习是以实例为基础的归纳学习。
v从一类无序、无规则的事物(概念)中推理出决策树表示的分类规则。
从一类无序、无规则的事物(概念)中推理出决策树表示的分类规则。
v概念分类学习算法:
来源于概念分类学习算法:
来源于Hunt,Marin和和Stone于于1966年研制的年研制的CLS学习系统,用于学习学习系统,用于学习单个概念。
单个概念。
1979年年,J.R.Quinlan给出给出ID3算法,并在算法,并在1983年和年和1986年对年对ID3进行了总结和简化,使其成为决策树学习算法的典型。
进行了总结和简化,使其成为决策树学习算法的典型。
Schlimmer和和Fisher于于1986年对年对ID3进行改造,在每个可能的决进行改造,在每个可能的决策树节点创建缓冲区,使决策树可以递增式生成,得到策树节点创建缓冲区,使决策树可以递增式生成,得到ID4算法。
算法。
1988年,年,Utgoff在在ID4基础上提出了基础上提出了ID5学习算法,进一步提高学习算法,进一步提高了效率。
了效率。
1993年,年,Quinlan进一步发展了进一步发展了ID3算法,改进成算法,改进成C4.5算法。
算法。
另一类决策树算法为另一类决策树算法为CART,与,与C4.5不同的是,不同的是,CART的决策树的决策树由二元逻辑问题生成,每个树节点只有两个分枝,分别包括学习由二元逻辑问题生成,每个树节点只有两个分枝,分别包括学习实例的正例与反例。
实例的正例与反例。
v其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶节点中的实例都属于同一类。
点处的熵值为零,此时每个叶节点中的实例都属于同一类。
v决策树学习采用的是自顶向下的递归方法。
决策树学习采用的是自顶向下的递归方法。
v决策树的每一层节点依照某一属性值向下分为子节点,待分决策树的每一层节点依照某一属性值向下分为子节点,待分类的实例在每一节点处与该节点相关的属性值进行比较,根类的实例在每一节点处与该节点相关的属性值进行比较,根据不同的比较结果向相应的子节点扩展,这一过程在到达决据不同的比较结果向相应的子节点扩展,这一过程在到达决策树的叶节点时结束,此时得到结论。
策树的叶节点时结束,此时得到结论。
v从根节点到叶节点的每一条路经都对应着一条合理的规则,从根节点到叶节点的每一条路经都对应着一条合理的规则,规则间各个部分(各个层的条件)的关系是合取关系。
整个规则间各个部分(各个层的条件)的关系是合取关系。
整个决策树就对应着一组析取的规则。
决策树就对应着一组析取的规则。
v决策树学习算法的最大优点是,它可以自学习。
在学习的过决策树学习算法的最大优点是,它可以自学习。
在学习的过程中,不需要使用者了解过多背景知识,只需要对训练例子程中,不需要使用者了解过多背景知识,只需要对训练例子进行较好的标注,就能够进行学习。
如果在应用中发现不符进行较好的标注,就能够进行学习。
如果在应用中发现不符合规则的实例,程序会询问用户该实例的正确分类,从而生合规则的实例,程序会询问用户该实例的正确分类,从而生成新的分枝和叶子,并添加到树中。
成新的分枝和叶子,并添加到树中。
v树是由节点和分枝组成的层树是由节点和分枝组成的层次数据结构。
节点用于存贮次数据结构。
节点用于存贮信息或知识,分枝用于连接信息或知识,分枝用于连接各个节点。
树是图的一个特各个节点。
树是图的一个特例,图是更一般的数学结构,例,图是更一般的数学结构,如贝叶斯网络。
如贝叶斯网络。
v决策树是描述分类过程的一决策树是描述分类过程的一种数据结构,从上端的根节种数据结构,从上端的根节点开始,各种分类原则被引点开始,各种分类原则被引用进来,并依这些分类原则用进来,并依这些分类原则将根节点的数据集划分为子将根节点的数据集划分为子集,这一划分过程直到某种集,这一划分过程直到某种约束条件满足而结束。
约束条件满足而结束。
根结点根结点个子大个子大可能是松鼠可能是松鼠可能是老鼠可能是老鼠可能是大象可能是大象在水里在水里会吱吱叫会吱吱叫鼻子长鼻子长脖子长脖子长个子小个子小不会吱吱叫不会吱吱叫鼻子短鼻子短脖子短脖子短可能是长颈鹿可能是长颈鹿在陆地上在陆地上可能是犀牛可能是犀牛可能是河马可能是河马v可可以以看看到到,一一个个决决策策树树的的内内部部结结点点包包含含学学习习的的实实例例,每每层层分分枝枝代代表表了了实实例例的的一一个个属属性性的的可可能能取取值值,叶叶节节点点是是最最终终划划分分成成的的类类。
如如果果判判定定是是二二元元的的,那那么么构构造造的的将将是是一一棵棵二二叉叉树树,在在树树中中每每回回答答一一个个问问题题就就降降到到树树的的下下一一层层,这这类类树树一一般般称称为为CART(ClassificationAndRegressionTree)。
)。
v判判定定结结构构可可以以机机械械的的转转变变成成产产生生式式规规则则。
可可以以通通过过对对结结构构进进行行广广度度优优先先搜搜索索,并并在在每每个个节节点点生生成成“IFTHEN”规规则则来来实实现现。
如如图图6-13的决策树可以转换成下规则:
的决策树可以转换成下规则:
IF“个子大个子大”THENIF“脖子短脖子短”THENIF“鼻子长鼻子长”THEN可能是大象可能是大象形式化表示成形式化表示成根结点根结点个个子子大大可可能能是是松松鼠鼠可可能能是是老老鼠鼠可可能能是是大大象象在在水水里里会会吱吱吱吱叫叫鼻鼻子子长长脖脖子子长长个子小个子小不不会会吱吱吱吱叫叫鼻鼻子子短短脖脖子子短短可可能能是是长长颈颈鹿鹿在在陆陆地地上上可可能能是是犀犀牛牛可可能能是是河河马马v构造一棵决策树要解决四个问题:
构造一棵决策树要解决四个问题:
收集待分类的数据,这些数据的所有属性应该是完全标注的。
收集待分类的数据,这些数据的所有属性应该是完全标注的。
设计分类原则,即数据的哪些属性可以被用来分类,以及如何将该属性量化。
设计分类原则,即数据的哪些属性可以被用来分类,以及如何将该属性量化。
分类原则的选择,即在众多分类准则中,每一步选择哪一准则使最终的树更分类原则的选择,即在众多分类准则中,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分类 决策树