周志华-机器学习ppt-Chap08集成学习PPT格式课件下载.pptx
- 文档编号:13382261
- 上传时间:2022-10-10
- 格式:PPTX
- 页数:61
- 大小:16.08MB
周志华-机器学习ppt-Chap08集成学习PPT格式课件下载.pptx
《周志华-机器学习ppt-Chap08集成学习PPT格式课件下载.pptx》由会员分享,可在线阅读,更多相关《周志华-机器学习ppt-Chap08集成学习PPT格式课件下载.pptx(61页珍藏版)》请在冰豆网上搜索。
,集成个体应:
好而不同,个体与集成简单分析,考虑二分类问题,假设基分类器的错误率为:
假设集成通过简单投票法结合个分类器,若有超过半数的基分类器正确则分类就正确,个体与集成简单分析,假设基分类器的错误率相互独立,则由Hoeffding不等式可得集成的错误率为:
上式显示,在一定条件下,随着集成分类器数目的增加,集成的错误率将指数级下降,最终趋向于0,个体与集成简单分析,上面的分析有一个关键假设:
基学习器的误差相互独立现实任务中,个体学习器是为解决同一个问题训练出来的,显然不可能互相独立事实上,个体学习器的“准确性”和“多样性”本身就存在冲突如何产生“好而不同”的个体学习器是集成学习研究的核心集成学习大致可分为两大类,集成学习,个体与集成BoostingAdaboostBagging与随机森林结合策略平均法投票法学习法多样性误差-分歧分解多样性度量多样性扰动,Boosting,Boosting,Boosting,Boosting,个体学习器存在强依赖关系,串行生成每次调整训练数据的样本分布,Boosting-Boosting算法,Boosting算法最著名的代表是AdaBoost,BoostingAdaBoost算法,BoostingAdaBoost推导,基学习器的线性组合,最小化指数损失函数,BoostingAdaBoost推导,若()能令指数损失函数最小化,则上式对()的偏导值为0,即,()达到了贝叶斯最优错误率,说明指数损失函数是分类任务原来0/1损失函数的替代函数。
BoostingAdaBoost推导,当基分类器基于分布产生后,该基分类器的权重应使得最小化指数损失函数,令指数损失函数的导数为0,即,BoostingAdaBoost推导,在获得1之后的样本分布进行调整,使得下一轮的基学习器能纠正1的一些错误,理想的能纠正全部错误,泰勒展开近似为,BoostingAdaBoost推导,于是,理想的基学习器:
注意到是一个常数,令Dt表示一个分布:
BoostingAdaBoost推导,根据数学期望的定义,这等价于令:
由,1,+1有:
BoostingAdaBoost推导,最终的样本分布更新公式,则理想的基学习器,BoostingAdaBoost注意事项,数据分布的学习重赋权法重采样法重启动,避免训练过程过早停止,0,0.2,0.4,0.6,0.8,0.2,0.4,0.6,密度,含糖率,0,0.2,0.4,0.6,0.8,0.2,0.4,0.6,密度,含糖率,0,0.2,0.4,0.6,0.8,0.2,0.4,0.6,密度,含糖率,(a)3个基学习器,(b)5个基学习器,(c)11个基学习器,BoostingAdaBoost实验,从偏差-方差的角度:
降低偏差,可对泛化性能相当弱的学习器构造出很强的集成,集成学习,个体与集成BoostingAdaboostBagging与随机森林结合策略平均法投票法学习法多样性误差-分歧分解多样性度量多样性扰动,Bagging与随机森林,个体学习器不存在强依赖关系并行化生成自助采样法,Bagging与随机森林-Bagging算法,Bagging与随机森林-Bagging算法特点,时间复杂度低假定基学习器的计算复杂度为O(m),采样与投票/平均过程的复杂度为O(s),则bagging的复杂度大致为T(O(m)+O(s)由于O(s)很小且T是一个不大的常数因此训练一个bagging集成与直接使用基学习器的复杂度同阶可使用包外估计(由于Bootstrapsampling只使用2/3左右数据,剩下的用作验证,称为“包外估计”outofbagestimate),Bagging与随机森林-包外估计,()表示对样本的包外预测,即仅考虑那些未使用样本训练的基学习器在上的预测,Bagging泛化误差的包外估计为:
0,0.2,0.4,0.6,0.8,0.2,0.4,0.6,密度,含糖率,0,0.2,0.4,0.6,0.8,0.2,0.4,0.6,密度,含糖率,0,0.2,0.4,0.6,0.8,0.2,0.4,0.6,密度,含糖率,(a)3个基学习器,(b)5个基学习器,(c)11个基学习器,Bagging与随机森林-Bagging实验,从偏差-方差的角度:
降低方差,在不剪枝的决策树、神经网络等易受样本影响的学习器上效果更好,Bagging与随机森林-随机森林,随机森林(RandomForest,简称RF)是bagging的一个扩展变种采样的随机性属性选择的随机性,Bagging与随机森林-随机森林算法,随机森林算法,Bagging与随机森林-随机森林实验,集成学习,个体与集成BoostingAdaboostBagging与随机森林结合策略平均法投票法学习法多样性误差-分歧分解多样性度量多样性扰动,同等性能的假设,结合策略,学习器的组合可以从三个方面带来好处,假设空间,结合策略,学习器的组合可以从三个方面带来好处,个体假设,真实假设,结合策略,学习器的组合可以从三个方面带来好处,结合策略平均法,简单平均法加权平均法,结合策略平均法,简单平均法是加权平均法的特例加权平均法在二十世纪五十年代被广泛使用集成学习中的各种结合方法都可以看成是加权平均法的变种或特例加权平均法可认为是集成学习研究的基本出发点加权平均法未必一定优于简单平均法,结合策略投票法,绝对多数投票法(majorityvoting),相对多数投票法(pluralityvoting),加权投票法(weightedvoting),结合策略学习法,Stacking是学习法的典型代表,多响应线性回归(MLR)作为次级学习器的学习算法效果较好贝叶斯模型平均(BMA),集成学习,个体与集成BoostingAdaboostBagging与随机森林结合策略平均法投票法学习法多样性误差-分歧分解多样性度量多样性扰动,多样性误差-分歧分解,定义个体学习器的分歧(ambiguity):
集成的分歧:
多样性误差-分歧分解,分歧项代表了个体学习器在样本上的不一致性,即在一定程度上反映了个体学习器的多样性,个体学习器和集成的平方误差分别为,多样性误差-分歧分解,令表示个体学习器误差的加权均值,有,上式对所有样本均成立,令()表示样本的概率密度,则在全样本上有,多样性误差-分歧分解,个体学习器在全样本上的泛化误差和分歧项分别为:
集成的泛化误差为:
令表示个体学习器泛化误差的加权均值,表示个体学习器的加权分歧值,有,多样性误差-分歧分解,这个漂亮的式子显示:
个体学习器精确性越高、多样性越大,则集成效果越好。
称为误差-分歧分解为什么不能直接把作为优化目标来求解?
现实任务中很难直接对进行优化,它们定义在整个样本空间上不是一个可直接操作的多样性度量上面的推导过程只适用于回归学习,难以直接推广到分类学习任务上去,对于二分类问题,分类器与的预测结果联立表(contingencytable)为,多样性多样性度量,多样性度量(diversitymeasure)用于度量集成中个体学习器的多样性,常见的多样性度量不合度量(DisagreementMeasure)相关系数(CorrelationCoefficient),多样性多样性度量,常见的多样性度量Q-统计量(Q-Statistic)K-统计量(Kappa-Statistic),多样性多样性度量,多样性多样性度量,误差图,数据点云的位置越低,个体分类器越准确数据点云的位置越靠左,个体分类器多样性越大,50颗C4.5决策树的结果,多样性多样性增强,常见的增强个体学习器的多样性的方法数据样本扰动输入属性扰动输出表示扰动算法参数扰动,多样性多样性增强-数据样本扰动,数据样本扰动通常是基于采样法Bagging中的自助采样法Adaboost中的序列采样对数据样本的扰动敏感的基学习器(不稳定基学习器)决策树,神经网络等对数据样本的扰动不敏感的基学习器(稳定基学习器)线性学习器,支持向量机,朴素贝叶斯,k近邻等,数据样本扰动对“不稳定基学习器”很有效,随机子空间算法(randomsubspace),多样性多样性增强输入属性扰动,翻转法(FlippingOutput):
随机改变一部分训练样本的标记输出调剂法(OutputSmearing):
将分类输出转化为回归输出等ECOC法:
利用纠错输出码将多个问题拆解为一系列的二分类任务,多样性多样性增强输出表示扰动,负相关法不同的多样性增强机制同时使用,多样性多样性增强算法参数扰动,阅读材料,集成学习方面的主要推荐读物是Zhou,2012,本章提及的所有内容在该书中都有更深入的详细介绍。
Kuncheva,2004;
Rockach,2010b可供参考,SchapireandFreund,2012则是专门关于Boosting的著作,集成学习方面有一些专门性的会议MCS(InternationalWorkshoponMultipleClassifierSystem).Boosting源于Schapire,1990对KearnsandValiant,1989提出的”弱分类器是否等价于强学习”这个重要理论问题的构造性证明。
最初的Boosting算法仅有理论意义,经数年努力后FreundandSchapire,1997提出Adaboost,并因此或得理论计算机科学方面的重要奖项哥德尔奖。
关于Boosting和Bagging已有的很多理论研究结果课参阅Zhou,2012第2-3章。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 周志华 机器 学习 ppt Chap08 集成