数据挖掘课程课件第讲BaggingBoosting.ppt
- 文档编号:1759126
- 上传时间:2022-10-23
- 格式:PPT
- 页数:33
- 大小:306.50KB
数据挖掘课程课件第讲BaggingBoosting.ppt
《数据挖掘课程课件第讲BaggingBoosting.ppt》由会员分享,可在线阅读,更多相关《数据挖掘课程课件第讲BaggingBoosting.ppt(33页珍藏版)》请在冰豆网上搜索。
Bagging&Boosting,提高分类法的准确率,BaggingBoosting,数据,C1,C2,Ct,组合得票,新数据样本,类预测,Bagging,基本思想:
给定一个弱学习算法,和一个训练集;单个弱学习算法准确率不高;将该学习算法使用多次,得出预测函数序列,进行投票;最后结果准确率将得到提高.,Bagging,算法:
Fort=1,2,TDo从数据集S中取样(放回选样)训练得到模型Ht对未知样本X分类时,每个模型Ht都得出一个分类,得票最高的即为未知样本X的分类也可通过得票的平均值用于连续值的预测,Bagging,Bagging,Bagging要求“不稳定”的分类方法;比如:
决策树,神经网络算法不稳定:
数据集的小的变动能够使得分类结果的显著的变动。
“Thevitalelementistheinstabilityofthepredictionmethod.Ifperturbingthelearningsetcancausesignificantchangesinthepredictorconstructed,thenbaggingcanimproveaccuracy.”(Breiman1996),Boosting背景,来源于:
PAC-LearningModelValiant1984-11提出问题:
强学习算法:
准确率很高的学习算法弱学习算法:
准确率不高,仅比随机猜测略好是否可以将弱学习算法提升为强学习算法,Boosting背景,最初的boosting算法Schapire1989AdaBoost算法FreundandSchapire1995,Boosting,基本思想:
每个样本都赋予一个权重T次迭代,每次迭代后,对分类错误的样本加大权重,使得下一次的迭代更加关注这些样本。
Boosting也要求“不稳定”的分类方法,Boosting,过程:
在一定的权重条件下训练数据,得出分类法Ct根据Ct的错误率调整权重,Setofweightedinstances,ClassifierCt,trainclassifier,adjustweights,Boosting,AdaBoostAdaBoost.M1AdaBoost.M2,AdaBoost,输入:
(X1,Y1),(X2,Y2),(Xn,Yn)XiX,YiY=+1,-1初始化:
D1(i)=1/nFort=1,T在Dt下训练,得到弱的假设ht:
X-1,+1,错误率:
t=Dt(i)ht(Xi)Yi选择t=1/2ln(1-t)/t),更改权值:
ifht(Xi)Yi,Dt+1(i)=Dt(i)*et/Ztifht(Xi)=Yi,Dt+1(i)=Dt(i)*e-t/Zt输出:
H(X)=sign(tht(X),AdaBoost.M1,初始赋予每个样本相等的权重1/N;Fort=1,2,TDo学习得到分类法Ct;计算该分类法的错误率EtEt=所有被错误分类的样本的权重和;t=Et/(1-Et)根据错误率更新样本的权重;正确分类的样本:
Wnew=Wold*t错误分类的样本:
Wnew=Wold调整使得权重和为1;每个分类法Ct的投票价值为log1/t,Boosting,AdaBoosttrainingerror,将t=1/2-Et;FreundandSchapire证明:
最大错误率为:
即训练错误率随t的增大呈指数级的减小.,AdaBoostgeneralizationerror
(1),最大总误差:
m:
样本个数d:
VC维T:
训练轮数Pr:
对训练集的经验概率如果T值太大,Boosting会导致过适应(overfit),AdaBoostgeneralizationerror
(2),许多的试验表明:
Boosting不会导致overfit,AdaBoostgeneralizationerror(3),解释以上试验现象;样本(X,Y)的margin:
margin(x,y)=t=1/2ln(1-t)/t)较大的正边界表示可信度高的正确的预测较大的负边界表示可信度高的错误的预测,AdaBoostgeneralizationerror(4),解释:
当训练误差降低后,Boosting继续提高边界,从而增大了最小边界,使分类的可靠性增加,降低总误差.总误差的上界:
该公式与T无关,Boosting其它应用,Boosting易受到噪音的影响;AdaBoost可以用来鉴别异常;具有最高权重的样本即为异常.,Bagging和boosting的区别,训练集:
Bagging:
随机选择,各轮训练集相互独立Boosting:
各轮训练集并不独立,它的选择与前轮的学习结果有关预测函数:
Bagging:
没有权重;可以并行生成Boosting:
有权重;只能顺序生成,Bagging,boosting,andC4.5,J.R.Quinlan,介绍,在大多数应用中,准确率比运算速度更为重要,因为计算机的性价比提高很快。
bagging和boosting都可以有效地提高分类的准确性。
在大多数数据集中,boosting的准确性比bagging高。
在有些数据集中,boosting会引起退化。
-OverfitBagging和boosting方法的要求:
最基本的是分类方法的不稳定性。
即:
训练集的小变动能够使得分类模型显著变动。
Bagging试验:
效果实验:
CART,T=50,7个中等大小的数据集,使用bagging后的平均错误率为使用单个分类法的57%-94%.,dataset,Boosting试验:
平均T=4.9时,训练准确率可以达到T=10时的训练准确率.但T=4.9时,总的错误率却比T=10时的错误率高,改变boosting投票权重
(1),AdaBoost.M1中的投票权重:
log1/t替代:
age?
student?
creditrating?
no,yes,fair,excellent,=30,30,k,改变boosting投票权重
(2),x1,x2,xn,S,bagging&boosting应用前景,Internet上的文本过滤图像数据库中的图像识别手写体字符识别语音识别,研究方向,Bagging和boosting非常相似,是否存在统一的理论框架.Boosting发生overfit的条件.,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 课程 课件 BaggingBoosting