机器学习.ppt
- 文档编号:269728
- 上传时间:2022-10-08
- 格式:PPT
- 页数:121
- 大小:3.94MB
机器学习.ppt
《机器学习.ppt》由会员分享,可在线阅读,更多相关《机器学习.ppt(121页珍藏版)》请在冰豆网上搜索。
统计机器学习概论(IntroductiontoStatisticalMachineLearning),为什么需要机器学习?
美国航空航天局JPL实验室的科学家在Science(2001年9月)上撰文指出:
机器学习对科学研究的整个过程正起到越来越大的支持作用,该领域在今后的若干年内将取得稳定而快速的发展Machinelearningformsthecoreofmaypresent-dayAIapplicationsGaryAnthes,FutureWatch:
AIcomesofage,2009.1.26,2,3,机器学习示例,4,BooksandReferences,主要参考书T.Hastie,R.Tibshirani,J.Friedman,“TheElementsofstatisticalLearning:
DataMining,Inference,andPrediction”,2001,Springer-Verlag.其他参考书V.N.Vapnik,“TheNatureofStatisticalLearningTheory”,2nded.,Springer,2000.,5,提纲,机器学习方法概述贝叶斯决策理论BayesianDecisionTheory常见统计学习方法机器学习的难题与挑战附录:
1、参考资料2、代表性机器学习开发包介绍,6,一、统计学习方法概述,7,机器学习的发展,机器学习=神经科学与认知科学+数学+计算,http:
/,8,James(19世纪末):
神经元相互连接McCulloch,Pitts(20世纪中期):
“兴奋”和“抑制”Hebb(20世纪中期):
学习律,神经科学,有限样本统计理论线性空间表示,Samuel:
符号机器学习,机器学习研究历程,王珏,机器学习研究回顾与趋势,2004.9,学习系统的一般模型,InputVariables:
HiddenVariables:
OutputVariables:
11,机器学习的基本问题和方法,机器学习根据给定的训练样本求对某系统输入输出之间依赖关系的估计,使它能够对未知输出作出尽可能准确的预测。
机器学习问题的表示根据n个独立同分布观测样本确定预测函数f(x,w)。
在一组函数f(x,w)中求一个最优的函数f(x,w0)对依赖关系进行估计,使预测的期望风险最小。
Simon的学习模型,12,学习问题的一般表示,学习目标Givenani.i.d.l-samplez1,zldrawnfromafixeddistributionF(z)ForafunctionclasslossfunctionsQ(z,),withinWewishtominimizetherisk,findingafunction*Inthecaseofequalrisk,itbecomestominimizetheerrorratio.相关概念损失函数lossfunction(L,Q):
theerrorofagivenfunctiononagivenexample风险函数riskfunctional(R):
theexpectedlossofagivenfunctiononanexampledrawnfromF(x,y),13,学习问题的一般表示,学习的目的在于使期望风险最小化。
由于可利用的信息只有样本,期望风险往往无法计算。
经验风险最小化归纳原则(TheEmpiricalRiskMinimization(ERM)InductivePrinciple)核心思想:
用样本定义经验风险。
Definetheempiricalrisk(sample/trainingerror):
Definetheempiricalriskminimizer:
Least-squaresandMaximum-likelihoodarerealisationsofERM,14,ERM准则与统计学习理论的发展,经验风险最小并不意谓着期望风险最小!
例子:
神经网络的过学习问题。
训练误差小并不总能导致好的预测效果.若对有限的样本来说学习能力过强,足以记住每个样本,此时经验风险很快就可以收敛到很小甚至零,但却根本无法保证它对未来样本能给出好的预测.需要建立在小样本情况下有效的学习方法小样本条件下的统计学习理论支持向量机(SVM),WhyLearningisDifficult?
Givenafiniteamountoftrainingdata,youhavetoderivearelationforaninfinitedomainInfact,thereisaninfinitenumberofsuchrelations.thehiddentestpoints.,15,LearningasaSearchProblem,16,17,三类基本的机器学习问题
(1),模式分类问题:
输出y是类别标号,两类情况下y=1,-1,预测函数称作指示函数(IndicatorFunction),损失函数定义见下式,使期望风险最小就是Bayes决策中使错误率最小。
18,三类基本的机器学习问题
(2),回归问题:
输出y是连续变量,它是x的函数,损失函数定义见下式:
19,三类基本的机器学习问题(3),概率密度估计问题:
根据训练样本确定x的概率分布p(x,w),则损失函数可定义为:
20,统计学习的基本方法,有监督/无监督学习有监督(Supervised):
分类、回归无监督(Unsupervised):
概率密度估计、聚类、降维半监督(Semi-supervised):
EM、Co-training其他学习方法增强学习(ReinforcementLearning)多任务学习(Multi-tasklearning),21,有监督学习,标定的训练数据训练过程:
根据目标输出与实际输出的误差信号来调节参数典型方法全局:
BN,NN,SVM,DecisionTree局部:
KNN、CBR(Case-basereasoning),A11,A12,A1mA21,A22,A2mAn1,An2,Anm,ninstance,mattributes,Output,-C1-C2-Cn,Training,22,无监督学习,不存在标定的训练数据学习机根据外部数据的统计规律(e.g.Cohension&divergence)来调节系统参数,以使输出能反映数据的某种特性。
典型方法K-means、SOM.,示例:
聚类,A11,A12,A1mA21,A22,A2mAn1,An2,Anm,ninstance,mattributes,Output,-C1-C2-Cn,XXX,Task,半监督学习,结合(少量的)标定训练数据和(大量的)未标定数据来进行学习典型方法Co-training、EM、Latentvariables.,23,A11,A12,A1mA21,A22,A2mAn1,An2,Anm,ninstance,mattributes,Output,-C1-?
-Cn,X,24,其他学习方法,增强学习(ReinforcementLearning):
外部环境对输出只给出评价信息而非正确答案,学习机通过强化受奖励的动作来改善自身的性能。
训练数据包含部分学习目标信息多任务学习:
Learnsaproblemtogetherwithotherrelatedproblemsatthesametime,usingasharedrepresentation.,学习模型
(1),单学习模型LinearmodelsKernelmethodsNeuralnetworksProbabilisticmodelsDecisiontrees,学习模型
(2),模型组合组合多个“弱”学习模型来达到更优的性能1+11?
Boosting:
结合低性能学习模型来产生一个强大的分类器组Bagging:
结合多个不稳定学习模型来产生稳定预测主动学习(Activelearning):
主动选择训练样本,Boosting,Boosting是个非常强大的学习方法,它组合许多“弱”分类器来产生一个强大的分类器组。
弱分类器:
性能只比随机选择好一点,设计简单且计算花费低。
最常用的弱分类器是决策树。
常见的Boosting算法离散AdaBoost,实数AdaBoost,LogitBoost和GentleAdaBoost它们有非常类似的总体结构。
27,Boosting,两类问题的算法:
训练(step13)和估计(step4)为每一个样本初始化使它们具有相同的权值(step2),然后一个弱分类器f(x)在具有权值的训练数据上进行训练,计算错误率和换算系数cm(step3b),被错分的样本的权重会增加,所有的权重进行归一化,并继续寻找若其他分类器M-1次,最后得到的分类器F(x)是这些独立的弱分类器组合的符号函数(step4)。
28,Bagging,基本假设:
Combiningmanyunstablepredictorstoproduceaensemble(stable)predictor.UnstablePredictor:
训练数据的微小变化可能使得预测模型产生大的改变不稳定模型:
NeuralNets,trees稳定模型:
SVM,KNN.Eachpredictorinensembleiscreatedbytakingabootstrapsampleofthedata.引导样本:
obtainedbydrawingNexampleatrandom,withreplacement.Encouragespredictorstohaveuncorrelatederrors.,主动学习,IntermediateSet,Clustering(Kclusters)(DiversityCriterion),Batch,Selectcentroidofeachcluster(RepresentativenessCriterion),
(1),
(2),(3),产生式模型vs判别式模型,Generativemodels:
建模(联合)概率分布:
利用Bayestheorem典型方法:
BN、HMM、CMF问题的可解释性好Discriminativemodels:
直接用函数(而非概率)来建模典型方法:
SVM、LDA一般来说,性能更好,32,二、贝叶斯决策理论,33,Bayes决策理论有什么用?
用不同方法可能得到多个不同的估计,哪个估计更好一些?
统计决策理论:
比较统计过程的形式化理论决策是从样本空间S,到决策空间的一个映射,表示为D:
S评价决策有多种标准,对于同一个问题,采用不同的标准会得到不同意义下“最优”的决策。
Bayes决策常用的准则最小错误率准则最小风险准则最小条件错误率准则:
在限定一类错误率条件下使另一类错误率为最小最小最大决策准则:
Minimizingthemaximumpossibleloss(orMaximizingtheminimumgain),LinearDecisionBoundary,hyperplane,x1,x2,Non-linearDecisionBoundary,36,问题描述:
ClassificationProblem,给定:
m个类,训练样本和未知数据目标:
给每个输入数据标记一个类属性两个阶段:
建模/学习:
基于训练样本学习分类规则.分类/测试:
对输入数据应用分类规则,PebblesStraws,37,最大后验(MaximumAPosterior,MAP)分类,什么是最优分类器?
已有:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习