机器学习-2-线性模型.pptx
- 文档编号:30840426
- 上传时间:2024-01-30
- 格式:PPTX
- 页数:47
- 大小:2.14MB
机器学习-2-线性模型.pptx
《机器学习-2-线性模型.pptx》由会员分享,可在线阅读,更多相关《机器学习-2-线性模型.pptx(47页珍藏版)》请在冰豆网上搜索。
智能科学与技术系刘冀伟,锚索寿命演化模型研究及预测,机器学习基础第二章线性模型,1,目录CONTENT,5,多分类学习,对数几率回归,6,最大熵模型,基本形式,2.1,邮箱:
Pass:
jqxxbkd2017,4,给定由d个属性描述的对象x=(x1,x2,xd)及我们感兴趣的对象输出属性y假设y与x相关,求y与x的关系:
即:
y=f(x),例:
转炉炼钢,已知:
铁水x1=23t废钢x2=5t吹氧量x3=235l吹氧时间x4=595s出钢温度T?
机器学习问题的形式应为:
设假设空间H是全体函数集合,已知数据集合:
D=(x1,T1),(x2,T2),(xm,Tm)求,使得:
Tif(xi),i=1,2,m,线性模型:
5,只要求得参数W,b,就可以完成有数据(经验)获得预测模型的工作如何求W,b,线性模型:
1、成分的组合;2、预测变量与属性变量之间有相关关系;3、线性回归是基本形式,由此可以获得许多其他有用的学习算法。
线性模型:
线性回归,2.2,7,8,由:
参数估计-最小二乘法,得:
9,二、多元线性回归,此时:
为了方便引入符号:
10,讨论的情况:
存在,不存在,11,三、广义线性模型,对数几率回归,2.3,13,线性回归完成的任务是预测,能否使用回归的方法完成分类的任务?
14,事件的几率:
事件发生的概率与事件不发生的概率之比。
概率模型:
求条件分布P(Y|X),取:
用极大似然法估计参数W,b。
15,取如多元回归。
对数似然函数为:
求解优化问题,得到解:
梯度下降法、牛顿法等数值算法求解,16,梯度下降法(gradientdescent):
是一种求解无约束优化问题的常用方法,其基本思想是对于最小化问题,沿目标函数下降最快的方向,逐步搜索直到最小值点。
问题:
f是Rn上具有一阶连续偏导数的函数。
当目标函数是凸函数时,梯度下降法的解是全局最优解,一般情况不能保证全局最优。
17,牛顿法:
问题:
f是Rn上具有二阶连续偏导数的函数。
18,牛顿法:
19,多项Logistic回归:
前面介绍的是二项分类模型,用于二分类问题。
我们可以将其推广到用于多分类问题的多项对数几率回归。
问题的概率模型为:
线性判别分析,2.4,一、基本思路,把X空间各点投影到X空间的一直线上(Z),维数降为一维。
若适当选择w的方向,可以使二类分开。
下面我们从数学上寻找最好的投影方向,即寻找最好的变换向量w的问题。
图中w1方向之所以比w2方向优越,可以归纳出这样一个准则,即向量w的方向选择应能使两类样本投影的均值之差尽可能大些,而使类内样本的离散程度尽可能小。
这就是Fisher准则函数的基本思路。
Fisher准则的基本原理,就是要找到一个最合适的投影轴,使两类样本在该轴上投影的交迭部分最少,从而使分类效果为最佳。
22,二、问题的形式化,
(2)问题分解Step1:
确定投影方向Z=wTxStep2:
确定判别函数Z=wTx+b,1、数据整理和问题分解
(1)样本集合分类,23,
(2)样本类内离散度矩阵Si与总类内离散度矩阵Sw,(3)样本类间离散度矩阵Sb:
2、样本在d维特征空间的一些描述量。
(1)各类样本均值向量i,
(2)样本类内离散度、总类内离散度和类间离散度,24,得最终表达式:
最佳w值的确定实际上就是对Fisher准则函数求取其达极大值时的w*。
对于这个问题可以采用拉格朗日乘子算法解决,保持分母为一非零常数c的条件下,求其分子项的极大值。
25,对拉格朗日函数分别对w求偏导并置为0来求w的解。
令:
这是一个求矩阵的特征值问题。
数值R,实际上我们关心的只是向量w*的方向,其数值大小对分类器没有影响。
因此在忽略了数值因子R/后,可得:
上式就是使用Fisher准则求最佳法线向量的解。
向量w*就是使Fisher准则函数JF(w)达极大值的解,也就是按Fisher准则将d维X空间投影到一维Z空间的最佳投影方向,该向量w*的各分量值是对原d维特征向量求加权和的权值。
26,最佳投影方向的理解,(1-2)是一向量,显然从两类均值在变换后距离最远这一点看,对与(1-2)平行的向量投影可使两均值点的距离最远。
但是如从使类间分得较开,同时又使类内密集程度较高这样一个综合指标来看,则需根据两类样本的分布离散程度对投影方向作相应的调整,这就体现在对向量按作一线性变换,从而使Fisher准则函数达到极值点。
(1)当维数d与样本数m都很大时,可采用贝叶斯决策规则,获得一种在一维空间的“最优”分类器。
(2)当上述条件不满足时,一般可采用以下几种方法确定分界阈值点b:
4、分类器设计-确定b判别函数f(x)=wTx+b。
27,当b确定之后,则可按以下规则分类:
使用Fisher准则方法确定最佳线性分界面的方法是一个著名的方法,尽管提出该方法的时间比较早,仍见有人使用,如人脸识别中用于特征提取。
例:
设两类样本的类内离散矩阵分别如下,试用Fisher准则求其决策面方程。
解:
由于两类样本分布形状是相同的(只是方向不同),因此b应为两类均值的中点,决策规则,28,多分类学习,2.5,30,前面我们在讨论分类问题时大多讨论的是两类问题,但多数实际问题是多类的。
即:
解决此问题的方法是拆分,将多分类问题拆分为若干个二分类问题:
一、一对一与一对多拆分-(OvO,OvR),OvO:
将N类问题分解为N(N-1)/2个二分类问题,训练N(N-1)/2个分类器,使用时,将样本同时提交给所有分类器,然后对N(N-1)/2个分类结果投票产生最终结果;OvR:
选择一类作为正类,其余皆为负类,训练N个二分类器,使用时,将样本同时提交给所有分类器,若结果只有一个是正类,则最终结果即为此类,若有多个分类器的结果是正类,最终结果需要其他方法确定。
31,32,二、多对多-(MvM),纠错输出编码(Error-CorrectingOutputCodes,ECOC)为一种多类分解框架,一般将多类分类问题分解为编码、训练、解码三个阶段:
1、编码:
对N个类做M次划分,每次划分将一部分类划为正类,另一部分划为负类,从而形成一个二分类训练集。
这样一共有M个训练集,可以训练出M个分类。
一般采用二元码或三元码的方式编码。
C1,C2,C3,C4,二元ECOC码,C1,C2,C3,C4,三元ECOC码,编码策略:
事前编码(predefinedcoding)、基于样本数据编码(datadependedcoding)和基于基分类器编码(baseddichotomizescoding),33,C4,C1,C2,C3,f1,f2,f3,f4,f5,测试样本,2,3,4,1,2.8,3.4,4,2,汉明距离,欧氏距离,2、学习:
对M个训练集,训练出M个分类器:
f1,f2,fM。
3、解码策略:
M个分类器分别对测试样本进行预测,预测结果组成一个预测编码,将预测编码与每个类的编码进行比较,返回距离最小的类作为最终预测结果。
汉明距离:
从二进制方面来看,就是两个等长字符串的二进制对应bit不相同的位个数。
欧氏距离:
34,35,类别不平衡-是指分类任务中不同类别的训练样例数目差别很大的情况。
设训练数据集D中,正类样例数m+,反类样例数是m-。
正常正类和反类出现的频率应分别为:
正类出现的几率:
此时判别阈值应为:
三、类别不平衡问题,再缩放策略,欠采样-过采样策略,最大熵模型,2.6,37,一、最大熵原理,离散随机变量X的样本空间=1,2,n概率分布是P(X=i)=pi,随机变量X的熵为:
其满足不等式:
0H(X)logn;,最大熵原理:
在满足约束的概率模型中选择熵最大的模型。
例:
随机变量X(骰子的点数)的样本空间为:
=1,2,3,4,5,6估计p(X=1)=p1,p(X=6)=p6,解:
1、在没有任何信息的条件下,我们只知道:
p1+p2+p3+p4+p5+p6=1依据最大熵原理应有:
p1=p2=p3=p4=p5=p6=1/6,2、假设我们知道p6=1/3-约束就有:
p1+p2+p3+p4+p5=2/3,p1=p2=p3=p4=p5=2/15;p6=1/3,3、假设我们知道:
p6=1/3-约束1p1+p2+=1/3-约束2就有:
p3+p4+p5=1/3,p1=p2=1/6;p3=p4=p5=1/9;p6=1/3,38,二、最大熵模型,约束的描述:
特征函数,39,模型P(y=i|X=x);i=1,2,k)能从训练数据中获取信息,就可以假设两个期望值相等,即:
满足约束条件的所有模型的集合为:
问题:
40,拉格朗日对偶性:
原始问题,广义拉格朗日函数,原始问题等价于如下问题,对偶问题:
对偶问题在f(x),ci(x)是凸函数,不等式严格可行的,hj(x)是仿射函数等条件下原问题的解与对偶问题的解等价的充要条件是解满足KKT条件。
41,广义拉格朗日函数,原始问题,对偶问题:
定义对偶函数:
42,设:
最大熵模型的解:
43,例:
随机变量X的样本空间为y1,y2,y3,y4,y5,,已知P(y1)+P(y2)=3/10,学习最大熵模型,解:
学习最大熵模型的最优化问题如下,44,令上式偏导为零有:
所以:
上式对w0,w1求偏导并置为零有:
本章小结:
本章内容围绕学习问题的线性模型讨论,主要介绍了几种学习方法:
线性回归-广义线性回归;Logistic回归模型;线性判别-Fisher;最大熵模型;纠错输出编码(ECOC)-多类分解框架,查阅文献,写一篇关于纠错输出编码方法的综述性文章。
要求-参考文献不低于5篇,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 线性 模型
![提示](https://static.bdocx.com/images/bang_tan.gif)