偏最小二乘回归方法PLSWord格式文档下载.docx
- 文档编号:20467812
- 上传时间:2023-01-23
- 格式:DOCX
- 页数:16
- 大小:1.16MB
偏最小二乘回归方法PLSWord格式文档下载.docx
《偏最小二乘回归方法PLSWord格式文档下载.docx》由会员分享,可在线阅读,更多相关《偏最小二乘回归方法PLSWord格式文档下载.docx(16页珍藏版)》请在冰豆网上搜索。
(1)t1和u1应尽可能大地携带它们各自数据表中的变异信息
(2)t1和u1的相关程度能达到最大
这两个要求表明,t1和u1应尽可能好地代表数据表X和Y,同时自变量的成分t1对因变量的成分u1又有最强的解释能力。
在第一个成分t1和u1被提取后,偏最小二乘法回归分别实施X对t1的回归以及Y对t1的回归。
如果方程达到了满意的精度,则算法终止;
否则,将利用X被t1解释后的残余信息以及Y被t1解释后的残余信息进行第二轮的成分提取。
如此递推,直到能达到一个较为满意的精度为止。
若最终对X共提取了m个成分t1,…,tm,偏最小二乘法回归将通过实施YK对t1,…,tm的回归,然后再表达成YK关于原变量x1,…,xp的回归方程,k=1,…,q。
3计算方法推导
3.1普遍采用的计算推导过程
为了数学推导方便起见,首先将数据做标准化处理。
X经标准化处理后的数据矩阵记为E0=(E01,…,E0P)n*p,Y经过标准化处理后的数据矩阵记为F0=(F01,…,F0q)n*q。
第一步,记t1是E0的第一个成分,t1=E0w1,w1是E0的第一个轴,它是一个单位向量,即||w1||=1;
记u1是F0的第一个成分,u1=F0c1,c1是F0的第一个轴,它是一个单位向量,即||c1||=1。
如果要t1,u1能分别很好德代表X和Y中的数据变异信息,根据主成分分析原理,应该有
Var(t1)→max
Var(u1)→max
另一方面,由于回归建模的需要,又要求t1对u1有最大的解释能力,由典型相关分析的思路,t1和u1的相关度应达到最大值,即
r(t1,u1)→max
因此综合起来,在偏最小二乘回归中,我们要求t1和u1协方差达到最大,即
Cov(t1,u1)=
即求解下列优化问题
max<
E0w1,F0C1>
w1Tw1=1(3-1)
c1Tc1=1
因此,将在||w1||=1和||c1||=1的约束条件下,去求(w1TE0TF0c1)的最大值。
此种情况下我们就可以用拉格朗日算法求其最优解,记
s=w1TE0TF0c1-λ1(w1Tw1-1)-λ2(c1Tc1-1)
对s分别求关于w1、c1、λ1、λ2的偏导,并令之为零,有
E0TF0c1-2λ1w1=0(3-2)
F0TE0w1-2λ2c1=0(3-3)
-(w1Tw1-1)=0(3-4)
-(c1Tc1-1)=0(3-5)
由(3-2)~(3-5)可以推出
2λ1=2λ2=w1TE0TF0c1=<
记ϴ1=2λ1=2λ2=w1TE0TF0c1,所以ϴ1是优化问题的目标函数值。
把式(3-2)和式(3-3)写成
E0TF0c1=ϴ1w1(3-6)
F0TE0w1=ϴ1c1(3-7)
将式(3-7)代入式(3-6),有
E0TF0F0TE0w1=ϴ12w1(3-8)
由式(3-8)可知,w1是矩阵E0TF0F0TE0特征向量,对应的特征值为ϴ12,ϴ1是目标函数值,要求取得其最大值,所以w1是对应于矩阵E0TF0F0TE0最大特征值ϴ12的单位特征向量。
求得轴w1和c1后,即可得到成分
t1=E0w1
u1=F0c1
然后,分别求E0和F0对t1和u1的回归方程
其中,
,
,向量
;
E1,F1*,F1为回归方程的残差矩阵。
第2成分t2的提取,以E1取代E0,F1取代F0,用上面的方法求第2个轴W2和第2个成分t2,有
同样,E1,F1分别对t2做回归,得到
同理可推得第h成分th,h的个数可以用交叉有效性原则进行,h小于X的秩。
如此计算下去,如果X的秩为A,则会有
E0=t1P1T+…+tAPAT
F0=t1r1T+…+tArAT+FA
由于t1,…,tA均可以表示成E01,…,E0P的线性组合,因此,上式可以还原成YK=F0K关于XJ=E0J的回归方程形式
YK=bk1X1+…+bkPXP+FAKk=1,..,q
3.2一种简洁的计算推导过程
3.1中介绍的推导思路是最为常见的,在3.2中将介绍一种更为简洁的计算方法,即直接在E0,…,Em-1矩阵中提取成分t1,…,tm(m<
p)。
要求th能尽可能多地携带X中的信息,同时,th对因变量系统F0有最大的解释能力。
这时无需在F0中提取成分uh,并且在迭代算法中也无需使用其残差矩阵,而始终直接用F0进行计算。
这可以使计算过程大为简化,并且对算法结论的解释也更为方便。
下面讨论成分t1,…,tm(m<
=A,A=R(X))的一种新原则。
在3.1中推导偏最小二乘法回归算法时,第一步的思路是在因变量F0抽取一个成分u1=F0c1,同时在自变量E0中抽取一个成分t1=E0w1,成分的抽取原则是max<
。
在这个原则下得知w1,c1,u1,t1的计算方法如下:
(1)w1是矩阵E0TF0F0TE0最大特征值的特征向量,成分t1=E0w1;
(2)c1是矩阵F0TE0E0TF0最大特征值的特征向量,成分u1=F0c1;
在求得成分u1,t1以后,分别实施E0在t1上的回归,并生成残差矩阵E1,以及F0在t1上的回归,得到残差矩阵F1。
再以E1,F1取代E0,F0进行第二轮成分的提取计算,注意到成分u1,…,um是不参加回归计算的,因此是否可以考虑不提取因变量的成分呢?
为此,用下述原则提取比变量中的成分t2是和3.1中介绍的方法,结果是完全等价的,即
由于F0K是标准化变量,所以
Cov(F0K,E0w1)=
r(F0K,E0w1)
因此,该优化原则是求成分t1=E0w1,使得t1能携带尽可能多的E0变异,同时,t1对因变量F0K(k=1,…,q)的解释能力会综合达到最大值。
由于在目标函数上配上常量(n-1)2不影响其求解,即
(n-1)2
Cov2(F0K,E0w1)=
<
F0K,E0w1>
2
=
w1TE0TF0KF0KTE0w1=w1TE0T(
F0KF0KT)E0w1=w1TE0TF0F0TE0w1
为了求w1采用拉格朗日算法求解,记
s=
2-λ1(w1Tw1-1)=w1TE0TF0F0TE0w1-λ1(w1Tw1-1)
对s求关于w1和λ1的偏导,并令之为零,得
2E0TF0F0TE0w1-2λ1w1=0(3-9)
-(w1Tw1-1)=0(3-10)
由式(3-9)可知
E0TF0F0TE0w1=λ1w1
可见,最优解w1应是矩阵E0TF0F0TE0的一个特征向量,将它代入目标函数,并且由式(3-10)可得
2=w1TE0TF0F0TE0w1=w1T(λ1w1)=λ1
因此λ1矩阵E0TF0F0TE0的最大特征根,w1则是其相应的特征向量。
由此可见,在新的原则下,w1仍然是对应于E0TF0F0TE0最大特征值的特征向量,而这个新的原则完全没有提取到F0成分u1提取。
也就是说,t1=E0w1提取可以不依赖对u1的提取,而这种新的原则又从新的角度说明了t1的意义。
从这个新的原则出发,对c1,u1的计算就可以省略。
不过,在偏最小二乘法回归的一些解释技术中,由于u1可以较好地概括F0中的信息,因此,它常常也是很有用。
4使用举例
下面将通过两个具体的案例分析,以进一步理解偏最小二乘回归的工作过程和它的特点。
4.1使用举例一
使用举例一将采用Linnerud给出的关于体能训练的数据进行典型相关分析。
在这个数据系统中被观测样本点,是某健身俱乐部的20位中年男子。
被观测变量分为两组,第一组是身体特征指标X,包括:
体重、腰围、脉搏;
第二组变量是训练结果指标Y,包括:
单杠、弯曲、跳高。
原始数据表见表4-1。
表4-1原始数据表
在简化算法中,对于h=1,2,3时,有
λh=
F0K,Eh-1w1>
2=(n-1)2
Cov2(F0K,th)
计算可得:
λ1/(n-1)2=1.272426
λ2/(n-1)2=0.038763
λ3/(n-1)2=0.026655
而成分th的方差,uk的方差以及th和uk相关系数的平方r2(th,uk)在表4-2中列出。
表4-2Var(th),Var(uk)和r2(th,uk)
h
Var(th)
Var(uk)
r2(th,uk)
1
2.0252
2.0503
0.3066
0.4381
1.9071
0.0464
3
0.2355
1.1505
0.0983
记第h个轴是wk,第h个成分tk为
tk=Eh-1wh(h=1,2,3)
其中tk亦可以表示成原自变量E0的线性组合,即
tk=E0wh*
则wh*=
(1-wjpjT)wh。
表4-3给出wh*和wh的取值。
表4-3wh*和wh的取值
自变量
w1
w2
w3
w1*
w2*
w3*
X1
-0.58989
0.46879
-0.65747
0.36793
-0.93459
X2
-0.77134
-0.56801
0.28706
-0.69989
0.80231
X3
0.23888
-0.67647
-0.69666
-0.63562
-0.22282
在利用Eh-1对th进行回归时,有回归系数向量pk,h=1,2,3,见表4-4。
表4-4回归系数pk
p1
P2
P3
-0.6659
-0.0197
-0.6574
-0.6760
-0.3546
0.2870
0.3589
-1.1942
-0.6966
成分tk=Eh-1wh的取值见表4-5。
表4-5tk取值表
NO
t1
t2
t3
-0.643
0.591
-0.131
-0.770
0.167
0.134
-0.907
-0.521
0.048
4
0.688
-0.680
0.346
5
-0.487
1.133
-0.182
6
-0.229
-0.072
0.025
7
-1.404
-0.077
-0.572
8
0.744
-0.211
-0.032
9
1.715
-0.655
-1.557
10
1.163
0.333
11
0.365
0.701
0.201
12
0.743
0.698
0.002
13
1.187
-0.757
0.366
14
-4.390
-0.760
0.255
15
-0.823
0.974
-0.083
16
-0.749
-0.667
17
-0.393
-0.203
0.564
18
1.199
0.783
0.092
19
1.048
0.373
0.319
20
1.942
-1.129
0.568
通过交叉验证的方法可得,之取一个成分t1时,拟合方程的预测性为最佳,不过为了后面作图和解释的方便起见,我们取两个成分t1,t2拟合预测模型。
yk=r1kt1+r2kt2k=1,2,3
由于成分th可以写成自变量xj的函数,即有
th=wh1*x1+wh2*x2+wh3*x3
由此可得两个成分t1,t2所建立的偏最小二乘回归模型为
yk=r1k(w11*x1+w12*x2+w13*x3)+r2k(w21*x1+w22*x2+w23*x3)
=(r1kw11*+r2kw21*)x1+(r1kw12*+r2kw22*)x2+(r1kw13*+r2kw23*)x3
回归系数的计算结果见表4-6。
表4-6回归系数rk
K
r1
r2
r3
0.3416
0.3363
0.4772
0.4160
0.2907
0.4554
0.1429
0.0651
-0.2125
所以,有
F01=-0.077E01-0.499E02-0.132E03
F02=-0.138E01-0.524E02-0.085E03
F01=-0.060E01-0.156E02-0.007E03
将标准化变量Fok(k=1,2,3)和Eoj(j=1,2,3)分别还原成原始变量,yk(k=1,2,3)以及xj(j=1,2,3),则回归方程为:
Y1*=47.02-0.0166x1-0.824x2-0.097x3
Y2*=612.57-0.351x1-10.52x2-0.741x3
Y3*=183.98-0.125x1-2.497x2-0.052x3
为了快速直观地观察出各个自变量在解释Yk时的作用,可以绘制回归系数图,见图4-1
图4-1回归系数的直方图
从回归系数图中可以立刻观察到,腰围变量在解释三个回归方程时起到了极为重要的作用,然而,和单杠及弯曲相比,跳高成绩的回归方程显然不够理想,三个自变量对它的解释能力均很低。
因此有必要考虑对自变量做适当的调整。
为了考察这三个回归方程的模型精度,我们以(yik*,yik)为坐标值,对所有的样本点绘制预测图。
yik*是第k个变量,第i个样本点(yik)的预测值。
在预测直方图上,如果所有样本点都能在图的对角线附近均匀分布,则方程的拟合值和原值差异很小,这个方程的拟合效果就是满意的。
体能训练的预测图如4-2所示。
4.2使用举例二
这是Cornell在1990年采用的一个化工方面的例子。
此后,偏最小二乘的提出者S.Wold等人多次引用,成为单因变量偏最小二乘回归的一个经典案例。
该例中,有个自变量x1~x7,因变量记为y,如表4-7所示:
表4-7自变量和应变量对照表
--直接蒸馏成分
--重整汽池;
--原油热裂化油
--原油催化裂化油;
--聚合物
--烷基化物
--天然香精
--原辛烷值
表4-8给出了12种混合物关于这8个变量的观测数据。
要求建立y对x1~x7,的回归方程,以确定7种构成元素x1~x7对y的影响。
表4-812种混合物关于8个变量的观测数据表
这8个变量的相关系数矩阵见表4-9。
从相关系数矩阵中可以看出,在自变量之间存在严重的多重相关性,例如r(x1,x3)=0.999,r(x4,x7)=0.92,r(x1,x6)=-0.80。
实际上,这7个自变量之间有如下关系:
x1+x2+…+x7=1
表4-98个变量的相关系数矩阵
由于q42<
0.0975,所以选择h=3,即采用t1,t2,t3三个成分做偏最小二乘回归模型,预测效果最好。
从所得到的最终模型看,x6的回归系数值最大,它和y正相关。
这一点符合我们的基本认识。
x5的回归系数仍然出现反常符号,但它的取值很低,几乎可以忽略。
从相关系数表中可以看出,x5和y的相关度不高,并且它和其他自变量之间也没有密切联系。
也就是说,x5是一个相对独立的变量,它不能直接解释y,甚至也很难通过其他自变量的传递作用去解释y。
因此,它在最终模型中的回归系数非常低。
和普通最小二乘回归方程相比,这个方程的实际含义更加清晰,也更易于使用。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最小 回归 方法 PLS