书签分享收藏举报版权申诉 / 16

立即下载加入VIP,免费下载

当前位置：首页 > 求职职场 > 社交礼仪 > 偏最小二乘回归方法PLSWord格式文档下载.docx

偏最小二乘回归方法PLSWord格式文档下载.docx

文档编号：20467812
上传时间：2023-01-23
格式：DOCX
页数：16
大小：1.16MB

《偏最小二乘回归方法PLSWord格式文档下载.docx》由会员分享，可在线阅读，更多相关《偏最小二乘回归方法PLSWord格式文档下载.docx（16页珍藏版）》请在冰豆网上搜索。

偏最小二乘回归方法PLSWord格式文档下载.docx

（1）t1和u1应尽可能大地携带它们各自数据表中的变异信息

（2）t1和u1的相关程度能达到最大

这两个要求表明，t1和u1应尽可能好地代表数据表X和Y，同时自变量的成分t1对因变量的成分u1又有最强的解释能力。

在第一个成分t1和u1被提取后，偏最小二乘法回归分别实施X对t1的回归以及Y对t1的回归。

如果方程达到了满意的精度，则算法终止；

否则，将利用X被t1解释后的残余信息以及Y被t1解释后的残余信息进行第二轮的成分提取。

如此递推，直到能达到一个较为满意的精度为止。

若最终对X共提取了m个成分t1,…,tm，偏最小二乘法回归将通过实施YK对t1,…,tm的回归，然后再表达成YK关于原变量x1,…,xp的回归方程，k=1,…,q。

3计算方法推导

3.1普遍采用的计算推导过程

为了数学推导方便起见，首先将数据做标准化处理。

X经标准化处理后的数据矩阵记为E0=（E01,…,E0P）n*p,Y经过标准化处理后的数据矩阵记为F0=（F01,…,F0q）n*q。

第一步，记t1是E0的第一个成分，t1=E0w1,w1是E0的第一个轴，它是一个单位向量，即||w1||=1；

记u1是F0的第一个成分，u1=F0c1,c1是F0的第一个轴，它是一个单位向量，即||c1||=1。

如果要t1,u1能分别很好德代表X和Y中的数据变异信息，根据主成分分析原理，应该有

Var（t1）→max

Var（u1）→max

另一方面，由于回归建模的需要，又要求t1对u1有最大的解释能力，由典型相关分析的思路，t1和u1的相关度应达到最大值，即

r（t1,u1）→max

因此综合起来，在偏最小二乘回归中，我们要求t1和u1协方差达到最大，即

Cov（t1,u1）=

即求解下列优化问题

max<

E0w1,F0C1>

w1Tw1=1（3-1）

c1Tc1=1

因此，将在||w1||=1和||c1||=1的约束条件下，去求（w1TE0TF0c1）的最大值。

此种情况下我们就可以用拉格朗日算法求其最优解，记

s=w1TE0TF0c1-λ1（w1Tw1-1）-λ2（c1Tc1-1）

对s分别求关于w1、c1、λ1、λ2的偏导，并令之为零，有

E0TF0c1-2λ1w1=0（3-2）

F0TE0w1-2λ2c1=0（3-3）

-（w1Tw1-1）=0（3-4）

-（c1Tc1-1）=0（3-5）

由（3-2）~（3-5）可以推出

2λ1=2λ2=w1TE0TF0c1=<

记ϴ1=2λ1=2λ2=w1TE0TF0c1,所以ϴ1是优化问题的目标函数值。

把式（3-2）和式（3-3）写成

E0TF0c1=ϴ1w1（3-6）

F0TE0w1=ϴ1c1（3-7）

将式（3-7）代入式（3-6），有

E0TF0F0TE0w1=ϴ12w1（3-8）

由式（3-8）可知，w1是矩阵E0TF0F0TE0特征向量，对应的特征值为ϴ12，ϴ1是目标函数值，要求取得其最大值，所以w1是对应于矩阵E0TF0F0TE0最大特征值ϴ12的单位特征向量。

求得轴w1和c1后，即可得到成分

t1=E0w1

u1=F0c1

然后，分别求E0和F0对t1和u1的回归方程

其中，

，

，向量

；

E1，F1*，F1为回归方程的残差矩阵。

第2成分t2的提取，以E1取代E0,F1取代F0,用上面的方法求第2个轴W2和第2个成分t2,有

同样，E1,F1分别对t2做回归,得到

同理可推得第h成分th,h的个数可以用交叉有效性原则进行,h小于X的秩。

如此计算下去，如果X的秩为A，则会有

E0=t1P1T+…+tAPAT

F0=t1r1T+…+tArAT+FA

由于t1,…,tA均可以表示成E01,…,E0P的线性组合，因此，上式可以还原成YK=F0K关于XJ=E0J的回归方程形式

YK=bk1X1+…+bkPXP+FAKk=1,..,q

3.2一种简洁的计算推导过程

3.1中介绍的推导思路是最为常见的，在3.2中将介绍一种更为简洁的计算方法，即直接在E0,…,Em-1矩阵中提取成分t1,…,tm（m<

p）。

要求th能尽可能多地携带X中的信息，同时，th对因变量系统F0有最大的解释能力。

这时无需在F0中提取成分uh，并且在迭代算法中也无需使用其残差矩阵，而始终直接用F0进行计算。

这可以使计算过程大为简化，并且对算法结论的解释也更为方便。

下面讨论成分t1,…,tm（m<

=A,A=R（X））的一种新原则。

在3.1中推导偏最小二乘法回归算法时，第一步的思路是在因变量F0抽取一个成分u1=F0c1，同时在自变量E0中抽取一个成分t1=E0w1,成分的抽取原则是max<

。

在这个原则下得知w1，c1，u1，t1的计算方法如下：

（1）w1是矩阵E0TF0F0TE0最大特征值的特征向量，成分t1=E0w1；

（2）c1是矩阵F0TE0E0TF0最大特征值的特征向量，成分u1=F0c1；

在求得成分u1，t1以后，分别实施E0在t1上的回归，并生成残差矩阵E1，以及F0在t1上的回归，得到残差矩阵F1。

再以E1，F1取代E0，F0进行第二轮成分的提取计算，注意到成分u1,…,um是不参加回归计算的，因此是否可以考虑不提取因变量的成分呢？

为此，用下述原则提取比变量中的成分t2是和3.1中介绍的方法，结果是完全等价的，即

由于F0K是标准化变量，所以

Cov（F0K,E0w1）=

r（F0K,E0w1）

因此，该优化原则是求成分t1=E0w1，使得t1能携带尽可能多的E0变异，同时，t1对因变量F0K（k=1,…,q）的解释能力会综合达到最大值。

由于在目标函数上配上常量（n-1）2不影响其求解，即

（n-1）2

Cov2（F0K,E0w1）=

<

F0K,E0w1>

2

=

w1TE0TF0KF0KTE0w1=w1TE0T（

F0KF0KT）E0w1=w1TE0TF0F0TE0w1

为了求w1采用拉格朗日算法求解，记

s=

2-λ1（w1Tw1-1）=w1TE0TF0F0TE0w1-λ1（w1Tw1-1）

对s求关于w1和λ1的偏导，并令之为零，得

2E0TF0F0TE0w1-2λ1w1=0（3-9）

-（w1Tw1-1）=0（3-10）

由式（3-9）可知

E0TF0F0TE0w1=λ1w1

可见，最优解w1应是矩阵E0TF0F0TE0的一个特征向量，将它代入目标函数，并且由式（3-10）可得

2=w1TE0TF0F0TE0w1=w1T（λ1w1）=λ1

因此λ1矩阵E0TF0F0TE0的最大特征根，w1则是其相应的特征向量。

由此可见，在新的原则下，w1仍然是对应于E0TF0F0TE0最大特征值的特征向量，而这个新的原则完全没有提取到F0成分u1提取。

也就是说，t1=E0w1提取可以不依赖对u1的提取，而这种新的原则又从新的角度说明了t1的意义。

从这个新的原则出发，对c1,u1的计算就可以省略。

不过，在偏最小二乘法回归的一些解释技术中，由于u1可以较好地概括F0中的信息，因此，它常常也是很有用。

4使用举例

下面将通过两个具体的案例分析,以进一步理解偏最小二乘回归的工作过程和它的特点。

4.1使用举例一

使用举例一将采用Linnerud给出的关于体能训练的数据进行典型相关分析。

在这个数据系统中被观测样本点，是某健身俱乐部的20位中年男子。

被观测变量分为两组，第一组是身体特征指标X，包括：

体重、腰围、脉搏；

第二组变量是训练结果指标Y，包括：

单杠、弯曲、跳高。

原始数据表见表4-1。

表4-1原始数据表

在简化算法中，对于h=1,2,3时，有

λh=

F0K,Eh-1w1>

2=（n-1）2

Cov2（F0K,th）

计算可得：

λ1/（n-1）2=1.272426

λ2/（n-1）2=0.038763

λ3/（n-1）2=0.026655

而成分th的方差，uk的方差以及th和uk相关系数的平方r2（th,uk）在表4-2中列出。

表4-2Var（th）,Var（uk）和r2（th,uk）

h

Var（th）

Var（uk）

r2（th,uk）

1

2.0252

2.0503

0.3066

0.4381

1.9071

0.0464

3

0.2355

1.1505

0.0983

记第h个轴是wk，第h个成分tk为

tk=Eh-1wh（h=1,2,3）

其中tk亦可以表示成原自变量E0的线性组合，即

tk=E0wh*

则wh*=

（1-wjpjT）wh。

表4-3给出wh*和wh的取值。

表4-3wh*和wh的取值

自变量

w1

w2

w3

w1*

w2*

w3*

X1

-0.58989

0.46879

-0.65747

0.36793

-0.93459

X2

-0.77134

-0.56801

0.28706

-0.69989

0.80231

X3

0.23888

-0.67647

-0.69666

-0.63562

-0.22282

在利用Eh-1对th进行回归时，有回归系数向量pk，h=1,2,3,见表4-4。

表4-4回归系数pk

p1

P2

P3

-0.6659

-0.0197

-0.6574

-0.6760

-0.3546

0.2870

0.3589

-1.1942

-0.6966

成分tk=Eh-1wh的取值见表4-5。

表4-5tk取值表

NO

t1

t2

t3

-0.643

0.591

-0.131

-0.770

0.167

0.134

-0.907

-0.521

0.048

4

0.688

-0.680

0.346

5

-0.487

1.133

-0.182

6

-0.229

-0.072

0.025

7

-1.404

-0.077

-0.572

8

0.744

-0.211

-0.032

9

1.715

-0.655

-1.557

10

1.163

0.333

11

0.365

0.701

0.201

12

0.743

0.698

0.002

13

1.187

-0.757

0.366

14

-4.390

-0.760

0.255

15

-0.823

0.974

-0.083

16

-0.749

-0.667

17

-0.393

-0.203

0.564

18

1.199

0.783

0.092

19

1.048

0.373

0.319

20

1.942

-1.129

0.568

通过交叉验证的方法可得，之取一个成分t1时，拟合方程的预测性为最佳，不过为了后面作图和解释的方便起见，我们取两个成分t1，t2拟合预测模型。

yk=r1kt1+r2kt2k=1,2,3

由于成分th可以写成自变量xj的函数，即有

th=wh1*x1+wh2*x2+wh3*x3

由此可得两个成分t1，t2所建立的偏最小二乘回归模型为

yk=r1k（w11*x1+w12*x2+w13*x3）+r2k（w21*x1+w22*x2+w23*x3）

=（r1kw11*+r2kw21*）x1+（r1kw12*+r2kw22*）x2+（r1kw13*+r2kw23*）x3

回归系数的计算结果见表4-6。

表4-6回归系数rk

K

r1

r2

r3

0.3416

0.3363

0.4772

0.4160

0.2907

0.4554

0.1429

0.0651

-0.2125

所以，有

F01=-0.077E01-0.499E02-0.132E03

F02=-0.138E01-0.524E02-0.085E03

F01=-0.060E01-0.156E02-0.007E03

将标准化变量Fok（k=1,2,3）和Eoj（j=1,2,3）分别还原成原始变量，yk（k=1,2,3）以及xj（j=1,2,3）,则回归方程为：

Y1*=47.02-0.0166x1-0.824x2-0.097x3

Y2*=612.57-0.351x1-10.52x2-0.741x3

Y3*=183.98-0.125x1-2.497x2-0.052x3

为了快速直观地观察出各个自变量在解释Yk时的作用，可以绘制回归系数图，见图4-1

图4-1回归系数的直方图

从回归系数图中可以立刻观察到，腰围变量在解释三个回归方程时起到了极为重要的作用，然而，和单杠及弯曲相比，跳高成绩的回归方程显然不够理想，三个自变量对它的解释能力均很低。

因此有必要考虑对自变量做适当的调整。

为了考察这三个回归方程的模型精度，我们以（yik*,yik）为坐标值，对所有的样本点绘制预测图。

yik*是第k个变量，第i个样本点（yik）的预测值。

在预测直方图上，如果所有样本点都能在图的对角线附近均匀分布，则方程的拟合值和原值差异很小，这个方程的拟合效果就是满意的。

体能训练的预测图如4-2所示。

4.2使用举例二

这是Cornell在1990年采用的一个化工方面的例子。

此后,偏最小二乘的提出者S.Wold等人多次引用,成为单因变量偏最小二乘回归的一个经典案例。

该例中,有个自变量x1~x7,因变量记为y,如表4-7所示：

表4-7自变量和应变量对照表

--直接蒸馏成分

--重整汽池;

--原油热裂化油

--原油催化裂化油;

--聚合物

--烷基化物

--天然香精

--原辛烷值

表4-8给出了12种混合物关于这8个变量的观测数据。

要求建立y对x1~x7,的回归方程,以确定7种构成元素x1~x7对y的影响。

表4-812种混合物关于8个变量的观测数据表

这8个变量的相关系数矩阵见表4-9。

从相关系数矩阵中可以看出，在自变量之间存在严重的多重相关性，例如r（x1,x3）=0.999,r（x4,x7）=0.92,r（x1,x6）=-0.80。

实际上，这7个自变量之间有如下关系：

x1+x2+…+x7=1

表4-98个变量的相关系数矩阵

由于q42<

0.0975，所以选择h=3,即采用t1,t2,t3三个成分做偏最小二乘回归模型,预测效果最好。

从所得到的最终模型看,x6的回归系数值最大,它和y正相关。

这一点符合我们的基本认识。

x5的回归系数仍然出现反常符号,但它的取值很低,几乎可以忽略。

从相关系数表中可以看出,x5和y的相关度不高,并且它和其他自变量之间也没有密切联系。

也就是说,x5是一个相对独立的变量,它不能直接解释y,甚至也很难通过其他自变量的传递作用去解释y。

因此,它在最终模型中的回归系数非常低。

和普通最小二乘回归方程相比,这个方程的实际含义更加清晰,也更易于使用。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 最小回归方法 PLS

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：偏最小二乘回归方法PLSWord格式文档下载.docx
链接地址：https://www.bdocx.com/doc/20467812.html

偏最小二乘回归方法PLSWord格式文档下载.docx

热门标签