书签分享收藏举报版权申诉 / 18

立即下载加入VIP,免费下载

当前位置：首页 > 幼儿教育 > 幼儿读物 > 线性回归分析法.docx

线性回归分析法.docx

文档编号：25819068
上传时间：2023-06-15
格式：DOCX
页数：18
大小：78.32KB

线性回归分析法.docx

《线性回归分析法.docx》由会员分享，可在线阅读，更多相关《线性回归分析法.docx（18页珍藏版）》请在冰豆网上搜索。

线性回归分析法.docx

线性回归分析法

一元线性回归分析和多元线性回归分析

一元线性回归分析

[•简单介绍

当只有一个自变量时，称为一元回归分析（研究因变量因和自变量因之间的相关关系）；当自变量有两个或多个时，则称为多元回归分析（研究因变量因和自变量冋，囤，…，冋之间的相关关系）。

如果回归分析所得到的回归方程关于未知参数是线性的，则称为线性回归分析；否则，称为非线性回归分析。

在实际预测中，某些非线性关系也可以通过一定形式的变换转化为线性关系，所以，线性回归分析法成为最基本的、应用最广的方法。

这里讨论线性回归分析法。

2•回归分析法的基本步骤

回归分析法的基本步骤如下：

（1）搜集数据。

根据研究课题的要求，系统搜集研究对象有关特征量的大量历史数据。

山于回归分析是建立在大量的数据基础之上的定量分析方法，历史数据的数量及其准确性都直接影响到回归分析的结果。

（2）设定回归方程。

以大量的历史数据为基础，分析其间的关系，根据自变量与因变量之间所表现岀来的规律，选择适当的数学模型，设定回归方程。

设定回归方程是回归分析法的关键，选择最优模型进行回归方程的设定是运用回归分析法进行预测的基础。

（3）确定回归系数。

将已知数据代入设定的回归方程，并用最小二乘法原则计算出回归系数，确定回归方程。

这一步的工作量较大。

（4）进行相关性检验。

相关性检验是指对已确定的回归方程能够代表自变量与因变量之间相关关系的可靠性进行检验。

一般有囲检验、呂检验和回检验三种方法。

（5）进行预测，并确定置信区间。

通过相关性检验后，我们就可以利用已确定的回归方程进行预测。

因为回归方程本质上是对实际数据的一种近似描述，所以在进行单点预测的同时，我们也需要给岀该单点预测值的置信区间，使预测结果更加完善。

3.—元线性回归分析的数学模型

用一元线性回归方程来描述冋和冈之间的关系，即

++Ar~（0=1,2,…

式中，冋和回分别是自变量因和因变量国的第［3观测值，囤和区］是回归系数，H是观测点的个数，百］为对应于因的笫皿观测值区］的随机误差。

假设随机误差囤满足如下条件：

①服从正态分布；②区］的均值为零，即|e@,）=o|；③百］的方差等于囲；④各个区］间相互独立，即对于任何两个随机误差囤和囤，其协方差等于零即，cov（A/,aJ=0（/#7）0

基于上述假定，随机变量的数学期望和方差分别是

£（）1）=勺+也（兀）］

（2・2）》：

£（△）—”，

如果不考虑式中的误差项，我们就得到简化的式子

X二绳+（2-3）

该式称为因对匡］的一元回归模型或一元回归方程，其相应的回归分析称为一元线性回归分析。

依据这一方程在直角坐标系中所作的直线就称为回归直线。

4.回归参数的估计

回归模型中的参数冋与冋在一般情况下都是未知数，必须根据样本观测数据區列来估计。

确定参数囚与冋值的原则是要使样本的回归直线同观察值的拟合状态最好，即要使得偏差最小。

为此，可以釆用最小二乘法的办法来解决。

对应于每一个因，根据回归直线方程式（2・3）可以求出一个回，它就是区］的一个估计值。

估计值和观测值之间的偏差要使模型的拟合状态最好，就是说要使凹个偏差平方和最小为标准来确定回归模型。

则式（2・1）用矩阵形式表示为

为了方便起见，记

V=

Or

•

f

△=

■■

a2

■

•

B=

1

•

1X2J订

LA«J

A

y=Ba+A（2-4）

设冈为误差囚的负估值，称为匡］的改正数或残差，G为回归参数回的估值，则可以写岀类似于参数平差的误差方程

7=Ba—y（2-5）

根据最小二乘原理|v7V=mmL求自由极值，得

=2V」B=0

A

da

即BrV=0（2-6）

将误差方程（Z5）代入，即得法方程为

BTBa=BTy（2-7）

二_力二切_喑2；=1/=!

^B=

BTy=

〜一n

sxy+nxy

nnx

—~2nxSxx+f~lX

于是可得回归参数的最小二乘估值为

a=（B'BYBry（2-8）

参数4与®的具体表达形式为

八1

x=——

S疝

（+"门x

y

1

兀-抚

\//

_-A1

■■

1

m=y%/s

（2-9）

a\=SXjS心

求出参数与忖以后，就可以得到一元线性回归模型

AAA

y=x（2-10）

山此，只要给定了一个因值，就可以根据回归模型求得一个胡作为实际值的预测值。

5•精度分析

对于给定的因，根据回归模型就可以求出冋的预测值。

但是用曲来预测匡］的

精度如何，产生的误差有多大是我们所关心的。

这里釆用测量上常用的精度指标来度量回归方程的可靠性。

一个回归模型的精度或剩余标准离差定义式为

（2-11）

由于参数的个数是2,观测值总数是回，多余观测是阳可，因此式中分母是（〃-2）。

运用估计平均误差可以对回归方程的预测结果进行区间估计。

若观察值围绕回归直线服从正态分布，且方差相等，则有68.27%的点落在囲的范围内，的范圉有95.45%的点落在内，有99.73%的点落在|±3b|的范用内。

根据参数平差理论可知，M的协因数矩阵为

4=何亦二丄［匕+応2）/〃-习（2_12）

gS”T1

从而，HI的方差估值为

6•线性回归效果的显著性检验

对一元线性回归模型的统计检验包括两个内容：

一是线性回归方程的显著性

检验；二是对回归系数进行统讣推断。

在一元线性回归分析中，线性回归效果的好坏取决于匡］与冈的线性关系是否密切。

若剧越大，因随因的变化趋势就越明显；若剧越小，匡］随匡］的变化趋势就越不明显。

特别的，当囱时，意味着匡］与匡］之间不存在线性相关关系，所建立的线性回归方程没有意义。

所以，只有当嗣时，因与因之间才有线性相关关系，所建立的线性回归方程才有实际意义。

因此，对线性回归效果好坏的检验，就归结为对统计假设冋：

舛=0;耳：

旳工0|的检验。

若拒绝回，就认为线性回归有意义；若不能拒绝回，就认为线性回归无意义。

下面介绍两种检验方法：

匡］检验法和相关系数检验法。

1•回检验法

进行F检验的关键在于确定一个合适的统计量及其所服从的分布。

当原假设成立时，根据F分布的定义可知

（2-14）

当给定显著性水平0=0.05或0.01,由F分

布分位数值表得临界值7a（I,--2）|,曲样本观测值计算出统计量F的实测值。

若|Fnf；

p（U-2）1,则

以显著水平叵］拒绝囤；若f|则以显著水平叵］接受闷。

一般按下述标准判断。

（1）若卩沁9（仏列，则认为线性回归方程效果极显著。

（2）若|®95（1,—2）SFv®99_（1,—2）则认为线性回归方程效果显著。

（3）若卩5』丿呵,则认为线性回归效果不显著。

2.相关系数检验法

相关系数检验法是通过因与因之间的相关系数对回归方程的显著性进行检验的，

由样本观测值，即陆，j心，儿），…儿），可以得到相关系数的实测值为

r几s’、

f-l1-1

（2-15）

相关系数|0“列,现作如下进一步分析。

（1）当巨］时，|5XV=0|,因而|q=0|,此时线性回归方程$二总+&;二山茂明因与囚之间不存在线性相关关系。

（2）当|0o|,

此时称匡］与因正相关：

，〃丨丨广v0|时，蛋此时称匡］与因负相关；当阿越

接近于0时，此时因与因的线性关系越微弱；当回越接近于1时，此时因与囚的线性关系越强。

（3）当0］二1时，匡］与因完全线性相关，表明匡］与因之间存在确定的线性函数

关系；当T时，称匡］与因正相关；当9时，称因与因负相关。

当给定显著性水平［£>0.05或0.01,由

P（lrl

来判断线性回归方程的效果。

若本观测值算出的相关关系实测值|虫j（—2）则以显著性水平的关系叵］拒绝囤；若卩〃虫（一2）1,则以显著性水平的关系叵］接受回。

一般按下述标准判断。

（1）若匕込如辺则认为线性回归方程效果极显著。

（2）若血血・2）_<如

（2）1,则认为线性回归方程效果显著。

（3）若卜〈仏（“-2）|,则认为线性回归效果不显著。

临界值r,_a（//-2）可由下式确定

（2-17）

切虫（1,幵一2）

斤a（「・2）+（八一2）

7・［实例解算］

设某线性回归问题的自变量冋和观测值冈的数据如表2・1所示，试求其回归方

程。

表2J

序号

1

2

3

4

5

6

7

8

9

10

25

27

29

32

34

36

35

39

42

45

0

2.8

2.9

3.2

3.4

3.2

3.3

3.7

3.9

4.2

［解］

⑴回归方程的建立。

由表中数据计算得

4丄产晋”38

〃篙10

S・Ulj=XV・HX2=122080x1183.36=3724J=1（=i

\y=fb•■丸”—y）=1＞必・nxy=1186.9-1162.72=：

24.18r=l/=!

24.18

=0.06493

372.4

&二亍一。

］1=3・38・0・06493x34.4=1.1464于是，就得到一元线性回归模型y=1.1464+0.06493X

计算j值。

结果列于表中。

表2・2

序号

1

2

3

4

5

6

7

8

9

10

25

27

29

32

34

36

35

39

42

45

2.8

2.9

3.2

3.4

3.2

3.3

3.7

3.9

4.2

nqV/

2.77

2.90

3.03

3.22

3.35

3.48

3.42

3.68

3.87

4.07

■I

0.03

0.00

0.17

-0.02

0.05

-0.28

-0.12

0.02

0.03

0_

3

⑵精度评定

——单位权中误差为

A

1口

F」。

严0.134

回归方程系数中误差计算如下。

HI的权倒数

r1

344

11

Q

—

•=0.192,0=——=

0.0027

|5nSu10372.4

5S“372.4

目的方差估值为

a2人21

“・0034q・o-=0.010=4.84x10-

其中误差为

£=0.059s=0.022「

⑶显著性检验设

原假设血：

4=0;备选假设耳：

4工0

肖原假设为真时，有

«/A—V

1.5693

=93.7

0.134/8

工心

F=—

«（AY

E力一X心一2）

因多余观测度）是&查表得佗阳（1,8）=11.26,®然F>%（h8）,

假设不成立，所求得的线性回归效果极显著。

如果本例用相关系数检验法对线性回归效果进行显著性检验，可用式（2・15）计算,即

24.18

-0.9565

SgS-

A372.4x1.716

山式（2・17）计算相关系数临界值皿-2）=0.765山于

r=0.9565>0.765

故因与因的线性（正）相关关系极显著，此结果与F检验法得到的结论完全一致。

多元线性回归分析

2•数学模型

多元线性回归分析是研究一个因变量与多个自变量之间线性相关关系的统计分析方法。

多元线性回归考虑到多个自变量对因变量的影响，能够更真实地反映现象之间的相互关系。

假设一个随机变量冈与回个非随机变量因之间存在线性相关关系，则它们之间的关系可以用多元线性回归模型来表示，即

y=3o+3lX}+32X2V+BinXin+M（3-1）

己中，匡］是因变区］（卩=12…刖）是自变量,

吗（心0」2...M）是模型

的参数，称为回归方程的系数。

囚是随机误差。

与一元线性回归模型类似，如果多元线性回归模型中的误差项囚服从正态性，并具有无偏性，则△〜〃（（）&）,则

E（y）=%^“內+a2X2+...+amx>

（3-2）

E（y）=E（A）=a2

V〜N

由此可见,

2•多元线性回归方程的确定

多元线性回归模型的参数区丨（卩二0,1,2，…,加丨）及囲在一般情况下都是未知

数，必须根据样本观测数据来估计。

假设我们进行了回次观测，得回组观测数据（门

切，•：

“知），丿•二12・・・“2。

它们应有的回归关系可写为

）?

i=5+d內］+他％+•••+⑦心+△】

>2=%++“2冬2+•・•+5沫七A.

>

0（3-3）

）L=«o+°內“++・・・+級+

y=

y*

>n

A=

A「

A2

a=

B=

-1r彳…

1A12^2…几2

J…爲

则式（3・3）用矩阵形式表示为

y=Ba+A（3-4）与其对应的误差方程为

V=B3—y（3-5）

根据最小二乘原理JWV=mini.法方程为

B1Ba=By（3-6）于是可得回归参数的最小二乘估值为

丄何疔叭（3・7）其中

门•…Dm…

■D1

何3）=

工兀心

BTy=

2>諾

工w...Z4J

Ex->d

当求出回归参数…冲）丨后,就可以得到多元线性回归模型

AAAAA

兀二兔+5召+“2®+...+<3-8）

山此，只要给定了冋的值，就可以根据回归模型求得E作为实际值冈的预测值。

3•精度分析

多元线性回归模型的中误差定义式为

观测值个数是回，参数个数为匝多余观测为皿-（〃2+1加因此上式分母

根据参数平差理论可知，12的协因数矩阵为

0二（刃3r（3-10）^1

从而，U］的方差估值为

（3-11）

至于目的方差，同样根据参数平差理论可得

（3-12）

4•多元线性回归效果的显著性检验

与一元线性回归模型一样，在得到多元线性回归模型以后也需要对模型中所包含的变量是否确实与因变量之间存在线性相关关系，以及回归模型的拟合效果如何进行分析检验。

主要考察卜心与氐吃，…，心］是否具有线性相关关系,

即需要检验统讣假设

5=a2=-=am=0:

0：

®,©,・・・卫川不全为零

（3-13）

对于给定的显著性水平叵｝若拒绝丹。

，就认为这个回元线性整体回归效果显著；若不能拒绝囤，就认为这个回元线性整体回归效果不显著。

为了进行上述检验，关键在于确定一个合适的统计量及其所服从的分布，着眼于统计量，参考一元线性回归检验，多元线性回归整体检验统计量为

人_¥

（3-14）

Sm/m

—I/

工刀-兀I/（ml）

查表可得・l）o若一加一1）,则以显著水平叵］拒绝

若卩V片虫（〃皿刁匚可,则以显著水平叵］接受囤。

需要指出的是，对于多元回归来说，线性回归效果仅说明冋，吆…如不全为零,但有可能接近于零。

也就是说，多元回归效果显著是就总体而言的，并不意味着各自变量区］对因变量冈的影响都是显著的，因此有必要从原来的回归方程

中剔除那些无显著性影响的自变量，重新建立更为理想的线性回归方程。

为此，在检验完整体回归效果显著之后，还必须就每个自变量区］对因变量冈的线性影响是否显

著进行检验，其检验统计假设

H（）:

q=0

对于多项式回归模型

Hx：

qH0

（f=I2・・

（3-15）

Jl=5）+o内+才+…+4用+、J

>?

2=o（）++a2x2+...+amx2+亠

打（3・16）

儿=«0+4©+勺£+

5他+

只要设

■■弋...%

A21…S/"

■

•>m

M...M

-V2x；…刘

•••

5•••〈

（3-17）

就可以按线性回归方法进行回归计算o

5•举例解算

以某楼A1点累讣沉降量为因变量，时间间隔和承受的荷载为自变量进行回归分析，设时间间隔为自变量XI,承受的荷载为自变量X2,累讣变化为因变量Y,利用EXCEL软件的一工具中回归分析功能进行回归分析。

时间间隔

荷载

FFA、I-|iCO

累计下汎里

0

1

0

15

1.5

-0.472

12

2.8

-0.584

14

3.5

-0・826

10

5

-1.171

10

7.5

-1.353

19

8.5

-1.423

17

10

-1.569

114

11

-1.642

12

13

-1.714

119

15

-L.852

16

-1.96

16

-2.197

15

16

-2.212

15

16

-Z.315

经计算得到：

如下图的结果

方莘外析

dfSS

MSFmificanceF

归分析

26.328432

3.164216101.78162.9SE-08

差

120.37306

0.031088

计

146•

Coefficimrr标准i天差tStatP-valueLover95%UDDer95%F限95.5±眼95.0%Intercept-0.126130.144981-0.869990.401375-0-442020.189754-0.442020.189754

间间隔-0.019270.012163-1.584710.139017-0.045780.007226・0.045720.007226

荷载・0.108310.00992・10.91761.38E-07-0.12992・0.08669-0.12992・0.08669

观测值

预测累计下沉量

残差

标准残差

1

-0・

0.234437

1.436152

2

-0・

0.10571

0.647574

3

■0・

0.076682

0.469754

4

-0.775045507

-0.05095

-0.31215

5

-0.860404639

-0.3106

-1.9027

6

-1.131167805

-0.22183

-1.35894

7

-1.412945297

-0.01005

■①06159

-1.536853813

-0.03215

-0.19693

■1.587335004

-0.05466

-0.33488

10

-1.765396154

0.051396

0.314851

11

■2.116929528

0.264931.622951

12

■2.167410719

0.207411

1.270592

13

-2・

-0.02959

-0.18126

14

-006386

-0.39173

15

■2.148136028

-0.16686

-1.0222

可得出Y=-0.019Xr0.108X2-0.126

（1）回归方程的检验（F检验）通过回归分析可以知道，F统计量为101.782,取a=0.05,查F分布表可得到自由度为（pjpl）的临界值为Fo.O5（2,12）=3.89o显然地，F统计量远大于临界值，说明两个自变量联合起来对因变量有显著影响。

（2）回归系数的检验（t检验）从回归分析的结果可以看出，与时间间隔的参数所对应的t统计量为2585,承受的荷载的参数所对应的t统讣量为-10.9180取a=0.05,查t分布表可得ta/2（n-k）=to,O25（15-3）=2.178o与分析计•算的t统讣量想比较可知，两个自变量的参数所对应的t统计量的绝对值都大于临界值2178,说明两个自变量对沉降量累计变化量的影响都是显著的。