线性回归分析法讲解Word下载.docx
- 文档编号:19395970
- 上传时间:2023-01-05
- 格式:DOCX
- 页数:15
- 大小:76.38KB
线性回归分析法讲解Word下载.docx
《线性回归分析法讲解Word下载.docx》由会员分享,可在线阅读,更多相关《线性回归分析法讲解Word下载.docx(15页珍藏版)》请在冰豆网上搜索。
确定参数兔与勺值的原则是要使样本的回归直线同观察值的拟合状态最好,即要使得偏差最小。
为此,可以采用最小二乘法的办法來解决。
对应于每一个兀,根据回归直线方程式(2-3)可以求出一个;
,它就是yr•的一个估计值。
估计值和观测值之间的偏差4=(开-$)。
要使模型的拟合状态最好,就是说要使"
个偏差平方和最小为标准来确定回归模型。
y=Ba+A
为了方便起见,记
则式(2-1)用矩阵形式表示为
(2-4)
设V为误差△的负估值,称为y的改正数或残差,:
为回归参数。
的估值,则可以写出类似于参数平差的误差方程
V=Ba-y
(2-5)
根据最小二乘原理VrV=mill,求自由极值,得
da
即BrV=0
(2-6)
将误差方程(2-5)代入,即得法方程为
BTBa=Bry
(2-7)
记
_1"
_1"
"
(一*"
r_2
X=_工兀,),=_工升,s<
’=工—,
n,=in口.=1,=i
Syy=E(y,-yJ=YK-ny2‘=亍(兀一孤-y)=£
础-nxy
/=!
r=li=lr=l
btb=
nnx
——2
BTy=
ny
nxSxx+nx
Sxy+nxy_
于是可得回归参数的最小二乘估值为
a=(BTB}lBTy
(2-8)
即
人1
v—
(几+応'
“7-X
1
兀-Is巧
A
S“
\〃
-X1
Sxy+nxy
Sxy
参数兔与6的具体表达形式为
«
o=y-^vv/5x.t
(2-9)
ai=Sp/Sg-
求出参数玄与:
以后,就可以得到一元线性回归模型
y=a0+qx
(2-10)
由此,只要给定了一个兀值,就可以根据回归模型求得一个;
•作为实际值开的预测值。
5.精度分析
对于给定的兀,根据回归模型就可以求出片的预测值。
但是用』来预测y的精度如何,产生的误差有多大是我们所关心的。
这里釆用测量上常用的精度指标来度量回归方程的可靠性。
一个回归模型的精度或剩余标准离差定义式为
(2-11)
由于参数的个数是2,观测值总数是〃,多余观测是(n-2),因此式中分母是
S-2)。
运用估计平均误差可以对回归方程的预测结果进行区间估计。
若观察值
围绕回归直线服从正态分布,且方差相等,则有68.27%的点落在±
2的范围内,有95.45%的点落在±
2(7的范围内,有99.73%的点落在±
3匸的范围内。
根据参数平差理论可知,d的协因数矩阵为
(2-12)
从而,a的方差估值为
(2-13)
A2A2]一
6=a0
6.线性回归效果的显著性检验
对一元线性回归模型的统计检验包括两个内容:
一是线性回归方程的显著性检验;
二是对回归系数进行统计推断。
在一元线性回归分析中,线性回归效果的好坏取决于y与兀的线性关系是否密切。
若|&
|越大,y随x的变化趋势就越明显;
|越小,y随x的变化趋势就越不明显。
特别的,当&
=0时,意味着y与x之间不存在线性相关关系,所建立的线性回归方程没有意义。
所以,只有当a^O时,y与x之间才有线性相关关系,所建立的线性回归方程才有实际意义。
因此,对线性回归效果好坏的检验,就归结为对统计假设=0的检验。
若拒绝H。
,就认为线性回归有
意义;
若不能拒绝H。
,就认为线性回归无意义。
下面介绍两种检验方法:
F检验法和相关系数检验法。
1.F检验法
进行F检验的关键在于确定一个合适的统计量及其所服从的分布。
当原假设成立时,根据F分布的定义可知
斗升一对/(〃一2)
(2-14)
当给定显著性水平a=0.05或0.01,由F分布分位数值表得临界值匚°
(1/-2),由样本观测值计算出统计量F的实测值。
若则以显著水平a拒绝H。
;
若F<
^(1,«
-2)则以显著水平a接受一般按下述标准判断。
(1)若F>
F099(l,n-2),则认为线性回归方程效果极显著。
(2)若F095(l,n-2)<
F<
F099(l,n-2)f贝9认为线性回归方程效果显著。
(3)若耳.95(1/-2),则认为线性回归效果不显著。
2.相关系数检验法
相关系数检验法是通过y与x之间的相关系数对回归方程的显著性进行检
验的,由样本观测值,即(並,)。
(兀2,儿),-「(£
,儿),可以得到相关系数的实测值为
(2-15)
相关系数0<
厂<
1,现作如下进一步分析。
(1)当旷=0时,Sxy=0,因而勺=0,此时线性回归方程y=。
0+4兀=。
0,表明y与x之间不存在线性相关关系。
(2)当0<
|r|<
104,y与x之间存在一定的线性相关关系,当厂>
0时,q>
0,此时称y与X正相关;
当厂<
0时,^<
0,此时称y与x负相关;
当|厂|越接近于0时,此时y与x的线性关系越微弱;
当卜|越接近于1时,此时y与x的线性关系越强。
(3)当卜|=1时,y与X完全线性相关,表明y与x之间存在确定的线性函数关系;
当r=l时,称y与x正相关;
当时,称y与x负相关。
当给定显著性水平a=0.05或0.01,由
2))=1-a
(2-16)
来判断线性回归方程的效果。
若本观测值算出的相关关系实测值r>
/]_a(A2-2),则以显著性水平的关系a拒绝H。
若r<
/i_a(n-2),则以显著性水平的关系a接受H。
一般按下述标准判断。
(1)若r>
r099(n-2),则认为线性回归方程效果极显著。
(2)若缶(―2)"
59血-2),贝IJ认为线性回归方程效果显著。
(3)若r<
^.95(n-2),则认为线性回归效果不显著。
临界值jS-2)可由下式确定
(2-17)
7.[实例解算]
设某线性回归问题的自变量片和观测值):
的数据如表2-1所示,试求其回归方程。
表2-1
序号
2
3
4
5
6
7
8
9
10
25
27
29
32
34
36
35
39
42
45
2.8
2.9
3.2
3.4
3.3
3.7
3.9
4.2
[解]
(1)回归方程的建立。
由表中数据计算得
Sxx=±
(兀一才=f彳-nx1=12208-10xll83.36=372.4i=l1=1
Svv=f(x_亍j=fy;
_ny2=115.96-10x114.244=1.716r=li=l
Sq=£
6-办-y)=EI-nxy=1186.9-1162.72=24.18i=l/=!
AS
XX
=24.18_006493
372.4
a。
=『一勺兀=3.38-0.06493x34.4=1.1464于是,就得到一元线性回归模型
y=1.1464+0.06493X
计算y值。
结果列于表2-2中。
表2-2
A儿
2.77
2.90
3.03
3.22
3.35
3.48
3.42
3.68
3.87
4.07
匕
0.03
0.00
0.17
-0.02
0.05
-0.28
-0.12
0.02
0.13
⑵精度评定
一单位权中误差为
^H=0.134
V8
一一回归方程系数中误差计算如下。
:
的权倒数
1x134.4
=1=H
nSxx10372.4
的方差估值为
(—2\
b二—4-=0.0034,b=<
r0—=0.010=4.84xl0~5
I"
^xx丿
其中误差为
£
=0.059,£
=0.022
(3)显著性检验
设
原假设//0:
^=0;
备选假设Ha严0
当原假设为真时,有
因多余观测(自由度)是8,查表得化99(1,8)=11・26,显然化』,8),原假设不成立,所求得的线性回归效果极显著。
如果本例用相关系数检验法对线性回归效果进行显著性检验,可用式(2-15)计算,即
由式(2-17)计算相关系数临界值2)=0.765,由于
厂=0.9565>
0.765
故y与x的线性(正)相关关系极显著,此结果与F检验法得到的结论完全一致。
多元线性回归分析
1•数学模型
多元线性回归分析是研究一个因变量与多个自变量之间线性相关关系的统计分析方法。
多元线性回归考虑到多个自变量对因变量的影响,能够更真实地反映现象之间的相互关系。
假设一个随机变量y与加个非随机变量兀之间存在线性相关关系,则它们之间的关系可以用多元线性回归模型来表示,即
y=a。
+。
內+a2x2+…+amxnt+A
(3-1)
式中,y是因变量,X.(心1,2,…,加)是自变量,陽(心0,1,2,…,加)是模型的参数,称为回归方程的系数。
△是随机误差。
与一元线性回归模型类似,如果多元线性回归模型中的误差项△服从正态性,并具有无偏性,则△〜N(0,k),贝IJ
E(y)=a0+a內+a2x2+■■■+a尽
(3-2)
(),)=》(△)=b,
由此可见,y〜N[E(y),cr计。
2•多元线性回归方程的确定
多元线性回归模型的参数①(i=0,l,2,…,加)及夕在一般情况下都是未知数,必须根据样本观测数据来估计。
假设我们进行了〃次观测,得”组观测数据
(开,®
%,J=l,2,,/?
o它们应有的回归关系可写为
)[=绻+a,xn+a2x2l+…+amxml+
儿=+。
內2+EE+…+amxm2+A2
(3-3)
儿=a。
+q礼+a2x2n+…+a,nxmn+A„」
)'
=
儿
A=
a2
a=
■«
o_
B=
「1
x2\-
x22-
■-兀”「
■-兀”2
_an,_
呂”-
■-兀叫
则式(3-3)用矩阵形式表示为
y=Ba+A
(3-4)
与其对应的误差方程为
(3-5)
根据最小二乘原理VrV=mm,法方程为
BTBa=BTy
(3-6)
a=(BTByBTy
(3-7)
其中
n
-工心■
(耐)=
工对-
-工兀心
,Bry=
工3
-工忧一
"
”必
当求出回归参数&
(心0,1,2,…冲)后,就可以得到多元线性回归模型
八人八八A
yi=a0+alxl+a2x2+-+amxm
(3-8)
由此,只要给定了兀的值,就可以根据回归模型求得;
•作为实际值开的预测值。
3.精度分析
多元线性回归模型的中误差定义式为
(3-9)
观测值个数是”,参数个数为加+1,多余观测为[〃-(加+1)],因此上式分母为[n-(m+l)]o
根据参数平差理论可知,:
的协因数矩阵为
Q仝聞
aa
(3-10)
从而,:
(3-11)
至于:
的方差,同样根据参数平差理论可得
/A\A-
耳y=a0BQBt
l丿"
(3-12)
4•多元线性回归效果的显著性检验
与一元线性回归模型一样,在得到多元线性回归模型以后也需要对模型中所包含的变量是否确实与因变量之间存在线性相关关系,以及回归模型的拟合效果如何进行分析检验。
主要考察儿儿,…,儿与再,兀,…,X,”是否具有线性相关关系,即需要检验统计假设
H。
】q=a?
=…=cim—0;
H「-,am不全为零
(3-13)
对于给定的显著性水平a,若拒绝H。
,就认为这个加元线性整体回归效果显著;
若不能拒绝日。
,就认为这个加元线性整体回归效果不显著。
为了进行上述检验,关键在于确定一个合适的统计量及其所服从的分布,着眼于统计量,参考一元线性回归检验,多元线性回归整体检验统计量为
(3-14)
查表可得坊_&
(加加-1)。
若加-1),则以显著水平Q拒绝H。
若
F<也(m,n-m-l),则以显著水平a接受H。
需要指出的是,对于多元回归来说,线性回归效果仅说明q卫-%不全为零,但有可能接近于零。
也就是说,多元回归效果显著是就总体而言的,并不意味着各自变量兀对因变量儿的影响都是显著的,因此有必要从原来的回归方程中剔除那些无显著性影响的自变量,重新建立更为理想的线性回归方程。
为此,在检验完整体回归效果显著之后,还必须就每个自变量石对因变量儿的线性影响是否显著进行检验,其检验统计假设
H©
.毎=0;
工0(d=l,2,…,加)
(3-15)
对于多项式回归模型
y2=^o++a2xi+…+a,„X2+A2
只要设
(3-16)
^21
^12'
z22-
■Zlm
■■S
X2
彳-
X;
-坨
乙2"
'
Znm_
_Xn
兀-
・暫」
yn=兔+叭+a2x;
+…+amx^+A„
(3-17)
就可以按线性回归方法进行回归计算。
5•举例解算
以某楼Al点累计沉降量为因变量,时间间隔和承受的荷载为自变量进行回归分析,设时间间隔为自变量XI,承受的荷载为自变量X2,累计变化为因变量Y,利用EXCEL软件的一工具中回归分析功能进行回归分析。
时间间隔荷戟
S3'
1T"
CO
累计下'
几里
15
1.5
-0.472
12
2.8
-0.584
14
3.5
-0.826
-1.171
7.5
-1.353
19
8.5
-1.423
17
-1.569
11
-1.642
13
-1.714
119
-1.852
16
-1.96
-2.197
-2.212
-2.315
经计算得到:
如下图的结果
方差分析
dfSSMSFmificanceF
回归分析26.3284323.164216101.78162.98E-08
残差120.373060.031088
总计146.701491
Coefficierr标准误差tStatP-valueLower95%Uppe:
r95%F限95.0》上限95.0%
Intercept-0.126130.144981-0.869990.401375-0.442020.189754-0.442020.189754
时间间隔-0.019270.012163-1.584710.139017-0.045780.007226-0.045780.007226
荷载-0.108310.00992-L0.91761.38E-07-0.12992-0.08669-0.12992-0.08669
观测值
预测累计下沉量
残差
标准残差
-0.234436657
0.234437
1.436152
-0.577709666
0.10571
0.647574
-0.660682437
0.076682
0.469754
-0.775045507
-0.05095
-0.31215
-0.860404639
-0.3106
-1.9027
-1.131167805
-0.22183
-1.35894
-1.412945297
-0.01005
-0.06159
-1.536853813
-0.03215
-0.19693
-1.587335004-0.05466
-0.33488
-1.765396154
0.051396
0.314851
-2.116929528
0.26493
1.622951
-2.167410719
0.207411
1.270592
-0.02959
-0.18126
-2.148136028
-0.06386
-0.39123
-0.16686
-1.0222
可得出Y=-0.019X1-0.108X2-0.126
(1)回归方程的检验(F检验)通过回归分析可以知道,F统计量为
101.782,取#0.05,查F分布表可得到自由度为(gn-p-l)的临界值为Fo.05(2,12)=3.89。
显然地,F统计量远大于临界值,说明两个自变量联合起来对因变量有显著影响。
(2)回归系数的检验(t检验)从回归分析的结果可以看出,与时
间间隔的参数所对应的t统计量为-2.585,承受的荷载的参数所对应的t统计量为-10.918o取a=0.05,查t分布表可得ta/2(n-k)=to.o25(15-3)=2.178。
与分析计算的t统计量想比较可知,两个自变量的参数所对应的t统计量的绝对值都大于临界值2.178,说明两个自变量对沉降量累计变化量的影响都是显著的。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性 回归 分析 讲解