线性回归分析法讲解.docx
- 文档编号:6384995
- 上传时间:2023-01-05
- 格式:DOCX
- 页数:15
- 大小:76.38KB
线性回归分析法讲解.docx
《线性回归分析法讲解.docx》由会员分享,可在线阅读,更多相关《线性回归分析法讲解.docx(15页珍藏版)》请在冰豆网上搜索。
线性回归分析法讲解
元线性回归分析和多元线性回归分析
一元线性回归分析
1•简单介绍
当只有一个自变量时,称为一元回归分析(研究因变量y和自变量x之间的相关关系);当自变量有两个或多个时,则称为多元回归分析(研究因变量y和自变量呂,%,…,£之间的相关关系)。
如果回归分析所得到的回归方程关于未知参数是线性的,则称为线性回归分析;否则,称为非线性回归分析。
在实际预测中,某些非线性关系也可以通过一定形式的变换转化为线性关系,所以,线性回归分析法成为最基本的、应用最广的方法。
这里讨论线性回归分析法。
2•回归分析法的基本步骤
回归分析法的基本步骤如下:
(1)搜集数据。
根据研究课题的要求,系统搜集研究对象有关特征量的大量历史数据。
由于回归分析是建立在大量的数据基础之上的定量分析方法,历史数据的数量及其准确性都直接影响到回归分析的结果。
(2)设定回归方程。
以大量的历史数据为基础,分析其间的关系,根据自变量与因变量之间所表现出来的规律,选择适当的数学模型,设定回归方程。
设定回归方程是回归分析法的关键,选择最优模型进行回归方程的设定是运用回归分析法进行预测的基础。
(3)确定回归系数。
将己知数据代入设定的回归方程,并用最小二乘法原则计算出回归系数,确定回归方程。
这一步的工作量较大。
(4)进行相关性检验。
相关性检验是指对己确定的回归方程能够代表自变量与因变量之间相关关系的可靠性进行检验。
一般有R检验、r检验和F检验三种方法。
(5)进行预测,并确定置信区间。
通过相关性检验后,我们就可以利用己确定的回归方程进行预测。
因为回归方程本质上是对实际数据的一种近似描述,所以在进行单点预测的同时,我们也需要给出该单点预测值的置信区间,使预测结果更加完善。
3.一元线性回归分析的数学模型
用一元线性回归方程來描述禺和):
之间的关系,即
y.=a0+akx.+A.(i=l,2,…,n)(2-1)
式中,兀和开分别是自变量x和因变量y的第i观测值,兔和①是回归系数,"是
观测点的个数,为对应于y的第i观测值%的随机误差。
假设随机误差满足如下条件:
①服从正态分布;②的均值为零,即E
(2)=0;③的方差等于
基于上述假定,随机变量的数学期望和方差分别是
e(x)=。
。
+也0订
(2-2)
工⑷=刃
如果不考虑式中的误差项,我们就得到简化的式子
X=a°+q齐
(2-3)
该式称为y对x的一元回归模型或一元回归方程,其相应的回归分析称为一元线性回归分析。
依据这一方程在直角坐标系中所作的直线就称为回归直线。
4.回归参数的估计
回归模型中的参数绻与®在一般情况下都是未知数,必须根据样本观测数据(兀,必)来估计。
确定参数兔与勺值的原则是要使样本的回归直线同观察值的拟合状态最好,即要使得偏差最小。
为此,可以采用最小二乘法的办法來解决。
对应于每一个兀,根据回归直线方程式(2-3)可以求出一个;,它就是yr•的一个估计值。
估计值和观测值之间的偏差4=(开-$)。
要使模型的拟合状态最好,就是说要使"个偏差平方和最小为标准来确定回归模型。
y=Ba+A
为了方便起见,记
则式(2-1)用矩阵形式表示为
(2-4)
设V为误差△的负估值,称为y的改正数或残差,:
为回归参数。
的估值,则可以写出类似于参数平差的误差方程
V=Ba-y
(2-5)
根据最小二乘原理VrV=mill,求自由极值,得
da
即BrV=0
(2-6)
将误差方程(2-5)代入,即得法方程为
BTBa=Bry
(2-7)
记
_1"_1""(一*"r_2
X=_工兀,),=_工升,s<’=工—,
n,=in口.=1,=i
Syy=E(y,-yJ=YK-ny2‘=亍(兀一孤-y)=£础-nxy
/=!
r=li=lr=l
btb=
nnx
——2
BTy=
ny
nxSxx+nx
Sxy+nxy_
于是可得回归参数的最小二乘估值为
a=(BTB}lBTy
(2-8)
即
人1
v—
(几+応'“7-X
ny
1
兀-Is巧
A
S“
\〃
-X1
Sxy+nxy
Sxy
参数兔与6的具体表达形式为
«o=y-^vv/5x.t
(2-9)
ai=Sp/Sg-
求出参数玄与:
以后,就可以得到一元线性回归模型
y=a0+qx
(2-10)
由此,只要给定了一个兀值,就可以根据回归模型求得一个;•作为实际值开的预测值。
5.精度分析
对于给定的兀,根据回归模型就可以求出片的预测值。
但是用』来预测y的精度如何,产生的误差有多大是我们所关心的。
这里釆用测量上常用的精度指标来度量回归方程的可靠性。
一个回归模型的精度或剩余标准离差定义式为
(2-11)
由于参数的个数是2,观测值总数是〃,多余观测是(n-2),因此式中分母是
S-2)。
运用估计平均误差可以对回归方程的预测结果进行区间估计。
若观察值
围绕回归直线服从正态分布,且方差相等,则有68.27%的点落在±2的范围内,有95.45%的点落在±2(7的范围内,有99.73%的点落在±3匸的范围内。
根据参数平差理论可知,d的协因数矩阵为
(2-12)
从而,a的方差估值为
(2-13)
A2A2]一
6=a0
6.线性回归效果的显著性检验
对一元线性回归模型的统计检验包括两个内容:
一是线性回归方程的显著性检验;二是对回归系数进行统计推断。
在一元线性回归分析中,线性回归效果的好坏取决于y与兀的线性关系是否密切。
若|&|越大,y随x的变化趋势就越明显;若|&|越小,y随x的变化趋势就越不明显。
特别的,当&=0时,意味着y与x之间不存在线性相关关系,所建立的线性回归方程没有意义。
所以,只有当a^O时,y与x之间才有线性相关关系,所建立的线性回归方程才有实际意义。
因此,对线性回归效果好坏的检验,就归结为对统计假设=0的检验。
若拒绝H。
,就认为线性回归有
意义;若不能拒绝H。
,就认为线性回归无意义。
下面介绍两种检验方法:
F检验法和相关系数检验法。
1.F检验法
进行F检验的关键在于确定一个合适的统计量及其所服从的分布。
当原假设成立时,根据F分布的定义可知
斗升一对/(〃一2)
(2-14)
当给定显著性水平a=0.05或0.01,由F分布分位数值表得临界值匚°(1/-2),由样本观测值计算出统计量F的实测值。
若则以显著水平a拒绝H。
;若F<^(1,«-2)则以显著水平a接受一般按下述标准判断。
(1)若F>F099(l,n-2),则认为线性回归方程效果极显著。
(2)若F095(l,n-2) (3)若耳.95(1/-2),则认为线性回归效果不显著。 2.相关系数检验法 相关系数检验法是通过y与x之间的相关系数对回归方程的显著性进行检 验的,由样本观测值,即(並,)。 (兀2,儿),-「(£,儿),可以得到相关系数的实测值为 (2-15) 相关系数0<厂<1,现作如下进一步分析。 (1)当旷=0时,Sxy=0,因而勺=0,此时线性回归方程y=。 0+4兀=。 0,表明y与x之间不存在线性相关关系。 (2)当0<|r|<104,y与x之间存在一定的线性相关关系,当厂>0时,q>0,此时称y与X正相关;当厂<0时,^<0,此时称y与x负相关;当|厂|越接近于0时,此时y与x的线性关系越微弱;当卜|越接近于1时,此时y与x的线性关系越强。 (3)当卜|=1时,y与X完全线性相关,表明y与x之间存在确定的线性函数关系;当r=l时,称y与x正相关;当时,称y与x负相关。 当给定显著性水平a=0.05或0.01,由 2))=1-a (2-16) 来判断线性回归方程的效果。 若本观测值算出的相关关系实测值r>/]_a(A2-2),则以显著性水平的关系a拒绝H。 ;若r 。 一般按下述标准判断。 (1)若r>r099(n-2),则认为线性回归方程效果极显著。 (2)若缶(―2)"59血-2),贝IJ认为线性回归方程效果显著。 (3)若r<^.95(n-2),则认为线性回归效果不显著。 临界值jS-2)可由下式确定 (2-17) 7.[实例解算] 设某线性回归问题的自变量片和观测值): 的数据如表2-1所示,试求其回归方程。 表2-1 序号 1 2 3 4 5 6 7 8 9 10 25 27 29 32 34 36 35 39 42 45 2.8 2.9 3.2 3.2 3.4 3.2 3.3 3.7 3.9 4.2 [解] (1)回归方程的建立。 由表中数据计算得 Sxx=±(兀一才=f彳-nx1=12208-10xll83.36=372.4i=l1=1 Svv=f(x_亍j=fy;_ny2=115.96-10x114.244=1.716r=li=l Sq=£6-办-y)=EI-nxy=1186.9-1162.72=24.18i=l/=! AS XX =24.18_006493 372.4 a。 =『一勺兀=3.38-0.06493x34.4=1.1464于是,就得到一元线性回归模型 y=1.1464+0.06493X 计算y值。 结果列于表2-2中。 表2-2 序号 1 2 3 4 5 6 7 8 9 10 25 27 29 32 34 36 35 39 42 45 2.8 2.9 3.2 3.2 3.4 3.2 3.3 3.7 3.9 4.2 A儿 2.77 2.90 3.03 3.22 3.35 3.48 3.42 3.68 3.87 4.07 匕 0.03 0.00 0.17 -0.02 0.05 -0.28 -0.12 0.02 0.03 0.13 ⑵精度评定 一单位权中误差为 ^H=0.134 V8 一一回归方程系数中误差计算如下。 : 的权倒数 1x134.4 =1=H nSxx10372.4 : 的方差估值为 (—2\ b二—4-=0.0034,b= I"^xx丿 其中误差为 £=0.059,£=0.022 (3)显著性检验 设 原假设//0: ^=0;备选假设Ha严0 当原假设为真时,有 因多余观测(自由度)是8,查表得化99(1,8)=11・26,显然化』,8),原假设不成立,所求得的线性回归效果极显著。 如果本例用相关系数检验法对线性回归效果进行显著性检验,可用式(2-15)计算,即 由式(2-17)计算相关系数临界值2)=0.765,由于 厂=0.9565>0.765 故y与x的线性(正)相关关系极显著,此结果与F检验法得到的结论完全一致。 多元线性回归分析 1•数学模型 多元线性回归分析是研究一个因变量与多个自变量之间线性相关关系的统计分析方法。 多元线性回归考虑到多个自变量对因变量的影响,能够更真实地反映现象之间的相互关系。 假设一个随机变量y与加个非随机变量兀之间存在线性相关关系,则它们之间的关系可以用多元线性回归模型来表示,即 y=a。 +。 內+a2x2+…+amxnt+A (3-1) 式中,y是因变量,X.(心1,2,…,加)是自变量,陽(心0,1,2,…,加)是模型的参数,称为回归方程的系数。 △是随机误差。 与一元线性回归模型类似,如果多元线性回归模型中的误差项△服从正态性,并具有无偏性,则△〜N(0,k),贝IJ E(y)=a0+a內+a2x2+■■■+a尽 (3-2) £(),)=》(△)=b, 由此可见,y〜N[E(y),cr计。 2•多元线性回归方程的确定 多元线性回归模型的参数①(i=0,l,2,…,加)及夕在一般情况下都是未知数,必须根据样本观测数据来估计。 假设我们进行了〃次观测,得”组观测数据 (开,®,%,J=l,2,,/? o它们应有的回归关系可写为 )[=绻+a,xn+a2x2l+…+amxml+ 儿=+。 內2+EE+…+amxm2+A2 (3-3) 儿=a。 +q礼+a2x2n+…+a,nxmn+A„」 )'= 儿 A= a2 a= ■«o_ B= 「1 1 x2\- x22- ■-兀”「 ■-兀”2 _an,_ 1 呂”- ■-兀叫 则式(3-3)用矩阵形式表示为 y=Ba+A (3-4) 与其对应的误差方程为 V=Ba-y (3-5) 根据最小二乘原理VrV=mm,法方程为 BTBa=BTy (3-6) 于是可得回归参数的最小二乘估值为 a=(BTByBTy (3-7) 其中 n -工心■ (耐)= 工对- -工兀心 ,Bry= 工3 -工忧一 "”必 当求出回归参数&(心0,1,2,…冲)后,就可以得到多元线性回归模型 八人八八A yi=a0+alxl+a2x2+-+amxm (3-8) 由此,只要给定了兀的值,就可以根据回归模型求得;•作为实际值开的预测值。 3.精度分析 多元线性回归模型的中误差定义式为 (3-9) 观测值个数是”,参数个数为加+1,多余观测为[〃-(加+1)],因此上式分母为[n-(m+l)]o 根据参数平差理论可知,: 的协因数矩阵为 Q仝聞 aa (3-10) 从而,: 的方差估值为 (3-11) 至于: 的方差,同样根据参数平差理论可得 /A\A- 耳y=a0BQBt l丿" (3-12) 4•多元线性回归效果的显著性检验 与一元线性回归模型一样,在得到多元线性回归模型以后也需要对模型中所包含的变量是否确实与因变量之间存在线性相关关系,以及回归模型的拟合效果如何进行分析检验。 主要考察儿儿,…,儿与再,兀,…,X,”是否具有线性相关关系,即需要检验统计假设 H。 】q=a? =…=cim—0;H「-,am不全为零 (3-13) 对于给定的显著性水平a,若拒绝H。 ,就认为这个加元线性整体回归效果显著;若不能拒绝日。 ,就认为这个加元线性整体回归效果不显著。 为了进行上述检验,关键在于确定一个合适的统计量及其所服从的分布,着眼于统计量,参考一元线性回归检验,多元线性回归整体检验统计量为 (3-14) 查表可得坊_&(加加-1)。 若加-1),则以显著水平Q拒绝H。 ;若 F<也(m,n-m-l),则以显著水平a接受H。 。 需要指出的是,对于多元回归来说,线性回归效果仅说明q卫-%不全为零,但有可能接近于零。 也就是说,多元回归效果显著是就总体而言的,并不意味着各自变量兀对因变量儿的影响都是显著的,因此有必要从原来的回归方程中剔除那些无显著性影响的自变量,重新建立更为理想的线性回归方程。 为此,在检验完整体回归效果显著之后,还必须就每个自变量石对因变量儿的线性影响是否显著进行检验,其检验统计假设 H©.毎=0;工0(d=l,2,…,加) (3-15) 对于多项式回归模型 y2=^o++a2xi+…+a,„X2+A2 只要设 (3-16) ^21 ^12' z22- ■Zlm ■■S X2 彳- X; -坨 乙2" 'Znm_ _Xn 兀- ・暫」 yn=兔+叭+a2x;+…+amx^+A„ (3-17) 就可以按线性回归方法进行回归计算。 5•举例解算 以某楼Al点累计沉降量为因变量,时间间隔和承受的荷载为自变量进行回归分析,设时间间隔为自变量XI,承受的荷载为自变量X2,累计变化为因变量Y,利用EXCEL软件的一工具中回归分析功能进行回归分析。 时间间隔荷戟 S3'1T"CO 累计下'几里 0 0 1 15 1.5 -0.472 12 2.8 -0.584 14 3.5 -0.826 10 5 -1.171 10 7.5 -1.353 19 8.5 -1.423 17 10 -1.569 14 11 -1.642 12 13 -1.714 119 15 -1.852 16 16 -1.96 16 16 -2.197 15 16 -2.212 15 16 -2.315 经计算得到: 如下图的结果 方差分析 dfSSMSFmificanceF 回归分析26.3284323.164216101.78162.98E-08 残差120.373060.031088 总计146.701491 Coefficierr标准误差tStatP-valueLower95%Uppe: r95%F限95.0》上限95.0% Intercept-0.126130.144981-0.869990.401375-0.442020.189754-0.442020.189754 时间间隔-0.019270.012163-1.584710.139017-0.045780.007226-0.045780.007226 荷载-0.108310.00992-L0.91761.38E-07-0.12992-0.08669-0.12992-0.08669 观测值 预测累计下沉量 残差 标准残差 1 -0.234436657 0.234437 1.436152 2 -0.577709666 0.10571 0.647574 3 -0.660682437 0.076682 0.469754 4 -0.775045507 -0.05095 -0.31215 5 -0.860404639 -0.3106 -1.9027 6 -1.131167805 -0.22183 -1.35894 7 -1.412945297 -0.01005 -0.06159 8 -1.536853813 -0.03215 -0.19693 9 -1.587335004-0.05466 -0.33488 10 -1.765396154 0.051396 0.314851 11 -2.116929528 0.26493 1.622951 12 -2.167410719 0.207411 1.270592 13 -2.167410719 -0.02959 -0.18126 14 -2.148136028 -0.06386 -0.39123 15 -2.148136028 -0.16686 -1.0222 可得出Y=-0.019X1-0.108X2-0.126 (1)回归方程的检验(F检验)通过回归分析可以知道,F统计量为 101.782,取#0.05,查F分布表可得到自由度为(gn-p-l)的临界值为Fo.05(2,12)=3.89。 显然地,F统计量远大于临界值,说明两个自变量联合起来对因变量有显著影响。 (2)回归系数的检验(t检验)从回归分析的结果可以看出,与时 间间隔的参数所对应的t统计量为-2.585,承受的荷载的参数所对应的t统计量为-10.918o取a=0.05,查t分布表可得ta/2(n-k)=to.o25(15-3)=2.178。 与分析计算的t统计量想比较可知,两个自变量的参数所对应的t统计量的绝对值都大于临界值2.178,说明两个自变量对沉降量累计变化量的影响都是显著的。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性 回归 分析 讲解
![提示](https://static.bdocx.com/images/bang_tan.gif)