线性回归分析法.docx
- 文档编号:2177928
- 上传时间:2022-10-27
- 格式:DOCX
- 页数:14
- 大小:367.28KB
线性回归分析法.docx
《线性回归分析法.docx》由会员分享,可在线阅读,更多相关《线性回归分析法.docx(14页珍藏版)》请在冰豆网上搜索。
线性回归分析法
线性回归分析法
一元线性回归分析和多元线性回归分析
一元线性回归分析
1.简单介绍
当只有一个自变量时,称为一元回归分析(研究因变量和自变量之间的相关关系);当自变量有两个或多个时,则称为多元回归分析(研究因变量和自变量,,…,之间的相关关系)。
如果回归分析所得到的回归方程关于未知参数是线性的,则称为线性回归分析;否则,称为非线性回归分析。
在实际预测中,某些非线性关系也可以通过一定形式的变换转化为线性关系,所以,线性回归分析法成为最基本的、应用最广的方法。
这里讨论线性回归分析法。
2.回归分析法的基本步骤
回归分析法的基本步骤如下:
(1)搜集数据。
根据研究课题的要求,系统搜集研究对象有关特征量的大量历史数据。
由于回归分析是建立在大量的数据基础之上的定量分析方法,历史数据的数量及其准确性都直接影响到回归分析的结果。
(2)设定回归方程。
以大量的历史数据为基础,分析其间的关系,根据自变量与因变量之间所表现出来的规律,选择适当的数学模型,设定回归方程。
设定回归方程是回归分析法的关键,选择最优模型进行回归方程的设定是运用回归分析法进行预测的基础。
(3)确定回归系数。
将已知数据代入设定的回归方程,并用最小二乘法原则计算出回归系数,确定回归方程。
这一步的工作量较大。
(4)进行相关性检验。
相关性检验是指对已确定的回归方程能够代表自变量与因变量之间相关关系的可靠性进行检验。
一般有检验、检验和检验三种方法。
(5)进行预测,并确定置信区间。
通过相关性检验后,我们就可以利用已确定的回归方程进行预测。
因为回归方程本质上是对实际数据的一种近似描述,所以在进行单点预测的同时,我们也需要给出该单点预测值的置信区间,使预测结果更加完善。
3.一元线性回归分析的数学模型
用一元线性回归方程来描述和之间的关系,即
(=1,2,…,)(2-1)
式中,和分别是自变量和因变量的第观测值,和是回归系数,是观测点的个数,为对应于的第观测值的随机误差。
假设随机误差满足如下条件:
服从正态分布;的均值为零,即;的方差等于;各个间相互独立,即对于任何两个随机误差和,其协方差等于零,即,。
基于上述假定,随机变量的数学期望和方差分别是
(2-2)
如果不考虑式中的误差项,我们就得到简化的式子
(2-3)
该式称为对的一元回归模型或一元回归方程,其相应的回归分析称为一元线性回归分析。
依据这一方程在直角坐标系中所作的直线就称为回归直线。
4.回归参数的估计
回归模型中的参数与在一般情况下都是未知数,必须根据样本观测数据来估计。
确定参数与值的原则是要使样本的回归直线同观察值的拟合状态最好,即要使得偏差最小。
为此,可以采用最小二乘法的办法来解决。
对应于每一个,根据回归直线方程式(2-3)可以求出一个,它就是的一个估计值。
估计值和观测值之间的偏差。
要使模型的拟合状态最好,就是说要使个偏差平方和最小为标准来确定回归模型。
为了方便起见,记
,,,
则式(2-1)用矩阵形式表示为
(2-4)
设为误差的负估值,称为的改正数或残差,为回归参数的估值,则可以写出类似于参数平差的误差方程
(2-5)
根据最小二乘原理,求自由极值,得
即(2-6)
将误差方程(2-5)代入,即得法方程为
(2-7)
记
,,,
,
则
,
于是可得回归参数的最小二乘估值为
(2-8)
即
参数与的具体表达形式为
(2-13)
6.线性回归效果的显著性检验
对一元线性回归模型的统计检验包括两个内容:
一是线性回归方程的显著性检验;二是对回归系数进行统计推断。
在一元线性回归分析中,线性回归效果的好坏取决于与的线性关系是否密切。
若越大,随的变化趋势就越明显;若越小,随的变化趋势就越不明显。
特别的,当时,意味着与之间不存在线性相关关系,所建立的线性回归方程没有意义。
所以,只有当时,与之间才有线性相关关系,所建立的线性回归方程才有实际意义。
因此,对线性回归效果好坏的检验,就归结为对统计假设的检验。
若拒绝,就认为线性回归有意义;若不能拒绝,就认为线性回归无意义。
下面介绍两种检验方法:
检验法和相关系数检验法。
1.检验法
进行F检验的关键在于确定一个合适的统计量及其所服从的分布。
当原假设成立时,根据F分布的定义可知
(2-14)
当给定显著性水平=0.05或0.01,由F分布分位数值表得临界值,由样本观测值计算出统计量F的实测值。
若,则以显著水平拒绝;若则以显著水平接受。
一般按下述标准判断。
(1)若,则认为线性回归方程效果极显著。
(2)若,则认为线性回归方程效果显著。
(3)若,则认为线性回归效果不显著。
2.相关系数检验法
相关系数检验法是通过与之间的相关系数对回归方程的显著性进行检验的,由样本观测值,即,可以得到相关系数的实测值为
(2-15)
相关系数,现作如下进一步分析。
(1)当时,,因而,此时线性回归方程,表明与之间不存在线性相关关系。
(2)当时,与之间存在一定的线性相关关系,当时,,此时称与正相关;当时,,此时称与负相关;当越接近于0时,此时与的线性关系越微弱;当越接近于1时,此时与的线性关系越强。
(3)当=1时,与完全线性相关,表明与之间存在确定的线性函数关系;当r=1时,称与正相关;当r=-1时,称与负相关。
当给定显著性水平=0.05或0.01,由
(2-16)
来判断线性回归方程的效果。
若本观测值算出的相关关系实测值,则以显著性水平的关系拒绝;若,则以显著性水平的关系接受。
一般按下述标准判断。
(1)若,则认为线性回归方程效果极显著。
(2)若,则认为线性回归方程效果显著。
(3)若,则认为线性回归效果不显著。
临界值可由下式确定
(2-17)
7.[实例解算]
设某线性回归问题的自变量和观测值的数据如表2-1所示,试求其回归方程。
表2-1
序号
1
2
3
4
5
6
7
8
9
10
25
27
29
32
34
36
35
39
42
45
2.8
2.9
3.2
3.2
3.4
3.2
3.3
3.7
3.9
4.2
[解]
回归方程的建立。
由表中数据计算得
,
于是,就得到一元线性回归模型
计算值。
结果列于表2-2中。
表2-2
序号
1
2
3
4
5
6
7
8
9
10
25
27
29
32
34
36
35
39
42
45
2.8
2.9
3.2
3.2
3.4
3.2
3.3
3.7
3.9
4.2
2.77
2.90
3.03
3.22
3.35
3.48
3.42
3.68
3.87
4.07
0.03
0.00
0.17
-0.02
0.05
-0.28
-0.12
0.02
0.03
0.13
精度评定
——单位权中误差为
——回归方程系数中误差计算如下。
的权倒数
的方差估值为
其中误差为
显著性检验
设
原假设;备选假设
当原假设为真时,有
因多余观测(自由度)是8,查表得,显然,原假设不成立,所求得的线性回归效果极显著。
如果本例用相关系数检验法对线性回归效果进行显著性检验,可用式(2-15)计算,即
由式(2-17)计算相关系数临界值,由于
故与的线性(正)相关关系极显著,此结果与F检验法得到的结论完全一致。
多元线性回归分析
1.数学模型
多元线性回归分析是研究一个因变量与多个自变量之间线性相关关系的统计分析方法。
多元线性回归考虑到多个自变量对因变量的影响,能够更真实地反映现象之间的相互关系。
假设一个随机变量与个非随机变量之间存在线性相关关系,则它们之间的关系可以用多元线性回归模型来表示,即
(3-1)
式中,是因变量,()是自变量,()是模型的参数,称为回归方程的系数。
是随机误差。
与一元线性回归模型类似,如果多元线性回归模型中的误差项服从正态性,并具有无偏性,则,则
(3-2)
由此可见,。
2.多元线性回归方程的确定
多元线性回归模型的参数()及在一般情况下都是未知数,必须根据样本观测数据来估计。
假设我们进行了次观测,得组观测数据(),。
它们应有的回归关系可写为
(3-3)
记
,,,
则式(3-3)用矩阵形式表示为
(3-4)
与其对应的误差方程为
(3-5)
根据最小二乘原理,法方程为
(3-6)
于是可得回归参数的最小二乘估值为
(3-7)
其中
,
当求出回归参数后,就可以得到多元线性回归模型
(3-8)
由此,只要给定了的值,就可以根据回归模型求得作为实际值的预测值。
3.精度分析
多元线性回归模型的中误差定义式为
(3-9)
观测值个数是,参数个数为,多余观测为,因此上式分母为。
根据参数平差理论可知,的协因数矩阵为
(3-10)
从而,的方差估值为
(3-11)
至于的方差,同样根据参数平差理论可得
(3-12)
4.多元线性回归效果的显著性检验
与一元线性回归模型一样,在得到多元线性回归模型以后也需要对模型中所包含的变量是否确实与因变量之间存在线性相关关系,以及回归模型的拟合效果如何进行分析检验。
主要考察与是否具有线性相关关系,即需要检验统计假设
;不全为零
(3-13)
对于给定的显著性水平,若拒绝,就认为这个元线性整体回归效果显著;若不能拒绝,就认为这个元线性整体回归效果不显著。
为了进行上述检验,关键在于确定一个合适的统计量及其所服从的分布,着眼于统计量,参考一元线性回归检验,多元线性回归整体检验统计量为
(3-14)
查表可得。
若,则以显著水平拒绝;若,则以显著水平接受。
需要指出的是,对于多元回归来说,线性回归效果仅说明不全为零,但有可能接近于零。
也就是说,多元回归效果显著是就总体而言的,并不意味着各自变量对因变量的影响都是显著的,因此有必要从原来的回归方程中剔除那些无显著性影响的自变量,重新建立更为理想的线性回归方程。
为此,在检验完整体回归效果显著之后,还必须就每个自变量对因变量的线性影响是否显著进行检验,其检验统计假设
;(3-15)
对于多项式回归模型
(3-16)
只要设
(3-17)
就可以按线性回归方法进行回归计算。
5.举例解算
以某楼A1点累计沉降量为因变量,时间间隔和承受的荷载为自变量进行回归分析,设时间间隔为自变量X1,承受的荷载为自变量X2,累计变化为因变量Y,利用EXCEL软件的―工具中回归分析功能进行回归分析。
经计算得到:
如下图的结果
可得出Y=-0.019X1-0.108X2-0.126
(1)回归方程的检验(F检验)通过回归分析可以知道,F统计量为101.782,取a=0.05,查F分布表可得到自由度为(p,n-p-1)的临界值为F0.05(2,12)=3.89。
显然地,F统计量远大于临界值,说明两个自变量联合起来对因变量有显著影响。
(2)回归系数的检验(t检验)从回归分析的结果可以看出,与时间间隔的参数所对应的t统计量为-2.585,承受的荷载的参数所对应的t统计量为-10.918。
取a=0.05,查t分布表可得ta/2(n-k)=t0.025(15-3)=2.178。
与分析计算的t统计量想比较可知,两个自变量的参数所对应的t统计量的绝对值都大于临界值2.178,说明两个自变量对沉降量累计变化量的影响都是显著的。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性 回归 分析