多元回归模型的统计检验.docx
- 文档编号:6259668
- 上传时间:2023-01-04
- 格式:DOCX
- 页数:8
- 大小:19.12KB
多元回归模型的统计检验.docx
《多元回归模型的统计检验.docx》由会员分享,可在线阅读,更多相关《多元回归模型的统计检验.docx(8页珍藏版)》请在冰豆网上搜索。
多元回归模型的统计检验
多元回归模型的统计检验
3.3
多元线性回归模型的参数估计出来后,即求出样本回归函数后,还需进一步对该样本回
归函数进行统计检验,以判定估计的可靠程度。
包括拟合优度检验、方程总体线性性显著性
检验、变量显著性检验以及参数的置信区间估计等方面。
在一元线性回归模型中,使用可决系数2R来衡量样本回归线对样本观测值的拟合程度。
在多元线性回归模型中,我们也可用该统计量来衡量样本回归线对样本观测值的拟合程度。
22ˆ记为总离差平方和,为回归平方和,ESS,(Y,Y)TSS,(Y,Y),,ii
2ˆ为剩余平方和,则RSS,(Y,Y),ii
2TSS,,(Y,Y)i
2ˆˆ,,((Y,Y),(Y,Y))iii
22ˆˆˆˆ,,(Y,Y),2,(Y,Y)(Y,Y),,(Y,Y)iiiiii
由于
ˆˆˆ(Y,Y)(Y,Y),e(Y,Y),,iiii
ˆˆˆ,,e,,eX,?
,,eX,Ye,,,,0i1i1ikikii
=0
所以有:
22ˆˆTSS,(Y,Y),(Y,Y),RSS,ESS(3.3.1),,iii
即总离差平方和可分解为回归平方和与剩余平方和两部分。
回归平方和反映了总离差平方和
中可由样本回归线解释的部分,它越大,剩余平方和越小,表明样本回归线与样本观测值的
拟合程度越高。
因此,可用回归平方和占总离差平方和的比重来衡量样本回归线对样本观测
值的拟合程度:
ESSRSS2R,,1,(3.3.2)TSSTSS
该统计量越接近于1,模型的拟合优度越高。
2在应用过程中发现,如果在模型中增加一个解释变量,R往往增大。
这是因为残差平方和往往随着解释变量个数的增加而减少,至少不会增加。
这就给人一个错觉:
要使得模型
2拟合得好,只要增加解释变量即可。
但是,现实情况往往是,由增加解释变量个数引起的R
2R的增大与拟合好坏无关,因此在多元回归模型之间比较拟合优度,就不是一个适合的指标,必须加以调整
58
在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是将残
差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响。
记
2为(adjustedcoefficientofdetermination),则有R
RSS/(n,k,1)2R,1,(3.3.3)TSS/(n,1)
其中为残差平方和的自由度,为总离差平方和的自由度。
显然,如果增()nk,,1()n,1
加的解释变量没有解释能力,则对残差平方和RSS的减小没有多大帮助,却增加待估参数
2的个数,从而使R有较大幅度的下降。
调整的可决系数与未经调整的可决系数这间存在如下关系:
n,122(3.3.4)R,1,(1,R)n,k,1
2在实际应用中,R达到多大才算模型通过了检验?
没有绝对的标准,要看具体情况而
定。
模型的拟合优度并不是判断模型质量的唯一标准,有时甚至为了追求模型的经济意义,
2可以牺牲一点拟合优度。
而且,在下一部分中,我们将推导出R与另一个统计量的关系,
2那时会对R有新的认识。
22在例3.2.2中,RR=0.9954,比例2.5.1中的=0.9927大,这应该说是很好的拟合结果了。
*2
为了比较所含解释变量个数不同的多元回归模型的拟合优度,常用的标准还有
Akaikeinformationcriterion,AIC和SchwarzcriterionSC,其
定义分别为
ee2(k,1)(3.3.5)AIC,ln,nn
eekAC,ln,lnn(3.3.6)nn
这两准则均要求仅当所增加的解释变量能够减少AIC值或AC值时才在原模型中增加该解释变量。
显然,与调整的可决系数相仿,如果增加的解释变量没有解释能力,则对残差
平方和,的减小没有多大帮助,却增加待估参数的个数,这时可能导致AIC或AC的值增ee
加。
在例3.2.2中,Eviews的估计结果显示AIC值与AC值分别为6.68与6.83,分别小于例2.5.1中只包含人均国内生产总值一个解释变量时的相应值7.09与7.19。
从这点看,可以说前期人均居民消费应包括在模型中。
(F)
59
方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是
否显著成立作出推断。
从上面的拟合优度检验中可以看出,拟合优度高,则解释变量对被解释变量的解释程
度就高,可以推测模型总体线性关系成立;反之,就不成立。
但这只是一个模糊的推测,不
能给出一个在统计上严格的结论。
这就要求进行方程的显著性检验。
方程的显著性检验所应
用的方法仍是数理统计学中假设检验。
1F
方程显著性的F检验是要检验模型
i=1,2,„,nY,,,,X,,X,?
,,X,,i011i22ikkii中参数是否显著不为0。
按照假设检验的原理与程序,原假设与备择假设分别为
H:
,,,,,,,,000?
012k
H:
不全为零i1
F检验的思想来自于总离差平方和的分解式:
TSS=ESS+RSS
2由于回归平方和ˆ是解释变量X的联合体对被解释变量Y的线性作用的结ESS,y,i
果,考虑比值
22ˆESS/RSS,ye,,ii如果这个比值较大,则X的联合体对Y的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。
因此可通过该比值的大小对总体线性关系进行推断。
根据数理统计学中的知识,在原假设H成立的条件下,统计量0
ESS/kF,(3.3.7)RSS/(n,k,1)服从自由度为(,)knk,,1的分布。
F
给定一个显著性水平,Fknk(,),,1,可得到一个临界值,根据样本在求出统计F,
量的数值后,可通过
Fknk(,),,1Fknk(,),,1>或FF,,,
来拒绝或接受原假设H,以判定原方程总体上的线性关系是否显著成立。
0
对于例3.2.2,计算得到,=2057.3,给定一个显著性水平=0.05,查分布表,得到FF
一个临界值(例中解释变量数目为2,样本容量为22)
F(2,19)=3.520.05
显然有
Fknk(,),,1>F,
60
表明模型的线性关系在95%的置信水平下显著成立。
2
拟合优度检验和方程显著性检验是从不同原理出发的两类检验,前者是从已经得到估计
的模型出发,检验它对样本观测值的拟合程度,后者是从样本观测值出发检验模型总体线性
关系的显著性。
但是二者又是关联的,模型对样本观测值的拟合程度高,模型总体线性关系
的显著性就强。
那么,找出两个用作检验标准的统计量之间的数量关系,在实际应用中互为
验证,是有实际意义的。
用(3.3.3)和(3.3.7)分别表示的两个统计量之间存在下列关系:
n,12(3.3.8)R,1,n,k,1,kF
2R/k或:
(3.3.9)F,2(1,R)/(n,k,1)
2222由(3.3.9)可知F与R同向变化:
当R=0时,F=0;R越大,F值也越大;当R=
21时,F为无穷大。
因此,F检验是所估计回归的总显著性的一个度量,也是R的一个显
2著性检验。
亦即,检验原假设,等价于检验R=0这一虚拟H:
,,,,,,,,000?
012k
假设。
那么,对于例3.2.2,给定一个显著性水平,=0.05时,查分布表,得到临界值FF(2,19)=3.52,即是说,只要F统计量的值大于3.52,模型的线性关系在95%的水平下0.05
22是显著成立的。
将该数值代入(3.3.8),计算得到对应的RR为0.1935。
如果我们首先得到为0.1935,肯定认为该模型质量不高,殊不知它的总体线性关系的显著性水平达到95%。
2这样,在应用中不必对R过分苛求,重要的是需考察模型的经济关系是否合理。
t
对于多元线性回归模型,方程的总体线性关系是显著的,并不能说明每个解释变量对
被解释变量的影响都是显著的,必须对每个解释变量进行显著性检验,以决定是否作为解释
变量被保留在模型中。
如果某个变量对被解释变量的影响并不显著,应该将它剔除,以建立
更为简单的模型。
变量显著性检验中应用最为普遍的是t检验,在目前使用的计量经济学软件包中,都有关于t统计量的计算结果。
1t
在上一节中,已经导出了参数估计量的方差为:
2,1ˆ,Cov(),,(XX)
1,以()XXc,表示矩阵主对角线上的第i个元素,于是参数估计量的方差为:
iii
61
2ˆVar(,),,ciii
22其中ˆ为随机误差项的方差,在实际计算时,用它的估计量代替。
这样,当模型参数,,
估计完成后,就可以计算每个参数估计量的方差值。
因为服从如下正态分布,i
2,~N(,,,c),iiii
因此,可构造如下t统计量
ˆˆ,,,,,,iiii~(3.3.10)tnk(),,1t,s,eeˆ,iciin,k,1
该统计量即为用于变量显著性检验的t统计量。
2t
在变量显著性检验中设计的原假设与备择假设为:
H:
,0(i=1,2…k)0i
,0H:
不是所有的i1
给定一个显著性水平,,得到一个临界值,于是可根据tnk(),,1,2
>或tttnk(),,1tnk(),,1,,,22来拒绝或接受原假设H,从而判定对应的解释变量是否应包括在模型中。
0
需注意的是,在一元线性回归中,t检验与F检验是一致的。
一方面,t检验与F检验都是对相同的原假设H,,0:
进行检验;另一方面,两个01统计量之间有如下关系:
22222,,ˆˆˆˆyx,1,,11,,,,iiF,,,,222222,,e(n,2)e(n,2)e(n,2)x,,e(n,2)x,,,,iiii,,ii,,
22,,e1,i2,,ˆ,,,,t12,,n,2x,i,,
在例3.2.2中,已经由应用软件计算出所有t的数值,分别为:
t,3.306t,3.630t,2.651012
给定一个显著性水平t,(n,k,1)=0.05,查分布表中自由度为19(在这个例中=19)的相
62
t应临界值,得到=2.093。
可见,计算的所有值都大于该临界值,所以拒绝原假设。
t(19),2
即是说,包括常数项在内的3个解释变量都在95%的水平下显著,都通过了变量显著性检
验。
经常遇到一些实际问题,各个变量的t值相差较大,有的在很高的显著性水平下显著,有的则在不太高的显著性水平下显著,是否都认为通过显著性检验?
没有绝对的显著性水
平。
关键仍然是考察变量在经济关系上是否对解释变量有影响,显著性检验起到验证的作用;
同时还要看显著性水平不太高的变量在模型中以及模型应用中的作用,不要简单地剔除变
量。
参数的假设检验用来判别所考察的解释变量是否对被解释变量有显著的线性性影响,但
并未回答在一次抽样中,所估计的参数值离参数的真实值有多“近”。
这需要进一步通过对
参数的置信区间的估计来考察。
在变量的显著性检验中已经知道:
,,,iit,~tnk(),,1s,,i
容易推出:
在(1,,)的置信水平下,的置信区间是i
,(,,,,,,tsts,)(3.3.11),,,,ii,,ii22
其中,t,()nk,,1为分布表中显著性水平为、自由度为的临界值。
t,2
在例3.2.2中,如果给定,=0.05,查表得:
(19)=2.093t(n,k,1),t,0.0252
从回归计算中得到:
ˆ,,120.70s,36.51ˆ0,0
ˆ,,0.2213s,0.061ˆ1,1
ˆ,,0.4515s,0.170ˆ2,2
根据(2.5.1)计算得到,,,、、的置信区间分别为012
(44.284,197.116)
(0.0937,0.3489)
(0.0951,0.8080)
显然,参数,的置信区间最小。
2
同样地,在实际应用中,我们希望置信水平越高越好,置信区间越小越好。
如何才能缩
小置信区间?
从(3.3.11)式中可看出:
(1)增大样本容量n。
在同样的置信水平下,n越大,
63
ee,sc,临界值越小;同时,增大样本容量,在一般情况下可使减小,因为t,,ii,ink,,12
式中分母的增大是肯定的,分子并不一定增大。
(2)更主要的是提高模型的拟合优度,以减
小残差平方和。
设想一种极端情况,如果模型完全拟合样本观测值,残差平方和为0,ee,
则置信区间也为0。
(3)提高样本观测值的分散度。
在一般情况下,样本观测值越分散,cii
越小。
值得注意的是,置信水平的高低与置信区间的大小存在此消彼涨的关系。
置信水平越高,
在其它情况不变时,临界值越大,置信区间越大。
如果要求缩小置信区间,在其它情况t,2
不变时,就必须降低对置信水平的要求。
64
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 回归 模型 统计 检验