应用回归分析第7章课后习题参考答案.docx
- 文档编号:10027703
- 上传时间:2023-02-08
- 格式:DOCX
- 页数:20
- 大小:337.77KB
应用回归分析第7章课后习题参考答案.docx
《应用回归分析第7章课后习题参考答案.docx》由会员分享,可在线阅读,更多相关《应用回归分析第7章课后习题参考答案.docx(20页珍藏版)》请在冰豆网上搜索。
应用回归分析第7章课后习题参考答案
第7章岭回归
思考与练习参考答案
7.1岭回归估计是在什么情况下提出的?
答:
当自变量间存在复共线性时,|X’X|≈0,回归系数估计的方差就很大,估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(RidgeRegression,简记为RR)。
7.2岭回归的定义及统计思想是什么?
答:
岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其统计思想是对于(X’X)-1为奇异时,给X’X加上一个正常数矩阵D,那么X’X+D接近奇异的程度就会比X′X接近奇异的程度小得多,从而完成回归。
但是这样的回归必定丢失了信息,不满足blue。
但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。
7.3选择岭参数k有哪几种方法?
答:
最优
是依赖于未知参数
和
的,几种常见的选择方法是:
岭迹法:
选择
的点能使各岭估计基本稳定,岭估计符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多;
方差扩大因子法:
,其对角线元
是岭估计的方差扩大因子。
要让
;
残差平方和:
满足
成立的最大的
值。
7.4用岭回归方法选择自变量应遵循哪些基本原则?
答:
岭回归选择变量通常的原则是:
1.在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。
我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量;
2.当k值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随着k的增加迅速趋近于零。
像这样岭回归系数不稳定、震动趋于零的自变量,我们也可以予以剔除;
3.去掉标准化岭回归系数很不稳定的自变量。
如果有若干个岭回归系数不稳定,究竟去掉几个,去掉那几个,要根据去掉某个变量后重新进行岭回归分析的效果来确定。
7.5对第5章习题9的数据,逐步回归的结果只保留了三个变量x1,x2,x5,用y对这三个自变量作岭回归分析?
答:
附5.9在研究国家财政收入时,我们把财政收入按收入形式分为:
各项税收收入、企业收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。
为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量,自变量如下:
x1为农业增加值(亿元),x2为工业增加值(亿元),x3为建筑业增加值(亿元),x4为人口数(万人),x5为社会消费总额(亿元),x6为受灾面积(万公顷)。
据《中国统计年鉴》获得1978—1998年共21个年份的统计数据,见表5.4(P167)。
解:
(1)逐步回归法
回归方程为:
y=865.929—0.601x1-0.361x2+0.639x5
但是回归系数的解释不合理。
从经济意义上讲,x1(农业增加值)、x2(工业增加值)的增加应该对y(财政收入)有正方向的影响,然而回归方程中两个自变量的系数均为负值,明显与实际的经济意义不相符。
同时,三个自变量的VIF值均远大于10,说明回归方程仍然存在较强的多重共线性,逐步回归的方法并没有消除自变量之间的多重共线性。
(2)岭回归法:
依题意,对逐步回归法所保留的三个自变量做岭回归分析。
程序为:
include'C:
\ProgramFiles\SPSSEVAL\Ridgeregression.sps'.
ridgeregdep=y/enterx1x2x5
/start=0.0/stop=1/inc=0.01.
岭迹图如下:
计算结果为:
可以看到,变量x1、x2迅速由负变正,x5迅速减小,在0.01-0.1之间各回归系数的岭估计基本稳定,重新做岭回归。
岭迹图如下:
先取k=0.08:
语法命令如下:
include'C:
\ProgramFiles\SPSSEVAL\Ridgeregression.sps'.
ridgeregdep=y/enterx1x2x5
/k=0.08.
运行结果如下:
得到回归方程为:
由于第一主成分的贡献率已达到85%以上,故只选取第一主成分,记作Z1:
Z1=(0.991x1+0.985x2+0.983x3+0.929x4+0.193x5+0.610x6)/5.1331/2,
作Y与Z1的最小二乘估计,输出结果如下:
根据上表得到y与第一主成分的线性回归方程为:
=3400.443+1149.094Z1,
将主成分回代为原自变量得最终方程为:
=0.1093*x1+0.0463*x2+0.2912*x3+0.0512*x4+0.0347*x5+0.0444*x6-6313.397
各自变量的解释意义基本合理。
7.6对习题3.12的问题,分别用普通最小二乘法和岭回归建立GDP对第二产业增加值x2和第三产业增加值x3的二元线性回归,解释所得到的回归系数。
解:
(1)普通最小二乘法:
根据上表得到y与x2,x3的线性回归方程为:
=4352.859+1.438x2+0.679x3
上式中的回归系数得不到合理的解释.
的数值应该大于1,实际上,x3的年增长幅度大于x1和x2的年增长幅度,因此合理的
的数值应大于1。
这个问题产生的原因仍然是存在共线性,所以采用岭回归来改进这个问题。
(2)岭回归法:
程序为:
include'C:
\ProgramFiles\SPSSEVAL\Ridgeregression.sps'.
ridgeregdep=GDP/enterx2x3
/start=0.0/stop=0.5/inc=0.01.
根据岭迹图(如下图)可知,
和
很不稳定,但其和大体上稳定,说明x2和x3存在多重共线性。
取k=0.1,SPSS输出结果为:
MultR.998145,RSquare.996294
AdjRSqu.995677,SE2364.837767
ANOVAtable
dfSSMS
Regress2.0001.80E+0109.02E+009
Residual12.000671094925592457.7
FvalueSigF
1613.140715.000000
--------------VariablesintheEquation----------------
BSE(B)BetaB/SE(B)
x2.907990.021842.48906741.571133
x31.393800.035366.46364939.410560
Constant6552.3059861278.903452.0000005.123378
得岭参数k=0.1时,岭回归方程为=6552.306+0.908x2+1.3938x3,
得岭参数k=0.01时,岭回归方程为=3980.2+1.091x2+1.227x3,
与普通最小二乘回归方程相差很大。
岭回归系数
=1.227与前面的分析是吻合的,其解释是当第二产业增加值x2保持不变时,第三产业增加值x3每增加1亿元GDP增加1.227亿元,这个解释是合理的。
7.7一家大型商业银行有多家分行,近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高。
为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做定量分析,以便找出控制不良贷款的方法。
表7.5(P206)是该银行所属25家分行2002年的有关业务数据。
(1)计算y与其余4个变量的简单相关系数。
(2)建立不良贷款y对4个自变量的线性回归方程,所得的回归系数是否合理?
(3)分析回归模型的共线性。
(4)采用后退法和逐步回归法选择变量,所得的回归系数是否合理?
是否还存在共线性?
(5)建立不良贷款y对4个变量的岭回归。
(6)对(4)剔除变量后的回归方程再做岭回归。
(7)某研究人员希望做y对各项贷款余额、本年累计应收贷款、贷款项目个数这3个自变量的回归,你认为这样做可行吗?
如果可行应怎么做?
解:
首先对数据标准化。
(1)计算
与其余4个变量的简单相关系数。
计算y与各自变量之间的简单相关系数,SPSS输出结果为:
由结果得到,Y与四个自变量的相关系数分别为:
0.844,0.732,0.7,0.519,且都通过了显著性检验,说明
与其余4个变量是显著线性相关的。
同时也可以看出变量之间也存在一定的线性相关性。
(2)建立不良贷款对4个自变量的线性回归方程,所得的回归系数是否合理?
由SPSS输出(如上表)可知回归方程为:
=0.04x1+0.148x2+0.015x3-0.029x4-1.022
从上表可看出,方程的自变量X3、X4、X5未通过t检验,说明回归方程不显著,而且由实际意义出发,x4的系数不能是负的。
所以所得的回归系数不合理。
(3)分析回归模型的共线性。
解:
由上表可知,所有自变量对应的VIF全部小于10,所以自变量之间不存在共线性。
但进行特征根检验见下表:
由这个表可以看出来,第5行中x1、x3的系数分别为0.87、0.63,可以说明这两个变量之间有共线性。
(4)采用后退法和逐步回归法选择变量,所得的回归系数是否合理?
是否还存在共线性?
解:
采用后退法(见下表),所得回归方程为
=0.041x1+0.149x2-0.029x4-0.972
采用逐步回归法(见下表),所得回归方程为
=0.05x1-0.032x4-0.443
所得X4的系数不合理(为负),说明存在共线性
(5)建立不良贷款y对4个变量的岭回归。
对y与全部变量做岭回归。
R-SQUAREANDBETACOEFFICIENTSFORESTIMATEDVALUESOFK
KRSQX1X2X3X4
____________________________________________
.00000.79760.891313.259817.034471-.324924
.05000.79088.713636.286611.096624-.233765
.10000.78005.609886.295901.126776-.174056
.15000.76940.541193.297596.143378-.131389
.20000.75958.491935.295607.153193-.099233
.25000.75062.454603.291740.159210-.074110
.30000.74237.425131.286912.162925-.053962
.35000.73472.401123.281619.165160-.037482
.40000.72755.381077.276141.166401-.023792
.45000.72077.364000.270641.166949-.012279
.50000.71433.349209.265211.167001-.002497
.55000.70816.336222.259906.166692.005882
.60000.70223.324683.254757.166113.013112
.65000.69649.314330.249777.165331.019387
.70000.69093.304959.244973.164397.024860
.75000.68552.296414.240345.163346.029654
.80000.68024.288571.235891.162207.033870
.85000.67508.281331.231605.161000.037587
.90000.67003.274614.227480.159743.040874
.95000.66508.268353.223510.158448.043787
1.0000.66022.262494.219687.157127.046373
由软件输出的岭迹图可以看出,变量x4的岭回归系数从负值变为正值。
其他的变量都很稳定。
说明x4变量与其他变量存在多重共线性,所以剔除变量x4
再用y与剩下的变量作岭回归。
所得结果如下:
R-SQUAREANDBETACOEFFICIENTSFORESTIMATEDVALUESOFK
KRSQX1X2X3
____________________________________
.00000.75964.698331.295891-.065536
.02000.75899.647736.300306-.024703
.04000.75755.607949.302710.006875
.06000.75574.575733.303774.031943
.08000.75377.549026.303916.052255
.10000.75175.526452.303409.068986
.12000.74972.507060.302439.082951
.14000.74771.490172.301133.094736
.16000.74571.475288.299581.104772
.18000.74375.462036.297852.113383
.20000.74181.450130.295992.120819
剔除x4之后岭回归系数变化幅度减小很多,并且有下面的图可以看出k值,基本稳定。
参照复决定系数
,当k=0.4时,
=0.75755仍然很大,所以可以给定k=0.4,重新作岭回归。
RunMATRIXprocedure:
******RidgeRegressionwithk=0.4*****
MultR.850373821
RSquare.723135635
AdjRSqu.683583583
SE2.030268037
ANOVAtable
dfSSMS
Regress3.000226.08975.363
Residual21.00086.5624.122
FvalueSigF
18.28313822.00000456
--------------VariablesintheEquation----------------
BSE(B)BetaB/SE(B)
x1.016739073.003359156.3726273164.983118685
x2.156806656.047550034.2752138783.297719120
x3.067110931.032703990.1592210052.052071673
Constant-.819486727.754456246.000000000-1.086195166
------ENDMATRIX------
故作岭回归后的方程为
y=-0.819486727+0.016739073x1+0.156806656x2+0.067110931x3
(6)对(4)剔除变量后的回归方程再做岭回归。
取k=0.4,作与x1、x4的岭回归
RunMATRIXprocedure:
******RidgeRegressionwithk=0.4******
MultR.802353780
RSquare.643771588
AdjRSqu.611387187
SE2.249999551
ANOVAtable
dfSSMS
Regress2.000201.275100.638
Residual22.000111.3755.062
FvalueSigF
19.87906417.00001172
--------------VariablesintheEquation----------------
BSE(B)BetaB/SE(B)
x1.025805860.003933689.5744623956.560218798
x4.004531316.007867533.050434658.575951348
Constant.357087614.741566536.000000000.481531456
------ENDMATRIX-----
可得岭回归方程为
y=0.357087614+0.025805860x1+0.004531316x4
从实际意义来看,各个系数都能有合理解释。
(7)某研究人员希望做,你认为这样做可行吗?
如果可行应怎么做?
y对各项贷款余额、本年累计应收贷款、贷款项目个数这3个自变量的回归方程见(5)。
方程中系数均能合理解释。
由B/SE(B)这个近似t值可以看出变量都是比较显著的。
所以作y对x1、x2、x3的岭回归是可行的。
主成分回归法:
见做主成分分析下表,取前两个主成分,记为z1,z2,
其中:
z1=(0.95x1+0.767x2+0.916x3+0.862x4)/
Z2=(-0.029x1+0.627x2-0.143x3-0.373x4)/
建立y与Z1,Z2的回归方程
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 回归 分析 课后 习题 参考答案