实验七多重共线性.docx
- 文档编号:8113061
- 上传时间:2023-01-28
- 格式:DOCX
- 页数:16
- 大小:166.22KB
实验七多重共线性.docx
《实验七多重共线性.docx》由会员分享,可在线阅读,更多相关《实验七多重共线性.docx(16页珍藏版)》请在冰豆网上搜索。
实验七多重共线性
实验七多重共线性
7.1实验目的
掌握多重共线性问题出现的来源、后果、检验及修正的原理,以及相关的EViews软件操作方法。
7.2实验内容
7.2.1建立农村居民食品支出的模型
2004年31省市自治区农村居民人均年食品支出(FOOD,元)、人均年总支出(EX,元)和人均年可支配收入(IN,元)数据见表7.1。
试建立2004年农村居民食品支出模型。
表7.1
Obs
FOOD
IN
EX
Obs
FOOD
IN
EX
北京
3925.54
15637.84
12200.4
湖北
2516.2
8022.75
6398.52
天津
3278.24
11467.16
8802.44
湖南
2479.58
8617.48
6884.61
河北
2142.36
7951.31
5819.18
广东
3953.3
13627.65
10694.79
山西
1917.75
7902.86
5654.15
广西
2727.09
8689.99
6445.73
内蒙古
2024.87
8122.99
6219.26
海南
2722.84
7735.78
5802.4
辽宁
2643.95
8007.56
6543.28
重庆
3015.32
9220.96
7973.05
吉林
2180.09
7840.61
6068.99
四川
2560.35
7709.87
6371.14
黑龙江
1972.24
7470.71
5567.53
贵州
2260.46
7322.05
5494.45
上海
4593.32
16682.82
12631.03
云南
2895.6
8870.88
6837.01
江苏
2931.7
10481.93
7332.26
西藏
3799.17
9106.07
8338.21
浙江
3851.23
14546.38
10636.14
陕西
2236.48
7492.47
6233.07
安徽
2509.02
7511.43
5711.33
甘肃
2204.04
7376.74
5937.3
福建
3394.63
11175.37
8161.15
青海
2056.06
7319.67
5758.95
江西
2296.48
7559.64
5337.84
宁夏
2156.34
7217.87
5821.38
山东
2310.66
9437.8
6673.75
新疆
2083.13
7503.42
5773.62
河南
1855.44
7704.9
5294.19
资料来源:
2005年中国统计年鉴,中国统计出版社
7.2.2建立中国私人轿车拥有量模型
考虑到目前农村家庭购买私人轿车的现象还很少,在建立中国私人轿车拥有量模型时,主要考虑如下因素:
(1)城镇居民家庭人均可支配收入;
(2)城镇总人口;(3)轿车产量;(4)公路交通完善程度;(5)轿车价格。
“城镇居民家庭人均可支配收入”、“城镇总人口数”和“轿车产量”可以直接从统计年鉴上获得。
“公路交通完善程度”用全国公路里程度量,也可以从统计年鉴上获得。
由于国产轿车价格与进口轿车价格差距较大,而且轿车种类很多,做分种类的轿车销售价格与销售量统计非常困难,所以因素“轿车价格”暂且略去不用。
定义变量名如下:
Y:
中国私人轿车拥有量(万辆)
X1:
城镇居民家庭人均可支配收入(元),
X2:
全国城镇人口(亿人)
X3:
全国汽车产量(万辆)
X4;全国公路长度(万公里)
1985-2004年Y,X1,X2,X3,X4的相关数据见表7.2,试分析中国私人轿车拥有量的决定因素,并建立相应的回归模型。
表7.2
obs
Y
X1
X2
X3
X4
1985
28.49
739.1
2.51
43.72
94.24
1986
34.71
899.6
2.64
36.98
96.28
1987
42.29
1002.2
2.77
47.18
98.22
1988
60.42
1181.4
2.87
64.47
99.96
1989
73.12
1375.7
2.95
58.35
101.43
1990
81.62
1510.2
3.02
51.4
102.83
1991
96.04
1700.6
3.05
71.42
104.11
1992
118.2
2026.6
3.24
106.67
105.67
1993
155.77
2577.4
3.34
129.85
108.35
1994
205.42
3496.2
3.43
136.69
111.78
1995
249.96
4283
3.52
145.27
115.7
1996
289.67
4838.9
3.73
147.52
118.58
1997
358.36
5160.3
3.94
158.25
122.64
1998
423.65
5425.1
4.16
163
127.85
1999
533.88
5854
4.37
183.2
135.17
2000
625.33
6280
4.59
207
140.27
2001
770.78
6859.6
4.81
234.17
169.8
2002
968.98
7702.8
5.02
325.1
176.52
2003
1219.23
8472.2
5.24
444.39
180.98
2004
1481.66
9421.6
5.43
507.41
187.07
数据来源:
《中国统计年鉴》(1986年,2005年),中国统计出版社
7.3实验步骤
7.3.1农村居民食品支出模型
利用表7.1数据分别建立FOOD关于EX和IN的散点图,如图7.1和图7.2。
图7.1图7.2
可以看到FOOD与EX和IN都呈现正的线性相关。
建立回归二元线性回归模型,如图7.3。
图7.3
整理回归结果为
Foodt=334.1926-0.1013Int+0.4651Ext(7.1)
(1.92)(-1.25)(4.38)R2=0.88,F=102,T=31
估计式(7.1)中FOOD与IN的回归系数是负的,且不能通过显著性检验。
由散点图7.2知,food与IN是正相关的,显然回归结果与事实不符、与经济理论不符。
原因是EX和IN之间的多重共线性(高度相关)所致。
从表7.3偏相关系数矩阵可以看出变量之间的偏相关系数都大于可决系数0.88。
按克莱茵判别准则可以判断出模型存在严重的多重共线性。
表7.3
FOOD
EX
IN
FOOD
1.000000
0.934576
0.893226
EX
0.934576
1.000000
0.975103
IN
0.893226
0.975103
1.000000
另外,如果用food只对IN回归,回归系数是正的,见图7.4。
与上述二元回归结果中的IN的回归系数相比,符号都是反的。
这也说明上述二元回归结果中存在多重共线性。
图7.4
处理方法是将IN从回归模型中去掉,用food只对EX回归,见图7.5。
图7.5
因此模型为
Foodt=314.29+0.3361Ext(7.2)
(1.80)(14.15)R2=0.87,DW=1.28,F=200,
7.3.2中国私人轿车拥有量模型
1985-2004年中国私人轿车拥有量(Yt)以年增长率23%,年均增长55万辆的速度飞速增长,Yt序列图如图7.6(左边)。
分别建立Y与X1,X2,X3,X4的散点图,如图7.11-7.14,考察它们之间的相关关系。
图7.7图7.8
图7.9图7.10
首先建立一个多元线性回归模型,EViews输出结果见图7.11。
输出结果中,解释变量X1,X2的回归系数却通不过显著性检验。
图7.11
进一步观察Y与X1,X2,X3,X4之间的偏相关系数。
EViews操作方法为:
点击数组文件窗口View/Correlation/PairwiseSamples,如图7.12所示。
图7.12
从而可以得到变量之间的偏向关系数矩阵,如图7.13。
图7.13
由相关系数阵可以发现,Y与X1,X2,X3,X4的相关系数都在0.9以上,但输出结果中,解释变量X1,X2的回归系数却通不过显著性检验。
这预示着解释变量之间一定存在多重共线性。
重新观察散点图,把Y与X2,X3,X4处理成线性关系,把Y与X1处理成幂函数(抛物线)关系,得结果如图7.14,其中X4的系数在5%的显著性水平上不具有显著性,因此剔出掉此变量,重新回归,得到结果如图7.15所示。
每个变量都具有很高的显著性,变量X1,X2,X3能够解释yt99%的变异,模型拟合程度很高。
而且通过检验也发现即没有异方差也没有自相关。
因此得到中国私人轿车拥有量模型为:
yt=-388.1765-0.0889X1+1.62×10-5X12+174.8355X2+0.6314X3+ut(7.3)
(-7.0)(-11.8)(19.4)(8.0)(5.6)
R2=0.999DW=1.66F=5478
拟合值及残差图见图7.16。
图7.14
图7.15
图7.16
案例分析3
一、研究的目的要求
近年来,中国旅游业一直保持高速发展,旅游业作为国民经济新的增长点,在整个社会经济发展中的作用日益显现。
中国的旅游业分为国内旅游和入境旅游两大市场,入境旅游外汇收入年均增长22.6%,与此同时国内旅游也迅速增长。
改革开放20多年来,特别是进入90年代后,中国的国内旅游收入年均增长14.4%,远高于同期GDP9.76%的增长率。
为了规划中国未来旅游产业的发展,需要定量地分析影响中国旅游市场发展的主要因素。
二、模型设定及其估计
经分析,影响国内旅游市场收入的主要因素,除了国内旅游人数和旅游支出以外,还可能与相关基础设施有关。
为此,考虑的影响因素主要有国内旅游人数
,城镇居民人均旅游支出
,农村居民人均旅游支出
,并以公路里程
和铁路里程
作为相关基础设施的代表。
为此设定了如下对数形式的计量经济模型:
其中:
——第t年全国旅游收入,
——国内旅游人数(万人),
——城镇居民人均旅游支出(元),
——农村居民人均旅游支出(元),
——公路里程(万公里),
——铁路里程(万公里)。
为估计模型参数,收集旅游事业发展最快的1994—2003年的统计数据,如表4.2所示:
表4.21994年—2003年中国旅游收入及相关数据
年
份
国内旅游收入Y
(亿元)
国内旅游人数X1
(万人次)
城镇居民人均旅游支出X2
(元)
农村居民人均旅游支出X3(元)
公路里
程X4
(万公里)
铁路里
程X5
(万公里)
1994
1023.5
52400
414.7
54.9
111.78
5.90
1995
1375.7
62900
464.0
61.5
115.70
5.97
1996
1638.4
63900
534.1
70.5
118.58
6.49
1997
2112.7
64400
599.8
145.7
122.64
6.60
1998
2391.2
69450
607.0
197.0
127.85
6.64
1999
2831.9
71900
614.8
249.5
135.17
6.74
2000
3175.5
74400
678.6
226.6
140.27
6.87
2001
3522.4
78400
708.3
212.7
169.80
7.01
2002
3878.4
87800
739.7
209.1
176.52
7.19
2003
3442.3
87000
684.9
200.0
180.98
7.30
数据来源:
《中国统计年鉴2004》
利用Eviews软件,输入Y、X1、X2、X3、X4、X5等数据,采用这些数据对模型进行OLS回归,结果如表4.3:
表4.3回归结果
DependentVariable:
Y
Method:
LeastSquares
Date:
02/22/11Time:
15:
56
Sample:
19942003
Includedobservations:
10
Variable
Coefficient
Std.Error
t-Statistic
Prob.
C
-274.3773
1316.690
-0.208384
0.8451
X1
0.013088
0.012692
1.031172
0.3607
X2
5.438193
1.380395
3.939591
0.0170
X3
3.271773
0.944215
3.465073
0.0257
X4
12.98624
4.177929
3.108296
0.0359
X5
-563.1077
321.2830
-1.752685
0.1545
R-squared
0.995406
Meandependentvar
2539.200
AdjustedR-squared
0.989664
S.D.dependentvar
985.0327
S.E.ofregression
100.1433
Akaikeinfocriterion
12.33479
Sumsquaredresid
40114.74
Schwarzcriterion
12.51634
Loglikelihood
-55.67396
F-statistic
173.3525
Durbin-Watsonstat
2.311565
Prob(F-statistic)
0.000092
由此可见,该模型
,
可决系数很高,F检验值173.3525,明显显著。
但是当
时
不仅
、
系数的t检验不显著,而且
系数的符号与预期的相反,这表明很可能存在严重的多重共线性。
计算各解释变量的相关系数,选择X1、X2、X3、X4、X5数据,点”view/correlations”得相关系数矩阵(如表4.4):
表4.4相关系数矩阵
X1
X2
X3
X4
X5
X1
1.000000
0.918851
0.751960
0.947977
0.941681
X2
0.918851
1.000000
0.865145
0.859191
0.963313
X3
0.751960
0.865145
1.000000
0.664946
0.818137
X4
0.947977
0.859191
0.664946
1.000000
0.897708
X5
0.941681
0.963313
0.818137
0.897708
1.000000
由相关系数矩阵可以看出:
各解释变量相互之间的相关系数较高,证实确实存在严重多重共线性。
三、消除多重共线性
采用逐步回归的办法,去检验和解决多重共线性问题。
分别作Y对X1、X2、X3、X4、X5的一元回归,结果如表4.5所示:
表4.5一元回归结果
变量
X1
X2
X3
X4
X5
参数估计值
0.0842
9.0523
11.6673
34.3324
2014.146
t统计量
8.6659
13.1598
5.1967
6.4675
8.7487
0.9037
0.9558
0.7715
0.8394
0.9054
按
的大小排序为:
X2、X5、X1、X4、X3。
以X3为基础,顺次加入其他变量逐步回归。
首先加入X6回归结果为:
t=(2.9086)(0.46214)
当取
时,
,X5参数的t检验不显著,予以剔除,加入X1回归得
t=(4.2839)(2.1512)
X1参数的t检验不显著,予以剔除,加入X4回归得
t=(6.6446)(2.6584)
X2、X4参数的t检验显著,保留X4,再加入X3回归得
t=(3.944983)(4.692961)(3.06767)
F=231.7935DW=1.952587
当取
时,
X2、X3、X4系数的t检验都显著,
这是最后消除多重共线性的结果。
这说明,在其他因素不变的情况下,当城镇居民人均旅游支出
和农村居民人均旅游支出
分别增长1元时,国内旅游收入
将分别增长4.21亿元和3.22亿元。
在其他因素不变的情况下,作为旅游设施的代表,公路里程
每增加1万公里时,国内旅游收入
将增长13.63亿元。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实验七 多重共线性 实验 多重 线性