回归分析大作业Word下载.docx
- 文档编号:21761820
- 上传时间:2023-02-01
- 格式:DOCX
- 页数:23
- 大小:313.08KB
回归分析大作业Word下载.docx
《回归分析大作业Word下载.docx》由会员分享,可在线阅读,更多相关《回归分析大作业Word下载.docx(23页珍藏版)》请在冰豆网上搜索。
256.2
377.6
118.58
6.49
1997
78060.9
644
328.1
394.6
122.64
6.60
1998
83024.3
695
345.0
417.8
127.85
6.64
1999
88479.2
719
394.0
452.3
135.17
6.74
2000
98000.5
744
426.6
491.0
140.27
6.87
2001
108068.2
784
449.5
521.2
169.80
7.01
2002
119095.7
878
441.8
557.6
176.52
7.19
2003
135174.0
870
395.7
596.9
180.98
7.30
2004
159586.8
1102
427.5
645.3
187.07
7.44
2005
183618.5
1212
436.1
695.2
334.52
7.54
2006
215883.9
1394
446.9
761.9
345.70
7.71
2007
266411.0
1610
482.6
843.4
358.37
7.80
2008
315274.7
1712
511.0
916.8
373.02
7.97
2009
341401.5
1902
535.4
1001.6
386.08
8.55
2010
403260.0
2103
598.2
1062.6
400.82
9.12
air
railtran
roadtran
shiptran
airtran
travel
104.56
108738
953940
26165
4039
1023.5
112.90
102745
1040810
23924
5117
1375.7
116.65
94797
1122110
22895
5555
1638.4
142.50
93308
1204583
22573
5630
2112.7
150.58
95085
1257332
20545
5755
2391.2
152.22
100164
1269004
19151
6094
2831.9
150.29
105073
1347392
19386
6722
3175.5
155.36
105155
1402798
18645
7524
3522.4
163.77
105606
1475257
18693
8594
3878.4
174.95
97260
1464335
17142
8759
3442.3
204.94
111764
1624526
19040
12123
4710.7
199.85
115583
1697381
20227
13827
5285.9
211.35
125656
1860487
22047
15968
6229.7
234.30
135670
2050680
22835
18576
7770.6
246.18
146193
2682114
20334
19251
8749.3
234.51
152451
2779081
22314
23052
10183.7
276.51
167609
3052738
22392
26769
12579.8
数据来源:
《中国统计年鉴2011》
数据说明:
Year:
年份。
Income:
国民总收入,单位亿元。
Number:
旅游人数。
Expense:
人均旅游花费,单位元。
Level:
居民消费水平指数,以1978年为基年。
Road:
公路里程,单位万公里。
Rail:
铁路里程,单位万公里。
Air:
民航里程,单位万公里。
Roadtran:
公路客运量,单位万人。
Railtran:
铁路客运量,单位万人。
Shiptran:
水路客运量,单位万人。
Airtran:
民航客运量,单位万人。
Travel:
国内旅游消费总额,单位亿元。
四、回归分析
1、相关性
首先分析相关性,画出散布阵。
可较为直观地看出,travel与各变量间有较强的相关性,除了road,和shiptran两项,做相关性检验,可见‘travel与road是线性相关的,相关系数为0.93,p-value=4.563e-08,而travel与shiptran不相关,p-value=0.9983,所以可先排除shiptran,再做回归。
2、全回归模型
直接建立多元回归模型,得结果:
Coefficients:
EstimateStd.ErrortvaluePr(>
|t|)
(Intercept)-5.972e+033.193e+03-1.8700.110617
income2.151e-024.779e-034.5010.004100**
number1.039e+001.446e+000.7190.499354
expense6.805e+001.124e+006.0520.000922***
level-5.815e+001.261e+00-4.6100.003653**
road-1.468e+001.019e+00-1.4410.199608
rail6.274e+024.462e+021.4060.209292
air-4.155e+002.790e+00-1.4900.186935
railtran2.524e-028.492e-032.9720.024903*
roadtran-4.093e-044.554e-04-0.8990.403410
airtran1.058e-011.272e-010.8320.437327
Signif.codes:
0‘***'
0.001‘**'
0.01‘*'
0.05‘.'
0.1‘'
1
Residualstandarderror:
84.55on6degreesoffreedom
MultipleR-squared:
0.9998,AdjustedR-squared:
0.9994
F-statistic:
2462on10and6DF,p-value:
5.061e-10
其中,R2=0.9998,F检验的p-value:
2.632e-08,可见回归模型的检验是成立的,但回归系数并不是全能通过检验,所以应该进行选元。
3
、选元先进行逐步回归,逐步回归排除了roadtran,number两个变量,以AIC准则为主要判断依据,调整后的AIC值为153.73,达到最小值。
再检验一下回归模型:
Coefficients:
|t|)(Intercept)-4.393e+032.102e+03-2.0900.070022.income1.898e-022.320e-038.1793.72e-05***expense7.038e+009.369e-017.5126.85e-05***level-5.427e+001.057e+00-5.1330.000893***road-1.460e+009.339e-01-1.5640.156518rail3.697e+022.865e+021.2900.232935air-3.589e+002.496e+00-1.4380.188431railtran2.166e-026.843e-033.1650.013295*airtran2.032e-015.464e-023.7190.005879**
78.95on8degreesoffreedomMultipleR-squared:
0.9997,AdjustedR-squared:
0.9994F-statistic:
3529on8and8DF,p-value:
2.252e-13
可见回归模型改善,自由度调整负相关系数达到了0.9994,有所提高,这与AIC准则的判断相符,而回归系数的检验也有所好转,但仍然有road,rail,air通不过检验。
若去掉一个变量回归,可见:
DfSumofSqRSSAIC<
none>
49866153.73income1416943466809189.75expense1351763401629187.19level1164237214103176.50road11524165107156.26rail11038060246154.94
air11288662752155.63
railtran162438112303165.53airtran186215136081168.79
去掉rail,AIC增加最小,同时RSS曽加最小,而回归方程系数检验:
(Intercept)-1.773e+035.648e+02-3.1400.011936*income1.935e-022.386e-038.1121.98e-05***expense7.977e+006.116e-0113.0433.77e-07***level-5.126e+001.069e+00-4.7970.000978***
road-2.214e+007.550e-01-2.9330.016676*
air-5.129e+002.272e+00-2.2570.050398.railtran1.495e-024.613e-033.2410.010144*airtran2.603e-013.323e-027.8322.62e-05***
只有air一项在a=0.05的情况下是不能通过检验的,若排除Coefficients:
(Intercept)-2.450e+035.683e+02-4.3100.00154**income1.834e-022.782e-036.5936.13e-05***expense7.465e+006.742e-0111.0726.21e-07***level-5.389e+001.261e+00-4.2730.00163**
road-2.381e+008.921e-01-2.6690.02355*
railtran1.933e-024.970e-033.8890.00301**airtran2.451e-013.864e-026.3438.42e-05***
所有回归系数通过检验,回归模型初步确立。
4、回归诊断
计算得出残差,进行W正态性检验,得到p-value=0.9066
air,则:
,不能拒绝正态性假设。
而回归值与标准化残差的残差图为:
20004000600080001000012000
y
从图中也可看出,残差分布均匀且无规律,所以线性回归的基本假设满足,且没有自相
关性。
而再看:
Im(travel*income+expense+level+road+railtran+airtran)
scunp一sa(r
NormalQ-Q
.<
>
s(unp_s①」p①Np」epu<
5s
O11
-1
TheoreticalQuantiles
lm(travel~income+expense+level+road+railtran+airtran)
Fittedvalues
Cook'
sdistance
15
IO
io
10
11
Obs.number
综合看上面四幅图,11和15号观测值可能为强影响值,但产生原因还需要探究,可能是统计过程上的,亦可能是分析方法上的,去掉后回归效果减弱,所以暂不剔除。
再检验多重共线性,kappa=1346.411>
1000,所以存在多重共线性,接近零的特征值及其相应特征向量为:
0.004087919,
[,6]
[1,]0.74512169
[2,]0.07020978
[3,]-0.60233849
[4,]0.13346499
[5,]-0.14256057
[6,]-0.19727183
0.005567391
[,5]
[1,]-0.264478984
[2,]0.115775260
[3,]-0.550564160
[4,]0.004567634
[5,]-0.073879174
[6,]0.779773728
可见,1,3,6之间即income与level,airtran之间可能存在严重的多重共线性关系,更可能的是在income与level之间,这在经济意义上也可以理解,国民收入越高,消费水平越高,而坐飞机的人才越多,前两者关系更直接。
所以引起原因可能是有多余的自变量,分别去掉income,level,airtran做回归,并计算kappa值。
从结果知,不管去掉哪一个,kappa值均减少一半左右,而只有去掉level时,回归方程几乎无影响,
(Intercept)-3.824e+037.511e+02-5.0910.000349***income1.217e-023.811e-033.1940.008552**expense5.483e+007.843e-016.9912.3e-05***road-4.247e+001.247e+00-3.4070.005855**railtran2.708e-027.416e-033.6510.003811**airtran1.929e-015.876e-023.2840.007288**
155.7on11degreesoffreedom
0.9985,AdjustedR-squared:
0.9978
1450on5and11DF,p-value:
4.078e-15
所以可以剔除level。
再做一下异方差性的检验,用等级相关系数法,计算残差的绝对值与自变量间的等级相关系数,分别为0.2156863,0.05637255,0.2156863,0,0.2156863发现并无相关的,所以模型拟合良好。
5、模型确立
Travel=-3.824e+03+1.217e-02*income+5.483*expense-4.247*road
+2.708e-02*railtran+1.929e-01*airtran
五、模型评注
从模型来看,国内旅游消费量可由国民收入、人均旅游花费、铁路客运量、民航客运量、
公路里程来建模模拟预测,这与实际意义相符。
前两者可归纳为人民生活水平,后三者是国
家交通建设方面,而恰恰包括了公路、铁路、航空三个方面。
所以回归方程的建立与其实际意义大致相符,影响因素也基本确定。
但是受开始自变量选择的影响,有可能存在重要变量
为选入。
六、程序代码及输出(编程语言:
R)
x=read.csv("
数据.csv"
head=T)
a=x[,2:
13]
plot(a)
cor.test(road,travel)/*相关性检验*/
Pearson'
sproduct-momentcorrelationdata:
roadandtravelt=10.0692,df=15,p-value=4.563e-08alternativehypothesis:
truecorrelationisnotequalto095percentconfidenceinterval:
0.82099800.9761007sampleestimates:
cor
0.9333393
cor.test(shiptran,travel)
Pearson'
sproduct-momentcorrelation
data:
shiptranandtravelt=0.0021,df=15,p-value=0.9983alternativehypothesis:
-0.48022170.4810676sampleestimates:
0.0005500457>
model=lm(travel~income+number+expense+level+road+rail+air+railtran+roadtran+airtran)
summary(model)/*建立回归模型*/
Call:
lm(formula=travel~income+number+expense+level+road+rail+air+railtran+roadtran+airtran)
Residuals:
Min1QMedian3QMax-72.549-44.8603.56244.80690.603
|t|)(Intercept)-5.972e+033.193e+03-1.8700.110617income2.151e-024.779e-034.5010.004100**number1.039e+001.446e+000.7190.499354expense6.805e+001.124e+006.0520.000922***level-5.815e+001.261e+00-4.6100.003653**road-1.468e+001.019e+00-1.4410.199608rail6.274e+024.462e+021.4060.209292air-4.155e+002.790e+00-1.4900.186935railtran2.524e-028.492e-032.9720.024903*roadtran-4.093e-044.554e-04-0.8990.403410airtran1.058e-011.272e-010.8320.437327
0
0.001‘**'
0.01
*'
0.05
0.1‘'
84.55on6degreesoffreedomMultipleR-squared:
5.061e-10>
model1=step(model)/*逐步回归*/
Start:
AIC=155.17travel~income+number
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 回归 分析 作业