北航数理统计回归分析第一次大作业.docx
- 文档编号:12030251
- 上传时间:2023-04-16
- 格式:DOCX
- 页数:14
- 大小:95.89KB
北航数理统计回归分析第一次大作业.docx
《北航数理统计回归分析第一次大作业.docx》由会员分享,可在线阅读,更多相关《北航数理统计回归分析第一次大作业.docx(14页珍藏版)》请在冰豆网上搜索。
北航数理统计回归分析第一次大作业
国家财政收入的多元线性回归模型
摘要:
本文以多元线性回归为出发点,选取我国自1990至2009年连续20年的财政收入为因变量,初步选取了7个影响因素,并利用统计软件PASWStatistics17.0对各影响因素进行了筛选,最终确定了能反映财政收入与各因素之间关系的“最优”回归方程:
从而得出了结论,最后我们用2010年的数据进行了验证,得出的结果(86482.00)在误差范围内,表明这个模型可以正确反映影响财政收入的各因素的情况。
关键词:
多元线性回归,逐步回归法,财政收入,SPSS
0符号说明
变量
符号
财政收入
Y
工业
X1
农业
X2
进出口总额
X3
建筑业
X4
人口
X5
商品销售额
X6
国内生产总值
X7
1引言
定义:
所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。
回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。
此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。
通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。
回归分析法预测是利用回归分析方法,根据一个或一组自变量的变动情况预测与其有相关关系的某随机变量的未来值。
进行回归分析需要建立描述变量间相关关系的回归方程。
根据自变量的个数,可以是一元回归,也可以是多元回归。
根据所研究问题的性质,可以是线性回归,也可以是非线性回归。
本文应用逐步回归的方法进行分析。
中国作为世界第一大发展中国家,要实现中华民族的伟大复兴,必须把发展放在第一位。
近年来,随着国家经济水平的飞速进步,人民生活水平日益提高,综合国力日渐强大。
经济上的飞速发展并带动了国家财政收入的飞速增加,国家财政的状况对整个社会的发展影响巨大。
政府有了强有力的财政保证才能够对全局进行把握和调控,对于整个国家和社会的健康快速发展有着重要的意义。
所以对国家财政的收入状况进行研究是十分必要的。
国家财政收入的增长,宏观上必然与整个国家的经济有着必然的关系,但是具体到各个方面的影响因素又有着十分复杂的相关原因。
为了研究影响国家财政收入的因素,我们就很有必要对其财政收入和影响财政收入的因素作必要的认识,如果能对他们之间的关系作一下回归,并利用我们所知道的数据建立起回归模型这对我们很有作用。
而影响财政收入的因素有很多,如人口状况、引进的外资总额,第一产业的发展情况,第二产业的发展情况,第三产业的发展情况等等。
本文从国家统计信息网上选取了1990-2009年这20年间的年度财政收入及主要影响因素的数据,包括工业,农业,建筑业,零售贸易总额,进出口总额,人口总数等。
文中主要应用逐步回归的统计方法,对数据进行分析处理,最终得出能够反映各个因素对财政收入影响的最“优”模型。
2解决问题的方法和计算结果
2.1样本数据的选取与整理
本文在进行统计时,查阅《中国统计年鉴2010》中收录的1990年至2009年连续20年的全国财政收入为因变量,考虑一些与能源消耗关系密切并且直观上有线性关系的因素,初步选取这十九年的国内总产值、工业总产值、人口总数、建筑业、农业、商品零售总额、进出口总额等因素为自变量,分析它们之间的联系。
根据选择的指标,从《中国统计年鉴2010》查选数据,整理如表2-1所示。
2010年的数据是在网上搜索到的。
表2-11990-2009年财政收入及其影响因素统计表
年份
工业
(亿元)
农业
(亿元)
进出口总额(亿元)
建筑业
(亿元)
人口
(万人)
社会商品零售总额(亿元)
财政收入
(亿元)
国内生产总值(亿元)
1990
18689.22
7662.1
5560.1
1345
114333
8300.1
2937.1
18718.3
1991
22088.68
8157
7225.8
1564.3
115823
9415.6
3149.48
21826.2
1992
27724.21
9084.7
9119.6
2174.4
117171
10993.7
3483.37
26937.3
1993
39693
10995.5
11271.0
3253.5
118517
14270.4
4348.95
35260.0
1994
51353.03
15750.5
20381.9
4653.3
119850
18622.9
5218.1
48108.5
1995
54946.86
20340.9
23499.9
5793.8
121121
23613.8
6242.2
59810.5
1996
62740.16
22353.7
24133.8
8282.2
122389
28360.2
7407.99
70142.5
1997
68352.68
23788.4
26967.2
9126.5
123626
31252.9
8651.14
78060.8
1998
67737.14
24541.9
26849.7
10062
124761
33378.1
9875.95
83024.3
1999
72707.04
24519.1
29896.2
11152.9
125786
35647.9
11444.08
88479.2
2000
85673.66
24915.8
39273.2
12497.6
126743
39105.7
13395.23
98000.5
2001
95448.98
26179.6
42183.6
15361.5
127627
43055.4
16386.04
108068.2
2002
110776.48
27390.8
51378.2
18527.1
128453
48135.9
18903.64
119095.7
2003
142271.22
29691.8
70483.5
23083.8
129227
52516.3
21715.25
135174.0
2004
201722.19
36239
95539.1
27745.3
129988
59501
26396.47
159586.7
2005
251619.5
39450.9
116921.8
34552.0
130756
67176.6
31649.29
185808.6
2006
316588.96
40810.8
140971.4
41557.1
131448
76410
38760.2
217522.7
2007
405177.13
48892.9
166740.2
51043.7
132129
89210
51321.78
267763.7
2008
130260.2
33702.0
179921.5
18743.2
132802
116032
61330.35
316228.8
2009
135239.9
35226.0
150648.1
22398.8
133474
148940
68518.30
343464.7
2010
707772.16
60361.0
202923.0
95206.0
137054
154554
83080.00
397983.0
2.2模型的建立与分析
[DataSet0]
从散点图中看出,国内生产总值、工业生产总值、进出口总额、建筑业、商品零售总额这5个变量与财政收入总量基本呈线性分布;而人口总数虽然也与财政收入存在正比的关系,但是从直观上看线性关系不显著,并且人口因素呈现指数关系。
农业与财政收入总量的线性关系不十分明显。
因此为使得到的模型有显著的线性关系,在选取进入回归模型的自变量时,就要进行筛选。
下面给出筛选过程。
Regression
Notes
OutputCreated
03-十二月-201118时25分24秒
Comments
Input
Data
F:
\数理作业\收入.sav
ActiveDataset
DataSet1
Filter
Weight
SplitFile
NofRowsinWorkingDataFile
20
MissingValueHandling
DefinitionofMissing
User-definedmissingvaluesaretreatedasmissing.
CasesUsed
Statisticsarebasedoncaseswithnomissingvaluesforanyvariableused.
Syntax
REGRESSION
/MISSINGLISTWISE
/STATISTICSCOEFFOUTSBCOVRANOVACOLLINTOLCHANGEZPP
/CRITERIA=PIN(.05)POUT(.10)
/NOORIGIN
/DEPENDENTVAR00008
/METHOD=STEPWISEVAR00001VAR00003VAR00004VAR00006VAR00007
/RESIDUALSDURBIN.
Resources
ProcessorTime
0:
00:
00.032
ElapsedTime
0:
00:
00.032
MemoryRequired
3020bytes
AdditionalMemoryRequiredforResidualPlots
0bytes
[DataSet1]F:
\数理作业\收入.sav
VariablesEntered/Removeda
Model
VariablesEntered
VariablesRemoved
Method
1
建筑业
.
Stepwise(Criteria:
Probability-of-F-to-enter<=.050,Probability-of-F-to-remove>=.100).
2
进出口总额
.
Stepwise(Criteria:
Probability-of-F-to-enter<=.050,Probability-of-F-to-remove>=.100).
a.DependentVariable:
财政收入
ModelSummaryc
Model
R
RSquare
AdjustedRSquare
Std.ErroroftheEstimate
1
.997a
.995
.994
1518.61953
2
.998b
.996
.995
1348.53313
a.Predictors:
(Constant),建筑业
b.Predictors:
(Constant),建筑业,进出口总额
c.DependentVariable:
财政收入
ModelSummaryc
Model
ChangeStatistics
RSquareChange
FChange
df1
df2
Sig.FChange
Durbin-Watson
1
.995
3273.184
1
18
.000
2
.001
5.827
1
17
.027
1.088
c.DependentVariable:
财政收入
ANOVAc
Model
SumofSquares
df
MeanSquare
F
Sig.
1
Regression
7.549E9
1
7.549E9
3273.184
.000a
Residual
4.151E7
18
2306205.273
Total
7.590E9
19
2
Regression
7.559E9
2
3.780E9
2078.377
.000b
Residual
3.092E7
17
1818541.599
Total
7.590E9
19
a.Predictors:
(Constant),建筑业
b.Predictors:
(Constant),建筑业,进出口总额
c.DependentVariable:
财政收入
Coefficientsa
Model
UnstandardizedCoefficients
StandardizedCoefficients
B
Std.Error
Beta
t
Sig.
1
(Constant)
1169.872
479.727
2.439
.025
建筑业
.919
.016
.997
57.212
.000
2
(Constant)
817.357
450.333
1.815
.087
建筑业
.806
.049
.875
16.541
.000
进出口总额
.044
.018
.128
2.414
.027
a.DependentVariable:
财政收入
Coefficientsa
Model
Correlations
CollinearityStatistics
Zero-order
Partial
Part
Tolerance
VIF
1
建筑业
.997
.997
.997
1.000
1.000
2
建筑业
.997
.970
.256
.086
11.683
进出口总额
.965
.505
.037
.086
11.683
a.DependentVariable:
财政收入
ExcludedVariablesc
Model
BetaIn
t
Sig.
PartialCorrelation
1
工业
.021a
.909
.376
.215
进出口总额
.128a
2.414
.027
.505
商品销售总额
-.215a
-1.663
.115
-.374
国内总产值
.284a
2.026
.059
.441
2
工业
-.051b
-1.543
.142
-.360
商品销售总额
-.062b
-.399
.695
-.099
国内总产值
.141b
.835
.416
.204
a.PredictorsintheModel:
(Constant),建筑业
b.PredictorsintheModel:
(Constant),建筑业,进出口总额
c.DependentVariable:
财政收入
ExcludedVariablesc
Model
CollinearityStatistics
Tolerance
VIF
MinimumTolerance
1
工业
.553
1.810
.553
进出口总额
.086
11.683
.086
商品销售总额
.017
60.479
.017
国内总产值
.013
76.062
.013
2
工业
.201
4.967
.031
商品销售总额
.010
95.518
.006
国内总产值
.009
117.017
.009
c.DependentVariable:
财政收入
CoefficientCorrelationsa
Model
建筑业
进出口总额
1
Correlations
建筑业
1.000
Covariances
建筑业
.000
2
Correlations
建筑业
1.000
-.956
进出口总额
-.956
1.000
Covariances
建筑业
.002
.000
进出口总额
.000
.000
a.DependentVariable:
财政收入
CollinearityDiagnosticsa
Model
Dimension
VarianceProportions
Eigenvalue
ConditionIndex
(Constant)
建筑业
进出口总额
1
1
1.706
1.000
.15
.15
2
.294
2.411
.85
.85
2
1
2.622
1.000
.05
.01
.01
2
.357
2.709
.89
.02
.01
3
.021
11.228
.06
.97
.98
a.DependentVariable:
财政收入
ResidualsStatisticsa
Minimum
Maximum
Mean
Std.Deviation
N
PredictedValue
2146.8093
69392.6641
20556.7455
19946.28373
20
Residual
-2180.21021
2561.83057
.00000
1275.58464
20
Std.PredictedValue
-.923
2.448
.000
1.000
20
Std.Residual
-1.617
1.900
.000
.946
20
a.DependentVariable:
财政收入
将X4建筑业和X3进出口总额纳入自变量时得到的模型效果最为显著,回归方程如下:
3结论
本次大作业,根据查阅中国统计年鉴,列举了影响财政收入的7个因素。
从直观上考虑,人口总量、农业两个因素与财政收入存在线性关系,所以特意把这两个变量列到其中,但是散点图和回归效果显示这2个因素并没有进入逐步回归模型中,由此看来,这两项因素与财政收入存在的关系可能不是严格线性的,或者这种线性关系是长期的线性关系。
另外,在对进入模型的5个因素进行回归时发现,因变量对单独变量的回归性很显著,但是整合成多元回归出现了某些回归系数不显著的现象,具体原因可能是由于数据选取的太少,未能体现出长期线性这一特点;或是各因素之间存在相关性。
虽然得到的几个模型系数都不是很显著,但经综合比较,选取了一个较为显著的模型作为最“优”解。
对得到的最“优”回归模型做预测,置信度为95%。
查阅网上公布结果,得到2010年的X4建筑业为95206.00(亿元),X3进出口总额为202923.00(亿元),Y财政收入为83080.00(亿元),将自变量带入回归方程:
=817.357+0.044×202923.00+
95206.00=86482.00
Coefficientsa
Model
95.0%ConfidenceIntervalforB
LowerBound
UpperBound
2
(Constant)
-132.763
1767.476
建筑业
.704
.909
进出口总额
.006
.082
a.DependentVariable:
财政收入
将上表数值代入得到置信度为95%的预测区间为(79067.641,104949.416),与查得的2010财政收入为83080.00(亿元)在预测区间内。
得到的数据模型显示财政收入与建筑业、进出口总额有着密切的关系,这也很符合目前国家的经济状况。
不过由于调研时间有限,上述回归模型存在一些不足,比如两个自变量之间的VIF=11.683>10,还需要不断查阅资料加以改进。
但在一定程度上体现了与选取的自变量之间的线性关系,并能对因变量做出近似的预测。
综合来看,数据模型基本达到了预期的目的。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 北航 数理统计 回归 分析 第一次 作业