财政收入的逐步回归分析.docx
- 文档编号:10737393
- 上传时间:2023-02-22
- 格式:DOCX
- 页数:19
- 大小:300.01KB
财政收入的逐步回归分析.docx
《财政收入的逐步回归分析.docx》由会员分享,可在线阅读,更多相关《财政收入的逐步回归分析.docx(19页珍藏版)》请在冰豆网上搜索。
财政收入的逐步回归分析
财政收入的逐步回归分析
摘要:
财政收入是国民经济基础,是实现国家职能的财力保证。
本文采用SPSS19.0多元统计软件中的逐步回归分析方法,得出影响我国财政收入的显著性变量,建立国家财政收入回归模型,并将所得的模型给予合理的经济解释。
关键词:
财政收入;逐步回归;显著性;SPSS
1.引言
财政收入是指国家财政参与社会产品分配所取得的收入,是实现国家职能的财力保证[1]。
一方面,国家可通过控制财政收入的计划和执行情况,起到宏观调控的效果;其次,在安排和预测财政一般收入的过程中,也能够了解到经济系统的变化过程,从而及时发现经济系统运行中可能存在的问题并加以纠正;此外,通过对财政一般收入中的各分项收入进行预测,能够及时地发现现行税制和政策是否适应经济发展情况,产业结构是否合理。
因此,有必要建立一套科学的国家财政收入模型使收入预算尽量适应经济形势的变化,及时反映政府的宏观经济政策和政府活动对经济的影响。
本文选取1990年-2009年20个年度的国家财政收入数据,采用线性回归中的逐步回归方法,利用SPSS多元统计软件得出影响我国财政收入的显著性变量,建立国家财政收入回归模型,并将所得的模型给予合理的经济解释。
2.提出问题
2.1提出自变量与因变量
从定性分析的角度来说,财政收入会受到各种不同因素的影响,如:
农业总产值、工业总产值、建筑业总产值、人口数、社会消费品零售总额、国土受灾面积等等。
本文选取财政收入y(亿元)为因变量,自变量选取如下:
第一产业国内生产总值x1(亿元),第二产业国内生产总值x2(亿元),第三产业国内生产总值x3(亿元),人口数x4(万人),社会消费品零售总额x5(亿元),受灾面积x6(万公顷)。
由《中国统计年鉴》获取20个年份的统计数据,见表1。
表11990-2009年财政收入与部分项目的统计数据
年份
y
x1
x2
x3
x4
x5
x6
1990
2937.10
5062.00
7717.40
5888.42
114333
8300.1
38474.00
1991
3149.48
5342.20
9102.20
7337.10
115823
9415.6
55472.00
1992
3483.37
5866.60
11699.50
9357.38
117171
10993.7
51332.00
1993
4348.95
6963.76
16454.43
11915.73
118517
14270.4
48827.00
1994
5218.10
9572.69
22445.40
16179.76
119850
18622.9
55046.00
1995
6242.20
12135.81
28679.46
19978.46
121121
23613.8
45824.00
1996
7407.99
14015.39
33834.96
23326.24
122389
28360.2
46991.00
1997
8651.14
14441.89
37543.00
26988.15
123626
31252.9
53427.00
1998
9875.95
14817.63
39004.19
30580.47
124761
33378.1
50145.00
1999
11444.08
14770.03
41033.58
33873.44
125786
35647.9
49979.50
2000
13395.23
14944.72
45555.88
38713.95
126743
39105.7
54688.00
2001
16386.04
15781.27
49512.29
44361.61
127627
43055.4
52214.60
2002
18903.64
16537.02
53896.77
49898.90
128453
48135.9
46946.10
2003
21715.25
17381.72
62436.31
56004.73
129227
52516.3
54505.80
2004
26396.47
21412.73
73904.31
64561.29
129988
59501.0
37106.26
2005
31649.29
22420.00
87598.09
74919.28
130756
67176.6
38818.23
2006
38760.20
24040.00
103719.54
88554.88
131448
76410.0
41091.41
2007
51321.78
28627.00
125831.36
111351.95
132129
89210.0
48992.35
2008
61330.35
33702.00
149003.44
131339.99
132802
114830.1
39990.03
2009
68518.30
35226.00
157638.78
147642.09
133474
132678.4
47213.69
2.2做散点图,设定理论模型
作数据散点图,并进行线性拟合,观察因变量与自变量之间关系是否有线性特点。
散点图和线性拟合结果如图1所示。
图1因变量与各自变量的散点图
(a)财政收入与第一产业国内生产总值散点图,R2线性=0.933;
(b)财政收入与第二产业国内生产总值散点图;R2线性=0.986
(c)财政收入与第三产业国内生产总值散点图,R2线性=0.993;
(d)财政收入与人口数散点图,R2线性=0.784;
(e)财政收入与社会消费品零售总额散点图,R2线性=0.979;
(f)财政收入与受灾面积散点图,R2线性=0.152;
从图1中不难发现,财政收入与第一产业国内生产总值、第二产业国内生产总值、第三产业国内生产总值、社会消费品零售总额及人口数具有较强的线性关系,而与受灾面积没有明确的线性关系。
决定系数R2线性由大到小顺序为:
Y-x3;Y-x2;Y-x5;Y-x1;Y-x4;Y-x6。
我们知道由决定系数R2开方即为线性相关系数R。
线性相关系数越接近于1,Y与X的线性相关程度就越大,线性趋势越明显。
显然,财政收入和受灾面积的线性趋势并不明显,用线性回归模型方法来研究变量关系不太合理,故剔除变量x6。
(事实上,这样5个变量用逐步回归分析得到的结果与全部自变量的结果相同。
这也从另一方面验证了逐步回归模型的科学性。
)而其他5个自变量与因变量财政收入均是高度线性相关的,故用线性回归是合适的。
这样,我们可以建立财政收入的线性回归模型,模型如下:
(1)
其中Y为因变量,
自变量,
为回归系数。
各变量符号的定义见表2。
表2线性回归模型中各变量的含义
财政收入(亿元)
第一产业国内生产总值(亿元)
第二产业国内生产总值(亿元)
第三产业国内生产总值(亿元)
人口数(万人)
社会消费品零售总额(亿元)
但问题是所有与因变量呈强线性关系的这5个自变量都是显著性变量,都会在回归模型中?
若这5个变量间有多重共线性关系将如何进行线性回归模型拟合?
3.解决问题的方法和计算结果
为解决以上两个问题,我们对实验数据采取线性回归中的逐步回归方法。
3.1逐步回归分析方法简介
逐步回归(StepwiseRegression)是一种常用的消除多重共线性、选取“最优”回归方程的方法,在进行自变量选择时优于其他的回归方法(如前进法、后退法等)。
具体做法是将逐个引入自变量,引入的条件是该自变量经F检验是显著的,每引入一个自变量后,对已选入的变量进行逐个检验,如果原来引入的变量由于后面变量的引入而变得不再显著,那么就将其剔除。
引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行F检验,以确保每次引入新变量之前回归方程中只包含显著的变量。
这个过程反复进行,直到既没有不显著的自变量选入回归方程,也没有显著自变量从回归方程中剔除为止。
[2]
3.2线性回归的结果及分析
将输入/移去的变量列入表3。
从表3中可以看出第三产业国内生产总值(亿元),人口数(万人),社会消费品零售总额(亿元)这三个自变量经过逐步回归过程被选择进入了回归方程。
选择的判据是变量进入回归方程的F的概率不大于0.05,剔除的判据是变量进入回归方程的F的概率不小于0.10。
选择的过程是,最先引入了变量
,建立了模型1;接着引入变量
,没有变量被剔除,建立了模型2(含有
、
);最后引入变量
,没有变量被剔除,建立了模型3,故最终的模型中含有变量
、
、
。
表3输入/移去的变量a
模型
输入的变量
移去的变量
方法
1
第三产业国内生产总值(亿元)
.
步进(准则:
F-to-enter的概率<=.050,F-to-remove的概率>=.100)。
2
人口数(万人)
.
步进(准则:
F-to-enter的概率<=.050,F-to-remove的概率>=.100)。
3
社会消费品零售总额(亿元)
.
步进(准则:
F-to-enter的概率<=.050,F-to-remove的概率>=.100)。
a.因变量:
财政收入(亿元)
表4模型汇总d
模型
R
R方
调整R方
标准估计的误差
更改统计量
R方更改
F更改
df1
df2
Sig.F更改
1
.996a
.993
.992
1755.03733
.993
2446.208
1
18
.000
2
1.000b
.999
.999
483.34885
.007
220.314
1
17
.000
3
1.000c
1.000
1.000
250.48691
.000
47.299
1
16
.000
a.预测变量:
(常量),第三产业国内生产总值(亿元)。
b.预测变量:
(常量),第三产业国内生产总值(亿元),人口数(万人)。
c.预测变量:
(常量),第三产业国内生产总值(亿元),人口数(万人),社会消费品零售总额(亿元)。
d.因变量:
财政收入(亿元)
表4显示各模型的拟合情况,模型3的复相关系数R=1.000,可决系数
=1.000,调整可决系数为1.000,标准估计的误差为250.48691。
可见模型3的拟合度较高,变量
、
、
的作用显著。
表5方差分析Anovad
模型
平方和
df
均方
F
Sig.
1
回归
7.535E9
1
7.535E9
2446.208
.000a
残差
55442808.773
18
3080156.043
总计
7.590E9
19
2
回归
7.586E9
2
3.793E9
16235.715
.000b
残差
3971643.824
17
233626.107
总计
7.590E9
19
3
回归
7.589E9
3
2.530E9
40318.220
.000c
残差
1003899.058
16
62743.691
总计
7.590E9
19
a.预测变量:
(常量),第三产业国内生产总值(亿元)。
b.预测变量:
(常量),第三产业国内生产总值(亿元),人口数(万人)。
c.预测变量:
(常量),第三产业国内生产总值(亿元),人口数(万人),社会消费品零售总额(亿元)。
d.因变量:
财政收入(亿元)
表5显示各模型的方差分析结果。
方差分析结果表明,当回归方程为模型1、2、3时,其显著性概率值均小于0.000,即拒绝总体回归系数均为0的原假设。
因此,最终的回归方程应当包含这
、
、
这3个自变量,且方程拟和效果很好。
表6显示方程外各模型变量的有关统计量,即标准化偏回归系数Beta、回归系数显著性检验的t值、P(Sig)值、偏相关系数PartialCorrelation、共线性统计的容差CollinearitystatisticTolerance。
可见,模型3方程外的各变量偏回归系数经检验,P值均大于0.05,故不能引入方程。
已排除的变量d
模型
BetaIn
t
Sig.
偏相关
共线性统计量
容差
VIF
最小容差
1
第一产业国内生产总值(亿元)
-.326a
-4.390
.000
-.729
.037
27.312
.037
第二产业国内生产总值(亿元)
-.288a
-.949
.356
-.224
.004
226.482
.004
人口数(万人)
-.174a
-14.843
.000
-.964
.223
4.478
.223
社会消费品零售总额(亿元)
-.487a
-2.240
.039
-.477
.007
142.547
.007
2
第一产业国内生产总值(亿元)
-.074b
-2.105
.051
-.466
.021
48.303
.021
第二产业国内生产总值(亿元)
.042b
.476
.641
.118
.004
243.501
.004
社会消费品零售总额(亿元)
-.245b
-6.877
.000
-.864
.007
153.208
.007
3
第一产业国内生产总值(亿元)
-.009c
-.391
.701
-.100
.016
63.380
.005
第二产业国内生产总值(亿元)
.016c
.353
.729
.091
.004
245.232
.002
a.模型中的预测变量:
(常量),第三产业国内生产总值(亿元)。
b.模型中的预测变量:
(常量),第三产业国内生产总值(亿元),人口数(万人)。
c.模型中的预测变量:
(常量),第三产业国内生产总值(亿元),人口数(万人),社会消费品零售总额(亿元)。
d.因变量:
财政收入(亿元)
表7显示各模型的偏回归系数B、标准差Std.Error、常数Constant、标准化偏回归系数Beta、回归系数显著性检验的t值和P(Sig)值。
按照线性回归模型建立的方程为:
(2)
方程中的常数项
,偏回归系数
、
、
,经t检验
、
、
、
的P值均为0.000,按α=0.10水平,均有显著性意义。
表7系数a
模型
非标准化系数
标准系数
t
Sig.
相关性
共线性统计量
B
标准误差
试用版
零阶
偏
部分
容差
VIF
1
(常量)
-3084.353
618.453
-4.987
.000
第三产业国内生产总值(亿元)
.476
.010
.996
49.459
.000
.996
.996
.996
1.000
1.000
2
(常量)
66585.504
4696.879
14.177
.000
第三产业国内生产总值(亿元)
.550
.006
1.150
97.945
.000
.996
.999
.543
.223
4.478
人口数(万人)
-.585
.039
-.174
-14.843
.000
.839
-.964
-.082
.223
4.478
3
(常量)
62835.600
2494.395
25.191
.000
第三产业国内生产总值(亿元)
.661
.017
1.384
40.066
.000
.996
.995
.115
.007
144.290
人口数(万人)
-.547
.021
-.163
-25.813
.000
.839
-.988
-.074
.208
4.813
社会消费品零售总额(亿元)
-.141
.021
-.245
-6.877
.000
.989
-.864
-.020
.007
153.208
a.因变量:
财政收入(亿元)
表8残差统计量a
极小值
极大值
均值
标准偏差
N
预测值
3040.9451
68788.1719
20556.7455
19985.70774
20
标准预测值
-.876
2.413
.000
1.000
20
预测值的标准误差
75.598
209.508
105.438
38.820
20
调整的预测值
3008.1936
69416.5625
20605.9415
20091.25992
20
残差
-336.33871
437.84424
.00000
229.86255
20
标准残差
-1.343
1.748
.000
.918
20
Student化残差
-2.222
2.105
-.067
1.136
20
已删除的残差
-920.68561
636.11237
-49.19601
385.52764
20
Student化已删除的残差
-2.587
2.397
-.072
1.241
20
Mahal距离
.781
12.342
2.850
3.285
20
Cook的距离
.000
2.249
.265
.670
20
居中杠杆值
.041
.650
.150
.173
20
a.因变量:
财政收入(亿元)
表8显示残差统计的结果,标准化残差的绝对值最大为1.748,小于设定值3。
如超过3,则显示具体观察单位Casenumber的标准化残差,以帮助发现离群点。
图2财政收入的预测值与其Student化残差散点图
从图2中可以看到,所有观测量随机地落在垂直围绕-1~2.5的范围内,预测值与Student化残差值之间没有明显的关系,所以回归方程应该满足线性与方差齐性的假设且拟和效果较好。
图3带有正态曲线的标准化残差直方图
从图3中可以看到绝大部分观测量随机地落在正态曲线内,同样,我们可以认为回归方程拟合的效果较好。
4.讨论
4.1模型检验
按照线性回归模型建立的方程为:
(2)
将1990-2009年的第三产业国内生产总值(亿元),人口数(万人),社会消费品零售总额(亿元)代入公式
(2),并计算与实际财政收入的相对误差,见表9。
表91990-2009年预测与实际财政收入对比结果
年份
预测财政收入(亿元)
实际财政收入(亿元)
相对误差
1990
3017
2937.10
-0.03
1991
3003
3149.48
0.05
1992
3378
3483.37
0.03
1993
3871
4348.95
0.11
1994
5347
5218.10
-0.02
1995
6459
6242.20
-0.03
1996
7309
7407.99
0.01
1997
8645
8651.14
0.00
1998
10099
9875.95
-0.02
1999
11395
11444.08
0.00
2000
13583
13395.23
-0.01
2001
16276
16386.04
0.01
2002
18768
18903.64
0.01
2003
21763
21715.25
-0.00
2004
26018
26396.47
0.01
2005
31362
31649.29
0.01
2006
38695
38760.20
0.00
2007
51586
51321.78
-0.01
2008
60818
61330.35
0.01
2009
68709
68518.30
-0.00
注:
相对误差=1-预测财政收入(亿元)/实际财政收入(亿元).
从上述表中的可以看出相对误差绝对值最大为0.11,最小为0.00,大部分为0.01、0.02、0.03,可见我们的模型与实际特别是近期还是比较吻合的,但是也有许多不足之处。
可能是我们对财政收入的影响因素考虑过少,这也是我们以后对模型改进时所要考虑的方面。
4.2模型解释
从公式
(2)中可知,回归模型中第三产业对财政收入的影响最为显著。
这正与国家积极调整产业结构,倡导服务业全面发展的经济政策相符合。
第三产业发展迅速,增加了国家收入弹性,特别是金融、期货交易、房地产业、仓储物流业、软件等现代服务业和高薪产业的发展及近年来08奥运会、亚运会、世博会对旅游业的带动,极大提高了服务业对财政收入的贡献。
而人口数对财政收入的贡献为负线性关系。
这与近年来我国人口老龄化趋势,人口基数仍在上涨及社会福利提高有关。
众所周知,人口基数不变或稍微增大时,人口老龄化,必然导致就业人口相对比例减少,再加上近年来医保、社保等社会保障及福利支出的相对提高,使国家政府给予大量财政补贴,因而人口数对财政收入的贡献为负相关。
同样,社会消费品零售总额对财政收入的贡献也为负相关。
这反映了我国刺激社会消费的经济政策。
近年来,在国家扩大内需、刺激消费的各项政策措施作用下,国内消费市场活跃,在一定程度上拉动了国民经济的增长,但随着通货膨胀压力的增大及国家对某些过剩消费品的财政补贴,使社会消费品零售总额对财政收入的贡献也为负相关。
而第一产业和第二产业均被剔除回归模型,这可能与近几年我国的惠农政策及经济转型政策有关。
在第一产业(农业)方面,近几年为了实现小康型社会主义和建设社会主义新农村,国家政府坚持把支持“三农”作为预算安排和财政工作的重点,巩固、完善和强化了各项强农惠农财税政策,突出加强农业基础,促进农业发展和农民增收,扎实推进社会主义新农村建设。
实现传统农业的全面升级,从而保证了农业经济的持续稳定发展。
这样作为曾经的农业大国,惠农政策的财政补贴与其产业带来的财政贡献抵消,因而第一产业总产值X对财政收入y的影响不显著。
再看第二产业(工业和建筑业),对财政收入也不显著。
近几年08奥运会、亚运会、世博会使国家投入不少成本,加上钢铁等传统行业的产能过剩使国家补贴外销,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 财政收入 逐步回归 分析