应用回归分析结课论文.docx
- 文档编号:7731667
- 上传时间:2023-01-26
- 格式:DOCX
- 页数:36
- 大小:89.29KB
应用回归分析结课论文.docx
《应用回归分析结课论文.docx》由会员分享,可在线阅读,更多相关《应用回归分析结课论文.docx(36页珍藏版)》请在冰豆网上搜索。
应用回归分析结课论文
《应用回归分析结课论文》
影响财政收入的相关因素的分析
班级:
姓名:
学号:
1•问题的提出4
2.数据来源4
3.回归分析的模型方法介绍和总结5
3.1多元线性回归模型5
3.1.1多元线性回归模型的一般形式5
3.1.2多元线性回归模型的基本假定6
3.2.多元线性回归参数的最小二乘估计7
4.SAS程序及结果输出8
4.1.建立数据集,进行相关分析8
4.2.将数据做标准化处理,建立回归方程10
4.3.异方差检验11
4.4自相关检验13
4.5.多重共线性检验13
4.5.1方差扩大因子法13
4.5.2特征根判定法14
4.6消除多重共线性15
4.6.1后退法15
4.6.2.逐步回归19
4.7最佳子集回归21
4.8岭回归22
4.9主成分回归25
4.10偏最小二乘回归25
5.结论26
参考文献28
摘要
本文选1985-2003年的农业增加值,工业增加值,建筑业增加值,社会消费总额,人口数,受灾面积六个因素通过多元线性回归分析和岭回归对国家财政收入行分析,主要分析分析影响财政收入的主要原因,并联系实际进行分析,以供参考。
关键词:
财政收入多元线性回归多重共线性岭回归
1.问题的提出
财政参与分配社会产品,在一国经济发展和分配体系中占有重要地位和作用。
可以有力地促进经济的发展促进科学、教育、文化、卫生事业的发展,促进人民生活水平的提高,为巩固国防提供可靠的物质保障。
且可调节资源配置,促进社会公平,改善人民生活。
促进经济机构的优化和经济发展方式的转变。
在我国,财政收入的主体是税收收入,因此在税收体制及政策不变的条件下,财政收入会随着经济繁荣而增加,随着经济衰退而下降。
本文利用回归分析,确定影响我国财政收入主要因素。
2.数据来源
在研究国家收入时,我们把财政收入按形式分为:
各项税收收入,企业收入,债务收入,国家能源交通重点建设基金收入,基本建设贷款归还收入,国家调节基金收入,其他收入等。
为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量,自变量如下:
x1为农业增加值(亿元);x2为工业增加值(亿元);x3为建筑业增加值(亿元);x4为人口数(万人);X5为社会消费总额(亿元);x6为受灾面积(万公顷)。
根据中国统计年鉴,得到1985-2003年数据,如图:
年份
财政收入
农业增加值
工业IS加值
建筑业増加値
人□数
社会消捞总额
变灾面积
19S5
2004,02
3G19,5
9716
675.1
1053.51
3801.4
443.&5
1986
2122.01
4013
11194
808.07
1075.07
4374
471.4
1987
2199.35
4675.7
13813
954.65
1093
5115
420.9
1^88
2357.24
5865?
3
1B225
1131.65
1110.26
白534.6
50S.7
1989
2604.9
0534.7
22017
1232,98
1127+04
7074+2
409.91
1990
2937.1
7652,1
23924
1345.01
1143,33
725X3
384.74
1991
3149.43
S157
20G25
1564.33
1158,23
8245.7
554.72
1992
3483.37
9084.7
34599
2174.44
1171.71
9704.E
513.33
1993
4348.95
10995.5
48402
3253.5
1185.17
12462.1
488.29
1994
521E.1
15750.5
70176
4653.32
1198.5
1白264.7
550.43
1995
6242.2
20340.9
5793・75
1207,43
20S20
546.S&
1096
7407.99
.22353,7
99595
8232.25
1211.21
24774,1
458.21
1997
8651,14
23738.4
113733
9126.46
1223.S9
27298?
9
469?
89
1998
9875.95
24542,9
119048
1OC&1.99
1276.27
29152.5
521.55
1999
11444.08
24519.1
126111
11152.86
1236.26
31134.7
534.29
2000
13395.23
24915.8
85673,7
12497.6
1284.53
3341S2.6
471.19
2001
04
26179.G
954S.98
153&1-56
1247,S1
37595,2
501.45
2002
13903.64
27390.8
11075.5
10527.18
1257.S6
42027.1
4决一81
2003
21715.25
29691.8
14771.2
23033.37
1292.27
45B42
545.06
3.回归分析的模型方法介绍和总结
3.1多元线性回归模型
3.1.1多元线性回归模型的一般形式
设随机变量y与一般变量xi,X2,,,xp的线性回归模型为:
y=\■+为■jX2亠.亠)pXp■;(3.1)
式中,1。
,+,,,r是p1个未知参数,飞称为回归常数,h,,,r称为回归系数。
y称为被解释变量(因变量),x1,x2"t,xp是p个可以精确测量并控制的一般变量
称为解释变量(自变量)。
P"时,式(3.1)为一元线性回归模型;p_2时,我们就
称式(3.1)为多元线性回归模型。
;是随机误差,与一元线性回归一样,对随机误差
项我们常假定
「E(打=0(3.2)
2
var(名)=▽
称
上y=:
0」1洛「2X2…」pXp(3.3)
为理论回归方程。
对一个实际问题,如果我们获得n组观测数(XSX2,…,xip;y」i=1,2,…,n),则线性回归模型式(3.1)可表示为:
L=+臥1+卩2心+…+%X1pg
y2=%+P1X21+P2X22+…+PpX2p+◎(3.4)
写成矩阵形式为:
y=;(3.5)
X是一个np1阶矩阵,称为回归设计矩阵或资料矩阵。
在实验设计中,X的
元素是预先设定并可以控制的,人的主观因素可作用其中,因而称X为设计矩阵。
3.1.2多元线性回归模型的基本假定
为了方便地进行模型的参数估计,对回归方程式(3.4)有如下一些基本假定
(1)解释变量X!
,X2,,,Xp是确定性变量,不是随机变量,且要求
rankX=p•1:
:
:
n。
这里的rankX=p•1:
:
:
n,表明设计矩阵X中的自变量列之间不相关,样本量的个数应大于解释变量的个数,X是一满秩矩阵。
(2)随机误差性具有零均值和等方差,即
『E*i)=0
「坊2,i=j
'cov佃,引)=«i,j=1,2,…,n
I0,心j
L
这个假定通常称为高斯一马尔柯夫条件。
!
节=0,即假设观测值没有系统误差,随机误差项「的平均值为零,随机误差项「的协方差为零,表明随机误差项在不同的样本点之间是不相关的(在正态假定下即为独立的),不存在序列相关,并且有相同的精度。
(3)正态分布的假定条件为:
r會〜N(0,b2)
彳
會严2,…,%相互独立
对于多元线性回归的矩阵模型式(3.5),这个条件便可表示为:
由上述假定和多元正态分布的性质可知,随机变量y服从n维正态分布,回归模型
式(3.5)的期望向量
ey
2
vary=二n
因此
y〜N(X宾2J
3.2.多元线性回归参数的最小二乘估计
多元线性回归模型未知参数飞,:
i,,,>,的估计与一元线性回归方程的参数估计原理
一样,仍可采用最小二乘估计。
对于y•;,所谓最小二乘法,就是寻找参数-0,
L,,,'-p的估计值,使离差平方和Q(-o,'-1,,,'-p)极小,即:
最小二乘佔计要寻找几k矗…*矗使得
讷|00=A西I.
頑0】=Aa£|
c/?
21A=A
(卩i-A~0i心i一他心2-…-A^ip"a=o
经整理后得用矩阵形式表示的正规方程组S(y-X^)=0務项得xxp=卅y当pcx『存在时,即得回归参数的最小二乘估计为:
p=(卅xpry
4.SAS程序及结果输出
4.1.建立数据集,进行相关分析
程序1
dataa;
inputyearyx1-x6@@;
cards;
1985
2004.82
3619.59716
675.1
1058.51
3801.4443.65
1986
2122.01
4013
11194
808.071075.07
4374471.4
1987
2199.35
4675.713813
954.6510935115
420.9
1988
2357.24
5865.318225
1131.65
1110.26
6534.6508.7
1989
2664.96534.722017
1282.98
1127.04
7074.2469.91
1990
2937.17662.123924
1345.01
1143.33
7250.3384.74
1991
3149.48
8157
26625
1564.33
1158.23
8245.7554.72
19923483.379084.7345992174.441171.719704.8513.33
19934348.9510995.5484023253.51185.1712462.1488.29
19945218.115750.5701764653.321198.516264.7550.43
19956242.220340.9918945793.751267.4320620546.88
1996
7407.99
22353.7
99595
8282.25
1211.21
24774.1
458.21
1997
8651.14
23788.4
1137339126.48
1223.89
27298.9
469.89
1998
9875.95
24542.9
11904810061.99
1276.27
29152.5
521.55
1999
11444.08
24519.1
126111
11152.86
1236.26
31134.7
534.29
2000
13395.23
24915.8
85673.7
12497.6
1284.53
334152.6
471.19
2001
16386.04
26179.6
9548.98
15361.56
1247.61
37595.2
501.45
2002
18903.64
27390.8
11076.5
18527.18
1257.86
42027.1
499.81
2003
J
21715.25
29691.8
14771.2
23083.87
1292.27
45842
545.06
run;
proc
print;
run;
proc
corrdata=a
noprob;
varyx1-x6;
run;
结果:
Pearson相关耒数"N=19
y
x1
x2
x4
x6
y
1.00000
089828
□.11671
0.99512
080998
□.39807
0.33880
xl
0.8982S
1.00000
0.51209
0.91924
0.94193
0.40467
040134
x2
011671
0.W209
1.00000
0.17225
0.54240
0.25220
024719
x3
099512
0.91924
0.17225
1.00000
082484
0.37352
034805
x4
080998
0.94193
Q54240
0.824&4
1.00000
0.45804
0.49725
x5
039807
040467
0.25229
0.37352
0.45904
1.00000
-0.03309
x6
0.33880
0.40134
0.24710
0.34806
0.4S725
-0.03309
1.00000
表一
分析:
|
从相关阵看出,y与x2的相关系数偏小,x2是工业增加值,这说明工业增加值对财政收入无显著影响。
42将数据做标准化处理,建立回归方程
程序2:
procstandarddata=amean=0std=1out=out1;varyx1-x6;|
run;
procprintdata=out1;
run;
procregdata=out1;
modely=x1-x6;|
run;
结果:
方差分析
自由度
平方
和
均方
卜値
Pr>1-
標型
6
1792269
2.98711
4E363
<.0001
逞差
12
0.07731
0.00644
校正合计
18
1800000
均方抿误差
0.08027
R方
0.9957
因亞最均值
2.80477E-16
调整R方
0.0936
霆异至数
2.861804E16
拳敕估讦值
自由曲
t值
Pr>1t|
1irtercept
1
253145E-16
OO18411
ooo
1OOQO
1
O.11708
a15534
a75
0.4656
x2
1
-o.11696
□.04867
-2.40
O.C333
x3
1
O.872^
O.11033
7-91
<.COO1
x4
1
O.O165S
007210
023
匚).8220
1
O.O463O
□.02376
1.97
O.0719
x6
1
O.022
&02454
O42
0.6846
表二
因为数据为标准化数据,所以方程中不含有常数项。
所以有回归方程为:
Y=0.117.8x1-0.11696x2+0.87288x3+0.01659x+0.04690x5+0.01022x6
由决定系数R方=0.9957,调整R方=0.9936,得回归方程高度显著。
又有F=463.63,P<0.0001,表明回归方程高度显著,说明x1,x2,x3,x4,x5,x6
整体上对y高度显著。
在显著性水平:
=0.05时只有x2,x3通过了显著性检验,模型需要进一步检验
4.3.异方差检验
采用等级相关系数法
程序3:
procregdata=out1;
modely=x1-x6/r;
outputout=z1r=residual;
run;
procgplotdata=z1;
plotresidual*y;
run;
dataz2;
setz1;
absr=abs(residual);
run;
proccorrdata=z2spearman
varabsrx1-x6;
run;
□17
0.15
0.14
g13
Q12
0.11
n.io
0.09
o.oe
0.06
0.03
004
0.03
0.02
O-QIggo
-0.QI
-Q-02
-0.04
-Q05
-0-08
-0„07
-0QB
-U.09
-0.10
-Q-II
-□12
-QIa
-0.14
-O„I5
-1Ct1lf3
图一
从残差图可看出,误差项没有呈现任何趋势以及规律初步判断不存在异方差
简单统计量
变量
N
均值
标淮差
中位裁
屋小値
呈大值
absr
19
004367
004777
0.03213
0.00210
016073
xl
19
0
1.00000
-000461
-1.29679
148041
x2
19
0
1.00000
-054938
-0.95060
178809
x3
19
0
1.00000
-Q.33940
-0,93162
2.40420
x4
19
0
1.00000
010920
-1.78476
1.37783
x5
19
0
1.00000
-026064
-0.43002
4.05947
x6
19
0
1.00000
016137
-2.32331
1,34703
Spearman相关蕃敎.N=19
Prob》|r|underHO:
Rho=0
absr
xl
x2
x3
x4
x5
x6
absr
1.00000
0.59474
00072
020877
03910
061228
00053
048070
00372
053860
00174
023333
03364
xl
0.59474
00072
1.00000
029123
02264
099825
<.0001
095263
<.0001
098772
<0001
036842
01206
x2
0.20877
03910
0.29123
0.2264
1.00000
029298
02235
042281
0.0713
034912
01429
024561
03108
x3
0.61228
00063
0.99&25
<.0001
0.29298
□2235
1.00000
094561
<0001
098947
<0001
037018
01188
x4
0.48070
□0372
0.95263
<.0001
0.42281
□0713
094561
<.0001
1.00000
095614
<0001
043S60
00603
x5
0.53860
□0174
098772
<.0001
0.34912
□1429
0.98947
<.0001
095614
<.0001
1.00000
034211
01517
x6
0.23333
03364
036842
0.1206
0.24561
03108
0.37018
01188
043860
00603
034211
01517
1.00000
表三
程序4
dataz3;
n=19;|
dors=0.0072,0.3910,0.0053,0.0372,0.0174,0.3364
T=sqrt(n-2)*rs/sqrt(1-rs*rs);
t仁tinv(0.975,n-2);
output;
end;
run;
procprintdata=z3;
run;
SAS系统
Obs
n
rs
T
t1
1
19
059474
3.05028
2.10982
2
19
0.20877
088018
210982
3
19
061228
3.19297
2.10982
4
19
0.48070
2.26025
2.10982
5
19
053830
2.63566
210982
6
19
023333
098935
2.10982
表4
可知模型存在异方差问题
4.4自相关检验
程序5:
procregdata=out1;modely=x1-x6/dw;
run;
结果:
Durbin—WatsonD
1521
观测数
19
M-wr自相关
0.160
表5
DW值为1.521查表不能判断是否存在自相关
4.5.多重共线性检验
4.5.1方差扩大因子法
程序6
procregdata=out1;modely=x1-x6/vifrun;
结果:
塞数估计值
变量
自由度
参数怙计值
标准误差
tfi
Pr>|t|
方差ent
1ntercept
1
2.53145E-16
0.01841
0.00
1.0000
0
xl
1
0.11708
0.15534
0.75
0.4056
67.41892
x2
1
-0.11696
004867
-2.40
0.0333
661761
x3
1
0.87288
011033
7.91
<.0001
3400697
x4
1
0.01659
0.07216
023
0.8220
14.54580
x5
1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 回归 分析 论文