数理统计大作业.docx
- 文档编号:8552274
- 上传时间:2023-01-31
- 格式:DOCX
- 页数:20
- 大小:383.55KB
数理统计大作业.docx
《数理统计大作业.docx》由会员分享,可在线阅读,更多相关《数理统计大作业.docx(20页珍藏版)》请在冰豆网上搜索。
数理统计大作业
研究生“数理统计”课程课外作业
姓名:
杨伟学号:
20131002051
学院:
动力工程学院专业:
动力工程及工程热物理
类别:
学术上课时间:
4-14周
成绩:
国民总收入的多元线性回归模型
摘要
本文首先选取了我国自1979至2011年间的国民总收入为因变量,并选取了8个主要影响因素(进出口总额、建筑业总产值、农林牧渔业总产值、货物运输量、全社会固定资产投资、社会消费品零售总额、各项税收、居民消费水平),进一步利用软件Matlab对以上数据进行了多元线性回归。
从而找到了能反映国民总收入与各因素之间关系的“最优”回归方程。
所得结论与我国当前经济形势相印证。
0符号说明
变量
符号
国民总收入(亿元)
Y
居民消费水平(元)
X1
建筑业总产值(亿元)
X2
进出口总额(亿元)
X3
农林牧渔业总产值(亿元)
X4
货物运输量(万吨)
X5
全社会固定资产投资(亿元)
X6
社会消费品零售总额(亿元)
X7
各项税收(亿元)
X8
一、介绍
文中主要应用多元线性回归的统计方法,对数据进行分析处理,最终得出能够反映各个因素对财政收入影响的最“优”模型。
国民收入,作为一国经济发展的重要指标,对经济的增长,企业的投资,以及居民的日常消费有着密不可分的影响。
自改革开放以来,我国的国民收入从1979年的4062.58亿元到2011年的468562.38亿元,短短的33年的时间里,国民收入增加100余倍,极大程度地促进了投资,消费,与进出口等领域史无前例的增长,而这一现象,无论是在中国的历史上,还是在同期发达国家的发展进度上,都是屈指可数。
国民收入综合地反映了一国的经济实力和社会生产力的发展水平,特别是,一国按人口平均计算的国民收入额,是反映该国经济发展水平和人民生活水平的一项重要的综合指标。
因此,要更好的进行资源配置和更好的了解国家的发展水平,需要对国民总收入进行预测及分析。
影响国民总收入的因素有很多,如经济活动人口、各项税收、固定资产投资、货运等多种因素的影响。
为此,我们在根据宏观经济理论的基础上,利用从国家统计局获得的从1979~2011共33年的相关数据。
对国民收入的理论及其内部因素相互间影响着实分析。
并进一步采用多元线性回归分析方法对以上因素进行了显著性分析,从而确定了关于国民总收入的最优多元线型回归方程。
二、数据的采集和整理
本文在进行统计时,查阅中国国家统计局收录的1979年至2011年连续33年的全国国民总收入收入为因变量,考虑一些与其关系密切并且直观上有线性关系的因素,初步选取这33年的进出口总额、建筑业总产值、农林牧渔业总产值、货物运输量、全社会固定资产投资、社会消费品零售总额、各项税收、居民消费水平为自变量,分析它们之间的联系。
根据选择的指标,从中国统计局查选数据,整理如表2-1。
1979-2011年国民总收入及其影响因素统计表
年份
居民消费水平(元)
建筑业总产值(亿元)
进出口总额(亿元)
农林牧渔业总产值(亿元)
货物运输量(万吨)
全社会固定资产投资(亿元)
社会消费品零售总额(亿元)
各项税收(亿元)
国民总收入(亿元)
1979
12570
116463.32
236401.99
81303.92
3696961
311485.13
183918.6
89738.39
473104.05
1980
10522
96031.13
201722.15
69319.76
3241807
251683.77
156998.4
73210.79
401512.8
1981
9283
76807.74
150648.06
60361.01
2825222
224598.77
132678.4
59521.59
401512.8
1982
8430
62036.81
179921.47
58002.15
2585937
172828.4
114830.1
54223.79
314045.43
1983
7310
51043.71
166863.7
48893.02
2275822
137323.94
93571.6
45621.97
265810.31
1984
6299
41557.16
140974
40810.83
2037060
109998.16
79145.2
34804.35
216314.43
1985
5596
34552.1
116921.8
39450.89
1862066
88773.61
68352.6
28778.54
184937.37
1986
5032
29021.45
95539.1
36238.99
1706412
70477.43
59501
24165.68
159878.34
1987
4475
23083.87
70483.5
29691.8
1564492
55566.61
52516.3
20017.31
135822.76
1988
4144
18527.18
51378.2
27390.75
1483447
43499.9
48135.9
17636.45
120332.69
1989
3887
15361.56
42183.6
26179.64
1401786
37213.5
43055.4
15301.38
109655.17
1990
3632
12497.6
39273.2
24915.77
1358682
32917.7
39105.7
12581.51
99214.55
1991
3346
11152.86
29896.2
24519.06
1293008
29854.7
35647.9
10682.58
89677.05
1992
3159
10061.99
26849.7
24541.86
1267427
28406.2
33378.1
9262.8
84402.28
1993
3002
9126.48
26967.2
23788.36
1278218
24941.1
31252.9
8234.04
78973.03
1994
2789
8282.25
24133.8
22353.73
1298421
22913.5
28360.2
6909.82
71176.59
1995
2355
5793.75
23499.9
20340.86
1234938
20019.3
23613.8
6038.04
60793.73
1996
1833
4653.32
20381.9
15750.47
1180396
17042.11
18622.9
5126.88
48197.86
1997
1393
3253.5
11271
10995.53
1115902
3072.3
14270.4
4255.3
35333.92
1998
1116
2174.44
9119.6
9084.71
1045899
8080.1
10993.7
3296.91
26923.48
1999
932
1564.33
7225.8
8157.03
985793
5594.5
9415.6
2990.17
21781.5
2000
833
1345.01
5560.1
7662.09
970602
4517
8300.1
2821.86
18667.82
2001
788
1282.98
4155.9
6534.73
988435
4410.4
8101.4
2727.4
16992.32
2002
714
1131.65
3821.8
5865.27
982195
4753.8
7440
2390.47
15042.82
2003
565
952.65
3084.2
4675.7
948229
3791.7
58200
2140.36
12058.62
2004
497
808.07
2580.4
4013.01
856557
3120.6
4950
2090.73
10275.18
2005
446
675.1
2066.7
3619.49
745763
2543.2
4305
2040.79
9016.04
2006
361
517.15
1201
3214.13
339995
1832.9
3376.4
947.35
7208.05
2007
316
419.54
860.1
2750
323956
1430.1
2849.4
775.59
5962.65
2008
288
345.33
771.3
2483.26
311974
1230.4
2570
700.02
5323.35
2009
264
282.3
735.3
2180.62
298642
961
2350
629.89
4891.56
2010
238
286.93
570
1922.6
546537
910.9
2140
571.7
4545.62
2011
208
454.6
1697.6
318258
180
537.82
4062.58
三、模型的建立
1.数学模型及其假设
假设有n个影响因素(
,
…
)
Y=β0+β1x1+β2x2+…+βkxk+u,u∼N(0,δ
)
多元性回归模型的参数估计,同一元线性回归方程一样,也是在要求误差平方和(ΣƐ)
为最小的前提下,用最小二乘法或最大似然估计法求解参数。
矩阵形式如下
=
+
其中:
这样多元总体线性回归函数的矩阵形式为:
=
+
;类似地,多元样本线性回归函数的矩阵形式为:
=
+
其中
其回归方程为:
=
(
=
)
2.Matlab多元线性回归的实现
(1)b=regress(Y,X)确定回归系数的点估计值,其中X,Y如上式所示。
(2)[b,bint,r,rint,stats]=regress(Y,X,alpha)求回归系数的点估计和区间估计、并检验回归模型。
①bint表示回归系数的区间估计.
②r表示残差
③rint表示置信区间
④stats表示用于检验回归模型的统计量,有三个数值:
相关系数r2、F值、与F对应的概率p
(3)X=[X1'~X8'];stepwise(X,Y)检验各自量对因变量的显著性影响,剔除影响不显著的因变量,优化回归方程。
(4)rcoplot(r,rint)画出残差及其置信区间,对回归方程进行优化。
四、计算机实现及结果分析
1.在Matlab2013上编程绘制的预测比较图如下图所示:
图中展示了各自变量和因变量之间的关系,可以很清晰的看出它们的变化趋势及其变化的快慢。
2.进一步绘制各变量与财政收入的关系曲线,下图:
图2-1图2-2
图2-3图2-4
图2-5图2-6
图2-7图2-8
在上述8个图中,可以看出,
~
与Y之间大致成线性关系,因此不需要指数或者对数等一些非线性的方法进行线性化。
~
与Y之间的关系是否真的服从多元线性关系,则需要通过多元回归分析方法进行进一步的显著性判断。
3数据的回归模型
将自变量
作为待筛选量,windows8平台上使用软件Matlab-r2013b作为建立回归模型,
。
由于matlab默认精度为小数点后5位,在本次计算中需调整其精度。
1首先建立matlab回归模型
输入:
Formatlong
y=[468562.38399759.54340319.95316030.34266422215904.41183617.37159453.6134976.97119095.68108068.298000.4888479.1683024.3378060.8570142.4959810.5348108.4635260.0226937.2821826.218718.3217000.9215036.8212050.6210274.389040.747243.755985.555330.454889.464545.624062.58];
X1=[1257010522928384307310629955965032447541443887363233463159300227892355183313931116932833788714565479446361316288264238208];
X2=[116463.3296031.1376807.7462036.8151043.7141557.1634552.129021.4523083.8718527.1815361.5612497.611152.8610061.999126.488282.255793.754653.323253.52174.441564.331345.011282.981131.65952.65808.07675517.15419.54345.33282.3286.930];
X3=[236401.99201722.15150648.06179921.47166863.7140974116921.895539.170483.551378.242183.639273.229896.226849.726967.224133.823499.920381.9112719119.67225.85560.14155.93821.83084.22580.42066.71201860.1771.3735.3570454.6];
X4=[81303.9269319.7660361.0158002.1548893.0240810.8339450.8936238.9929691.827390.7526179.6424915.7724519.0624541.8623788.3622353.7320340.8615750.4710995.539084.718157.037662.096534.735865.274675.74013.013619.493214.1327502483.262180.621922.61697.6];
X5=[36969613241807282522225859372275822203706018620661706412156449214834471401786135868212930081267427127821812984211234938118039611159021045899985793970602988435982195948229853557745763339995323956311974298642546537318258];
X6=[311485.13251683.77224598.77172828.4137323.94109998.1688773.6170477.4355566.6143499.937213.532917.729854.728406.224941.122913.520019.317042.113072.38080.15594.545174410.44753.83791.73120.62543.21832.91430.11230.4961910.90];
X7=[183918.6156998.4132678.4114830.193571.679145.268352.65950152516.348135.943055.439105.735647.933378.131252.928360.223613.818622.914270.410993.79415.68300.18101.474405820495043053376.42849.42570235021401800];
X8=[89738.3973210.7959521.5954223.7945621.9734804.3528778.5424165.6820017.3117636.4515301.3812581.5110682.589262.88234.046909.826038.045126.884255.33296.912990.172821.862727.42390.472140.362090.732040.79947.35775.59700.02629.89571.7537.82];
X=[ones(33,1)X1'X2'X3'X4'X5'X6'X7'X8'];
Y=y';
Alpha=0.05;
[b,bint,r,rint,stats]=regress(Y,X,Alpha);
b,bint,stats
输出:
b=
1.0e+02*
4.259537686599037
.028*********
.020*********
0.003246590973087
0.006313210417806
-0.000066207873124
0.003719153617982
.021*********
0.014665579475333
bint=
1.0e+03*
-1.3064724678791232.158********8930
-0.0082631591329110.002617704900817
-0.002557380051209-0.001633563558107
0.0002641017243770.000385216470240
0.0001810462944250.001081595789136
-0.000009563235800-0.000003678338825
0.0002541688424490.000489661881147
0.0016035709264710.002727233886030
0.0008570083118940.002076107583173
stats=
1.0e+06*
0.0000009999236490.0392890070287840.0000000000000001.600681754619707
即
=425.9537686599037
=-2.8227271160471
=.0954********
=0.3246590973087
=0.6313210417806
=-0.0066207873124
=0.3719153617982
=2.1654024062507
=1.4665579475333
的置信区间为[-1306.4724678791232158.380005198930];
的置信区间为[-8.2631591329112.617704900817];
的置信区间为[2.557380051209-1.633563558107];
的置信区间为[0.2641017243770.385216470240];
的置信区间为[0.181********51.081595789136];
的置信区间为[-0.009563235800-0.003678338825];
的置信区间为[0.2541688424490.489661881147];
的置信区间为[1.6035709264712.727233886030];
的置信区间为[0.8570083118942.076107583173];
2检验回归方程的显著性
相关系数r2越接近1,说明回归方程越显著;F>F1-alpha(p,n-p-1)时拒绝
,F越大,说明回归方程越显著;与F对应的概率p<α时拒绝
,回归模型成立。
由计算结果可知,
=0.999923649,F=39289.007028784,p=0.000000000000000
=
Y=425.9537686599037-2.8227271160471 +.0954******** +0.3246590973087 +0.6313210417806 -0.0066207873124 +0.3719153617982 +2.1654024062507 +1.4665579475333 成立。 3分析显著性影响因素(回归系数的显著性检验) 输入: X=[X1'X2'X3'X4'X5'X6'X7'X8']; stepwise(X,Y) 从表StepwiseTable中分析哪些X是Y的为主要的影响因素。 从结果当中可以看出,第一组数据 对Y的影响不显著,但其他7个变量均对Y因变量的线性影响显著,因此在 的水平下,可剔除变量 ,重新建立方程,对回归方程进行优化。 在Matlab命令窗口输入: X=[ones(33,1)X2'X3'X4'X5'X6'X7'X8']; Y=Y'; Alpha=0.05; [b,bint,r,rint,stats]=regress(Y,X,Alpha); b,bint,stats 输出: b= 1.0e+02* 3.438436192462481 .020********* 0.003137815274137 0.005118152595624 -0.000063665402012 0.003924700315801 0.019354504574893 0.014819800936958 bint= 1.0e+03* -1.3827380920644212.070425330556917 -0.002426235599614-0.001576186327836 0.00025692
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数理统计 作业
![提示](https://static.bdocx.com/images/bang_tan.gif)