用AR模型对我国人口进行分析.docx
- 文档编号:7296266
- 上传时间:2023-01-22
- 格式:DOCX
- 页数:16
- 大小:872.43KB
用AR模型对我国人口进行分析.docx
《用AR模型对我国人口进行分析.docx》由会员分享,可在线阅读,更多相关《用AR模型对我国人口进行分析.docx(16页珍藏版)》请在冰豆网上搜索。
用AR模型对我国人口进行分析
用ARMA模型对我国建国后人口总数的实证分析
应用时间序列分析课程论文
2014-12-13
统计一班杨逢麦20120285
用ARMA模型对我国建国后人口总数变化的实证分析
摘要:
本文根据我们所学的课程《应用时间序列分析》中的知识,选取了我国1949年到2013年的总人口数据X,运用二阶差分最终得到平稳的时间序列Z。
并尝试对序列Z做了ARMA(1,1)模型后发现模型的系数检验失败,并且调整R2=0.015992拟合度很差。
因此认为差分后的数据不适合建立模型。
最终从实际意义上分析认为影响总总人口的主要因素为前一期存活量和扰动(人口的出生和死亡等)对当期有显著的影响,因此虽人源数据X非平稳,但是我们仍能对其建模。
通过对X的自相关图,我们分别对X建立了ARMA(1,5)和ARMA(1,1)两个模型最终从模型的可行性和系数检验的结果决定采用ARMA(1,1)。
所得模型为:
最后利用所建立的模型分别用动态预测和静态预测预测了我国的总人口五年的变化情况。
其中用动态法预测2014年我国的人口为137132.1823万,用静态预测法预测我国2014年多的总人口为136945.511万,其它年份详见表1-1
关键词:
ARMA模型、总人口预测
一、数据的录入和基本分析
(1)数据录入
打开Eviews软件,选择“File”菜单中的“New--Workfile”选项,在“Workfilestructuretype”栏选择“Dated–regularfrequency”,在“Datespecification”栏中分别选择“Annual”(年数据),分别在起始年输入1949,终止年输入2013,点击ok。
这样就建立了一个工作文件,再在主窗口输入命令:
datax(x代表历年人口总数),最后将数据复制粘贴到EVIEWS中即可建立文件。
(2)时序图判断平稳性
做出该序列的时序图1-1,看出该序列呈直线上升趋势,直观来看,显著不平稳。
图1-1X的时序图
(3)自相关图和偏自相关图判断平稳性
从自相关系数可以看出,衰减到零的速度非常缓慢,所以断定X序列非平稳。
为了证实这个结论,进一步对其做ADF检验,结果见图1-3,可以看出在显著性水平0.05下,接受存在一个单位根的原假设,进一步验证了原序列不平稳。
为了找出其非平稳的阶数,需要对其一阶差分序列和二阶差分序列等进行ADF检验
图1-2对数序列x自相关图
NullHypothesis:
Xhasaunitroot
Exogenous:
Constant
LagLength:
2(AutomaticbasedonAIC,MAXLAG=10)
t-Statistic
Prob.*
AugmentedDickey-Fullerteststatistic
-1.626205
0.4633
Testcriticalvalues:
1%level
-3.540198
5%level
-2.909206
10%level
-2.592215
图1-3序列x的ADF检验结果
(4)差分次数d的确定
x序列显著非平稳,现对其一阶差分序列进行ADF检验,检验结果见图1-4,可以看出在显著性水平0.05下不拒绝存在单位根的原假设,说明一阶差分序列是非平稳的,因此做二阶差分检验
NullHypothesis:
D(X)hasaunitroot
Exogenous:
Constant
LagLength:
2(AutomaticbasedonAIC,MAXLAG=10)
t-Statistic
Prob.*
AugmentedDickey-Fullerteststatistic
-2.325144
0.1676
Testcriticalvalues:
1%level
-3.542097
5%level
-2.910019
10%level
-2.592645
图1-4一阶差分序列平稳性检验
对序列做二阶差分后的结果如图1-4所示,可以看出在显著性水平0.05下显著拒绝存在单位根的原假设,说明二阶差分序列是平稳的,因此d=2。
NullHypothesis:
D(X,2)hasaunitroot
Exogenous:
Constant
LagLength:
9(AutomaticbasedonAIC,MAXLAG=10)
t-Statistic
Prob.*
AugmentedDickey-Fullerteststatistic
-4.658036
0.0004
Testcriticalvalues:
1%level
-3.560019
5%level
-2.917650
10%level
-2.596689
图1-4二阶差分序列平稳性检验
二、模型的建立
(一)建立二阶差分序列
在Eviews对话框中输入“seriesy=x-x(-1)”,并点击“回车”,便得到了经过一阶差分处理后的新序列y,再输入“seriesz=y-y(-1)”,便得到了经过二阶差分处理后的新序列z.其时序图见图1-6从直观上来看,序列z也是平稳的,这就可以对z序列进行ARMA模型分析了。
得到的Z值如图1-5所示:
年份
Z值
年份
Z值
年份
Z值
年份
Z值
年份
Z值
年份
Z值
年份
Z值
1949
1959
-128
1969
-29
1979
-2
1989
-48
1999
-110
2009
-25
1950
1960
-2213
1970
184
1980
-120
1990
-49
2000
-68
2010
-7
1951
75
1961
652
1971
-84
1981
204
1991
-139
2001
-73
2011
3
1952
78
1962
1785
1972
-289
1982
215
1992
-142
2002
-58
2012
25
1953
132
1963
439
1973
86
1983
-228
1993
-2
2003
-52
2013
-1
1954
156
1964
-549
1974
-386
1984
-5
1994
-13
2004
-13
1955
-271
1965
712
1975
-87
1985
145
1995
-62
2005
7
1956
164
1966
-35
1976
-264
1986
162
1996
-3
2006
-76
1957
462
1967
-178
1977
-40
1987
137
1997
-31
2007
-11
1958
-484
1968
340
1978
28
1988
-67
1998
-102
2008
-8
图1-5Z值分布
图1-6z序列时序图
(二)模型的识别
1.做平稳序列z的自相关图1-6:
从z的自相关函数图和偏自相关函数图中我们可以看到,自相关系数、偏自相关系数在二阶后明显截尾,但不能立即决定模型的阶数,因此有待于进行模型选择。
(三)模型的建立
1.模型的参数估计
通过以上自相关图,做了二阶差分后的变量Z的ARMA(1,1)模型的参数估计,所得结果如下图:
DependentVariable:
Z
Method:
LeastSquares
Date:
12/13/14Time:
10:
37
Sample(adjusted):
19522013
Includedobservations:
62afteradjustments
Convergenceachievedafter17iterations
Backcast:
1951
Variable
Coefficient
Std.Error
t-Statistic
Prob.
C
-6.607971
58.19382
-0.113551
0.9100
AR
(1)
-0.512627
0.623714
-0.821895
0.4144
MA
(1)
0.627321
0.565435
1.109448
0.2717
R-squared
0.017320
Meandependentvar
-7.032258
AdjustedR-squared
-0.015992
S.D.dependentvar
423.6600
S.E.ofregression
427.0341
Akaikeinfocriterion
14.99878
Sumsquaredresid
10759130
Schwarzcriterion
15.10171
Loglikelihood
-461.9622
F-statistic
0.519931
Durbin-Watsonstat
2.170085
Prob(F-statistic)
0.597260
InvertedARRoots
-.51
InvertedMARoots
-.63
从图中可以看出,模型总体的R2很小,这样一来同时各个系数检验也不通过,所以不能对变量Z建立ARMA(1,1)模型。
之后通过反复尝试分析,发现不论是一阶差分后的数据Y还是二阶差分后的数据z,虽然其平稳性要比源数据X的平稳性要好,但是都不适合建模分析。
通过分析发现这主要是因为差分后破坏了数据的经济意义。
首先从常理上分析,我们不难看出影响当期人口的因素主要取决于扰动和前一期的存活量。
扰动的因素主要有:
出生人口、死亡人口等。
通过以上分析我们决定对源数据进项建模。
从图1-2对数序列x自相关图可以看出,数据明显是自相关函数拖尾,而偏相关函数一阶截尾。
图1-2对数序列x自相关图
因此,我们做了源数据X的ARMA(1,5)模型,得到如下结果:
DependentVariable:
X
Method:
LeastSquares
Date:
12/13/14Time:
14:
00
Sample(adjusted):
19502013
Includedobservations:
64afteradjustments
Convergenceachievedafter151iterations
Backcast:
19451949
Variable
Coefficient
Std.Error
t-Statistic
Prob.
C
231427.7
68178.92
3.394417
0.0013
AR
(1)
0.990301
0.004977
198.9633
0.0000
MA
(1)
0.998787
0.131337
7.604772
0.0000
MA
(2)
0.486245
0.172863
2.812894
0.0067
MA(3)
0.111277
0.186320
0.597238
0.5527
MA(4)
0.398557
0.170650
2.335525
0.0231
MA(5)
-0.036304
0.118642
-0.305993
0.7607
R-squared
0.999830
Meandependentvar
99105.30
AdjustedR-squared
0.999813
S.D.dependentvar
26184.83
S.E.ofregression
358.4541
Akaikeinfocriterion
14.70440
Sumsquaredresid
7323893.
Schwarzcriterion
14.94052
Loglikelihood
-463.5407
F-statistic
56020.63
Durbin-Watsonstat
1.936602
Prob(F-statistic)
0.000000
InvertedARRoots
.99
InvertedMARoots
.26-.59i
.26+.59i
.09
-.80+.59i
-.80-.59i
从检查结果中发现,只有AR
(1)和MA
(2)的系数检验是通过的。
而R2的值非常接近于1,因此我们为了方便起见做了ARMA(1,1)模型,得到的检验结果如下:
DependentVariable:
X
Method:
LeastSquares
Date:
12/13/14Time:
14:
05
Sample(adjusted):
19502013
Includedobservations:
64afteradjustments
Convergenceachievedafter25iterations
Backcast:
1949
Variable
Coefficient
Std.Error
t-Statistic
Prob.
C
286684.0
92098.56
3.112796
0.0028
AR
(1)
0.993233
0.003273
303.4576
0.0000
MA
(1)
0.667945
0.094093
7.098772
0.0000
R-squared
0.999760
Meandependentvar
99105.30
AdjustedR-squared
0.999752
S.D.dependentvar
26184.83
S.E.ofregression
412.5961
Akaikeinfocriterion
14.92856
Sumsquaredresid
10384370
Schwarzcriterion
15.02975
Loglikelihood
-474.7138
F-statistic
126839.7
Durbin-Watsonstat
1.500707
Prob(F-statistic)
0.000000
InvertedARRoots
.99
InvertedMARoots
-.67
从以上的模型系数表中可以看出,AR
(1),MA
(1)的系数都是显著地。
且R2=0.999760
虽然没有ARMA(1,5)模型的R2=0.999830大,但是从模型的简便性和系数的检验效果来说,最终决定对于源数据X建立ARMA(1,1)模型。
模型的估计结果如下:
(三)模型模型的诊断检验
做模型残差的自相关图如下所示:
从图上图可以看出,残差不再存在自相关,说明模型拟合很好,模型拟合图见下图
ARMA(1,1)拟合效果图
(四)、模型的预测
图3-16模型动态预测图
上图用“Dynamic”法预测的效果图,图中实线代表的是x的预测值,两条虚线则提供了2倍标准差的置信区间。
可以看到,随着预测时间的增长,则预测的区间越大。
Theil不相等系数为0.015671,表明模型的预测能力较好。
但是由于预测时间过长,预测的准确性越来越差。
下面我们再利用“Static”方法来预测,得到如图3-17所示的结果。
从图中可以看到,“Static”方法得到的预测值的拟合性良好;同时,方差比例的下降也表明较好的模拟了实际序列的波动,Theil不相等系数为0.001966,表明模型的预测结果较理想。
图3-17模型静态预测图
综合上述分析过程,实际上我们是针对原序列X:
1949年—2013年我总人口数据序列,建立了一个ARIMA(1,1)模型进行拟合,模型形式如下:
下表是分别用动态预测和静态预测得到的我国各年份人口总数
年份/万
实际人口总数
动态预测人口总数
静态预测人口总数
1949
54,167
1950
55,196
55740.3374
55579.46339
1951
56,300
57303.02873
56506.24234
1952
57,482
58855.14604
57721.1459
1953
58,796
60396.76087
58873.17009
1954
60,266
61927.94429
60286.46971
1955
61,465
63448.76688
61784.39559
1956
62,828
64959.29875
62775.61659
1957
64,653
66459.60954
64377.72154
1958
65,994
67949.76841
66339.25412
1959
67,207
69429.84404
67256.69883
1960
66,207
70899.90467
68658.90555
1961
65,859
72360.01806
66061.13125
1962
67,296
73810.25153
67218.21045
1963
69,172
75250.67192
68832.45849
1964
70,499
76681.34564
70870.60024
1965
72,538
78102.33863
71713.61779
1966
74,542
79513.71641
74537.67073
1967
76,368
80915.54403
75980.36069
1968
78,534
82307.88612
78050.03482
1969
80,671
83690.80686
80265.71882
1970
82,992
85064.37
82335.70216
1971
85,229
86428.63886
84808.6622
1972
87,177
87783.67633
86872.91721
1973
89,211
89129.54487
88730.08408
1974
90,859
90466.30652
90868.43565
1975
92,420
91794.02292
92177.75673
1976
93,717
93112.75526
93896.3017
1977
94,974
94422.56433
94902.95683
1978
96,259
95723.51052
96318.66777
1979
97,542
97015.65379
97507.6651
1980
98,705
98299.05372
98844.77219
1981
100,072
99573.76945
99883.60881
1982
101,654
100839.8598
101460.5539
1983
103,008
102097.383
103035.2256
1984
104,357
103346.3972
104232.6672
1985
105,851
104586.9598
105673.7717
1986
107,507
105819.1281
107192.9938
1987
109,300
107042.9589
108929.1485
1988
111,026
108258.5086
110747.9856
1989
112,704
109465.8332
112400.2965
1990
114,333
110664.9884
114084.1011
1991
115,823
111856.0294
115665.4719
1992
117,171
113039.0113
117084.3591
1993
118,517
114213.9884
118375.8891
1994
119,850
115381.0149
119749.1643
1995
121,121
116540.1448
121046.2429
1996
122,389
117691.4313
122291.2235
1997
123,626
118834.9276
123566.0192
1998
124,761
119970.6863
124769.4036
1999
125,786
121098.7599
125851.0466
2000
126,743
122219.2003
126831.2765
2001
127,627
123332.0593
127766.2846
2002
128,453
124437.388
128610.2324
2003
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AR 模型 我国人口 进行 分析