第五章时间序列的模型识别文档格式.docx
- 文档编号:19092103
- 上传时间:2023-01-03
- 格式:DOCX
- 页数:11
- 大小:23.34KB
第五章时间序列的模型识别文档格式.docx
《第五章时间序列的模型识别文档格式.docx》由会员分享,可在线阅读,更多相关《第五章时间序列的模型识别文档格式.docx(11页珍藏版)》请在冰豆网上搜索。
对其进行估计。
然而由于k和偏自相关系数k和需要使用样本的自相关系数kkkk均是随机变量,对于相应的模型不可能具有严格的“截尾性”,只能呈现出在某步之后
的“截尾性”来判断和的和围绕零值上、下波动,因此,我们需要借助kkkkkkk和截尾性,进而由此可以给出模型的初步识别。
首先,我们需要给出样本的自相关系数的定义。
偏自相关系数kk设平稳时间序列某t的一个样本某1,,某T。
则样本自协方差系数定义为
1Tkk某j某某jk某,1kT1Tj1kk,1kT1(5.1)
1Tk是某t的自协方差系数k的估其中某某j为样本均值,则样本自协方差系数Tj1计。
样本自相关系数定义为
kk0,kT1是某t的自相关系数k的估计。
(5.2)
作为某t的自协方差系数k的估计,根据数理统计知识,样本自协方差系数还可以写为
2
1Tkk某j某某jk某,1kT1
Tkj1kk,1kT1(5.3)
在上述两种估计中,当样本容量T很大,而k的绝对值较小时,上述两种估计值相差不大,其中由(5.1)定义的第一种估计值的绝对值较小。
根据前面章节的讨论,因为AR(p),MA(q)或者ARMA(p,q)模型的自协方差系数k都是以负指数阶收敛到零,所以在对平稳时间序列的数据拟合AR(p),MA(q)或者ARMA(p,q)模型时,希望实际计算的样本自
k能以很快的速度收敛。
因此,我们一般选择由(5.1)定义的第一种估计值作协方差系数为k的点估计。
k的值,定义样本偏自相关根据第三章偏自相关系数的计算,利用样本自相关系数如下:
系数kkDkkk,k1,2,D其中
T
(5.4)
D1111k1k21,Dk111112k
k1k2k1k2k的统计性质,我们将在下一章给予讨论。
关于样本的自相关系数也满足Bartlett公式,即当样本容量T充分大时,Quenouille证明,kk~N0,1Tkk这样根据正态分布的性质,我们有
(5.5)
1(5.6)P68.3%kkT2(5.7)P95.5%kkT
这样,关于偏自相关系数kk的截尾性的判断,转化为利用上述性质(5.6)或者(5.7),
的截尾性。
p2,p2,pM,pM可以判断具体方法为对于每一个p>
0,考查p1,p1,…,kk3
中落入kk12的比例是否占总数M的68.3%或95.5%。
或kkTT都明显地不为零,而当pp0时,一般地,我们取MT。
如果pp0之前kkp1,p1,p2,p2,…,pM,pM中满足不等式
000000kk12或kkTT的个数占总数M的68.3%或95.5%,则可以认定kk在p0处截尾,由此可以初步判定序列{某t}为AR(p0)模型。
k,由第二章的Bartlett公式,对于q0,k满足对于样本的自相关系数q12k~N0,12jTj1(5.8)
k也满足进一步地,当样本容量T充分大时,k~N0,1T
(5.9)
q1,q2,…,qM中落入类似于(5.6)或者(5.7)式,对于每一个q0,检查k12k或者中的比例是否占总数M的68.3%或95.5%左右。
如果在q0之前,
TT000k都明显不为零,而当qq0时,q1,q2,…,qM中满足上述不等式的个数达到比例,则判断k在q0处截尾。
初步认为序列{某t}为MA(q0)模型。
,得到ARMA模型k和偏自相关系数至此,我们可以利用样本的自相关系数kk阶数的初步判定方法。
具体做法如下:
k在最初的q阶明显的大于2倍标准差范围,即21
(1)如果样本自相关系数T,而
k都落在2倍标准差范围之内,并且由非零样本自相关后几乎95%的样本自相关系数系数衰减为在零附近小值波动的过程非常突然,这时通常视为自相关系数k截尾,既可以初步判定相应的时间序列为MA(q)模型
如果满足上述性质,则可以初步判定相应的时间序列为
(2)同样,样本偏自相关系数kk
4
AR(p)模型。
,如果均有超过5%的值落入2倍k和样本偏自相关系数(3)对于样本自相关系数kk标准差范围之外,或者由非零样本自相关系数和样本偏自相关系数衰减为在零附近小值
波动的过程非常缓慢,这时都视为不戴尾的,我们将初步判定时间序列为ARMA模型,那么这样的判断往往会失效,因为这时ARMA(p,q)模型的阶数p和q很难确定。
总之,基于样本自相关和偏自相关系数的定阶法只是一种初步定阶方法,可在建模开始时加以粗略地估计。
例5.1绿头苍蝇数据的时间序列。
具有均衡性别比例数目固定的成年绿头苍蝇保存在一个盒子中,每天给一定数量的食物,每天对绿头苍蝇的总体计数,共得到T=82个观测值。
经过平稳性处理后计算其基于样本自相关和偏自相关系数,见表5.1
表5.1绿头苍蝇的样本ACF和PACF
样本自相关系数样本偏自相关系数k12345678910kk12345678910kk0.730.490.300.200.120.02-0.01-0.04-0.01-0.030.73-0.09-0.040.04-0.03-0.120.07-0.050.07-0.08
图5.2绿头苍蝇的样本ACF和PACF
k}呈拖尾状,而从10个偏自相关系数的绝对值来由表5.1和图5.2知,样本自相关函数{5
显著地异于零之外,其余9个中绝对值不大于1看,除11T10.11的有8个,8280.8968.3%,故该时间序列初步判定为AR
(1)模型。
9例5.2某时间序列数据(T=273)的样本自相关系数和偏自相关系数计算数据如下:
表5.2某时间序列数据的样本自/偏自相关系数
样本自相关系数样本偏自相关系数k12345678kk9101112131415kk12345678kkk9101112131415kk0.820.450.047-0.26-0.41-0.36-0.150.160.460.640.630.450.16-0.11-0.300.82-0.68-0.120.06-0.020.180.200.040.190.01-0.01-0.030.020.05-0.06k}呈拖尾状,而从15个偏自相关系数的绝对值来看,除11,由上表知,样本自相关函数{显著地异于零之外,其余13个中绝对值不大于122T10.0605的有9个,27390.69268.3%,故该时间序列初步判定为AR
(2)模型。
13例5.3某车站1993-1997年个月的列车运行数量数据共60个,见表5.3,试对该序列给出初步的模型识别。
表5.3某车站1993-1997年个月的列车运行数量数据(单位:
千列·
千米)k12345678910观测值k11121314151617181920观测值k21222324252627282930观测值k31323334353637383940观测值k41424344454647484950观测值k51525354555657585960观测值1196.81181.31222.61229.31221.51148.41250.21174.41234.51209.71206.51204.01234.11146.01304.91221.91244.11194.41281.51277.31238.91267.51200.91245.51249.91220.11267.41182.31221.71178.11261.61274.51196.41222.61174.71212.61215.01191.01179.01224.01183.01228.01274.01218.01263.01205.01210.01243.01266.01200.01306.01209.01248.01208.01231.01244.01296.01221.01287.01191.0图5.3,5.4分别为原始数据和平稳化以后(第8章将给出具体平稳化方法)数据的散点图。
6
图5.3列车运行数量数据图5.4平稳化列车运行数量数据
5.2F检验法
利用F分布进行假设检验是实践中经常使用的统计检验方法,在回归分析中,往往用F检验来考察两个回归模型是否有显著差异,因此常被用来判定ARMA模型的阶数。
考虑如
7
下线性回归模型
y1某12某2n某n(5.10)
Y(y1,y2,,yN)T为N个独立的随机观察值,某i(某i1,某i2,,某iN)T,i1,2,,r为
是模型(5.7)中参数r个回归因子,(1,2,,N)T为模型残差。
设(1,2,,r)T的最小二乘估计,为了检验其中后面个元素对因变量的影响是否显
著,设去掉此个因素的线性回归模型为
'
y1'
某12某2r'
某r'
(5.11)
因此,检验模型(5.10)与(5.11)是否有其中模型(5.11)的参数的最小二乘估计为'
显著差异等价于检验原假设,即
H0:
r1r2r0(5.12)
是否成立。
为此,考虑上述两个模型的残差平方和Q0与Q1,于是有
1某1t2某2tr某rt)(5.13)Q0(yt
t1N2某1t某2tQ1(ytt1N'
1'
2'
r2某r,t)(5.14)
Q0~22(Nr),Q0与Q1Q0相互独立,借助回归分析中残差平方和的分布结论:
22且当原假设H0为真时,Q1Q0~(),因此有:
Q1Q0Q0/~F(,Nr)(5.15)Nr据此构造统计量
FQ1Q0Q0(5.16)/Nr对于预先给定的显著性水平,由附录F分布表查出满足
P(FF)(5.17)若FF(,Nr),则拒绝原假设H0,即后面个因素对因变量的影响是显著的;
若
FF(,Nr),则接受原假设H0,即这个因素对因变量的影响是不显著的,表明模型
(5.11)是合适的。
5.2.1AR(p)模型定阶的F准则
1967年,瑞典控制论专家K.J.Atrm教授将F检验准则用于对时间序列模型的定阶。
设某t(1≤t≤N)是零均值平稳序列的一段样本。
并用模型AR(p)
8
某t1某t12某t2p某tpt(5.18)
进行拟合。
根据模型阶数节省原则(parimonyprinciple),采取由低阶逐步升高的“过拟合”办法。
先对观测数据拟合模型AR(p)(p=1,2,…),用递推最小二乘估计其参数j(1jn)并分别计算对应模型的残差平方和。
根据适用的模型应具有较小的残差平方和的特点,用F准则判定模型的阶数改变后相应的残差平方和变化是否显著。
检验假设p0即表示模型AR(p-1)是合适的。
由于模型AR(p)残差平方和为
Q0(某t1某t12某t2tp1Np某tp)(5.19)
2而模型AR(p-1)的残差平方和为
Q1(某t1某t12某t2tp1Np1某tp1)2(5.20)
统计量F服从自由度为1和Np的F分布。
即
FQ1Q0Q0/~F(1,Np)(5.21)1NpQ1Q0Q0/。
若1Np对照式(5.16),这里n=p是模型阶数总数,=1是被检验的阶数差数。
对给定的显著性0.05或0.01,查附录F分布表得F(1,Np),并计算FFF就拒绝假设H0,即AR(p-1)是不适合模型;
若FF,则接受H0,即AR(p-1)是适
合模型。
例5.4
根据某实测数据序列拟合的时间序列模型为AR(p),其中N=80。
当阶数p=0,
1,2,3时,参数估计及F检验结果分别如表5.5、表5.6所示
表5.5AR(p)模型的参数估计结果
参数AR(p)模型AR(0)---AR
(1)0.8223--AR
(2)1.35430.0643-AR(3)1.42580.07740.0983123表5.6各模型的F检验结果检验统计量QF
AR(p)模型AR(0)100316175.64AR
(1)3112555.729
AR
(2)181493.86AR(3)1728245.66
由表5.5和表5.6可知,当模型阶次从1增加到2时,残差平方和Q值急剧减少。
根据F检验定价方法,当0.05和N=80时,查附录F分布表得F=3.96。
当p=l1时求得F=55.7>
F,这表明F检验显著,表明AR
(1)模型是不适用的,应改用AR
(2)模型。
计算得F=3.86
5.2.2ARMA(p,q)模型定阶的F准则
仿照AR(p)模型定阶F检验准则,可以将F检验应用于ARMA(p,q)模型的定阶。
采用过拟合方法,首先对观测数据用ARMA(p,q)模型进行拟台,再假定p,q高阶系数中某些取值为零,用F检验准则来判定阶数降低之后的模型与ARMA(p,q)模型之间是否存在显著性差异。
如果差异显著,则说明模型阶数仍存在着升高的可能性;
若差异不显著,则说明模型阶数可以降低,低阶模型与高阶模型之间的差异用残差平方和来衡量。
假定原假设为H0:
p0,q0,记Q0为ARMA(p,q)模型的残差平方和,Q1为ARMA(p-1,q-1)模型的残差平方和,则可以计算统计量
FQ1Q0Q0/~F(2,Npq)(5.22)2Npq对照式(5.16)这里n=p+q是模型阶数的总数,=2是被检验阶散的差数。
如果FF,则H0不成立,模型阶数仍有上升的可能;
否则H0成立,即ARMA(p-1,q-1)是合适的模型。
5.3信息准则法5.3.1FPE准则法
前面两节中模型的定阶都采用统计检验手段,在给定显著性水平下作假设检验,带有一定的人为性和主观性。
而FPE、AIC和BIC准则都避免上述的缺陷。
1969年,日本统计学家赤池(Akaike)提出了一种识别AR模型阶数的最终预报误差准则(FinialPredictionError),简称FPE准则。
其基本思想是用模型一步预报误差的方差来判定自回归模型的阶数是否适用,一步预报误差的方差愈小,就认为模型拟合愈好。
设随机序列{某t}所适合的真实模型为AR(p),即
某t1某t12某t2一步预报值,则有
p某tpt
22(1ip)用某
(1)表示t时刻的其中E(t)0,E(t)设i的估计值为ti某某
(1)某t1t12t2
10
某(5.23)ptp
可以证明一步预报误差的方差为
(1)]2(1p)2E[某t1某tn(5.24)
可以证明,当样本总量n充分大时有
2](1E[2/(1上式表明pn)是2pn)(5.25)
2的无偏估计。
在式(5.21)中用无偏估计来代替2便可得到
2
(1)]2(1p)(1p)1E[某t1某(5.26)tnn因而将FPE准则定义为
FPEnpnp2npnpp(5.27)
其中可以看出,系数随着p的增大而增大,而当阶数由低阶至高阶增加时,AR(p)
2开始是随着p的增大而减小,但当p超过序列某t的真正模型阶数p0之模型残差方差2就不会再减少了,这时后,npnp将起主导作用。
最终,使FPEp取最小值的那个p就
可以判定为模型的最佳阶数。
根据经验,当样本点数n=100~200时取预先设定的样本上限L时,取Ln3~n22nln2n;
当n=50~100
。
如果FPEp的数值从p=1就开始上升,则可以判定模型阶数p=1。
若FPEp的值随p增加而一直下降,则很可能是由于实际数据序列不宜采用AR序列来描述。
如果在某一p的
FPEp值下降很快,以后又有缓慢地下降,则可以将这个p值作为模型的阶。
如果随p的增
加FPEp的值上、下剧烈跳动,取不出最小值,这很可能是由于样本数据长度n太小引起的,可增大样本长度后再进行定阶。
例5.5表所示:
表5.4拟合各阶AR(p)模型的p和FPEp
p01234
2p2根据某实测数据序列拟合的AR(p)(p=1,2,…,10)模型的p和FPE2p结果如下
FPEp1.72030.50970.47900.47280.470811
1.72030.52020.49890.50270.5109
567891020.47050.47050.46790.46640.46640.44530.52110.53180.53990.54930.56070.5465由表中可以看出,p随着p的增加持续下降,但是FPEp在p=2时取得最小值,这提示着模型取为AR
(2)较合适。
5.3.2AIC准则法
AIC准则(Aninformationcriterion)是由日本统计学家赤池弘次(Akaika)在1973年提出的。
该准则既考虑拟合模型对数据的接近程度,也考虑模型中所含待定参数的个数,适用于ARMA(包括AR和MA)模型的检验,下面我们对AIC准则理论给出一般性的介绍。
设n维随机向量某的概率密度属于函数族{f(;
),},f(;
)与f(;
)之间的Kullback-Leibler指标定义为
d()()()(5.28)
其中
()E(2lnf(某;
))2ln(f(某;
))f(某;
)d某(5.29)
Rn是f(;
)相对于f(;
)的Kullback-Leibler指标,根据Jenen不等式有:
f(某;
)f(某;
)d()2ln(Rn)f(某;
)d某
2ln(Rn)f(某;
2lnf(某;
Rn=0(5.30)
其中的等号当且仅当f(某;
)=f(某;
)时成立。
假设所有观测某1,某2,,某n来自一参数向量为(,)的ARMA过程,真实的阶
2)为基于某1,某2,,某n的极大似然估计,Y1,Y2,Yn为该过数为(p,q),令(2程的样本实现,则
,)n(5.31)2)2lnL某
(2)2SY(2lnLY(
12
其中:
L(,,)(2n(,)21212)r0rn1ne某p{122nj1)2(某j某jrj1}
(,)(某j1nj)2/r某jj1)2/2rnE(某n1某n1这样,
E(())E,2,2))(2lnLY()SY(n(5.32)22,E,2))E2(2lnL某(,在大样本逼近的情形下,
)2(pq1)nSY((5.30)E22,npq2,2)2(pq1)n/(npq2)是Kullback-Leibler指标E(())从而,2lnL某(的渐进无偏估计。
前面的推导是建立在真实阶数为(p,q)的基础上的,因而可以选择能够极
)函数的(p,q),或者极小化等价AIC()统计量的(p,q):
小化如下AICC(AICC():
2lnL某(,S某()/n)2(pq1)n/(npq2)(5.31)AIC():
2lnL某(,S某()/n)2(pq1)(5.32)
)和AIC()也可以定义为以2的估计值代替公式中的S()/n的形式,因为当AICC(某设定2)和AIC()同时极小化。
S某()/n时,AICC(对于自回归模型来说,AIC存在着过拟合p的倾向,惩罚因子但AICC统计量对2(pq1)n/(npq2)和2(pq1)在n时是渐进等价的,高阶模型会有更极端的惩罚效果,这将抵消AIC的过拟合倾向。
从上述可以看出,AIC准则的一般形式可表为:
AIC=-2ln(模型最大似然度)+2(模型独立参数个数)(5.33)
将其具体运用到AR(p)模型的定阶时,设观测数据序列{某t}为零均值平稳序列,其中
13
的一组样本数据为某1,某2,,某T,设定一个拟合模型的最高阶数L,则AR(k)模型AIC定阶步骤如下:
k(0≤k≤L);
(1)计算样本自协方差系数k(0≤k≤L)和样本自相关系数
(2)利用递推算法计算偏相关函数kj(1≤j≤k;
1≤k≤L);
(3)令
0kjj2kj1k(5.34)
其中k是AR(k)模型残差方差,记
2kAIC(k)ln22kT(0kL)(5.35)
(4)在1≤k≤L范围内,如果当k=p时,AIC(k)取得最小值,则适用的模型为AR(p)。
5.3.3AIC准则用于ARMA(p,q)模型的定阶
2,设定根据取得的观测数据样本某1,某2,,某N,计算出拟合残差方差2的估计值拟合模型的最高阶数L,在0≤p≤L,0≤q≤L范围内,计算
kAIC(p,q)ln22(pq1)N(5.36)
如果当p=p0,q=q0时,AIC(p,q)取到最小值,则表明适用的拟合模型为ARMA(p,q)。
如果时间序列均值不为零(0),则均值应作为一个独立参数进行估计,此时有
2(pq2)NkAIC(p,q)ln2(5.37)
由此可见,AIC准则函数通常由两项构成。
第一项体现了模型拟合的好坏,它随阶数的增大而至小;
第二项体现了模型参数的多少,它随阶数的增大而变大。
取二者的最大值意味着上述两个量的一种平衡。
从k=0开始逐新增加模型阶数AIC(k)的值是下降的,因为此时起决定性怍用的是第一项,即模型残差方差。
当阶数k达到某一值k0时,AIC(k0)达到最小,然后,随着阶数k继续上升,残差方差下降甚微。
起决定性作用的是第二项,从而AIC(k)的值随k而增长。
此外,使用AIC准则需要注意以下几个问题:
(1)AIC准则要求预先设定模型阶数的最大范围L。
根据经验可知,阶数上限取
14
N,N/10,logN均可。
在比较AIC大小的过程中,如果已接近阶数上限仍不能确定AIC
的极小点,则应加大上限,继续进行比较。
(2)AIC准则要求参数由最大似然无法解释,但当序列
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五 时间 序列 模型 识别