时间序列分析.docx
- 文档编号:23189386
- 上传时间:2023-05-15
- 格式:DOCX
- 页数:38
- 大小:144.20KB
时间序列分析.docx
《时间序列分析.docx》由会员分享,可在线阅读,更多相关《时间序列分析.docx(38页珍藏版)》请在冰豆网上搜索。
时间序列分析
时间序列分析3915
时间序列分析
景元萍
数理部
一.时间序列分析概述
二.时间序列的平滑技术
三.ARMA时间序列
一.时间序列分析概述
时间数列(动态数列)是指标数值按时间顺序排列而形成的数列。
例:
上海市人均国内生产总值
年份人均GDP(元/人)
16955
2<8652
311700
415204
51<8943
622275
725750
1
10000
15000
20000
25000
5000
2
3
4
5
6
7
年
时间数列的作用
反映社会经济现象发展变化的过程和特点;
研究现象发展变化的规律和未来趋势;
不同地区、国家发展状况的比较评价和预测.
主要内容
时间数列的分解和测定
时间数列的预测方法
二.时间序列的平滑技术
平滑法是进行趋势分析和预测时常用的一种方法。
它是利用修匀技术,削弱短期随机波动对序列的影响,使序列平滑化,从而显示出长期趋势变化的规律。
常用平滑法:
移动平均法
指数平滑法
1.移动平均法
基本思想:
假定在一个比较短的时间间隔里,序列值之间的差异主要是由随机波动造成的。
根据这种假定,我们可以用一定时间间隔内的平均值作为某一期的估计值。
移动平均对序列长期趋势的测定
分类:
n期移动平均
n期中心移动平均
1.n期移动平均
5期移动平均
2.n期中心滑动平均
5期中心移动平均
移动平均期数确定的原则
事件的发展有无周期性
以周期长度作为移动平均的间隔长度,以消除周期效应的影响
对趋势平滑的要求
移动平均的期数越多,拟合趋势越平滑
对趋势反映近期变化敏感程度的要求
移动平均的期数越少,拟合趋势越敏感
例2:
病事假人数的移动平均
1<8
6.5
12.6
24
4.5
11.<8
21
2.5
10
6.4
12.4
16
4.4
11.6
13
2.4
<8.2
7
6.3
12.6
11
4.3
11.0
10
2.3
<8.6
5
6.2
13.4
<8
4.2
10.4
<8
2.2
9.0
1
6.1
13.6
4
4.1
10.0
3
2.1
9.6
20
5.5
14.0
2<8
3.5
9.6
1<8
1.5
10.4
12
5.4
14.2
17
3.4
9.4
11
1.4
10.<8
10
5.3
14.6
13
3.3
9.6
<8
1.3
11.6
9
5.2
13.2
9
3.2
7
1.2
12.4
3
5.1
12.4
6
3.1
4
1.1
5项移动
平均
病事假人数
时间
5项移动平均
病事假人数
时间
5项移动
平均
病事假人数
时间
例
320
30
<8.2
<822
20
5.4
214
10
3.2
4<83
29
<8.1
2<84
19
5.3
269
9
3.1
97<8
2<8
7.4
224
1<8
5.2
753
<8
2.4
390
27
7.3
324
17
5.1
1<81
7
2.3
320
26
7.2
922
16
4.4
114
6
2.2
345
25
7.1
233
15
4.3
224
5
2.1
930
24
6.4
203
14
4.2
733
4
1.4
295
23
6.3
345
13
4.1
140
3
1.3
2<80
22
6.2
<860
12
3.4
52
2
1.2
352
21
6.1
210
11
3.3
166
1
1.1
销售额
时间
年.季度
销售额
时间
年.季度
销售额
时间
年.季度
320
<8.2
427.000
<822
5.4
374.<875
214
3.2
4<83
<8.1
417.000
2<84
5.3
357.<875
269
3.1
542.750
97<8
7.4
426.000
224
5.2
341.750
753
2.4
525.500
390
7.3
432.125
324
5.1
323.625
1<81
2.3
502.250
320
7.2
423.125
922
4.4
315.500
114
2.2
4<84.375
345
7.1
423.125
233
4.3
307.<875
224
2.1
467.500
930
6.4
41<8.000
203
4.2
295
733
1.4
463.375
295
6.3
407.375
345
4.1
2<80
140
1.3
450.750
2<80
6.2
405.<875
<860
3.4
52
1.2
435.<875
352
6.1
397.750
210
3.3
166
1.1
4项滑
动平均
销售额y
时间
4项滑
动平均
销售额y
时间
4项滑
动平均
销售额y
时间
移动平均作预测
预测公式:
特别的当
例某一观察值序列最后4期的观察值为:
5,5.5,5.<8,6.2
(1)使用4期移动平均法预测。
(2)求在二期预测值中前面的系数等于多少?
解
(1)
(2)
例、某产品的销售额如下:
试用移动平均法(N=4)对第12个月的销售额进行预测。
解:
N=4,故预测值为
同时利用n期移动平均公式可得到4~12月的平滑值序列为
【312.5390392.5405402.5405412.541541<8.75】
200<8-<8-2
Anna
*
月份
1
2
3
4
5
6
7
<8
9
10
11
12
销售额
130
3<80
330
410
440
390
3<80
400
450
420
390
加权移动平均作预测
在计算滑动平均值时,若对各序列值不作同等看待,而是对每个序列值乘上一个加权因子,然后再作平均,则称此为加权滑动平均,称下述预测值
为加权滑动平均拟合值,为加权因子,满足
例如,当时,有
滑动平均值与所选的时段长短有关,时段长时的滑动平均值比时段短时的滑动平均值的反应速度慢,这是对于干扰的敏感性降低的结果。
造成这种现象的原因,主要是参数滑动平均的数据一律平等对待,不分先后。
实际上最新数据更能反映销售的趋势。
因此,要特别强调新数据的影响,突出新数据的作用;为达此目的,可采用加权滑动平均法。
加权数的选择,涉及预测者的预测艺术水平。
一般的规律是对新数据加的权大,老数据加的权小,至于大到什么程度和小到什么程度,完全靠预测者对序列做全面的了解和分析。
二次移动平均预测法
以上已见到对于有线性增长趋势的序列,应用滑动平均法去作预测比用全体历史数据的平均法好。
但是,必须指出,对于有线性增长(或减少)趋势的序列,运用滑动平均法去作预测,也不是最佳的预测,其预测值会明显的滞后于观察值的现象。
例如,线性趋势方程是
这里是常数。
当上式增加一个单位时间时,就有一个增量为
它不会随时间的改变而改变。
因此,当时间从增至时,序列值是
但是,采用滑动平均法计算的序列的拟合值是
比滞后了
为了消除上述滞后现象,对上述的滑动平均法应加以改进,改进的办法是对已取得的滑动平均值,再进行一次滑动平均,并称这种滑动平均为二次滑动平均。
其公式为
指数平滑
在滑动平均和加权滑动平均预测法中均受到一定的限制,那就是必须使用N个历史的观察值。
这种方法受到两方面的约束,一是必须有N个历史数据,二是预测值仅包含了这N个数据的信息,而不能反映更多的历史数据的信息。
人们希望找出一种更理想的方法,使预测值能较多地反映最新观察值的信息,也能反映大量历史资料的信息,但计算量要尽可能的少,需要存储的历史数据也不多。
这种方法就是指数平滑预测法。
指数平滑的原理为:
利用过去观测值的加权和来预测未来的观测值(这个过程称为平滑),距要预测的未来观测值越近的观测值要给以更多的权,其权值大小按指数规律分配。
所以指数平滑方法中“指数”意味着按照已有观测值“老”的程度,其上的权数按指数速度递减。
设时间序列为N次实测记录,为平滑预测值,则平滑预测值是由下述公式求得
则称此预测法为指数平滑法,此处称为平滑常数,称为预测误差。
将上述公式作适当的推导得
从而可以看出,第t+1步的预测值,其主要部分可以表示为前t步实测值的指数加权和,为初始预测值,由于是介于0和1之间的一个数,故当t很大时,这一项可以忽略,即初始预测值的影响甚微。
通常取为最初几个实测数据的均值。
以上所述是本法命名的由来。
根据以上计算,预测结果依赖于平滑常数的选择。
到底应选择大一些好还是小一些好,没有统一的规定。
一般来说,选得小一些,预测值趋向就较平稳;反之,则变化较大
如果实际图形波动较大,就要求模型的灵敏度高一些,以便迅速跟上数据的变化,这时应选得大一些,具体如何选择,应根据实际问题而定。
如果我们拟合的目的是解决需求的决策问题,也就是希望选取的使预测误差的方差尽可能的小的话,那么的选择就应该以残差平方和的最小为标准。
二次指数平滑
在指数平滑预测公式中,不论是一步预测还是多步预测都是同一公式,这对稳定序列是可行的。
但是,用在上升或下降趋势明显的需求序列上就不够理想。
二次指数平滑就是为弥补这种缺陷的一种方法,但它不是直接用于序列预测的方法,而是为计算有线性趋势的线性预测方程的系数服务的。
所谓二次指数的平滑法,是对一次指数平滑后的序列数据再作一次指数的平滑,其平滑公式是
其中,为二次指数平滑值,为指数平滑常数。
二次指数平滑公式的运用,同一次指数平滑公式一样,也涉及初始值的选取问题。
但随着时间的推移,初始值的影响是很小的,因此可选取。
例6:
某小商店用指数平滑滑动模型预报下个月吸引新顾客人数。
取α=0.3,则有如下的预报:
32.24<8
1
29.7<82
20.<84<8
11.4
3<8
12
27.546
19.2<82
10.5
35
11
25.63<8
17.946
9.6
32
10
25.4<82
17.<83<8
7.<8
26
9
27.403
19.1<82
6.3
21
<8
26.719
1<8.703
<8.7
29
7
27.<8<85
19.519
7.2
24
6
27.<835
19.4<85
<8.4
2<8
5
26.050
1<8.235
9.6
32
4
26.500
1<8.550
7.5
25
3
25.000
17.500
9.0
30
2
17.500
7.5
25
1
^yt+1
0.7^yt
0.3yt
顾客数(yt)
月
例7:
取α=0.65,则有如下的预报:
36.2<86
1
33.103
11.5<86
24.70
3<8
12
29.5<80
10.353
22.75
35
11
25.0<86
<8.7<80
20.<80
32
10
23.3<8<8
<8.1<86
16.90
26
9
27.<824
9.73<8
13.65
21
<8
25.639
<8.974
1<8.<85
29
7
2<8.6<82
10.039
15.60
24
6
29.94<8
10.4<82
1<8.20
2<8
5
26.13<8
9.14<8
20.<80
32
4
2<8.250
9.<8<8<8
16.25
25
3
25.000
<8.750
19.50
30
2
<8.750
16.25
25
1
^yt+1
0.35^yt
0.65yt
顾客数(yt)
月
三.ARMA时间序列
ARMA模型的全称是自回归移动平均模型,它是目前最常用的拟合平稳序列的模型。
它又可细分为AR模型,MA模型和ARMA模型三大类。
平稳时间序列
平稳时间序列可分为严平稳时间序列和宽平稳时间序列。
如果一个时间序列的概率分布与时间t无关,则称该序列为严格的(狭义的)平稳时间序列。
如果序列的一阶、二阶矩存在,而且对任意时刻t满足:
(1)均值为常数;
(2)协方差为时间间隔的函数;
则该序列称为宽平稳时间序列(广义平稳时间序列)。
我们以后所研究的时间序列主要是宽平稳时间序列。
平稳序列反应在图像上就是所有样本点都围绕某一水平直线上下随机波动。
一类特殊的平稳序列—白噪声序列
它是指一列相互之间无关,其均值都为0,方差都为的随机变量序列。
在ARMA模型中需要用到的一些统计量的估计。
延迟K的自协方差函数的估计值
总体方差的估计值
延迟k自相关系数的估计值
当延迟阶数远远小于样本容量时
偏自相关系数
平稳序列的检验—自相关图检验
平稳序列通常具有短期相关性,该性质用自相关系数来描述就是随着延迟期数k的增加,平稳序列的自相关系数会很快衰减向零。
反之非平稳序列的自相关系数衰减向零的速度通常比较慢,这就是我们利用自相关图进行平稳性判断的标准。
例检验1949年——199<8年北京市每年最高气温序列的平稳性
AR模型
具有如下结构的模型称为阶自回归模型
简记为
特别当时,称为中心化模型。
通常会缺省上式中的限制条件而把简记为
MA模型
具有如下结构的模型称为阶移动平均模型,简记为
特别当时,称为中心化模型。
通常会缺省上式中的限制条件而把简记为
ARMA模型
具有如下结构的模型称为自回归移动平均模型,简记为
特别当时,称为中心化模型。
通常会缺省上式中的限制条件而把简记为
ARMA模型相关性特征
拖尾:
系数始终有非零取值,不会在k大于某个常数之后就恒等于零(截尾),这个性质就是拖尾性。
拖尾
拖尾
ARMA(p,q)
拖尾
q阶截尾
MA(q)
P阶截尾
拖尾
AR(P)
偏自相关系数
自相关系数
模型
平稳序列建模步骤
平
稳
非
白
噪
声
序
列
计
算
样
本
相
关
系
数
模型
识别
参数
估计
模型
检验
模
型
优
化
序
列
预
测
Y
N
1.计算样本相关系数
样本自相关系数
样本偏自相关系数
2.模型识别
基本原则
ARMA(p,q)
拖尾
拖尾
MA(q)
拖尾
q阶截尾
AR(P)
P阶截尾
拖尾
选择模型
模型定阶的困难
因为由于样本的随机性,样本的相关系数不会呈现出理论截尾的完美情况,本应截尾的或仍会呈现出小值振荡的情况
由于平稳时间序列通常都具有短期相关性,随着延迟阶数,与都会衰减至零值附近作小值波动。
当或在延迟若干阶之后衰减为小值波动时,什么情况下该看作为相关系数截尾,什么情况下该看作为相关系数在延迟若干阶之后正常衰减到零值附近作拖尾波动呢?
模型定阶的经验方法
如果样本(偏)自相关系数在最初的d阶明显大于两倍标准差范围,而后几乎95%的自相关系数都落在2倍标准差的范围以内,而且通常由非零自相关系数衰减为小值波动的过程非常突然。
这时,通常视为(偏)自相关系数截尾,截尾阶数为d。
例选择合适的模型ARMA拟合1950年—199<8年北京市城乡居民定期储蓄比例序列。
序列自相关图
序列偏自相关图
拟合模型识别
1.自相关图显示延迟3阶之后,自相关系数全部衰减到2倍标准差范围内波动,这表明序列明显地短期相关。
但序列由显著非零的相关系数衰减为小值波动的过程相当连续,相当缓慢,该自相关系数可视为不截尾
2.偏自相关图显示除了延迟1阶的偏自相关系数显著大于2倍标准差之外,其它的偏自相关系数都在2倍标准差范围内作小值随机波动,而且由非零相关系数衰减为小值波动的过程非常突然,所以该偏自相关系数可视为一阶截尾,所以可以考虑拟合模型为AR
(1)。
例美国科罗拉多州某一加油站连续57天的OVERSHORT序列
序列自相关图
序列偏自相关图
拟合模型识别
1.自相关图显示除了延迟1阶的自相关系数在2倍标准差范围之外,其它阶数的自相关系数都在2倍标准差范围内波动。
根据这个特点可以判断该序列具有短期相关性,进一步确定序列平稳。
同时,可以认为该序列自相关系数1阶截尾
2.偏自相关系数显示出典型非截尾的性质。
3.综合该序列自相关系数和偏自相关系数的性质,为拟合模型定阶为MA
(1)
例1<8<80-19<85全球气表平均温度改变值差分序列
序列自相关图
序列偏自相关图
拟合模型识别
1.自相关系数显示出不截尾的性质
2.偏自相关系数也显示出不截尾的性质
3.综合该序列自相关系数和偏自相关系数的性质,可以尝试使用ARMA(1,1)模型拟合该序列。
3.参数估计
待估参数
个未知参数
常用估计方法
矩估计
极大似然估计
最小二乘估计
矩估计
原理
样本自相关系数估计总体自相关系数
样本一阶均值估计总体均值,样本方差估计总体方差
例3.10:
求AR
(2)模型系数的矩估计
AR
(2)模型
Yule-Walker方程
矩估计(Yule-Walker方程的解)
例3.11:
求MA
(1)模型系数的矩估计
MA
(1)模型
方程
矩估计
例3.12:
求ARMA(1,1)模型系数的矩估计
ARMA(1,1)模型
方程
矩估计
对矩估计的评价
优点
估计思想简单直观
不需要假设总体分布
计算量小(低阶模型场合)
缺点
信息浪费严重
只用到了p+q个样本自相关系数信息,其他信息都被忽略
估计精度差
通常矩估计方法被用作极大似然估计和最小二乘估计迭代计算的初始值
最小二乘估计
原理
使残差平方和达到最小的那组参数值即为最小二乘估计值
条件最小二乘估计
实际中最常用的参数估计方法
假设条件
残差平方和方程
解法迭代法
对最小二乘估计的评价
优点
最小二乘估计充分应用了每一个观察值所提供的信息,因而它的估计精度高
条件最小二乘估计方法使用率最高
缺点
需要假定总体分布
例续
确定美国科罗拉多州某一加油站连续57天的OVERSHORTS序列拟合模型的口径
拟合模型:
MA
(1)
估计方法:
条件最小二乘估计
模型口径
例续
确定1<8<80-19<85全球气表平均温度改变值差分序列拟合模型的口径
拟合模型:
ARMA(1,1)
估计方法:
条件最小二乘估计
模型口径
4.模型检验
模型的显著性检验
整个模型对信息的提取是否充分
参数的显著性检验
模型结构是否最简
模型的显著性检验
目的
检验模型的有效性(对信息的提取是否充分)
检验对象
残差序列
判定原则
一个好的拟合模型应该能够提取观察值序列中几乎所有的样本相关信息,即残差序列应该为白噪声序列
反之,如果残差序列为非白噪声序列,那就意味着残差序列中还残留着相关信息未被提取,这就说明拟合模型不够有效
假设条件
原假设:
残差序列为白噪声序列
备择假设:
残差序列为非白噪声序列
检验统计量
LB统计量
例续
检验1950年——199<8年北京市城乡居民定期储蓄比例序列拟合模型的显著性
残差白噪声序列检验结果
0.<8361
11.3<8
1<8
0.5050
10.2<8
12
拟合模型显著有效
0.3229
5.<83
6
检验结论
P值
LB统计量
延迟阶数
参数显著性检验
目的
检验每一个未知参数是否显著非零。
删除不显著参数使模型结构最精简
假设条件
检验统计量
例续
检验1950年——199<8年北京市城乡居民定期储蓄比例序列极大似然估计模型的参数是否显著
参数检验结果
显著
<0.0001
6.72
显著
<0.0001
46.12
均值
结论
P值
t统计量
检验参数
例续:
对OVERSHORTS序列的拟合模型进行检验
残差白噪声检验
参数显著性检验
显著
<0.0001
10.60
显著
<0.0004
-3.75
均值
结论
P值
t统计量
检验参数
0.6171
9.05
12
模型显著有效
0.6772
3.15
6
结论
P值
LB统计量
延迟阶数
例3.9续:
对1<8<80-19<85全球气表平均温度改变值差分序列拟合模型进行检验
残差白噪声检验
参数显著性检验
显著
0.0007
3.5
显著
<0.0001
16.34
结论
P值
t统计量
检验参数
0.4247
10.30
12
模型显著有效
0.2595
5.2<8
6
结论
P值
LB统计量
延迟阶数
5.模型优化
问题提出
当一个拟合模型通过了检验,说明在一定的置信水平下,该模型能有效地拟合观察值序列的波动,但这种有效模型并不是唯一的。
优化的目的
选择相对最优模型
参考文献
[1]王燕.应用时间序列分析(第二版).北京,中国人民大学出版社.
[2]邓祖新.SAS系统和数据分析.北京,电子工业出版社.
[3]翟颢瑾,高晶.长江未来水质污染的时间序列分析.沈阳师范大学学报,2006.
[4]吴涛,严辉武.三峡库区水质数据时间序列分析预测研究.武汉大学学报,2006.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 时间 序列 分析