基于分形时间序列的空气质量指数研究文档格式.docx
- 文档编号:16639327
- 上传时间:2022-11-25
- 格式:DOCX
- 页数:17
- 大小:529.42KB
基于分形时间序列的空气质量指数研究文档格式.docx
《基于分形时间序列的空气质量指数研究文档格式.docx》由会员分享,可在线阅读,更多相关《基于分形时间序列的空气质量指数研究文档格式.docx(17页珍藏版)》请在冰豆网上搜索。
2.形式26
(二)空气污染指数的非周期循环特征7
1.log/log图7
2.V统计量7
(三)动态Hurst指数及其移动平均9
1.动态Hurst指数9
2.移动平均Hurst指数9
(四)利用Hurst指数进行趋势预测及效果评价10
1.预测方法10
2.效果评价10
五、结论11
参考文献:
12
基于分形时间序列的空气环境研究
一、引言
随着人们生活水平的提高,人们越来越关心空气环境质量状况。
空气环境质量随时间的动态变化是污染源排放情况、气象条件和下垫面性质等许多因素综合的结果。
人们用空气污染指数来反映这一结果。
空气污染指数(Airpollutionindex,简称API)就是根据环境空气质量标准和各项污染物对人体健康、生态、环境的影响,将常规监测的几种空气污染物浓度简化成为单一的概念性指数值形式[1]。
参考空气污染指数,能清楚地判断目前的空气质量情况,从而合理安排各项活动。
空气质量的研究有很多,预测是空气质量研究中的一个重要领域。
EuroCogliani(2001)研究米兰空气污染指数发现,在1到3月该指数与风速的相关性达到了0.85[2]。
柴微涛(2007)等利用时间序列模型研究了成都市2001~2005年空气污染指数的变动规律[3]。
陆杰等(2007)运用R/S分析方法对连云港市3个大气环境定位监测点近10年的SO2、NOx和TSP序列数据进行了时间序列的长程相关性分析,结果表明它们的月均值序列表现出明显的长程相关性[4]。
覃登攀(2008)利用遗传算法和人工神经网络相结合对南宁市区2001-2006年空气污染物浓度数据进行了分析,结果表明人工神经网络模型有较高的预测能力[5]。
杨元琴等(2009)利用与空气污染密切相关的污染气象条件指数PLAM方法,提前1~3天预报气象条件对北京夏季空气质量的影响[6]。
Neto.J等(2009)使用多元回归、分类、回归树的方法预测里斯本北部城市圈的臭氧日平均浓度[7]。
侯雅文等(2012)利用2011年1~8月上海API数据建立了ARMA(1,1)模型,并且通过2011年9月上海API数据检验了该模型的有效性[8]。
已有研究大多采用的是线性分析方法,空气环境是一个非常复杂的非线性动力学系统,
所以用非线性的分析方法可能会更合理。
非线性分析方法有很多,分形分析是较流行的一种。
分形作为一种非线性范式,可能能更好地描述空气污染指数序列的特征,并能用于该指数的预测。
二、分形及其描述
(一)分形
分形(Fractal)最早由BenoitMandlbort提出,用来描述那种不规则的、支离破碎的、琐碎的几何特征[9]。
比较常见的是欧几里得几何,比如一维的线,二维的面,三维的体。
这些欧氏几何的维数都是整数维。
经典的欧几里得几何是光滑且对称的,它们没有洞和隙,处处可微。
从远到近观察欧氏几何,会发现它的结构会越来越简单——体变成面,面变成线,线变成点。
然而,欧氏几何只是人类的简化和梦想,自然界几乎找不出这么完美的东西。
“山不是锥,云不是球”,Mandelbort如是说。
为了更加合理地描述现实,分形诞生了。
相对于欧氏几何的整形特征,分形可以不光滑、不对称和不连续,它能更好地描述我们观察到的世界。
关于分形,目前还没有一个精确的定义。
在《资本市场的混沌与秩序》中,Peters给出了一个定义:
分形是一个生成规则(信息处理器)的吸引子(极限集),而信息则是随机生成的,它的较小部分与整体相关,它有一个分形维数[10]。
根据Peters的定义,可以知道分形的一些特征[11]:
①分形集无法用传统的欧氏几何语言来描述,它的维数是分数,一般小于它相应的拓扑维数。
②分形集是整体确定,局部随机的。
在有限的空间里,它可以包含无限的结构,即分形集都有任意小尺度的比例细节,具有精细的结构。
③分形集具有某种自相似性,这种相似可以是近似的自相似或者是统计意义上的自相似。
也就是说,不同标度的分形几何或者时间序列是相似的。
④分形集具有长期相关性或者说具有长期记忆性。
它们不一定遵循随机游走模型,它们的概率分布也不定是正态分布,可能另有不同的形状。
(二)分形的描述
虽然分形目前还没有一个非常精确的定义,但是可以用Hurst指数和分形维来描述分形集的不规则性。
本文的研究对象是空气污染指数,所以本文更关心分形时间序列。
1.Hurst指数
Hurst指数是由英国水文专家H.E.Hurst在研究尼罗河水库水流量和贮存能力的关系时提出来的,他发现有偏的随机游走(分形布朗运动)能更好地描述水库的长期贮存能力,并在此基础上提出了重标极差法(R/S)来计算Hurst指数,用来判断时间序列数据遵循随机游走还是有偏的随机游走,并能用它来判断时间序列的趋势。
分形布朗运动用来描述时间序列的分形结构,它是对布朗运动模型的推广。
分形布朗运动
的数学表达形式为:
其中,
,
为常数,
为布朗运动,
即为Hurst指数。
可以看到,Hurst指数有三种形式:
①如果H=0.5,表明时间序列可以用随机游走模型来描述。
它下一刻既可以向上,也可以向下,无法判断时间序列未来的方向。
②如果0.5<H≤1,则表明该时间序列是黑噪声或持续性序列,即暗示该序列具有长期记忆,未来的增量与过去增量正相关。
如果前段时间序列是趋势向上的,那么未来序列向上的可能性较大;
如果前段时间序列是趋势向下的,则未来序列向下的可能性较大。
H越接近1,这种持续性就越强烈。
③如果0≤H<
0.5,则表明时间序列是粉红噪声或反持续性的,未来的增量与过去的增量负相关。
如果前段时间序列是趋势向上的,那么未来序列反转的可能性较大;
如果前段时间序列是趋势向下的,则未来序列反弹的可能性较大。
H越接近0,这种反持续性越强烈。
2.分形维
分形维(FractalDimension)是用来描述时间序列是如何参差不齐的,它可以通过下面的公式计算获得:
D=2-H
其中H指Hurst指数。
一条线的维度是1,一个面的维度是2,分形维介于两者之间。
和Hurst指数相对应,当D=1.5时,时间序列遵从随机游走模型。
当1≦D﹤1.5时,时间序列更接近一条曲线,这样的时间序列比随机游走更光滑,更具有趋势性;
D越接近1,这种光滑度越高。
当1.5﹤D≦2时,时间序列更接近一个平面。
它比随机游走序列更参差不齐,存在更多的逆转;
D越接近2,这种参差不齐性越强。
三、空气污染指数序列的分形特征
本文采用大连市空气污染指数作为样本数据,样本区间为2000-6-5~20
13-1-14,数据来源于国家环保部数据中心。
图1显示的是大连市空气污染指数每日数据、每周数据、每月数据以及每季度数据。
其中周数据是指此周日数据的平均值,月数据是指此月日数据的平均值,季度数据是指此季度日数据的平均值。
从图1可以看出,空气污染指数序列变化既不是一条直线,也不是一个面,它并不符合标准的欧几里得几何特征。
所以它的维度应该在1和2之间。
从图1也可以看出,空气污染指数显示出整体较为确定,局部较为随机的性质。
四个观测标度中,季度数据显示出更平滑的特征,而日数据更加粗糙。
这和在不同高度看海岸线的形状一样,观察距离越近,海岸线越不规则。
图1.不同时间标度的空气污染指数
Figure1.Theairpollutionindexofdifferenceperiod
图2和图3显示的是不同观察时间标度空气质量变化率的直方图和核密度图。
无论是直方图还是核密度图,日变化率、周变化率、月变化率以及季度变化率的分布特征都很相似。
这说明空气污染指数序列显示出自相似的分形特征。
Figure2.
图2.空气污染指数不同标度变化率直方图
Figure3
图3.空气污染指数不同标度变化率核密度图
四、空气污染指数序列的记忆性及其趋势
从上面的分析可以看到,空气污染指数序列具有分形结构。
具有分形结构的时间序列具有记忆性,过去的变化能够影响未来。
利用重标极差法可以确定这种记忆的长度,还可以用来计算Hurst指数从而预测序列的变化趋势。
(一)重标极差法
重标极差法(RescaledRangeAnalysis),又称R/S分析,它是一种非参数统计方法,通过改变时间尺度来研究时间序列统计规律的变化特征。
它最早由Hurst研究尼罗河水文资料时提出,后经过Mandelbort等进一步补充和完善。
R/S法反映的是时间序列统计特征量的标度不变性,为获知不同观测下的时间序列情况提供了一种研究方法。
通过R/S法,可以确定循环的平均周期,从而揭示时间序列的记忆长度。
可以用它来计算Hurst指数,从而分析时间序列的分形特征,对时间序列的趋势变化进行预测。
目前,R/S分析方法已经在资本市场[12]-[13]、地理环境[14]、气候[15]-[16]及交通[17]等方面得到了广泛的应用。
一般来说,R/S法有两种形式。
1.形式1
①假如一段时间序列总长度为M。
把这个时间序列取对数并进行一阶差分得到时间序列{Ni}:
i=1,2,3,…,(M-1)
②把这个长度为N的时间序列均分为A个长度为n的小区间,即A*n=N。
记每一个小区间为Ia,a=1,2,3,…,A。
在小区间Ia中,每一个元素记为Nka,k=1,2,3,…,n。
故长度为n的小区间Ia的平均值为:
a=1,2,3,…,A
③计算每一个小区间中每个元素的累计离差和:
k=1,2,3…,n
④每一个小区间的极差定义为该区间的最大累计离差减去最小累计离差:
1≤k≤n
⑤对每一个小区间,计算其样本标准差:
⑥对于每一个小区间,用第(4)步得到的极差除以第(5)步得到的标准差,就得到了没有单位的重标极差
。
由于有A个这样的重标极差,计算这A个重标极差的平均值:
⑦Hurst通过对水文数据的实践总结,得出了如下经验关系:
其中b为常数,H为Hurst指数。
对上式取对数,即可得到下面的等式:
同一段长度为N的时间序列可以分成不同长度的小区间,每一次分法都会有一个ln((R/S)n)和ln(n)。
用这些ln((R/S)n)和ln(n)作散点图,散点图的斜率便是Hurst指数。
2.形式2
①假如一段时间序列总长度为M。
②对每一个正整数n,定义均值序列{Ei}:
n=1,2,3,…,(M-1)
③对每一个正整数n,计算累计离差和:
t=1,2,3,…,n
④对每一个正整数n,计算极差:
n=1,2,3,…,(M-1)
⑤对每一个正整数n,计算标准差:
⑥对每一个n,计算重标极差R(n)/S(n)。
根据Hurst的研究,重标极差和n满足:
其中b为常数,H为Hurst指数。
对上式取对数,对不同的n计算不同的ln(R(n)/S(n))和ln(n)并作散点图,散点图的斜率就是Hurst指数。
(二)空气污染指数的非周期循环特征
空气污染指数序列分形结构产生于非线性动力系统,利用重标极差法,可以确定该序列的平均循环周期。
可以通过画log/log图和计算V统计量来确定平均循环周期。
1.log/log图
可以想象,随着时间的流逝,过去对未来的影响逐渐变小,时间序列的记忆性逐渐变弱。
所以可以以ln(n)为横坐标,以ln((R/S)n)为纵坐标,图中的转折点便暗示记忆的消失,该点对应的横坐标便是平均循环周期。
2.V统计量
另外一种确定平均循环周期的方法是V统计量法,它是一种比画log/log图更精确的方法。
Hurst把V统计量定义为[11]:
因为
,所以当H=0.5时,V统计量是一条水平的直线;
当H>0.5时,(R/S)n将以快于时间平方根的速率变化;
当H<0.5时,(R/S)n将以慢于时间平方根的速率变化。
所以通过V统计量的转折点,能够很容易确定平均循环周期。
图5.利用方式1定义的R/S法画出的
V统计量图
图4.利用方式1定义的R/S法画出的log/log图
Figure7.
图7.利用方式2定义的R/S法画出的
Figure6.
图6.利用方式2定义的R/S法画出的
log/log图
分别利用R/S分析法的两种形式进行计算,图4和图6显示的两种形式对应的log/log图,图5和图7显示的两种形式对应的V统计量图。
从log/log图可以看出,图中的转折点大概在2附近。
图5和图7中的V统计量的转折也发生在2附近,它对log/log图中的转折进行了确认。
所以可以认为,平均循环周期为exp
(2)=7天,即大连市空气污染指数序列的平均记忆长度为7天。
需要注意的是,这种记忆长度是一个平均概念,因为我们认为空气污染指数序列的循环是非周期的。
(三)动态Hurst指数及其移动平均
从前面的计算可以知道,大连市空气污染指数序列的平均循环周期为7天,所以用7天作为计算动态Hurst指数的时间标度是合理的。
如果采用重标极差法的形式1进行计算,那么N为7,这样无法对N进行分解。
所以这里的计算采用重标极差法形式2。
1.动态Hurst指数
利用重标极差法形式2对以下序列进行计算。
i=7,8,9…
考虑到数据量太少,所以在重标极差法形式2的基础上我们采用经验法则来估计Hurst指数[10]:
对每一个时刻i,都有一个Hurst指数,这就得到了一系列Hurst指数,计算结果显示在图8中。
对所有动态Hurst指数进行频数统计,如图9所示。
从图8和图9可以看出,动态Hurst指数介于0和1之间,0.6左右的Hurst指数最多,
大多数动态Hurst指数都大于0.5。
Figure8.
图8.每日动态Hurst指数
Figure9.
图9.每日动态Hurst指数直方图
2.移动平均Hurst指数
利用下面的公式对动态Hurst指数Hi进行计算,便可以得到时刻i的7日移动平均Hurst指数MA7i。
计算结果显示在图10中,图11为其频数统计直方图。
从图10和图11可以看到,移动平均Hurst指数也介于0和1之间,峰值出现在0.6左右,大多数移动平均Hurst指数大于0.5。
和动态Hurst指数相比,移动平均Hurst指数波动幅度变小。
Figure11.
图11.移动平均Hurst指数直方图
Figure10.
图10.移动平均Hurst指数
(四)利用Hurst指数进行趋势预测及效果评价
1.预测方法
动态Hurst指数和移动平均Hurst指数可以用来预测空气污染指数的变化趋势,具体预测方法如下。
当时刻i的Hurst指数(移动平均Hurst指数)大于0.5时。
如果i时刻的空气污染指数
大于其前6天的平均值
,那么i+1时刻空气污染指数
大于其前6天平均值
的可能性较大。
小于其前6天的平均值
小于其前6天平均值
当时刻i的Hurst指数(移动平均Hurst指数)小于0.5时。
大于于其前6天的平均值
2.效果评价
利用上面的预测方法对大连市空气污染指数历史数据进行回测,回测结果如图12和图13所示。
横坐标表示Hurst指数,纵坐标表示预测成功的比率。
例如横坐标为0.6时,对应的纵坐标为0.624,它表明在Hurst指数大于0.6和小于0.4的所有日期中,预测成功的日期数占0.624。
无论是用Hurst指数进行预测还是用移动平均Hurst指数进行预测,预测成功的比率都大于0.6,表明它们有一定的预测能力。
另外,从图12和图13也可以看到,预测成功比率随着Hurst指数(或移动平均Hurst指数)靠近1和靠近0而变大,这表明Hurst指数越大(大于0.5时)或越小(小于0.5时),预测效果越好。
Figure12.
图12.动态Hurst指数预测效果评价
Figure13.
图13.移动平均Hurst指数预测效果评价
五、结论
空气环境系统是一个复杂的非线性动力学系统,空气污染指数序列具有分形结构。
本文利用重标极差法计算了大连市空气污染指数序列的动态Hurst指数和移动平均Hurst指数,并且对用它们进行预测的有效性进行了考察。
本文可以得出以下结论。
第一,动态Hurst指数不为0.5,表明大连市空气污染指数具有分形结构,具有记忆性。
第二,大连市空气污染指数的平均循环周期为7天,表明该序列的平均记忆长度为7天。
第三,动态Hurst指数和移动Hurst指数具有一定的预测价值,尤其是当其靠近1或0的时候。
本文所作的预测只是一个定性的判断,如果要更加精确地进行预测,可以通过模拟的方法确定不同Hurst指数对应的转移概率,这是我们后面努力的方向。
[1]王小辉,刘芸芸.解读空气质量指数与空气污染指数[J].中国科技术语,2011,(6),49-51.
[2]EuroCogliani.AirPollutionForecastinCitiesbyanAirPollutionIndexHighlyCorrelatedwithMeterologicalVariables[J].AtmosphericEnvironment,2001,(16),35.
[3]柴微涛,宋述军,宋学鸿.成都市城区空气污染指数的时间序列分析[J].成都理工大学学报:
自然科学版,2007,(4),34.
[4]陆杰,刘付程,李延友.连云港市大气污染物时间序列的长程相关性分析[J].环境污染与防治,2007,(5),390-393.
[5]覃登攀.基于遗传算法和人工神经网络相结合的南宁市空气质量预报研究[D].南宁:
广西大学,2008.
[6]杨元琴,王继志,侯青,王亚强.北京夏季空气质量的气象指数预报[J].应用气象学报,2009,(6),649-654.
[7]Neto.J,FranciscoFerreira,PedroM,TorresBoavidaF.LisbonAirQualityForecastUingStatisticalMethods[J].InternationalJournalofEnviromentandPollution,2009.
[8]侯雅文,王斌会.空气质量指数监控与预测的控制图方法[J].统计与信息论坛,2012,(8),86-89.
[9]BenoitB.Mandelbrot,JohnW.VanNess.FractionalBrownianMotions,FractionalNoisesandApplications[J].SIAMReview,1968,(4),422-437.
[10]EdgarE.Perers.Chaosandorderinthecapitalmarkets——Anewviewofcycle,price,andmarketvolatility[M].1991,NewYork:
JohnWileyandSons.
[11]EdgarE.Perers.Fractalmarketanalysis:
applyingchaostheorytoinvestmentandeconomics[M].1994,NewYork:
[12]孙伟.分形市场理论在大豆期货市场中的实证研究[J].金融发展研究,2001,(12),66-69.
[13]刘衡郁,甘小芳.上证综指分形特征研究[J].数理统计与管理,2005,(5),83-91.
[14]李双双,延军平,万佳.近10年陕甘宁黄土高原区植被覆盖时空变化特征[J].地理学报,2012,(7),960-970.
[15]赵晶.近50年来兰州城市气候变化的R/S分析[J].干旱区地理,2002,
(1),91-95.
[16]李国栋,张俊华,王乃昂,程弘毅,赵丽萍.基于重标极差分析和非周期循环分析的气候变化趋势预测—以兰州市为例[J].干旱区研究,2013,
(2),299-307.
[17]贺国光,冯蔚东.基于R/S分析研究交通流的长程相关性[J].系统工程学报,2004,
(2),166-169.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 时间 序列 空气质量 指数 研究