ECWMF和T639在基于LSSVM的兰州市空气质量预报ResearchGate.docx
- 文档编号:25585561
- 上传时间:2023-06-10
- 格式:DOCX
- 页数:17
- 大小:68.95KB
ECWMF和T639在基于LSSVM的兰州市空气质量预报ResearchGate.docx
《ECWMF和T639在基于LSSVM的兰州市空气质量预报ResearchGate.docx》由会员分享,可在线阅读,更多相关《ECWMF和T639在基于LSSVM的兰州市空气质量预报ResearchGate.docx(17页珍藏版)》请在冰豆网上搜索。
ECWMF和T639在基于LSSVM的兰州市空气质量预报ResearchGate
ECMWF和T639数值预报产品在兰州市空气质量预报应用中的对比研究
李昊,尚可政1,王式功1,2,石彦军3,杨旭1
(1.兰州大学大气科学学院/甘肃省干旱气候变化与减灾重点实验室,兰州730000;
2.成都信息工程大学大气科学学院/环境气象与健康研究院,成都610225;
3.兰州大学信息科学与工程学院,兰州730000)
摘要:
针对兰州市空气质量预报系统研发的实际需求,本文利用2013-2015年兰州市空气污染逐日监测资料,首先分析了在此期间兰州市六种主要空气污染物PM10、PM2.5、NO2、SO2、CO和O3的污染特征;然后以2014年欧洲中期天气预报中心(ECMWF)资料与T639资料的气象要素预报产品,结合同期污染物质量浓度监测数据,分别建立了基于最小二乘法支持向量机(LS-SVM)的兰州市6种主要空气污染物未来2d的日均质量浓度预报模型;进而将ECMWF和T639中2015年2月1日到10月31日的气象要素与污染监测数据分别输入各自模型进行预报检验。
结果表明,以ECMWF建立的预报模型对未来2d的PM10、PM2.5、NO2、SO2和CO的日均质量浓度的预报效果好于T639,而T639对预报O3有一定优势。
用ECMWF建立的预报模型对未来24h的空气质量指数等级和首要污染物的预报成功率为86.14%,48h的为82.33%;T639对应的未来24h预报成功率83.52%,48h的为74.43%。
总之,两种数值产品均可应用于基于LS-SVM的空气质量预报,使用ECMWF的预报效果整体上更好。
关键词:
空气质量预报;LS-SVM;兰州市;T639L60预报产品;ECMWF预报产品
中图分类号:
X823
引言
兰州市是我国建国后首批重点建设的工业城市之一,兰州西固区又是我国最早建成的一个重要石油化工基地,工业污染源、生活污染源、交通污染源等综合排放量大;加之兰州市区处于河谷盆地,地形复杂,大气边界层逆温强、层结稳定,静风频率高,边界层大气扩散条件差[1],因此,一直是我国大气污染最严重的城市之一,倍受关注。
空气污染预报作为预防城市空气污染的重要措施之一,受到国内外诸多学者的重视。
尚可政等[2]研究了兰州冬季空气污染与地面气象要素的关系;何建军等[3]利用WRF(WeatherResearchandForecasting)模式研究了风速、稳定能量、Froude数、边界层高度、位温递减率、输送指数和梯度理查森数与兰州大气污染物质量浓度的关系;马敏劲等[4]分析了2001-2011年兰州大气污染物质量浓度的季节特征与边界层结构对兰州严重污染事件的影响;杨民等[5-6]将潜势预报方法结合统计预报与数值预报,以箱模式为基础初步研究了兰州市的空气质量业务系统,在前期的业务中得到了应用,取得了一定的成效。
然而,针对兰州市空气质量的预报方法主要为统计预报和空气质量模式。
传统统计预报受限于各种线性回归和非线性回归方法的局限,对空气质量预报的效果有限;而空气质量模式虽然在预报效果和预报的时空分辨率等几个方面上有很大的提升,但是其运行维护成本大,配套设施要求高,不利于普及。
基于人工神经网络算法的统计预报方法通过输入各类气象要素和其它相关数据,利用其对非线性数据较好的逼近能力直接输出大气污染物质量浓度,能较好地对特定城市群或区域的空气质量进行预测,是对空气质量模式的重要补充。
此方面已往的研究主要局限于各类人工神经网络等机器学习算法对于兰州市空气质量的应用,而使用不同气象资料对前者在预报效果的影响却尚未见公开报道。
中国气象局国家气象中心的TL639L60全球集合预报产品(下称T639)和欧洲中期天气预报中心业务用细网格资料(下称ECMWF)是我国科研和业务单位较常用的二种全球中期数值预报产品。
本文从数值预报产品释用和先进的统计预报方法相结合的角度,利用了二者2014年1月至2015年10月间发布的未来0-52小时业务产品,结合同期兰州市六种污染物质量浓度资料,分别建立了基于最小二乘法支持向量机(LS-SVM)方法的兰州市6种主要空气污染物未来两天日平均质量浓度预报模型,对比研究了二者对于兰州市空气质量预报结果的影响程度,可为兰州市空气污染预报预警系统的改进与提高提供科学依据。
1.资料来源与方法
1.1资料来源
本文空气污染资料由兰州市环保局环境检测中心提供,原始资料为兰州四个不同区域的6种主要空气污染物自动监测站采样日均数据,依据《环境空气质量标准》(GB3095-2012)[7]中城市日平均污染质量浓度的评价标准处理方法,得到兰州市二氧化硫(SO2)、二氧化氮(NO2)、可吸入颗粒物(PM10)、细颗粒物(PM2.5)和一氧化碳(CO)的日平均质量浓度,以及臭氧8和滑动平均的日平均质量浓度(下称O3)。
资料序列长度为2013年1月1日至2015年10月31日,其中个别采样数据因缺失或有效性不足而弃用。
气象资料分别为T639与ECMWF。
其中T639资料分辨率为0.28125°×0.28125°,预报要素包括常规地面要素,750和800hPa温度以及800hPa垂直速度;ECMWF资料分辨率为0.25°×0.25°,预报要素包括常规地面要素,700和800hPa的温度以及800hPa垂直速度。
两种气象资料均为每日20时发布,本文选取的预报区间为0-52h,间隔为3h,资料总长度为2014年1月1日至2014年12月31日、2015年2月1日至2015年10月31日。
考虑到预报模型输入量个数过多而造成预报模型泛化能力和稳定性严重下降的风险[8],截取T639与ECMWF网格在兰州市四周距离最近的4个格点,并使用反距离权重插值法[9-10]将各格点气象要素插值到兰州市中心(103.82°E,36.07°N)所在位置;最后将T639和ECMWF的未来0-54h产品各气象要素处理成未来24h和未来48h日均值。
1.2研究方法
本文采用了基于最小二乘法的支持向量机(LeastSquareSupportVectorMachine)作为建立预报模型的架构。
LS-SVM是Suykens等[11]提出的基于对Vapnik[12]的支持向量机算法(SupportVectorMachine,SVM)的改进算法,后者是以统计学习理论为基础建立的监督式学习算法。
诸多研究证明,SVM能够出色满足对非线性系统的拟合,并被广泛应用于预报各类与环境有关的问题[13-16]。
LS-SVM与SVM最大的区别在于结构风险计算中损失函数的选择,前者为预测误差,后者为预测误差的二范数。
LS-SVM与SVM相比具有计算效率高,对非线性函数估计的泛化性高的优点[17]。
LS-SVM虽然不是严格意义上的人工神经网络方法,但二者都属于机器学习算法,且使用它们解决非线性回归问题时在流程和结构等方面上有诸多相通之处。
。
已有研究对LS-SVM和SVM的原理做出过详细的说明,故本文不再赘述[11-17]。
2.兰州市2013-2015年空气污染特征分析
2013至2014年兰州全年日平均空气质量指数(Air Quality Index,AQI指数)分别为111和94,2015年1月至10月平均AQI指数为86,相比2013和2014年同期的107及91有所降低。
其中2013年兰州发生了自3月9日至12日AQI连续达到500的严重污染事件,而2014年仅在4月24日出现1次AQI达到500的情况,2015年1月1日至10月31日间没有发生AQI达500的严重污染事件。
这4例严重污染事件均由上游沙尘输送造成,尤其在2014年4月24日的沙尘天气过程中,PM10小时最高质量浓度超过1300μg/m3。
从图1可以看出,兰州市空气污染存在明显的季节特征:
即AQI高峰出现在3、4月以及11月或12月,2月和9月则为极小值。
除春季外,2014和2015年各月平均AQI指数大部分低于2013年同期。
2014年4、5月AQI指数均高于2013年同期和2014年3月,可能是当年兰州市春季沙尘过程影响的结果[18]。
综合来看,2014年和2015年兰州空气质量相比2013年有较大改善;而2015年又比2014年有略微提高,但在夏季出现了反弹。
图1兰州市2013-2015年AQI月均值
Fig.1MonthlyaveragedAQIofLanzhoufrom2013to2015
从空气质量等级来看,2013年和2014年全年空气质量等级为优和良的总天数分别为193和260d,占全年的52.88%和71.25%;2015年1月至10月的空气质量等级为优和良的天数为228d。
同样可以说明兰州市2014和2015年的空气质量比2013年有明显改善。
兰州市2013年至2015年10月间的每日首要污染物明显的年际差异,其中2013年(365d)各首要污染物按累计出现频数依次为PM10(264d)、PM2.5(89d)、O3(3d)和NO2(2d);2014年(365d)依次为PM10(216d)、PM2.5(111d)、NO2(21d)和O3(2d);2015年1月至10月期间(304d)依次为PM10(201d)、O3(39d)、PM2.5(31d)、NO2(24d)和CO(1d)。
2013年比重最大的PM10(72.33%)和PM2.5(24.38%)共占2013年总样本数的96.71%;2014年PM10的比例下降到59.18%,但PM2.5的比例增加为30.41%,二者共占2014年总样本数天数的89.59%,同时NO2作为首要污染物的天数明显增加;2015年1月至10月间,O3作为首要污染物的天数大幅度增加,相比2014年增加了37d之多,而PM2.5的天数相比2013、2014年同期55d和76d显著减少,仅为31d。
总体而言,PM10和PM2.5依然是兰州最主要的污染物,但占比逐年下降;NO2和O3有增加的趋势。
特别是O3,其在2015年1月到10月间作为首要污染物时主要集中在夏季,是造成2015年夏季污染的主要原因之一。
因此,对PM10、PM2.5、NO2和O3这4种污染物质量浓度的预报效果将作为本文评价模型预报的重要依据。
3.预报模型的建立
本文的目的是对比研究T639和ECMWF对空气质量预报的影响。
为了尽量避免其它因素的干扰,本文在建立模型以及进行预报检验时对两种预报产品采用同一方法和流程,确保了不同模型之间的预报效果的差异只来自T639和ECMWF本身。
为了建立合适的预报模型,选取与污染物有统计关系或参与其扩散等物理过程有关的气象要素至关重要[19]。
已有的研究均表明[20],地面常规气象要素,如温度、气压、风速、相对湿度、降水量等与兰州市主要空气污染物有显著的统计关系,是建立预报模型的重要输入参量。
此外,传统空气质量神经网络预报模型中,模式的高空气象资料一般不被采用。
一是其获取难度较地面要素较大;二是以其计算各大气扩散参数,如通风系数、最大混合层厚度等需要相关的气象要素众多,业务上难以应用。
相关研究表明,兰州市大气污染物的扩散受到高度可达1000m的稳定边界层影响[21]。
兰州市中心海拔1520m,故本文引入800hPa、700hPa的温度差和800hPa垂直速度,前者包含了部分温度梯度的信息,后者是污染物垂直扩散的重要因素[22]。
为了避免预报模型由于气象要素之间的存在多重共线性而产生的不必要的缺陷,本文对所有与气象要素有关的输入量进行了方差膨胀因子检验(varianceinflationfactor,简称VIF)。
结果表明,所有与气象要素有关的输入量的容忍度均不低于0.1,VIF值不高于10。
这足以证明输入量之间不存在多重共线性[24]。
将两种资料的气象要素作为模型输入量,不会明显降低预报模型的稳定性和预报效果。
为了体现季节变化和周内变化,本文引入与日期有关的两个参数作为输入量。
一个是将一年365d从1-365排序,任意一天对应的序数作为弧度,然后将其余弦作为一个输入量(DayofYear,下称DOY);另一个是将星期一至星期日排序为1-7,任意一天对应的序数作为一个输入量(DayofWeek,下称DOW)。
已有相关研究表明[25],引入上述两种参数能够改进预报效果。
所有输入量在输入模型前均进行归一化处理,并在输出时进行反归一化处理。
表1为24h模型和48h模型具体输入量、输出量和目标。
表1T639和ECMWF建立的24h和48h预报模型的输入量、输出量和目标
Table1Theinputs,outputsandgoalsof24hourandpredictivemodelsinvolvedwithT639orECMWF
项目
T639
ECMWF
输入量
未来24h/48h海平面气压,2m温度,2m相对湿度,10m经向风速,10m纬向风速,总降水量,800hPa垂直速度,800hPa与750hPa温度差,DOY,DOW;当日某种污染物的日平均质量浓度观测值
未来24h/48h海平面气压,2m温度,2m相对湿度,10m经向风速,10m纬向风速,总降水量,800hPa垂直速度,800hPa与700hPa温度差,DOY,DOW;当日某种污染物的日平均质量浓度观测值
输出量
未来24h/48h某种污染物的日平均质量浓度预测值
未来24h/48h某种污染物的日平均质量浓度预测值
目标
未来24h/48h某种污染物的日平均质量浓度实际值
未来24h/48h某种污染物的日平均质量浓度实际值
决定LS-SVM模型处理非线性回归问题效果好坏的核心要素是核函数类型,正则化参数c和核函数参数σ。
常用的核函数分为线性内核,多项式内核,径向基内核(RadialBasisFunction,RBF)以及sigmoid核。
已有研究表明,以RBF内核作为核函数建立的SVM模型在大气污染物质量浓度预测中比其它几种核函数的效果更好[25]。
因此,本文建立的所有预报模型均采用RBF作为核函数。
对于正则参数c和核函数参数σ的取值,目前还没有可靠的理论指导,只能靠经验给定一个范围后使用寻优方法确定。
经过大量试验发现,核函数参数σ和正则化参数c区间分别为1-6和30-150之间时效果最好。
为了尽可能使以T639和ECMWF建立的2种预报模型的学习效果最好,同时避免发生过度逆合,本文在建立六种污染物的24h和48h预报模型时进行5折交叉验证样本实验并结合网格搜索寻优方法,将5次实验得到的c和σ的平均值作为相应污染物预报模型的参数[26]。
具体过程为,采用均匀分布打乱资料时序的处理方式整理2014年序列长度为324d的气象资料和污染资料等输入量和输出期望,将处理后的总样本集分为5个样本集合(其中4个集合的样本数量为65,1个为64);轮流抽取1个样本集合作为验证样本集合,剩余4个的样本集合作为学习样本集合。
每次实验中6种污染物的24h和48预报模型都使用同一个学习样本和验证样本集合建立模型并验证学习效果,不同实验过程的学习样本和验证样本集合不同。
表2为五次实验最终建立的24h和48h预报模型的具体参数。
最终对每种污染物各自建立了以T639未来24h预报产品、EC美味发未来24h预报产品、T639未来24-48h预报产品和ECMWF未来24到48h预报产品作为输入的气象因子的日均质量浓度预报模型;对于每个污染物,前二个模型的输出量为该污染物的未来24h日平均质量浓度(下称24h模型),后两个模型的输出量为该污染物的未来24到48h日平均质量浓度(下称48h模型)。
表2T639和ECMWF建立的24h和48h预报模型参数
Table2Themodelparametersof24hourand48hourpredictivemodelsinvolvedwithT639orECMWF
项目
T639
ECMWF
24h
48h
24h
48h
σ
c
σ
c
σ
c
σ
c
SO2
1.43
76.83
2.28
97.28
1.68
52.45
1.74
59.39
NO2
2.31
44.2
3.17
64.73
1.97
28.77
3.57
85.59
PM10
5.73
101.3
5.51
42.93
4.39
84.49
4.88
72.35
PM2.5
4.98
77.28
2.76
107.62
2.17
139.62
3.25
86.33
O3
0.91
96.24
1.15
77.38
2.36
53.35
1.89
67.11
CO
1.12
114.32
1.37
82.91
3.39
60.84
2.42
54.52
最后,为了尽可能客观地评价不同模型的对六种污染物质量浓度和AQI指数的预报效果,本文使用了4种统计量,具体评价标准如下:
平均绝对误差(MeanAbsoluteError,MAE):
(1)
平均相对误差(MeanAbsolutePercentError,MAPE):
(2)
均方根误差(Root-Mean-SquareError,RMSE):
(3)
判定系数(R2):
(4)
其中
为预测值,
为观测值,
为观测平均值。
MAE和MAPE反映了预报偏离观测值的情况,避免了正负抵消的问题;同时,MAPE可以横向比较不同污染物的预报效果。
RMSE表示预报误差的离散程度,尤其对预报误差过大的个例更敏感。
R2决定了预报值序列与对应观测值序列相关的密切程度,R2越接近1,说明预报模型的拟合优度越大,即预报效果越好。
4.结果分析
本文整理了2015年2月1日至10月31日的T639、ECMWF的气象要素与同期六种污染物数据,排除输入量缺失或污染物观测值缺失的样本,总共得到267d的24h模型输入量与污染物观测值的验证样本集合,48h的验证样本集合为266d。
表3为以T639,ECMWF的未来24h日均气象要素建立的24h预报模型对2015年兰州市6种污染物日均质量浓度的预报检验结果。
表324h模型对2015年2月2日至10月31日兰州市6种污染物日均质量浓度的预报检验结果
Table3Theresultsof24hmodelsfordailyaverageforecastingvaluesof6pollutantsinLanzhoufrom2February2015to31October2015
项目
T639_24h
EC_24h
MAE
MAPE/%
RMSE
R2
MAE
MAPE/%
RMSE
R2
SO2
6.217
22.1
7.93
0.761
4.915
20.1
6.64
0.791
NO2
8.306
23.6
9.699
0.75
8.166
22.9
9.393
0.758
PM10
19.987
30.5
29.39
0.621
15.62
28.2
22.124
0.656
PM2.5
13.078
27.1
17.86
0.647
9.695
25.9
15.185
0.663
CO
0.316
20.5
0.43
0.796
0.296
19.7
0.405
0.814
O3
5.287
18.3
7.772
0.853
5.958
18.7
7.907
0.844
结果表明,以T639建立的24h模型(下称T639_24h)在6种主要空气污染物的预测验证中对O3的预报结果最好,平均相对误差只有18.3%,判定系数达到0.853;其次为CO、SO2、NO2和PM2.5,其平均相对误差分别为21、22.1、23.6和27.1%;PM10的预报结果最差,平均相对误差达到30.5%,判定系数仅有0.621。
以ECMWF建立的24h模型(下称EC_24h)同样对O3的预报最好,平均相对误差只有18.7%,判定系数为0.853;其次为CO、SO2、NO2和PM2.5,其平均相对误差分别为19.7、20.1、22.9和25.9%;PM10的结果同样最差,平均相对误差最高,达到28.2%;判定系数最低,仅为0.656。
对比T639_24h和EC_24h的结果可以发现,前者对于O3的预报效果好于后者,均方根误差更小,说明前者预测值与实际值出现过大误差的次数更少;对于其它5种污染物,EC_24h的预报效果均好于T639_24h,尤其对于PM10,前者的均方根误差比后者减少了7.266,说明后者出现预报误差过大的次数更多。
表448h模型对2015年2月3日至10月31日兰州市6种污染物日均质量浓度的预报检验结果
Table4Theresultsof48hmodelsfordailyaverageforecastingvaluesof6pollutantsinLanzhoufrom3February2015to31October2015
项目
T639_48h
EC_48h
MAE
MAPE/%
RMSE
R2
MAE
MAPE/%
RMSE
R2
SO2
7.048
25.5
8.674
0.717
5.814
21.2
7.447
0.775
NO2
10.667
27.5
14.183
0.693
8.953
23.9
10.652
0.743
PM10
24.578
33.4
38.685
0.573
17.28
31.8
24.189
0.613
PM2.5
14.874
29.3
20.256
0.61
13.295
28.3
18.736
0.641
CO
0.387
21.9
0.468
0.769
0.309
20.5
0.424
0.797
O3
5.45
18.7
8.341
0.845
6.099
19.2
8.981
0.828
从表4可以看出,以T639建立的48和预报模型(下称T639_48h)对于O3的预报结果依然较好,其平均相对误差在6种污染物结果中最小,只有18.3%,决定系数为0.845;其次为CO(21.9%)、SO2(25.5%)、NO2(27.5%)和PM2.5(29.3%);PM10的平均相对误差增大到33.4%,决定系数降到0.573,均方跟误差高达38.685,说明预报效果欠佳。
除O3以外,以ECMWF建立的48和模型(下称EC_48h)整体预报效果相比T639_48h较好,EC_48h的结果中PM10的均方根误差相对于T639_48h中出现的均方根误差激增现象,并没有大幅度增加,只有24.189。
根据国标中的空气质量指数及首要污染物确定方法[27],用上述4个预报模型(EC_24h、T639_24h、EC_48h和T639_48h)中6种污染物质量浓度预测值计算空气质量分指数,从而得出它们对未来2d的空气质量日均指数的预报值,最终得出空气质量指数级别和首要污染物的预测结果。
在实际预报工作中,空气质量指数级别和首要污染物均被正确预报时,可认为该次预报是成功的。
表5为4个预报模型对空气质量级别和首要污染物均成功预报的天数的统计结果。
从表5的结果可知,EC_24h对
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ECWMF T639 基于 LSSVM 兰州市 空气质量 预报 ResearchGate