基于时间序列分析的北京雾霾事件长期预测模型

摘要

工业的快速发展导致了发展中国家pm2.5或雾霾的间歇性爆发，带来了巨大的环境问题，尤其是在北京、新德里等大城市。研究了雾霾变化的影响因素和机制，并利用时间序列分析建立了北京雾霾发作期的长期预测模型。建立日霾增量的动态结构测量模型，并将模型简化为向量自回归模型。对886个连续日的典型案例研究表明，本模型对次日空气质量指数(AQI)的预测效果良好，在重度污染(AQI≥300)的情况下，AQI预测的准确率甚至高达87.8%。一周预测实验表明，我们的模型在突发雾霾爆发或消散时具有良好的敏感性，对未来3-7天AQI预测的准确性具有良好的长期稳定性。

1.导言

发展中国家的行业主要集中在大城市，伴随着大量的人口，消费和污染。与天津市和河北省一起，中国北方已成为地球上最繁荣和污染的地区之一。到2013年，北京的短暂人口为3750万，间歇性爆发空气污染极大地影响了每个公民的生命：生理疾病[1，2]，低洼，交通能见度低[3.，4]. 霾的主要成分是pm2.5（颗粒物小于2.5 μm表示空气动力学直径），污染浓度用空气质量指数（AQI，pm2.5的浓度）表示。自2013年起，中国政府开始监测和记录主要城市的pm2.5浓度[5］．根据Quan等人的报告。[6， 2013年1月雾霾事件期间，北京空气质量指数达到600。近年来，越来越多的论文提到雾霾事件及其在中国北方的影响[7- - - - - -11.]. 研究人员指出，在未来几年中，中国北方的阴霾事件将继续频繁爆发[12.］．

本文基于时间序列分析介绍了北京的AQI预测模型。自2013年以来，我们收集了北京的AQI数据29分钟，并构建了动态结构预测模型。统计方法用于获得预测模型的最大似然估计。短期和长期实验都进行了测试，以测试我们模型的准确性和稳健性。

本文的其余部分安排如下。在部分2，我们介绍了最近的相关工作。部分3.提出了我们的预测模型，并证明了我们的模型是一个向量自回归模型。实验和评估报告见第节4．我们在一节中得出了纸张5与未来的工作。

通常，PM2.5或雾度主要通过人为因素诞生[13.- - - - - -16.并通过自然扩散而消除。排放几天后，不可扩散污染物之间通过光化学反应产生二次pm2.5。二次pm2.5是中国最严重雾霾事件的主成分[17.］．一种典型的阴霾预测方式是使用污染物排放数据（CO，所以₂，和)。[5，18.]. 黄等[14.]分析了pm2.5的化学成分，并利用化学质量平衡法确定了排放源。还提出了其他更复杂的模式，以引入大气特征、化学成分和运输因子[15.］．但更常见的情况是，污染物排放数据通常与AQI同步增加或减少。太阳(19.]综合考虑人口、汽车保有量和GDP，提出了年均雾霾发作天数的统计指标体系。他们发现，尽管大多数因素有助于预测pm2.5，但与平均严重污染日呈负相关。报纸[12.]通过将灰尘发射引入雾度预测来建立立方指数平滑模型。梁等人。指出，PM2.5的各种分布和传输模式[20.]. 事实上，Wang等人提到在模型模拟中应考虑政府控制政策[9］．

许多研究使用BackPropagation神经网络作为模拟模型[19.，21.]. 统计时间序列分析很少用于雾霾预测，因此目前的方法很难实现长期的雾霾预测[22.]. 多元线性回归模型在日尺度预测方面也表现良好[23.，24.］．但是，现有研究的测试数据不充分;例如， [21.]仅在3天内测试了预测精度。此外，Zhang等人指出，前几天的pm2.5累积显著影响当前的每日pm2.5浓度，这也是建模过程中应关注的问题[22.］．

考虑到上述要点，本文提出了一种与自然因子，人类因子和自我进化因子集成的新的AQI预测模型。

3.北京每日空气质量指数预测模型

3.1. 预测模型的参数和结构

pm2.5日浓度的变化取决于两个因素：人类活动对pm2.5的日总产生量和每日整体自然扩散或全部自然积累PM2.5. 雾霾的产生在很大程度上取决于政府对工业燃料排放的控制政策．雾度的扩散主要取决于气流．此外，pm2.5与其他污染物之间会发生复杂的化学变化;因此，前一天的pm2.5浓度也会影响AQI, AQI可以看作是前一天pm2.5的演变结果，用表示．显然，可以直接观察到。是由半半法生成的。主要与日常人类活动有关，我们计算来自AQI序列不少于连续五个阳光和无风日。还考虑了特殊情况。在冬季，因为加热系统已打开，所以会更大。此外，还考虑了2014年北京APEC期间的汽车使用限制和工厂临时停工。然后计算为. 有时候，大于零，这意味着pm2.5由于非人为因素而累积。

因此，pm2.5的日净增长是进化的结果吗，行业控制指数，风力发电的预测．将这个问题看作一个动态结构模型，我们的模型可以描述为

参数，，和分别代表前一天的PM2.5，风电和行业控制指数造成的效果。前一天PM2.5的净增长部分影响了现在的PM2.5，部分影响了第二天的PM2.5。参数表示这种“局部调整”。扰动表示影响当前pm2.5的其他因素。

3.2。预测模型的复杂性降低

为了促进研究和建模过程，我们证明了该模型可以减少到矢量自回归模型。

提议1。公式(1）是一个矢量自动评级模型。

证明。假设式中存在序列自相关(1）。自相关是其中是白噪声。在这里，我们使用Cochrane-Orcutt迭代重写公式(2）：在哪里为滞后算子()，它可以将最后一个相位转换为时间序列中的当前值。
下一个工作是找到最令人满意的价值通过连续的迭代方法。具体而言，此方法使用残余错误来估计未知数．
假设我们使用之前使用日子'AQI预测现在的一天的AQI。乘在公式的两边(1）;膨胀公式如下: 在替代过程中，许多假设被忽略了。但对公式(4)，因为OLS只能说明每日pm2.5产量与政策控制指数、历史pm2.5累积量和风力之间的关系。前一天pm2.5的净增长只是这些变量相关性的一个原因。
政府可以制定政策控制工业pm2.5的生产，以获得“满意”的pm2.5日生产;也就是说,是一个内生变量。而政策控制指标则取决于当前和以前的政策天数“历史积累PM2.5，风电，日常生产PM2.5，每日发散PM2.5：在哪里代表其他政策带来的影响。
前几天pm2.5的净增长和政策控制指数也会对pm2.5的日累积产生影响: 在哪里代表影响PM2.5的每日积累的其他因素。
类比公式(4), (5)和(6），和两者都可以写成类似的形式。加入公式(4), (5)和(6)并将它们重写为向量形式：其中在，第1、第2、第3、第4和第5行中的参数分别与，，，，和对其他变量。每一个是一个矩阵。自左乘公式(7)借（逆矩阵）：其中这是向量自回归模型的标准形式。所以证明我们的预测模型（公式（公式）1））实际上是一种矢量自动增加模型。

我们的霾度预测模型的回归参数如下所示。

让

动力结构系统（公式）(7））ISSS

假设干扰术语不是彼此相关或相关的序列，这意味着

为主对角矩阵。公式(12.）可以写成其中

让是的方差协方差矩阵：

假设是一个下三角矩阵，其中所有主对角线元素都指定为1，并且是一个主对角矩阵。参数可以通过完全信息的极大似然估计得到。最大似然估计可以通过回归残差的方差协方差矩阵得到。

最后,和通过三角分解来计算；因此,可以评估。

最重要的是，北京AQI的预测模型考虑了包括行业排放和政策控制的因素，以及前几天污染积累和扩散条件的化学变化。该模型还考虑了这些因素之间的相关性，并将时间序列雾度特征引入动态结构模型中。在此期间，通过4个严重雾霾剧集的记录模拟了策略控制索引。通过日常风力的天气记录评估扩散。

4.模型评价

我们收集了2013年10月28日至2016年3月31日的每日AQI和每日天气信息。该完整序列用于测试预测模型的准确性。第二天的AQI预测实验（第二节）4.1)和长期AQI预测实验(第2节)4.2）都实施。第二天的AQI预测是从两个观点评估的：日常预测的准确性和统计分析的准确性。

4.1. 第二天的空气质量指数预测

第二天的天气预报信息应用于第二天的空气质量指数预测。北京观测和预测的每日平均空气质量指数如图所示1. 模拟结果表明，在886天的整个序列上，预测值与观测值吻合良好。有时，与观测值存在严重偏差；例如，2014年2月19日，观察到的AQI为89，而我们的模型预测为209，偏移量为135%。但事实是，在2月19日下午，北京的风向突然从东北风转为西南风，到19:00，空气质量指数已经达到170，这可以解释为我们的模型成功地提前几个小时预测了严重的霾爆发；未来7天，北京市平均每日空气质量指数为305。偶尔出现这种“预见”现象是由于时间粒度较粗（每日），这种现象在图中以红色椭圆标记1. 这些标志表明，我们的模型可以“预见”疫情和扩散的急剧变化。大多数霾的爆发和扩散都可以精确模拟；有些是可以预见的，但决不能拖延。

（一种）

（b）

（C）

数字2(一个)为日AQI的散点图，包括观测值和预测值。大多数点都在附近（红线）。但是，一些点位于底部的队列中，这意味着观察到的aqi超过200，而预测值小于50.总共有15个这样的异常值，其中7个“预见的”雾霾扩散，而其他8个错误积分无法解释。所有15个点都在表格中进行检查并列出1. “✓” 表示“预见”现象，而“？”表示缺陷点。图形2 (b)是年度空气质量指数的散点图（某一年每日空气质量指数之和）。我们的数据仅涵盖2013年的2个月和2016年的3个月，因此，在该图中，这两个点位于左下角。


日期离群值	标签

2013年11月2日
2013年12月7日	？
2013年12月25日
2014年2月14日	？
2014年2月25日	？
2014年3月26日	？
2014年10月10日,
2014年10月11日
2014年11月19日	？
2014年11月20日	？
2014年11月30日
2014年12月9日	？
2015年1月4日,	？
2015年1月15日
2015年3月7日

（一种）

（b）

图中的饼图3.显示预测精度的分布。通过以下公式获得预测和观察到的AQI的偏差：数字3.表明，55％的预测匹配观察到的值非常好（<20％的偏差）。紫色部分主要由“预见”现象引起。大多数红色部分的样本来自较少污染的日子。例如，在2016年1月12日，AQI预测为40次，而观察到的AQI是29，这使得偏差为37.9％。事实上，统计数据还表明，我们的模型在更糟糕的空气条件下更好地表现更好（图4）。如果样品的偏差小于20％或预测的空气质量水平与观察到的水平匹配，则正确预测样品。

4.2. 长期AQI预测

在长期预测中，我们使用历史上雾数据序列和天气预报信息来预测未来7天的AQI。如果样品的偏差小于20％或预测的空气质量水平与观察到的水平匹配，则正确预测样品。从2015年12月26日至3月31日，2016年3月31日，我们在未来7天内预测AQI并检查准确性-白天的预测。图形5显示了91天实验中的长期预测的准确性。数字5表明，在接下来的3,4,5,6和7天'AQI预测中，精度保持稳定，这表明我们的模型对长期预测的任务具有优异的鲁棒性。第二天的预测准确性令人惊讶地达到79.1％，远远超过部分实验4.1．原因是，在91天内，6次阴霾发作袭击了北京。这些频繁的攻击确实为整体表现做出了贡献，因为我们的模型对AQI的突然变化非常敏感，包括爆发和扩散（部分4.1；数字4）。数字6和7在91天的时间里展示了几次烟雾事件。这两个数字显示pm2.5的变化过程超过2周。图形6还显示了由粗时间粒度引起的“预见”现象，以红色椭圆为标记。

5.结论和未来的工作

本文提出了一种动态的结构模型，以预测北京的日常AQI。这种模型综合自然因素，人类因子和自我演变因子进入时间序列模型。据证明，每日阴霾增量的动态结构测量模型是矢量自回归模型。实验反映了这一模型的两个亮点。首先，我们的模型对预测AQI的突然变化非常敏感，并对包括爆发和扩散的突然变化非常敏感。其次，该模型对长期AQI预测的任务具有巨大的稳健性。最后，受到粗时粒度的限制，我们的模型有时“预见”，但从不拖延或错过任何突然的阴霾变化。

许多研究人员使用简单的BackPropagation神经网络来完成非线性预测模型。但由于基于时间序列的方法被证明在雾度预测建模中有效，我们认为经常性神经网络在这种预测任务中提供更好的表现。虽然相关因素在现有模型中受到限制，但应仍然关注过度的问题，因为，在长期预测中，偏差可能会在后续的预测中传播并夸大。

竞争利益

作者声明他们没有相互竞争的利益。

致谢

本研究由国家自然科学基金项目(no . 71271209)、北京市自然科学基金项目(no . 4132052)和教育部人文社会科学青年基金项目(no . 11YJC630268)资助。

工具书类

L高，G。贾，R。张等人，“1981-2005年中国长江三角洲地区的视野趋势，”中国空气和废物管理协会，第61卷，第8期，第843-849页，2011年。查看在：出版商网站|谷歌学者
Q.刘，J.Baumgartner，Y. Zhang和J. J. Schauer，“北京空气污染的源污染在严重的冬季阴霾事件和肺上皮细胞相关促炎反应中的来源分摊”大气环境，第126卷，第28-35页，2016。查看在：出版商网站|谷歌学者
十,。领带，G。P布拉瑟尔，C。赵等人，“中国东部和美国东部空气污染的化学特征，”大气环境，卷。40，不。14，pp。2607-2625,2006。查看在：出版商网站|谷歌学者
J邓，T。王，Z。蒋等人，“中国南京上空能见度特征及其影响因素，”大气研究，第101卷，第3期，第681-6911911页。查看在：出版商网站|谷歌学者
MEPC（中国环境保护部），中国环境年鉴，中国环境年鉴出版社，中国北京，2014年。
J. Quan，X. Tie，Q. Zhang等，“北京北京2012 - 2013年冬季重型气溶胶污染的特征”大气环境， vol. 88, pp. 83-89, 2014。查看在：出版商网站|谷歌学者
赵学军，赵鹏生，徐建军等，“华北平原冬季区域霾事件及其形成机制分析”，大气化学与物理学，第13卷，第11期，第5685-56962013页。查看在：出版商网站|谷歌学者
H王，J。安，L。沈等人，“中国长江三角洲重霾污染期间亚微米气溶胶的形成机制和微物理特征，”总体环境科学，卷。490，pp。501-508,2014。查看在：出版商网站|谷歌学者
Y王，L。李，C。Chen等人，“中国上海秋季霾期细颗粒物源解析，”地球物理研究大气杂志，卷。119，没有。4，pp。1903-1914,2014。查看在：出版商网站|谷歌学者
季东，李力，王勇等，“2013年1月中国北方大气颗粒物污染最严重事件:观察的启示”，大气环境，卷。92，pp。546-556,2014。查看在：出版商网站|谷歌学者
J胡，Y。王，Q。应和H。张，“中国华北平原和长江三角洲PM2.5和PM10的时空变异性，”大气环境，卷。95，pp。598-609,2014。查看在：出版商网站|谷歌学者
Q侯和H。杨，“基于三次指数平滑模型的霾天气分析和预测，”环境保护科学，卷。6，pp。73-77,2014。查看在：谷歌学者
s郭，M。胡，M。LZamora等人，“阐明中国严重城市烟雾的形成，”美国国家科学院的诉讼程序号，第111卷49, pp. 17373-17378, 2014。查看在：出版商网站|谷歌学者
R-J。黄，Y。张，C。Bozzetti等人，“中国烟雾事件期间高二次气溶胶对微粒污染的贡献，”自然，卷。514，没有。7521，pp。218-222,2015。查看在：出版商网站|谷歌学者
M.Vieno，M. Heal R，S. Hallsworth等，“远程运输和国内排放在跨英国的大气二次无机颗粒浓度”，“大气化学与物理学，第14卷，第8435-8447页，2014年。查看在：谷歌学者
G. Kiesewetter, J. Borkenkleefeld, W. Schöpp等，“欧洲街道PM 10浓度建模:来源分配和可能的未来，”大气化学与物理学，卷。14，pp.18315-18354,2014。查看在：谷歌学者
R张，L。王，A。FKhalizov等人，“人为污染增强的蓝色烟雾纳米颗粒的形成，”美国国家科学院的诉讼程序，第106卷，第42号，第17650-17654页，2009年。查看在：出版商网站|谷歌学者
J. M. Wooldridge，横截面与面板数据的计量经济分析，麻省理工学院出版社，剑桥，马萨诸塞州，美国，第二版，2010年。查看在：数学网
y.太阳，基于主成分- bp神经网络模型的霾日数预报研究，江苏大学，2015。
十,。梁，T。邹，B。郭等人，“评估北京PM2.5污染：严重程度、天气影响、APEC和冬季供暖，”皇家学会学报A：数学、物理和工程科学，卷。471，没有。2182,2015。查看在：出版商网站|谷歌学者
艾慧，石颖，“基于BP神经网络的霾天气预报研究”，电脑仿真， vol. 32, pp. 402-405, 2015。查看在：谷歌学者
X. Zhang，Y. Wu和B.Gu，“雾度剧集的表征和使用面板模型对其形成的因素”，“ChemoSphere，卷。149，PP。320-327,2016。查看在：出版商网站|谷歌学者
L李，J。钱，C-Q。欧，Y-X。周，C。郭和Y。郭，“2001-2011年中国广州空气污染指数的时空分析及其与气象因子的时间尺度依赖关系，”环境污染，第190卷，第75-81页，2014年。查看在：出版商网站|谷歌学者
G田，Z。乔和X。徐，“2001-2012年北京市颗粒物（PM10）特征及其与气象因子的关系，”环境污染， vol. 192, pp. 266-274, 2014。查看在：出版商网站|谷歌学者

计算智能与神经科学