文摘

准确的监测空气质量不再能满足人们的需求。人们希望提前预测空气质量,及时预警和防御最小化对生命的威胁。本文提出了一种新的空气质量时空预测模型来预测未来空气质量和基于大量的环境数据和长短期记忆(LSTM)神经网络。为了捕捉的时空特征污染物浓度数据,5个站点的数据时间序列的相关性最高的PM2.5浓度(颗粒与空气动力学直径≤2.5毫米)在首次提取实验网站,和天气数据和其他污染物数据同时合并在下一步中,提取高级时空特性通过长期和短期记忆神经网络。本文给出的模型与其他基线模型相比在每小时PM2.5浓度数据集收集35岁在北京空气质量监测站点从1月1日,2016年,2017年12月31日。实验结果表明,该模型的性能优于其他基线模型。

1。介绍

近年来,随着社会的快速发展,对环境的压力越来越严重,有些严重的空气污染问题严重威胁人们的健康。在心血管疾病的情况下,暴露PM2.5(细颗粒物粒径小于2.5μm)短至几小时到几周可能导致死亡率的增加,从而导致减少寿命长达数年。降低PM2.5的浓度可以有效地降低上述风险(1]。此外,越来越多的研究气体污染之间的关系和神经退行性疾病如阿尔茨海默氏症。2015年的一项研究显示,长时间暴露于PM2.5可能导致提前在第一门诊时间神经退行性疾病,每年有超过300万过早死亡由于暴露PM2.5 (2- - - - - -5]。因此,准确预测其质量浓度在大气管理决策中扮演着重要角色6]。提前预测空气污染物浓度是提高空气污染防治的基础和实现全面的环境管理,这是重要的公共卫生和政府决策(7]。

然而,空气质量浓度预测是困难的,这不仅容易受到其他因素,如气象因素(温度、相对湿度、风速、降水),交通污染,工业排放等等。它也受到空气中其他污染物的浓度。具体来说,温度会影响大气和通风条件。湿度和降水影响颗粒物的沉积,而风速对颗粒物的扩散8]。交通污染和工业排放会产生一些有害气体等2,没有2阿,3,有限公司一些相关分析表明,O3会抑制PM2.5的生长,可吸入颗粒物,不是吗2、股份有限公司等2,PM10和PM2.5和CO在每个赛季强烈相关(相关系数> 0.5)(9]。所以这些影响对空气质量的预测也构成了挑战。同时,空气质量预测不仅是空间相关的。在时间维度,PM2.5浓度的实验网站也受到网站的空气质量浓度在过去,所以我们需要捕捉空间相关性和时间依赖性。

为了解决上述挑战,作者提取浓度密切相关的五个站点的数据与实验网站,PM2.5浓度相关性最高的序列数据中提取其空间相关性;然后气象因素和其他污染物数据同时被合并为下一个输入。接下来,以前与滞后时间序列数据集成p被输入到LSTM神经网络n隐藏层和一个完全连接层进行训练。LSTM神经网络用于提取它的时间依赖性,将结合提取时空特性和输出PM2.5的未来预测。LSTM神经网络是一个时间周期,有效地解决了长期依赖问题,避免了梯度消失和爆炸。它提出了预测未来与过去的输入输出。相比与传统的递归神经网络(RNN) [10),它的独特之处在于,它是设计一个循环体结构,已被证明是非常适合基于时间序列数据的预测。和梯度消失的问题更好的性能比RNN [11- - - - - -13]。

本文的贡献主要包括三个方面:首先,本文提出了一个新的空气质量时空预测模型来预测未来空气质量。第二,整合历史时间空气质量数据,从最近的邻居的空气质量数据,气象数据,和其他污染物数据可以提高模型预测精度,帮助更好地预测空气质量的变化。第三,评估该模型上每小时浓度数据集从1月1日,2016年12月31日,2017年,在北京。实验证明了该方法的有效性。

剩下的纸是组织如下:部分2描述了相关工作;实验中使用的数据和方法详细的节3;部分4报告结果和讨论;总结和展望部分5

近年来,越来越多的研究人员使用深度学习神经网络技术来克服问题领域的大数据和人工智能,这主要是因为它能够实现有效学习的特征表现在大量输入数据和深入分析数据之间的潜在的根深蒂固的特性。因为环境污染问题已成为近年来越来越严重,人们越来越重视健康问题,和环境卫生有关部门也加强管理和监控,这导致了越来越多的研究人员关注空气质量的研究。研究人员仔细研究并提出了许多预测模型的空气质量,大致可分为三种类型:单一的预测模型。它使用现有的方法来预测空气质量数据。改进后的预测模型,有各种各样的不足对单个模型的预测,因此,研究所可以改进现有的方法的预测性能通过改善相应的重量参数,增加优化算法,或添加各种辅助数据的基础上,现有的方法研究:联合预测模型。虽然改进模型可以弥补单个模型的缺点在一定程度上,仍有一些局限性。因此,研究人员继续进行深入探索,将两个或两个以上的单个模型结合在一起,充分发挥各自优势,相互学习借鉴,结合进一步提高模型的预测精度。

2.1。时空预测

近年来,随着空气污染已经越来越多的关注,研究人员还提出了许多时空预测模型实现未来空气质量的预测。Qi et al。14)提出了一个新颖的组合预测方案基于CNN和LSTM城市PM2.5浓度;模型使用CNN提取空间特征的输入之间的监测站,并使用LSTM预测未来空气污染浓度通过学习过去的空气污染浓度时间序列数据中包含的特征。周et al。15)提出了一个混合模型的时空预测PM2.5基于图像卷积神经网络短期和长期记忆;模型图卷积网络(GCN)适用于提取不同站点之间的空间相关性和LSTM捕捉观察在不同时间之间的时间依赖性。温家宝et al。(16)提出了一种深multioutput LSTM (DM-LSTM)神经网络模型,成立有三个深度学习算法(即。,mini-batch gradient descent, dropout neuron, and L2 regularization) to configure the model for extracting the key factors of complex spatiotemporal relations. Wang and Song [17)提出了一个新颖的时空卷积长短期空气污染预测神经网络;高层时空特性提取的结合卷积神经网络(CNN)和长期短期记忆神经网络(LSTM-NN)和气象数据和气溶胶数据集成来提高模型的预测性能。盒子和詹金斯18]提出了一种深度时空整体空气质量预测模型;分区策略的模型结合了收集方法基于天气模式,找到了空间相关性分析网站之间的因果关系和生成相对网站和相对区域的空间数据;最后,深度LSTM-based时间预测是用来学习的长期和短期依赖空气质量。这些模型实现时空预测通过分析时空数据,但该模型提出了不同于上面提到的。提出了一种新的空气质量时空预测模型集成实验站点的空气质量数据,最近的邻居的空气质量数据,气象数据,和其他污染物数据并结合深神经网络提取LSTM时空特性并最终实现未来的预测。

2.2。经典的时间序列预测模型

预测流量在时空网络可以看作是一个时间序列的预测问题。现有的时间序列模型等集成自回归移动平均模型(ARIMA (19]),季节性ARIMA (20.),和向量自回归模型(21]可以捕获时间依赖关系很好,但是它不能处理空间相关性。

2.3。神经网络对序列的预测

神经网络和深度学习22)获得了众多成功的计算视觉等领域(23),语音识别(24),和自然语言理解25]。递归神经网络(RNNs)已经成功地用于学习任务序列(26]。整合长短期记忆(LSTM) [27]或封闭的复发性单元(格勒乌)(28)使RNNs学习长期时间依赖性。一些研究人员已经提出了一些大胆的想法,结合递归神经网络和递归神经网络处理时间序列数据,这可能更好的捕捉数据的时空特征。然而,随着网络的深度增加,培训成本也将大大增加,培训将会越来越难做。有什么方法可以提高模型预测的精度不增加训练的困难吗?它是未来研究的方向和需要解决的问题。

3所示。数据和方法

3.1。研究领域和数据

研究领域是北京,数据来自35小时数据在北京空气监测站和气象监测站。北京的空气质量数据从1月1日,2016年12月31日,2017年,来自北京环保测试中心的网站(https://www.bjmemc.com.cn/)。北京的位置地图和35监测站在图所示1。本文重新编号的样本和预测PM2.5浓度代表网站。S1车站是城市环境评估;肌力和S23电台是郊区环境评估点;S29站是控制点和区域点;和S31交通污染监测。空气质量数据收集每一小时;大约有17000条记录为每个站点。辅助数据包括同步气象数据(温度、露点压力、风向、风速)和其他污染物数据(2,没有2阿,3和公司),也被证明是高度相关的PM2.5浓度(29日- - - - - -33]。气象数据来自国家气候数据中心(NCDC),和其他污染物数据也从北京环保测试中心的网站。研究中使用的数据集可以直接从网站https://beijingair.sinaapp.com/。数据集是第一次充满了异常值和缺失值,归一化,放大到[0,1]。每个站点的数据记录是不同的。本文选择的数据记录总数的67%作为测试集,作为测试集,剩下的33%的记录。

3.2。提取空间因素

根据Tobler地理学第一定律,一切有关,和类似的事情更密切相关,也就是说,相邻站点实验网站的影响大于遥远的网站。为了说明PM2.5浓度的空间特征序列,作者计算两个站点之间的距离和PM2.5浓度的皮尔森相关系数序列在每个站点。

半正矢公式作为推荐的维基百科来计算两个站点之间的距离根据每个站点的纬度和经度。这个公式使用正弦函数来保持足够的有效数字,即使很小的距离。公式如下: 在哪里 在哪里 表明站之间的距离,R地球的半径,可以平均6371公里,φ1φ2表示两点之间的纬度,∆λ代表两个纬度之间的区别。

皮尔森相关系数是用来测量连续变量之间的线性相关的力量。公式如下: 在哪里r代表序列的相关系数之间的PM2.5浓度,浸是协方差,σ标准偏差。

的相关系数最高的10台PM2.5浓度序列相关性的每个35网站图所示2。它的值从图可以观察到,大多数电视台的相关系数大于0.7,所以相邻站可以用来提高车站的预测精度。空间因素提取的过程如图3。本文中使用的初始数据集收集的时间序列数据每小时35台。数据集包括五个特性,PM2.5(时间的平均浓度粒子与空气动力学直径≤2.5毫米),PM2.5_24 h(日均浓度的颗粒与空气动力学直径≤2.5毫米),PM10(时间的平均浓度粒子与空气动力学直径≤10毫米),PM10_24 h(日均浓度的颗粒与空气动力学直径≤10毫米),和机能(空气质量指数),然后我们将计算站之间的相关系数由上述公式,并提取前5站的浓度最高的相关性与实验网站,最后获得35站的单独的时间序列数据。每个数据记录包括六个特征(自我PM2.5浓度,相邻站1 _pm2.5浓度,相邻站2 _pm2.5浓度,相邻站3 _pm2.5浓度,相邻站4 _pm2.5浓度,相邻站5 _pm2.5浓度),作为下一阶段的初始数据使用。至于PM2.5分布的俗人,相关的研究已经指出,当前时刻的站有很好的相关性与过去某一时刻。为了进一步反映了时空相关性的网站,上面的网站获得计时数据结合辅助数据包括气象数据和其他污染物数据,和延迟时间值输入到模型中。然后长期和短期记忆神经网络应用于提取他们的时空相关性34]。

3.3。ST_LSTM模型

本文提出的预测模型的框架如图4。模型的输入数据包括三个部分的融合,包括站点自相关浓度和相邻站点浓度数据,气象数据(温度、露点压力、风向、风速),和其他污染物数据(2,没有2阿,3和公司)。输出的预测价值实验网站PM2.5 (t+ 1,t+ 2,…t+N)。模型分为三个部分:提取相邻站点自相关浓度和相关浓度数据的网站,辅助数据的融合和提取的时空特性,和预测未来的PM2.5浓度。

第一部分是空间因素的提取。也就是说,该网站自相关浓度和浓度邻网站中提取的数据。具体内容是详细描述部分3所示。2

第二部分是辅助数据的融合。辅助数据被添加到模型训练时提取更多的时空特性。所有数据通过使用前清洁和缺失值处理,并记录异常值删除。PM2.5浓度的值,气象数据,为每个站点和其他污染物数据,作者使用的方法意味着填充,填充固定值,插值填充处理缺失值。合并后的数据规范化作为输入到下一个阶段。

最后一部分是时空特征的提取和未来PM2.5浓度的预测。的时间和空间特征归一化时间序列数据中提取使用LSTM模型与多个隐藏层。预测序列值的时候(t+ 1,t+ 2,…t+N预计使用数据与过去时间的滞后t

4所示。实验

4.1。评价

为了评估模型的性能提出在这篇文章中,作者使用了三个评价指标,即平均绝对误差(MAE)、均方根误差(RMSE),和决定系数(R的平方,R2)。因为RMSE的局限性和梅,即相同的算法模型,解决不同的问题不能反映这个模型的优点和缺点不同的问题。因为数据是不同的在不同的实际应用,直接比较预测的值是不可能的,所以无法判断哪种模式更适合预测问题。因此,预测结果转化为准确性,结果都在[0,1]。预测精度的不同的问题,它可以比较和判断哪种模式更适合预测问题。R2线性回归的是最好的指标。三项指标的计算公式如下: 在哪里 说明和预测价值y测试代表了真正的价值。梅和RMSE值越小,越小模型误差和更好的预测性能。更大的价值R2更好的模型效果,最大值为1;当R2是1,预测模型没有任何错误;当R2是0,模型等于参考模型;当R2小于0,这意味着学习模型不如基准模型。

4.2。设置

在预测架构提出了在这项研究中,几个超级预设参数,包括LSTM层的数量,每个LSTM层神经元的数量,完全连接层的数量,神经元的数量在每一个完全连接层,和时间步长。虽然固定其他参数,每个参数的影响模型的预测性能检查确定最佳参数。

1细节的预测结果的误差大小使用不同的隐藏层。数据显示,当隐藏层的数量是3,错误是最小的。因此,本研究使用了一个LSTM网络有三个隐藏层。每一层的神经元数量是100;完全连接层的数量是1;每一层的神经元数量是1。此外,研究中其他参数设置如下:亚当算法优化算法;美函数作为成本函数;批处理大小是128;双曲正切函数作为本研究的激发函数; the maximum number of iterations is 100; the learning rate is 0.01; and the performance of the model is the best. In this study, MAE, RMSE, andR2作为指标来确定时间一步预测性能的影响。相关研究指出,一个小的时间步不能保证足够的长期记忆模型的输入,但是大时间步允许太多无关的输入添加[50]。表2显示不同的时间步长预测性能的影响。从表中可以观察到,当时间步是14,模型的性能是最好的。

4.3。基线

为了测试当前模型的整体性能,作者进行了一系列的对比实验两种类型的基线模型:具有学习模型和深度学习模型。(1)具有学习的基准模型。这包括线性回归(LR)模型,支持向量回归(SVR)模型,随机森林(RF),自回归移动平均(ARMA)模型。(2)深度学习基线模型。也就是说,它包含在模型提出了不同的组件。它包括LSTM_N模型(只有空间因素数据),LSTM_NW模型(空间和气象数据),LSTM_NE模型(与空间和其他污染物数据),LSTM_WE模型(与气象和其他污染物数据),LSTM_S模型(没有任何辅助数据),和ST_LSTM模型(模型提出了)。

5。结果与讨论

5.1。预测性能

在确定最优网络结构对当前预测任务,训练集用于列车当前ST_LSTM模型直到收敛测试集,然后评估。本文预测PM2.5浓度的值在接下来的一个小时里的监测站编号1在北京和比较模型的预测值与实际价值。北京1号网站吸引使用ST-LSTM模型提出了PM2.5浓度预测价值和PM2.5浓度观测值在接下来的一个小时里,如图5。从图可以观察到,预测值与观测值大体上是一致的。的R2值之间的观察和预测数据表明,模型可以捕获解释方差的93%。该模型的可行性和准确性进行了验证。

同时,作者还绘制的曲线的真实值和预测值的测试集,情节的真实值和预测值测试网站北京1号图所示6。从图中,作者指出,两条曲线的趋势大致相同,和拟合程度较好。这是表明,本文提出的模型能够准确地捕捉PM2.5的时空变异,实现一个相对准确的预测未来的空气质量(预测未来的PM2.5浓度)。

5.2。比较的实验

的比较模型的预测性能提出了与其他八个基线在下一个小时表所示3三个评价指标的美,RMSE,R2。它可以发现,深度学习基线模型执行比具有学习基线模型,在SVM具有学习基准模型表现最糟糕的。比较所有深度学习的三个评价指标基线模型,发现该模型执行最优预测性能。由于数据的限制,作者只进行比较预测结果的下一个1到6小时的深度学习基线模型。上述6个深度学习模型的数值在美指标如表所示4和用于预测空气质量从1小时到6小时。的数值,我们可以观察预测在未来1到3小时和6小时。本文提出的模型的误差是最小的。LSTM_NE模型的误差是最小的在第四和第五的时刻。本文提出的预测模型的性能排名第二;可能的原因是,其他污染物因素对PM2.5浓度的影响更大。LSTM_NE模型只考虑其他污染物因素,本文提出的模型不仅考虑其他污染物因素也考虑气象因素。考虑更多的因素,它削弱了其他污染物的影响因素。从数据的比较两个模型LSTM_NW LSTM_NE,作者观察到的预测性能第二到第六时刻除了1小时,LSTM_NE模型的误差小于LSTM_NW的误差模型。也呼应上述猜想,其他污染物的影响因素对PM2.5浓度大于的气象因素对PM2.5浓度。

6。结论和展望

提出了一种时空预测模型对未来的预测基于空气质量长期短期记忆(LSTM)神经网络。模型通过整合来实现更精确和稳定的未来预测历史时间空气质量数据,从最近的邻居的空气质量数据,气象数据,和其他污染物数据到模型中。同时,作者使用的真实数据集北京从1月1日,2016年12月31日,2017年,评价模型提出了使用美,RMSE,R2评价指标。模型的有效性。

一般来说,该模型适用于处理来自多个监测站点的数据在一个城市一个时间序列的输入可以结合多个站点之间的相互作用和时间依赖性的空气污染物预测系统。然而,仍然有一些局限性:(1)它只能预测一个站点的空气污染物的浓度在一个城市,不能达到的总体预测城市。在未来,希望所有网站数据和网站预测数据在城市可以组合来实现整个城市的综合预测。(2)本文提出的模型是只在北京的数据集和评估有一定的局限性。在未来,希望更多的监测数据收集的其他城市监控网站可以进一步验证模型的性能。(3)在未来的工作中,我希望能考虑更多的影响因素,如交通流量。这将允许您更好地捕捉空气质量的变化,获得更准确的预测。

数据可用性

本文使用的数据和分析是可用的https://www.bjmemc.com.cn/

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是支持下的浙江省自然科学基金批准号LY20F020013,浙江省的基本公共福利研究项目在批准号。LGF19F020015 LGG21F020006,和杭州格兰特JXGG2020YB009号和JXALK2020001下独立大学。