文摘

为了实现时空空气质量指数的准确预测,本文构造了一个基于深度学习STAQI预测模型,包括数据处理、空间特性收购,收购时间特性,STAQI预测。首先,空间插值方法用于优化样本数据集提供可靠数据;改进的图像卷积网络和改进长期短期记忆是用来有效地提取数据机能的时空分布特征;然后,极端学习机模型用于准确地预测和分析数据机能。仿真结果表明,该评价指标的RMSE和梅构造预测模型是4.51和3.92,分别显示了较好的曲线拟合能力和伊拉克基地组织的预测能力。

1。介绍

世界经济的快速发展,工业化和城市化的加速,能源消耗急剧增加,和空气污染的问题尤其突出1,2]。近年来,空气污染物的浓度超过标准经常(3,4]。空气污染不仅会导致一些地区大气能见度大幅下降,但也对人类健康造成巨大威胁5]。

研究表明,悬浮颗粒物是最致命的空气污染物之一,含有大量的有害物质。长期暴露在悬浮颗粒物的风险将会增加呼吸系统,心血管系统,肺癌,和其他疾病,甚至增加死亡率(6,7]。因此,空气质量指数(AQI)是实现环境综合治理的基本点,对人们的健康生活具有重要意义和政府决策8]。

传统的空气质量预测可分为数值预测方法和回归统计预测方法。数值预测模型的原理是模拟污染物运动过程的监控数据通过使用固定数量的空气质量监测站。这取决于大量的实证假设和参数,这是不足以准确反映真正的大气环境和其预测性能受到一定的限制9]。回归统计方法侧重于分析数据的内部法律,不涉及复杂的物理和化学反应之间的空气污染物,并使用统计建模方法得到预测价值,取决于静止的假说,这限制了模型的拟合能力在一定程度上(10]。

为了解决上述问题,本文分析了时间和空间方面,构造一个时空空气质量指数(STAQI)预测模型基于深度学习。模型主要优化图卷积网络(GCN)和封闭的复发性单元(格勒乌)模型实现深STAQI的空间特征的提取。同时,F-LSTM预测网络也可以迅速获得数据的时间特征,以提高预测模型的拟合能力。仿真结果表明,该模型具有良好的曲线拟合能力和预测能力。

2。空气质量监测和数据预处理

2.1。空气质量监测

空气质量预测主要面临以下四个挑战:(1)空气质量将会受到许多因素的影响,如交通。这些影响因素是很难获得提前或模型。(2)空气质量显示了时间维度(高不确定性20.,21]。如图1,PM2.5质量浓度参数,描述空气质量的主要污染物之一,作为一个例子,每一次的质量浓度在一个给定的2 d变化很大,和PM2.5质量浓度显示显著变化在不同的时间在1 d,和最高及最低的质量浓度之间的差异可以达到100毫克/立方米。(3)空气质量数据有显著差异在不同的地理位置22]。如图2,三个监测站的PM2.5质量浓度变化曲线在北京1 d内是不同的。这两个监视点A和B是接近,而监测C点位于郊区,远离监视点A和B,从图可以看出2在大多数时间,PM2.5质量浓度监测的三站是截然不同的,和PM2.5质量浓度的监测C点相对较低。(4)由于实际条件的限制,会有一定的缺失的基本数据预测,缺乏时间戳属性值等数据输入或缺乏具体的监测数据。

1列出了缺失数据的真实数据集用于这项研究。PM10缺乏成千上万的数据和其他数据也不同程度的缺失,对工作效率有很大的影响的模型。因此,有必要设计和构建相应的数据预处理方案来减少噪声数据。

2.2。数据预处理

根据区域划分的分析结果,影响空气质量监测站周围多个分区的影响。站包含在每个分区的数量是不同的,有可能是零,一个,或多个电台。因此,对于不同的划分结果,相应的方法是采用区域填充,最后,每个分区可以影响空气质量的价值。

影响分区只有一个监测站的监测值可以直接用作当前区域的空气污染程度。在预测过程中,监测值直接作为模型的输入参数训练。地区空气质量和之间的关系可以表示为空气质量监测站 ,在哪里 意味着监测站 在受影响的分区 , 意味着受影响分区的数量,是空气质量机能集合,包括PM2.5,可吸入颗粒物,二氧化硫,二氧化氮,CO, O3

没有监测站的情况和影响区中的多个监测站需要单独考虑。当有多个监测站在受影响的分区,设置不同的权重根据距离每个监测站监测站预测。每个监测站的监测值在该地区是乘以权重和积累。结果是该地区的平均空气质量和反映了平均空气污染程度的受影响的分区。计算方法有多个监测站在受影响分区所示(1): 在哪里 在该地区是监测站的数量,和它的值范围是什么 ; 是指在该地区监测站的数量;和 影响的重量吗 监测站。

如果没有受影响分区的监测站,有缺失值,用于空间插值的空间插值方法。如图3,左边的图中显示空气质量监测站周围分布没有填充空区,右边的图显示了空气质量监测站周围分布在零区域填满空间插值方法。

为了更好地实现数据的定量分析,空气质量指数数值转换根据空气质量等级的划分。特定的替换方法如表所示2。如果空气质量指数在0∼50,换成1号在原始的数据集;如果是在51∼100的范围,把它换成2号;如果是在101∼150,换成3号;如果是在151∼200,换成4号;如果是在201∼300,换成5号;如果是大于300,换成6数量。

3所示。短期单步预测模型的空气质量

3.1。模型建立

有一种强烈的时空相关性空气质量数据集(23]。在预测过程中,仅考虑空间特性的时间相关和忽略了分析不可避免地会降低模型的预测性能。

考虑到特殊的时空数据,如空气质量,本研究基于深度学习STAQI预测模型适用于短期内一步预测伊拉克基地组织的目标。如图4,STAQI预测模型在结构上可以分为全局组件和本地组件,分别空气质量模型和分析(空间相关性)在邻近区域和多个空气污染物的浓度(时间相关)的目标站点。最后,时间和空间特性,提取本地组件和全球组件融合获得的单步预测机能价值目标站点。具体实现过程如下。

3.2。全球组件

监测站的分布在城市不是建立具有一定法律和相等的间距,以及监测站是一个典型的图像之间的拓扑结构。因此,数据由空气质量信息监控由多个电台是一种特殊的图形数据。图卷积神经网络的核心理念是学习一个函数映射图中的节点可以聚合的特点,自己的节点和节点的邻居节点来获得一个新的表示。政府通讯的出现使深度学习有效地从图像数据中提取空间特征。

定义1。拓扑图形 可以用来描述多个环境监测站点之间的拓扑。图形是由节点和边组成的。图中的每个节点代表一个环境监测站; 代表多个监测站的集合,也就是说, ,在哪里 监测站的总数和吗 代表之间的边的集合监测站。
根据地理学第一定律,每件事都有不同程度的影响,事情越仔细,越明显的相关性。空气质量多站之间的空间相关性也显然符合法律。因此,在城里每两站之间的距离计算根据(2)。距离越大,相关性越弱,相反,相关性越强。两者之间的强和弱关联度STAQI表示通过计算两个站之间的距离的倒数和存储在邻接矩阵 作为边缘权重值相应的车站, 在哪里 这两个站的地理位置; 车站的各个纬度信息; 每个点的经度信息;和 球的半径。

定义2。特征矩阵 :特征矩阵用于存储图中的每个节点的属性特征,也就是说,每个监测站的STAQI数据,表示为 ;P代表的定量特征节点图,对应的历史时间窗口大小模型输入; 代表了STAQI每个监测站在时间的价值
政府通讯的实现过程如下:(1)根据每个站的地理位置信息,拓扑 城市环境监测站的目标站位于构造,以及两站之间的关联度计算和存储在邻接矩阵中 (2)特征矩阵 构建基于STAQI观测目标的城市环境监测站在不同的时间。(3)的邻接矩阵 生成矩阵 通过拉普拉斯变换, self-connected邻接矩阵, 是单位矩阵, 度矩阵。(4)使用(3)聚合和变换的特点相关联的节点来计算目标节点的新特点: 在哪里 是非线性激活函数; 层的权重矩阵吗 ; 层的激活值吗 ;
根据地理位置信息环境监测站在城市的不同角落,计算不同站点之间的地理距离。逆距离值是作为两个站之间的边缘重量相应的边缘和存储在邻接矩阵中。同时,多个历史时刻的空气质量监测站在城市是用作输入矩阵。乘以该列的信息目标站点的拉普拉斯矩阵的输入矩阵动态聚合不同的空气质量状况的影响环境监测网站目标站点的空气质量状况与此同时,一个新的表达式的空气质量目标站点。空间特征提取的数据图卷积网络输入格勒乌,颞动态特性是通过单位之间的信息传输,由完全连接和网络输出转换层。
5直观地显示了全球组件的内部结构。左边的区域代表全球的总体结构组件。每个基本周期单元块是GG (GCN-GRU)。正确的区域是GG的特定结构单元细胞。其中,GCN代表了图像卷积操作对当前数据,并输入数据 生成 通过政府通讯后提取空间特征。 代表更新门, 代表了重置, 代表了细胞状态的时间 , 代表输出时间 GCN提取多站空气质量特性数据的空间特性依赖于拓扑结构 多个监测站和相应的空气质量特征矩阵X,因此图中的节点有能力深入提取自己的节点和相邻节点的特性。
全球组件计算过程如下: 在哪里 是图卷积过程; 重量在培训过程;和 培训期间代表了偏见。

3.3。本地组件

本地组件是由LSTM网络组成的特点是多元的历史时间序列预测主要空气污染物的浓度在车站和空气质量。

LSTM的细胞结构进行了改进,消除了依赖当前单元的状态和隐层状态的最后一个隐层的状态,实现更快的状态更新和获取F-LSTM(快长短期记忆)细胞结构。F-LSTM结构如图6

F-LSTM包括一个输入通道 ,忘记门 ,和一个重置门 首先,计算中间状态 根据输入,然后计算其他门的状态。计算公式如下:

以上操作仅取决于 ,使这部分的操作并行F-LSTM单位可以扩展。忘记门是用来控制内部状态 , 重置门是用来计算的输出状态C。计算公式如下: 在哪里 是激活函数用于计算的输出状态。

3.4。榆树预测

多层隐层特性学习后,学习数据功能是输入到极端学习机(ELM)模型进行训练和预测24,25]。把特征向量 空气质量数据和相应的STAQI预测向量 一组样品 ,的神经网络 隐层节点可以表示如下: 在哪里 , , 是输出权重矩阵连接 隐藏层和输出层, 是功能之间的连接权重向量层和隐藏层, 隐层的偏移向量, 是激活函数。

单隐层神经网络训练的目的是最小化输出误差,即有 , , , 大约相等。

3.5。损失函数

损失函数模型训练过程中起着至关重要的作用。尽量减少损失的价值函数模型训练的终极目标。损失值越小,越高的学习能力模型的输入数据和模型的性能越好。与浅神经网络相比,模型参数的数量 深逐渐增加神经网络由于网络层数增加。过度拟合现象是避免将L2正则化项添加到原来的损失函数 的损失函数 可以表示如下:

导数 :

更新参数 如下:

可以看出,当 趋于0,添加L2正规化损失函数可以将模型参数限制在一个小范围内,减少模型的计算复杂度,提高模型的训练速度。损失函数用于STAQI模型如下: 在哪里 是实际STAQI目标站点的价值; 的预测STAQI价值目标站; L2正则化项;和 是一个超参数。

3.6。模型算法流

该模型的过程算法1所示:

输入:测试数据
输出:预测值
步骤:
(1) 赋值到多个组超级模型的参数。
(2) 获得构造邻接矩阵 从外部文件和模型样本数据集。
(3) min-max方法用于规范化数据消除不同维度的影响模型预测上的多个影响因素之一。
(4) 根据特定的时间窗口的大小,监督数据集构造分为训练集和测试集。
(5) 计算总培训批量根据批量大小和训练样本的总数。
(6) 建立全球组件。通过继承RNN细胞类并覆盖_init_和_call_方法,GG的细胞结构单元实现。_init_的激活函数,节点的数量,隐藏的细胞的数量,和其他参数需要指定,拉普拉斯矩阵计算加载邻接矩阵。_ call_函数提取空间特征的输入数据和计算格勒乌单元的细胞状态。调用用户定义的GG细胞类,可以提取时空特性,并采取最后一单元的输出值作为输入完全连接层的状态。
(7) 建立本地组件。获得的最后一单位时间的产出价值的向前传播F-LSTM完全连接的网络作为输入层。
(8) 时间和空间特征提取的全球和本地组件是加权和融合得到预测结果。
(9) 指定使用的损失函数模型训练和使用的误差评价指标模型的测试。
(10) 亚当优化器是用来减少损失的价值。
(11) 训练模型和重复以下步骤在一个特定的训练次数:首先,输入数据训练集分为全球组件和本地组件。其次,调用模型。第三,本地组件输入,全球组件输入,和标签数据的批处理被用作填充数据动态执行优化器的计算,损失函数值和预测价值。
(12) 测试训练模型和获得模型的输出值。
(13) 进行反归一化处理的输出值来获得实际的预测价值。
(14) 预测值和真实值之间的误差是由各种评价指标的评估。

4所示。例子验证

本文发展一个空气质量预测系统基于多源数据融合。系统的主要功能包括数据导入、数据预处理、模型训练、模型预测,预测结果显示,等。通过导入城市的数据集和选择的训练参数模型,系统进行训练。模型训练完成后,可以选择不同的模型和不同的时间跨度来分析和预测,并可以方便地预测和分析结果。

实验仿真的硬件环境是NVIDIA GeForce MX450显卡和英特尔酷睿i7 1165年七国集团(g7)处理器;软件环境是Python 3.6和Keras机器学习框架。Keras是一个高级神经网络API,它可以封装Theano又TensorFlow和省略底层开发的细节。因此,它具有良好的可扩展性,因此很容易建立一个网络。

本文共计1520组空气质量数据从2019年1月至2021年1月在北京,中国。示例数据库构造预处理后的原始数据。80%的样本数据库中的数据是随机选择作为训练集,剩下的样本数据集作为测试集对模型的训练和测试。

4.1。评价指标

本研究的目的是预测空气质量的变化趋势和空气中污染物浓度小,在网格micromonitoring监控。因此,为了更好地衡量预测的效果,本文采用两个评价指标:平均绝对误差(MAE)和均方误差(RMSE)。本文使用这两个评价指标来分析预测结果之间的偏差和实际测量值。

一般来说,较小的预测值和真实值之间的偏差,梅和RMSE值越小,也就是说,梅和RMSE值越小,更好的预测效果。 在哪里 是真正的STAQI测量和BSTAQI的预测价值。

4.2。参数敏感性分析

本文提出的预测模型的隐层单元的数量是非常重要的模型的预测精度。因此,讨论了隐层元素的数量。表3显示了网络的结果在不同隐层单元的数量。

如表所示3,逐渐增加隐层单元的数量,STAQI预测模型的评价指标降低,然后增加。超过某一临界值时,该模型有效地学习数据失去了能力,从而提高模型的预测偏差。当隐层单元的数量在64年STAQI预测模型,RMSE的最小值是4.51和梅的价值是3.92。因此,它可以解释,当预测模型的隐层单元的数量是64,其预测性能是最好的。

4.3。模型预测分析

本文模型的仿真结果进行了分析使用的拟合曲线STAQI预测值和真实值,美STAQI曲线和RMSE STAQI曲线。

7显示STAQI预测模型的预测和分析结果提出了在北京。

从图可以看出7,STAQI预测模型的预测结果提出本文基本上是与实际测量值一致。基于STAQI的时间和空间特征数据,它提供了可靠的榆树网络模型和完整的数据支持。因此,该模型可以显示良好的拟合能力。

为了直观地评估提出的预测模型的跟踪分析能力,本文还使用RMSE和梅意识到数学定量评价和分析。图8显示了该模型的评价指标分析。

如图8(一个)的RMSE大多数测试样本的预测值小于6,之间的一些样品和RMSE 6和8;同时,从图可以看出8 (b),大部分的美预测指标在5,和只有少数样本5和7之间的美。从上面的结果可以看出,空气质量评价和预测模型具有较高的预测精度。伊拉克基地组织数据的空间分布特征的基础上,有效样本数据的空间特征提取是实现通过使用深度网络结合政府通讯和格勒乌。

为了更全面地评估时空空气质量预测模型的性能,梅和RMSE用于比较算法在本文引用(16,19]。结果如表所示4

总之,它可以证实STAQI模型本文构造具有良好的跟踪和拟合能力,并能实现准确、高效STAQI预测。

5。结论

空气质量指数(AQI)的准确预测具有重要的现实意义和社会价值。然而,当前的方法忽略了伊拉克基地组织数据的时间和空间分布特征,这是难以有效提取样本数据的特点。为了解决这个问题,本文构造一个基于深度学习空气质量预测模型。伊拉克基地组织数据的空间分布特征的基础上,有效样本数据的空间特征提取是实现通过使用深度网络结合政府通讯和格勒乌。基于机能的时间分布特征数据,改进LSTM网络模型用于实现更快的状态更新和有效地提取样本数据的时间分布特征。

空气质量分析实际上是受到许多复杂因素的影响。本文只需要空气污染物浓度数据作为模型的输入,这有一定的片面性。气象条件的建模和分析,人类活动,和其他影响因素将被添加到未来的研究工作,以便更准确地预测未来空气质量的变化趋势。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突。

确认

这篇文章是由西安科技计划项目(没有。GXYD16.1):西安的物联网应用工程实验室。