文摘

空气污染是人类最重要的环境问题之一,在全球多个国家被认为是有争议的。因此,准确预测是人类健康的关键管理和政府决策环境管理。在这项研究中,三个人工智能(AI)方法,即神经网络组的数据处理方法(GMDHNN),极端学习机(ELM)和梯度增强回归树(GBR),用于预测点的每小时的浓度2.5在多塞特郡站位于加拿大。调查已经完成量化数据长度对人工智能建模性能的影响。因此,九个不同比例(50/50,55/45,60/40,65/35,70/30,75/25,80/20,85/15,90/10)是用来将数据分为训练和测试数据集评估应用的性能模型。结果表明,数据部分显著影响模型的能力,和60/40比率被发现更适合发展预测模型。此外,结果表明,榆树模型提供了更精确的预测点2.5浓度比其他模型。同时,榆树模型的一个至关重要的特征是其适应能力训练和测试数据的潜在变化的比例。总而言之,这项研究结果发表在了一个高效的方法选择最优数据集比例和最好的人工智能模型正确地预测这将是有用的一个精确的模型来解决设计中不同的环境问题。

1。介绍

1.1。背景

城市化和工业化的影响导致增加了空气污染,被认为是我们这个时代最紧迫的公共卫生挑战之一(1]。污染在室内和室外都可以发生(2,3]。他们都是同样危险,尽管他们不同的来源。室内和室外污染之间的主要区别是室内污染可能解决使用空气过滤器和吸收气味,而没有有效手段监测和检测空气污染,,反过来,可以阻止(2]。一些研究显示,到2050年, 全球人口将居住在城市地区(4]。因此,一个有效的方法监测和预测空气污染,特别是细颗粒物(FPM)是至关重要的(5- - - - - -7]。 被称为大气颗粒物,其当量直径吗 使他们悬浮在大气中很长一段时间。此外,的化学成分 通常由碳、硝酸化合物、硫、重金属和其他物质,如海盐和沙子8),导致各种呼吸系统疾病,神经系统损伤、癌症、心血管疾病等。9- - - - - -12]。此外,空气污染变得越来越严重 浓度增加。此外,全世界每年大约315万成熟人死亡是由于暴露于高浓度的 总的来说,户外污染造成每年330万人死亡(13]。因此,准确的预测点2.5浓度是提高公共卫生系统的关键和发展一个预警系统,预测污染物的水平。此外,先进的预警系统可以显著帮助人们,尤其是那些患有慢性疾病,避免接触空气污染物在高峰时期当污染达到高水平,影响他们的健康。

1.2。以前的作品

在过去的几十年里,一些研究已经进行了预测 此外,这些研究大致可以分为传统(确定性和统计)和人工智能的方法 天气确定性方法是基于研究和预测 和社区多尺度空气质量 模型(14]。此外,基于确定性模型的计算可以占突然变化的天气现象导致大气粒子的扩散和在较长时间内表现良好15]。此外,确定性方法依赖于数值模拟获得大规模的结果。然而,这些模型是耗时的,因为他们需要很多计算资源,限制他们的全面实现16]。另一方面,非线性回归等统计模型(17)、分类和回归树(线性model-Kalman滤波器模拟组合18),自回归综合移动平均(19),与漂移模型指数平滑法(20.)和组合模型(21)更有效更快和更容易比确定性模型(22]。然而,统计模型的表现相对较差的特点 为不同的样品挥发性(23,24]。Zhang et al。19)使用了一个自回归综合移动平均线 评估和预测的趋势 浓度。然而,结果表明, 模型已经过时了,这降低了模型的精度。因此,模型只启用预测这一趋势。此外,多种因素影响的复杂的形成 如气象因素(如风速、湿度),人口、道路网络。这些因素之间的关系是高度非线性和复杂,使他们几乎不可能被使用传统方法(25,26]。

机器学习 近年来取得了巨大进步在解决许多工程一般(27- - - - - -32), 特别是浓度(33- - - - - -42]。 结合科学数据、统计数据和计算在一个跨学科的时尚。此外,关于 浓度预测, 方法比传统的统计模型可以表现得更好,因为他们可以处理非线性关系和变量之间的相互作用(43,44]。此外, 方法是有价值的工具来跟踪污染基线和已被证明,以确定污染热点准确。此外,许多变量从空气质量和计量数据可以分析使用这些技术来提高他们的理解模式和预测天气现象如烟雾、空气污染,和可见性。商和他(45)结合随机森林 和集成神经网络预测每小时 浓度。该建模方法表现良好。此外,王et al。46)使用 ,多元线性回归 ,和一个模型相结合 预测室内每小时 浓度。不同的计量和空气质量参数被认为是开发提出的模型。结果表明,整体模型精度比提供独立的模型。此外,结果表明, 模型预测的重要力量 浓度。Murillo et al。47)提出了三种机器学习模型,即人工神经网络( ,支持向量回归 ,和一个混合模型,该模型结合了 模型与粒子群优化算法 预测的提前一天 浓度。模型是使用各种开发的空气质量和计量参数。结果表明,混合模型表现出更好的性能预测 浓度比其他模型。混合模型比传统的(可以找到更有效的解决方案48]。换句话说,研究人员通常把bio-inspirited算法与经典模型来提高这些模型的能力,从而取得良好的预测结果(49,50]。此外,这些算法更频繁地给出特定的角色,比如优化模型的hyperparameters很难通过传统的方法计算。

Moisan et al。51)三种机器学习模型的性能相比,即动态多个方程 ,季节性 模型的外生变量 在预测的每小时 浓度。模型发展不同历史污染和计量参数被认为是输入为拟议的模型。结果表明, 模型表现得比其他模型在严重的事件。更多的例子,表1显示了一个简单的应用 方法在 浓度的预测。基于表的综述论文,研究人员并没有相当大的关注数据部门通过培训AI和统计模型。一些比率(70/30、80/20和90/10)被用来将数据分为训练和测试数据集来评估模型的应用性能。此外,适当的数据划分到训练和测试数据集可以显著影响模型的效率。换句话说,增加训练数据集的长度会使模型overfit数据。然而,模型训练数据不足可能显著影响预测精度,大幅降低的机会接受有效的估计。

1.3。研究动机

拥有准确的预测 是非常重要的经理要对潜在的威胁保持警惕是非常重要的,建立一个健壮的早期预警系统,并最小化不利健康的影响和相关成本;本研究调查的影响数据分区模型的效率。最好的作者的知识,选择最佳的训练和测试数据的调查比率还没有进行。在表的报告方法1探索研究人员倾向于使用ANN-based模型预测空气污染。然而,新版本的安榆树等建模方法并不适用于空气污染预报。此外,模型等 , , ,尽管他们在解决复杂工程问题(广受欢迎27,29日,60- - - - - -62年),是不习惯在之前的工作预测点的浓度2.5。因此,这些建模方法和能力更详细地探讨。

2。方法

2.1。案例研究和数据收集

在这项研究中,每小时 浓度数据来自多赛特站从2011年1月1日至12月31日,2020年收集的。多塞特郡站位于安大略市的纬度 和经度的 ,加拿大。研究区域的位置,研究了车站的位置和分布 污染在加拿大提供了数据1(一)1 (b),分别。研究了车站的更多信息和统计数据提出了表的描述2。此外,图2显示多塞特环境空气监测站。

2.2。数据清理

污染物等数据 通常使用多个设备或传感器测量。尽管如此,传感器易受硬件电源故障等问题,维护,和不稳定的网络设备,因此导致丢失的措施,生产零值,负值,null值,或其他超出正常范围。因此,模型预测的准确性直接影响含缺陷如果数据作为输入。

在这项研究中,缺失数据的百分比 明显低(1.78%)。为了弥补缺失值,相邻的线性插值和分段三次样条插值方法用于这项研究之前的预测。然而,分段三次样条插值方法提供不切实际的和消极的价值观,使其不可靠了补偿空气污染数据值。此外,这项研究的结果是一致的与其他研究的不可靠性分段三次样条插值的方法补偿缺失的值(64年]。因此,线性插值替换丢失的更有效 值。此外,这种方法选择,因为缺失值的范围很小,因此很容易从数据恢复小时的条件。方法采用公式可以描述如下: 在哪里 时间序列的目标, 是时间序列时间, 是预测 缺失值的项 此外, 之前对应之前的正常数据缺失点的范围。

2.3。极端的学习机器

被认为是一个新的健壮和简单学习算法设计的黄等。65年一个隐藏层前馈神经网络 与梯度算法 学习速度明显更快的同时,提供更好的泛化,因为它没有复杂的局部最小值,学习速率,和时代,这被认为是一个相当大的缺点其它模型。此外, 模型是用户友好,易于理解,提供最低培训错误很少有标准重量(66年,67年]。的 网络由输入、隐藏层和输出层。在输入层,数据的提供 网络。在三层,隐藏层被认为是最基本的一层自 进行计算,以及作为桥梁的输入和输出层 结果被组织。鉴于 样本的训练数据集的数学表达式 的输出函数 隐藏节点和激活函数 显示如下:

输入重量 和偏见 随机分配隐藏节点,而输出权重 计算分析。上面的方程可以压缩形式如下: 在哪里Z是输出矩阵, 在哪里 是指矩阵的转置。图3显示的主要结构

2.4。组的数据处理方法

Ivakhnenko首次提出这一组的数据处理方法 方法作为多项式神经网络来捕获复杂的非线性系统中输入和输出之间的关系(68年]。因为有先验知识模型的数学模型,是不可想象的 神经网络 是用来克服这个问题27]。因此,在 复杂系统的仿真模型,可以无需进行任何以前的专业知识。的主要概念 模型是建立在前馈网络分析功能 ,这可以通过利用二次节点传递函数的系数通过回归方法。一个标准的 公式可以表示如下: 在哪里 是输出, 模型的输入。的 , 指多项式系数,可以通过训练数据集。每一层包含一组输入处理组件称为点点头,和每一层是利用新的输入的结果在接下来的层。为了优化权重,最小二乘法 采用收购的最小剩余实际和预测之间的值。图4显示的结构 模型。

2.5。梯度提高回归树

梯度提高回归树 结合的优势提高的方法和决策树解决分类和回归问题。的一般概念 组合(通过提高方法)的一系列决策树被称为弱学习者获得一个与多个决策树(强大的学习者),这反过来会增加模型的精度和性能。提高的方法包括添加额外的树木的序列在不改变模型参数已经被添加到最小化损失函数 的模型。换句话说,训练样本的权重按照最后修改迭代,和重量增加的观察很难预测,同时减少对那些处理好的。假设 是近似函数, 的预测,利用吗 添加剂的功能,整体树模型可以说明如下(69年,70年]: 在哪里 代表最终点头的意思和给定的权重 回归树,分别。 代表了基函数的加法扩张。使用远期 方法的参数 进行了优化。估计函数可以通过(7后) 迭代次数和最优 获得使用(8)。 在哪里 损失函数, 代表的数量的观察, 代表一个给定的预测集 的观察, 表示为一个给定的响应变量 观察。图5显示的结构 模型。

2.6。模型开发绩效评估

三种人工智能模型,即极端学习机(ELM)组神经网络的数据处理方法(GMDHNN)和梯度增强回归树 ,用来预测是每小时的浓度吗 在多塞特郡站位于加拿大。培训前的人工智能模型,它是至关重要的替代丢失的数据集,并确定适当的input-lagged向量。值得注意的是,丢失的记录使用两种方法所取代,如本研究的前一节所示。此外,自相关函数(ACF)和偏自相关函数(PACF)。自相关和偏自相关函数是线性时间序列分析的基本工具。的 测量值之间的相关性和系列的当前值在不同的时间点。更具体地说,它表明类似的观察正在考虑他们的时间滞后。的 测量值之间的相关性在不同的时间点和系列的当前值部分消除中间值的影响。根据图6可以使用,三个输入组合。可能的输入组可以如下所示,可以用来预测提前一个小时

ACF的观点的基础上,可以使用许多可能的变量作为输入,可以发现,然而,这些变量都显著相关。因此,PACF被用来选择最重要的输入。

在选择输入组,至关重要的是确定可能的培训/测试比率。数据集的长度大大影响人工智能模型的性能。本研究采用九种不同比率(见图7)将数据分为训练和测试数据集应用模型的性能进行评估。值得一提的是,应用模型的hyperparameters选择采用试错法,因为没有直接的方法来计算这些关键参数,对估计精度有相当大的影响。图8显示了本研究中使用的主要过程。图的框图8(一个)显示了七个基本步骤相关的研究方法,而更多的细节在图给出了模型的发展8 (b)

2.7。绩效评估

提出了模型的性能进行评估 预测,采用不同的统计矩阵如下所示(71年- - - - - -73年]:(我)平均绝对误差(MAE) (2)均方根误差(RMSE) (3)相关系数( ) (iv)Willmot指数(WI) (v)Nash-Sutcliffe效率(研究) 在哪里 测量和预测的平均值吗 值,分别; 代表的测量和预测价值 n总数量的观察;和 是测量值的平均偏差。

3所示。结果与讨论

本节讨论的性能提出了模型预测的每小时的浓度 在很长一段时间里(从01/01/2011 31/12/2020)。此外,三个输入组合和9个数据长度场景被用来训练和验证模型(GMDHNN,榆树和GBR)。模型通过训练阶段的性能表3。根据训练阶段的结果,最低的榆树提供了最有效的预测预报错误( 0.9710 - 1.1099; 1.6088到1.8329)。然而,一般GBR是不满意的性能与其他模型相比,提供更高的错误( 3.7064 - 7.5851; 4.8536到9.7894)。第三个模型(GMDHNN)产生一个令人满意的预测能力( 0.9898 - 1.1187; 比GBR模型1.6495到1.8372),但其性能仍低于榆树模型经过训练阶段。(即统计参数。,RMSE and MAE) prove that the ELM has an outstanding capability, providing excellent estimates despite the considerable change in the input variables and length of the training dataset. On the other hand, the GBR model shows poor performance and an inability to deal with the extensive dataset. A further remarkable observation that can be deduced from the reported results is that the performances of the machine learning model (ELM and GMDHNN) got reduced when the training dataset was at 50% of the total observations. For the case of 50% of data being used for the training, both models illustrate the difficulty of estimating the 使用一个输入参数。后评估预测错误,有必要分析估计的观察 是与相应的值。在这方面,许多性能指标执行,即威尔默特指数(WI),相关系数(R)和Nash-Sutcliffe效率(研究),如表3所示。总的来说,结果表明,榆树模型可以提供更高的准确估计,在所有情况下比其他模型。换句话说,榆树的观测值和预测值之间的相似度的方法是有前途的。的 , , 所有情况下标准范围从0.906到0.9171,0.9489,0.9553,和0.942到0.938。同样,GMDHNN模型产生一个好的预测但略低于榆树模型。另一方面,GBR模型无法模拟的波动 浓度随着时间的推移,提供贫困估计 从0.6228到0.8109不等 从0.798到0.547不等。

ELM方法提供了优秀的性能通过培训阶段,有必要使用测试数据来验证此模型。几项研究强调类似的模型可以更有效地评估通过测试阶段(28,74年]。原因是模型在培训阶段将训练的输入点和相应的值。相反,应用模型只接收输入向量在测试阶段。表4显示了性能评估拟议的模型通过测试阶段,它可以看出榆树模型优于其他提出的模型。换句话说, 提供了估计,明显类似于实际的(R≈0.9001到0.9297;WI≈0.9461到0.9573; ≈0.9371到0.9281)较低的预测误差预测错误(RMSE≈1.4049到1.5327;美≈0.9001到0.9207)相比GBR和GMDHNN模型。结果还表明,GMDHNN最好的第二个模型,但其效率在处理数据波动 不是准确的榆树模型。然而,GBR捕获的动力学模型所面临的问题 在时间。

3.1。数据长度的影响预测模型的性能

这部分的研究显示了输入变量和测试数据集的长度影响应用模型的预测能力 一般来说,人工智能模型需要足够的记录和足够的输入向量提供更准确的估计。在这方面,本研究提供45不同场景的输入参数和数据集的长度,如表所示4。结果通过测试阶段被认为是分析模型的性能。结果表明,榆树更为灵活和滞后输入数据大小变化比其他模型根据统计参数等 此外,榆树测试数据时只需要两个输入向量大小范围从50%到25%,很好地适应日益变化的数据长度。此外,结果表明,如果低于25%,降低测试数据模型需要更多的输入向量。测试数据的长度(即降低。,20.%, 15%, and 10%), the training data employed in the model increases, and thus, the training algorithm requires more inputs to complete the training and calibration processes efficiently and elaborately. Accordingly, the proposed model has high flexibility in the changes concerning the length of data and the number of the used inputs. According to the reviewed results obtained from the ELM model, it can be said that this model can provide more accurate results when the testing data size ranges from 40% to 45% of the entire dataset.

其他类似的模型,如GBR模型,没有一个合理的或可推论的模式在处理情况有一个训练数据的百分比变化和输入的数量。相反,最后模型(GMDHNN)倾向于有一个模式,可以通过统计推断通过评估其性能系数。这个模型的需求,在大多数情况下,最大可能的输入,因此它不显示任何灵活性大大小小的变化发生在使用的数据量。

为进一步评估,95%的不确定性标准( )是一个非常有效的工具来选择最有效的和可靠的模型(28]。考虑RMSE和SD(标准差的计算错误)的数学表达式 如下(75年]:

对于不同的分裂和输入滞后的测试数据集,人物9使用显示提出的评价模型 结果表明,榆树提供的最小值 与其他模型相比。此外,图9从统计参数与研究结果相一致,这表明,榆树模型的有效性和准确性达到最大时,训练数据代表总数的40%到45%的数据。然而,GBR已录得的最高价值的不确定性( )其次是GMDHNN模型。

有必要检查可靠性分析(RA)的类似的模型。这种类型的分析是非常有效的评估模型的一致性和性能。这部小说的统计度量提供了基本信息,可用于确定是否建议模型达到允许的最低要求的精度水平。因此,类风湿性关节炎是非常有用的决定和提名最佳空气质量预测模型。下面的公式显示了计算RA的数学表达式(76年]:

在(16),n点的总数吗2.5样品,年代相当于每个样本和其价值的因素是1或0。此外,年代主要取决于比例相对误差(RE),这是数学推导在以下方程。

根据价值 ,如果 落在允许的范围内, 给出1;否则,它给出了0。允许的范围

基于一种称为RA的专业技术,本研究评估了应用模型的预测精度。表5显示这些指标对于每个模型的结果在整个训练和测试阶段。在这项工作中,我们选择两个数据部门的组合。第一组合涉及到60%的数据用于训练和40%用于测试;在第二组合,然而,55%的数据作为训练数据,记录和其他用于验证(测试)。根据所得结果,榆树通常有性能优越其他模型,实现最高的RA值训练和测试阶段。例如,榆树在第一个组合获得更高的RA值为77.34%,其次是GBRT 76.21%,最后,GMDHNN产生最低的RA的58.123%。因此,榆树和GBR模型显示一个令人满意的性能比GMDHNN模型在训练阶段。关于测试阶段,结果证实,榆树为评估点是最好的模型2.5,RA值最高为75.78%,其次是GBR(71.19%)和GMDHNN (55.16%)。RA的结果证明了榆树是每小时点估计的更有效2.5比其他模型。此外,模型的评估RA的帮助下还透露,训练数据记录时的最佳组合是60%的数据集。

提出的模型也评估图形使用箱线图,小提琴图,和泰勒图(见图10- - - - - -12)。根据图10榆树的总体性能给出更精确的估计 比其他模型。此外,中位数和四分位范围( )错误的减少超过GMDHNN和GBR模型。

11代表了小提琴图集成箱线图和密度图来说明数据分布形状。这个数字为更多的可视化比较使用测试数据集创建最好的输入组合(培训和测试60% 40%)。根据小提琴图, 模型可以有效地模拟实际数据分布和提供更多的实际和预测记录之间的协议。虽然 模型结果与实际数据分布相似,它产生负影响模型的性能。另一方面, 模型在模拟实际数据分布和执行不佳产生负值。图12代表泰勒图,创建一个极坐标图基于相关系数、标准差、均方根误差来评估模型的性能。根据图12, 模型可以模拟 更接近实际的比另一个模型。

总的来说,这一研究获得的结果证明榆树模型更可靠的估计每小时 以及更灵活的数据的变化特点和训练数据的长度。

13提供有价值的洞察实际提出的实现方法。特别是,数据等 ,以及温度、湿度、空气污染和空气压力,从站。接下来,处理数据在云服务器使用机器学习的方法。最后,预测结果可以通过软件访问实时应用程序接口。一个完整的实现示例如图14,这显示了城市空气质量管理 应用程序从西门子77年]。 全世界是一个基于ai的应用程序可以使用多个平台,结合最新的空气污染测量,如 , , ,最新的人工智能方法,以预测的浓度 未来几天。的 应用程序可以预测未来污染三天90%的准确性和80%提前了五天。

4所示。结论

三种人工智能模型,即榆树,GMDHNN GBR,被用来预测每小时 浓度在多塞特郡,位于加拿大。案例研究涵盖了从2001年到2020年。每小时空气污染物通过人工智能模型的准确估计需要一个适当的输入数据的特性和模型训练足够的数据记录。在这项研究中,通过使用三个输入组合偏自相关函数( ,和9个数据长度场景是用于验证模型选择最好的模型,该模型可以有效地适应变化。本研究的发现可以说明如下:(我)榆树模型通常在下午估计性能更好2.5比同类模型产生更少的错误( 0.9710 - 1.099; 1.6088到1.8329)。(2)榆树模型在处理更改的灵活性训练数据的大小和不同的训练条件显著显著。结果表明,榆树模型要求更少的输入向量,当测试数据大小范围从50%到25%的整个数据观测。然而,该模型需要额外的输入特性在不同的情况下,主要是当训练数据代表了80%到90%。(3)所有使用的模型除了榆树不提供一个理性模式符合培训过程中所发生的变化。(iv)这项研究的结果发现,最佳的训练数据,可以提供更准确的估计,获得代表60%的记录。

本研究建议(我)应用提出的方法找到最优训练和测试比率等一系列污染臭氧、二氧化氮、二氧化硫、一氧化碳(2)使用特征选择方法而不是PACF ACF选择最好的输入(3)调查使用深度学习模型(即。LSTM)预测点2.5浓度

缩写

XGBoost: 极端的梯度增加
RPE: 相对预测误差
支持向量机: 支持向量机
安: 人工神经网络
R: 相关系数
: 确定系数
均方误差: 均方误差
梅: 平均绝对误差
RMSE: 均方根误差
IA: 指数的协议
日军: 平均绝对误差百分比
RMSPE: 预测均方根误差
迈普: 平均预测误差
EEMD-GRNN:
简称ANFIS:
高:
GTWR:
LR:
GRNN:
RBF: 径向基函数
SVR: 支持向量回归
聚合酶链反应: 主成分回归
华宇电脑:
NELRM:
射频: 随机森林。

数据可用性

数据可按照客户要求定制相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

作者感谢Al-Maarif大学资助这项研究。