文摘
臭氧是一种污染物与大多数负面影响在一般意义上的对人类健康和生物圈。许多的网络数据收集的数据在城市和背景地区臭氧值。通常,这些数据不完整或腐败和缺失值的归责是一个优先级,以获得完整的数据集,解决现有问题的不确定性和模糊性来管理复杂性。摘要多元回归技术和人工神经网络模型应用于近似缺席臭氧值从五个解释变量包含空气质量信息。比较不同的归责方法,真实的数据从六个数据采集站地区的卡斯蒂利亚y莱昂(西班牙)以不同的方式收集,然后分析。获得的结果的估计缺失值通过应用这些技术和模型进行了比较,分析了可能的原因给予回应。
1。介绍和相关工作
臭氧(O3)是一种无嗅、无色和高活性气体由三个氧原子组成的。它形成的地球高层大气(平流层臭氧)和在地面上(对流层臭氧)。它可以是“好”或“坏”对人们的健康和环境,根据其大气中的浓度水平和位置(1]。
平流层O3形成自然通过太阳紫外线(UV)辐射的相互作用与分子氧(O2)。地面或“坏”臭氧不直接排放到空气中。在1950年代,碳氢化合物和氮氧化物(NOx)被确定为两个关键的光化学烟雾的化学前体及其伴随的高浓度的O3和其他光化学氧化剂(2]。大部分地面O3光化学氧化形成的挥发性有机化合物(挥发性有机化合物的仪器)的存在和其他没有x。挥发性有机化合物的仪器的重要来源是化工厂,汽油泵,油性油漆,写得商店,和打印店。没有x结果主要来自高温燃烧,其最重要的来源是电厂、工业炉和锅炉,机动车辆(3]。
1.1。臭氧的重要性
O3博览会以不同的方式可以造成损害。在同温层,减少O3水平的结果3层消耗意味着更少的保护来自太阳的射线和更多的暴露于紫外线B (UVB)(短波)射线辐射在地球表面4]。对人类健康的影响的3层损耗分析得多,增加的UVB到达地球的表面。UVB导致nonmelanoma皮肤癌,恶性黑色素瘤的发展中起着重要作用。此外,UVB与某些白内障的发展,负面影响患者的哮喘,和其他慢性呼吸道疾病。对地面O3,及其对人类健康的影响,呼吸O3可以引发各种健康问题。哮喘患者和其他慢性呼吸道疾病是一个庞大且不断增长的人口,也被认为是特别容易受到的影响3曝光。在天高水平的O3哮喘患者倾向于经验增加呼吸道症状(3]。层啊3损耗也负面影响植物的发展的过程中,对海洋生态系统的影响就像直接减少浮游植物生产、负面影响生物聚合物等材料,等等。对流层O3不提供它所满足的保护作用在同温层,反应活性高。较强的氧化能力,当水平超过自然背景,可以造成不利影响材料(源自其腐蚀性的影响),在植被和生态系统。
目前的工作重点是对流层O3,这是一个危险的空气质量(3]。考虑到增加O3在对流层,目前被认为是最重要的大气污染物之一。
1.2。臭氧水平监测
世界各地有许多数据采集网络测量的O3水平和其他污染物,包括许多站在不同的位置,不同的传感器测量相应的大小。这些网络站点获取数据的周期间隔时间(时间10 - 15分钟是最频繁的)但经常出现丢失或损坏的数据。在欧洲,数据视为损坏不是会议委员会决定97/101 / EC的1月27日,19975),建立一个互惠的信息交换和数据从网络和个人站测量空气污染中的成员国。其中一些网络提供信息数据的有效性,表明通过代码如果数据是正确的,它不可能获得,或是腐败,但在其他场合不提供这类信息,而数据仍下落不明。一些此类故障的原因已经查明(6),即受损电缆、适当的电气接地的损失,别霜或雪丘,通讯失败,等等。其中一些原因是暂时的,会自动消失,但是其他的需要维护任务力量的介入,因此错误持续时间不同。缺乏有效数据也可能是由于原因如下面:不当的样本,信噪比低,测量误差,nonresponse或删除异常值(7]。这是一个问题的分析测量信息来自网络,和这些缺失数据的归责8)是必要的。任何变量获得的网络电台可能遭受的缺失数据的问题。如果许多数据变量遗漏或损坏在相同的记录,整个样本必须撤回,当一些模型应用9),为后续任务,如控制、分类、预测。另外,如果数据为同一污染物失踪几个相邻的行,删除该变量也可能是另一种解决方案。总之,拥有完整的一套数据需要执行一个可靠的研究和应用一些模型不能处理缺失数据。
1.3。缺失值和相关工作
缺失数据的标准分类现象(10包括不同的情况:(我)失踪的完全随机(MCAR),当一个实例(case)的概率变量的缺失值不依赖于已知值或缺失的数据。(2)随机缺失(MAR),当一个实例有一个缺失值的概率为变量可能取决于已知值但不丢失数据本身的价值。(3)不是随机缺失(NMAR),当一个实例有一个缺失值的概率为变量可能取决于该变量的值。
正如先前的作者指出的那样,这些模式之间的复杂性不同缺失的数据(11]。通常,在空气质量数据的情况下,缺失值与3月或MCAR相关联。可能会干扰的情况下采集的数据很多,不容易预测(12]。
解决缺失数据问题,各种各样的不同的方法已经被应用到目前为止(8,10,13]。这些归责方法(IMs)通常分类如下:(我)单一的归责(SI):方法填补了一个值为每一个(12]。(2)多个归责(MI):同时生成多个模拟值(14]。
的一元及多元归责方法不同的缺失值变量的近似下研究计算的同一变量的值(一元)或使用其他的变量的值(多元)[12]。
其目的是减少其他MI应用方法的复杂性(11),本文侧重于单一和多元归责为O3级在空气污染数据集。为此,多重回归(线性和非线性)技术与人工神经网络(ANN)应用于从公共空气质量网络获得的真实数据集。
到目前为止,不同的人工智能(AI)技术已经申请了缺失数据的归责。在[7比较]归责方法基于六种不同的技术:K最近的邻居(资讯),模糊K——(FKM)、奇异值分解、贝叶斯主成分分析(bPCA)和多个罪名链方程。这些方法应用于四个不同大小的数据集分成两组:小数据集(虹膜和大肠杆菌乳腺癌)和大型数据集(1和2)。bPCA和FKM似乎是最健壮的归责方法测试条件。
在[15]不同的归责方法评估的准确性:MissForest (MF)和多个归责的基础上采用(MIEM),连同其他两个归责方法:顺序Hot-Deck和多个归罪基于逻辑回归(MILR)。模型应用在十四二进制数据集,缺失数据的利率在5%和50%之间。10倍交叉验证(CV)的结果表明,归责方法的性能变化显著不同的分类器,在不同的利率之间的缺失值。
尽管许多归责方法提出了到目前为止,我们关注得太少验证安这样的任务,利用回归的能力(16]。在这些以往的研究中,安已经申请了值的估计(17),主要目标是发现学习障碍(LD)儿童在早期阶段。在[18),作者提出了SI方法依赖于一个多层感知器(MLP)的培训与不同的学习规则进行,和一个MI方法基于中长期规划的结合和资讯。24真实和模拟数据集来自UCI库,库,承诺和mldata.org受到扰动实验随机产生的单调缺失的数据模式。
在[19)提出了六种不同类型的安IM:延时及其变化(时滞前馈网络(TLFN)),广义径向基函数网络(GRBF),递归神经网络(RNN)及其变化(时间延迟复发性神经网络(TDRNN))。此外,Counterpropagation模糊神经网络(CFNN)以及不同的优化方法适用于填入缺失每日总降水和极端温度系列从15个气象站。中长期规划标准和TLFN似乎缺少降水提供最精确的重建和日常极端温度记录的结果R观察和重建日常系列之间的相关系数接近于1。
在[20.)一种新型的非参数算法命名为广义回归神经网络集成多个归责(diseases)。此外,如果这种方法的版本(GESI)提出。算法是98合成和真实数据集上测试过。所有仿真结果表明diseases与传统算法相比的优点。diseases沉重的记忆存储需求但优于其他SI算法。
在[21]15真实和模拟数据集暴露在一个扰动实验,基于随机产生的缺失值。几个体系结构和学习算法中的延时测试并与三个经典的归责过程:意思是/归责模式,回归,hot-deck [22]。
在[23)方法基于高斯混合模型(GMM)和极端学习机(ELM)是开发和测试在一些数据集来自UCI机器学习库和LIACC回归库。使用GMM模型的数据分布适应处理缺失值,而榆树使设计多个归罪战略最终评估。GMM的组合和榆树显示优越在几乎所有的测试用例方法基于条件意味着非难。
在[24)如果方法依靠延时和MI方法基于延时和K提出了神经网络。将模型应用于18真实和模拟数据集等领域如生物、医学、化学、电子、社会调查、普查和业务。为数据集只有定量变量MIMLP模型提供了最好的结果,IMLP是最好的方法,数据集分类变量。
在[25]填补缺失值的两阶段混合模型提出了使用模糊c均值聚类和延时。它应用于葡萄酒数据集生成缺失值的1%到5%,模型的准确性检查使用平均绝对百分误差(日军)。第二阶段(MLP回归的日军获得获得的数据集的结果应用模糊c在阶段1)则是4.95%,1%缺失值记录为8.36%,5%缺失值的记录。
在空气质量数据的情况下,提出了一些归责方法。在[13),一组重要的SI: Listwise,无条件的意思是,修改值,主要基于组件,采用(EM) (Regularized-EM)和MI方法应用于三个数据集最重要的污染物变量(不,不2,没有x阿,,3、PM10和PM2.5)和缺失数据的百分比在3.85%和23.52%的根据。缺失数据的八个变量估算为了评估方法应用的有效性。一般来说,MI往往会产生更多的分散值比其同行,主要变量有很多空洞和他们关联其他变量如不善公司43.5%的缺失的数据,2006年他们关联差其他变量。
在[11]归责的一些方法缺少空气质量数据比较:在SI(线性、花键和最近邻篡改),MI(回归归罪,多元最近邻,自组织映射(SOM)和多层反向传播(MLBP)网)和混合上述的方法。数据集使用最常见的污染物:没有x,没有2阿,3,可吸入颗粒物,所以2,CO的浓度,都在一个每小时的时间尺度(每小时平均),连同四个气象参数。提出了单变量缺失的数据插值的性能是有限的,通常他们能够连续缺失数据的填补只有很短的空白。的一般性能应用归责方法是公正的好当你考虑污染物(没有x,没有2阿,3,可吸入颗粒物,所以2、CO)最重要的空气质量模型,但不太好有关气象变量。结果表明,SOM和MLBP空气质量数据的方法选择非难甚至更好的结果可以通过使用MI。
1.4。主要贡献
这项工作的主要贡献如下:(我)深入研究现实生活中的人类健康保护任务在西班牙卡斯蒂利亚y莱昂的地区。(2)多传感器的啊3数据分析。(3)实验评价该方法基于多元回归技术和ANN模型。
作者所知,这是第一种方法的归责方法O3基于MLP和径向基函数网络。
本文的其余部分组织如下。部分2介绍了应用技术和模型。部分3细节的真实案例研究解决在当前的工作,而部分4描述了实验和结果。最后,部分5提出了主要的结论和未来的工作。
2。回归技术和ANN模型
为了填补缺失或损坏O的价值观3在高维数据集与空气质量信息,两个回归技术和两种ANN模型已应用于本研究。这组技术应用作为归责方法在这一节中描述。
2.1。回归技术
线性回归试图模型两个变量之间的关系,拟合线性方程来解释观察到的资料。一个变量被认为是一个解释变量,和其他被认为是一个因变量26]。
多重回归的通用27)是更多地了解几个独立或预测变量之间的关系和依赖性或标准变量。
2.1.1。多元线性回归
看不到多元线性回归(MLR)试图模型之间关系的两个或两个以上的解释变量和响应变量的拟合线性方程来解释观察到的资料(28]。每一个独立变量的值与因变量的值 。人口回归线解释变量 定义是
这条线描述了平均响应解释变量的变化。的观测值y不同的手段并认为有相同的标准偏差 。拟合值 估计的参数 的人口回归线。
由于观测值y不同的手段uy,多元回归模型包括一个术语变异。模型表示为数据=健康+残留,其中“适合”的术语表示表达式 。“剩余”术语代表观测值的偏差从他们的意思 ,正态分布的均值为0,方差吗 。模型偏差的符号 。
正式、多元线性回归模型n观察,是28]
2.1.2。多元非线性回归
多元非线性回归(MN-LR)是一种观测数据的回归分析模型由一个函数的非线性组合模型参数和依赖于一个或多个自变量(29日]。安装的数据逐次近似法。
参数可以采取一个指数的形式,三角、权力,或任何其他的非线性函数。确定非线性参数估计,通常使用一个迭代算法。 在哪里代表非线性参数估计计算,是依赖或标准变量,代表了错误条件。
2.2。人工神经网络
人工神经网络(ANN),也称为人工神经系统(ANS),联结主义系统,自适应网络和分布式和并行处理是自然神经系统的简化模型。下面的定义,在1989年由Hecht-Nielsen [30.安娜),正式的概念:
安是一个并行处理计算机系统分布,组成的一组基本处理单元配有小型本地内存和互联网络中通过与重量有关。每个处理单元都有一个或多个输入连接和一个输出连接链接到许多间接连接。所有处理与一个基本单元是一个地方,即只取决于价值观,把输入信号从单位的内部状态相同。
2.2.1。多层感知器(MLP)
系统的延时是由简单的相互连接的神经元或节点。节点连接的权值和输出信号的函数之和的输入节点修改简单非线性传输,或激活功能。神经元的架构包括多个层;输入层为通过网络的输入向量。术语“输入向量”和“输出向量”指的是输入和输出的延时,可以表示成单一向量(31日]。延时可能最后一个或多个隐藏层和输出层。延时是完全连接,每个节点连接到每个节点的下一个和上一层。
进行一个全面的比较,延时是培训用以下算法:(1)Levenberg-Marquardt反向传播(LM)(2)与动量梯度下降法和自适应学习速率反向传播股票指数型基金(简称eft) (32](3)批训练重量和偏见学习规则(TB)(4)按比例缩小的共轭梯度反向传播(SCG)(5)贝叶斯正则化反向传播(BR)。
2.2.2。径向基函数网络(RBFN)
在RBFN [33每个单元在这个网络的隐层有自己的重心,而且每个输入向量 计算之间的距离和它的重心。其输出单元计算的非线性这个距离的函数。
假设有r输入节点和米输出节点,整体响应函数不考虑非线性输出节点具有以下形式(34]: 在哪里 是在隐藏层单元的数量, 权重的向量连接吗th隐层单元的输出节点,x是一个输入向量,K径向对称核函数的隐层单元,z我和重心和平滑因子th内核节点,分别 一个函数被称为激活函数,它描述内核形状。
3所示。案例研究
在本研究中,数据从空气质量监测站卡斯蒂利亚y莱昂(共青团)进行了分析。共青团是一个西班牙的地区位于伊比利亚半岛的north-center。它由九省,是西班牙最广泛的地区的总表面94226平方公里和第六人口:2435797居民。国内生产总值(GDP)共青团代表国家GDP的5.3% (35]。气候在共青团的方法被称为大陆海洋,特点是寒冷的冬天和炎热的夏季短的春秋时期。
共青团地区提供了一个广泛的网络电台(36空气质量数据的采集。这些数据是公开的可用根据西班牙政府开放数据倡议[37]。
站在这个网络有一些有趣的特性:(1)站在类型进行分类:面向城市、背景、和植被保护(36]。(2)这些站收集的基本空气质量污染,其中是O3,这是本研究的目标污染物。每日平均数据38的污染物提供了每个位置。(3)这些数据提出了空或损坏数据的变量在某些行和在合理的比例估计。
在目前的研究中,污染物的数据记录在六个不同的电台从共青团网络进行了分析。每日平均数据从2000年至2008年被选中。对于一些时间在选定的时间窗口,数据不能用于所有的变量,因此,整个研究的例子是拒绝了。三个站位于城市的中心和标记为城市电视台;这些电台面向的保护人类健康。其他三个电台背景站,也面向的保护人类健康。这些站测量更多的污染物比其他类型的电台和是最重要的在空气质量方面,和他们中的很多人并不是收集站的植被的保护。这一事实对O的决心很重要3缺失值,如气体尤其对人类健康有害。
这三个城市电视台认为本研究如下:(1)阿维拉。“公交站”。地理坐标:40.65914−4.68237;海拔1150米(masl)。(2)阿兰达de杜罗河。“怡和de迭戈”站。地理坐标:41.67111−3.68388;801 masl。(3)莱昂。“Avda。圣伊格纳西奥·德洛约拉”。地理坐标:42.60388−5.58722;838 masl。
三个背景站如下:(1)布尔戈斯。“富恩特斯布兰卡“站。地理坐标:42.33611−3.63611;929 masl。(2)塞戈维亚。“Acueducto”站。地理坐标:40.95555−4.11055;951 masl。(3)麦地那del Campo(巴利亚多利德)。“公交站”。地理坐标:41.31638−4.90916;721 masl。
图1显示6的位置选择站在本文研究了。
污染物聚集在上述站在目前的研究和分析如下:(1)臭氧(O3),μg / m3、二次污染物。参见1。(2)一氧化碳(CO),毫克/米3,主要的污染物。这是一个的无色无味气体燃料的不完全燃烧形成的。当人们接触CO气体CO分子将取代体内的氧气,导致中毒(39]。(3)一氧化氮(NO),μg / m3,主要的污染物。没有是一种无色气体,与臭氧发生快速的氧化反应2,主要在大气层中39]。(4)二氧化氮(不2),μg / m3,主要的污染物。从健康保护的角度来看,二氧化氮为长时间运行和短时间接触限度[39]。(5)可吸入颗粒物(PM10),μg / m3,主要的污染物。这些粒子保持稳定在空中长时间没有倒在地上,风可以移动明显的距离。它是由ISO定义如下:“粒子通过size-selective入口截止10 50%的效率μ空气动力学直径。PM10中定义的“胸大会”对应于ISO 7708:1995,条款6“40]。(6)二氧化硫(所以2),μg / m3,主要的污染物。它是一种气体。它闻起来像烧焦的比赛。它的气味也是窒息。所以2是由火山和在各种工业过程。在食品工业,也用于保护葡萄酒从氧气和细菌39]。
主要的污染物是直接注射到大气中。通过化学和大气中二次污染物形成光化学反应的主要污染物(36]。
这六个变量的数据都是规范化研究。另一方面,他们所有的人都高度decorrelated。表1显示了相关矩阵的六个案例研究的污染物。
值得一提的是,O3是最独立的污染物,如与其他变量的相关系数接近于零。
总共有13526个样本,样本(日均)每天收集每年十二个月,2000年和2008年之间,在六站在这个研究分析。数据缺失或损坏出现在所有变量在某些行,研究省略。
表2显示数据缺失或损坏的比例在每个变量在整个数据集。
所有的样品与至少一个价值缺失或损坏从数据集中删除。
4所示。实验结果和讨论
本文的主要目标是填补缺失O3值在空气污染数据集。为此,综合比较几种归责方法如下所述。
4.1。实验设置
归责方法中描述的部分2应用于不同的数据集,所有的六个变量描述的部分3:(1)整个数据集(WD),包括13526个样本:这个数据集的结果部分所示4.2。(2)本赛季数据集(SD):样品在WD分成了四个子集根据一年中的四个季节:春天(3453个样本),夏季(3349个样本),秋天(3295个样本),和冬季(3429个样本)。这个数据集的结果部分所示4.3。(3)站数据集类型(TD):样品在WD分成两个子集根据车站的类型的数据从何而来;“城市”(6763个样本)或“背景”(6763个样本)。这个数据集的结果部分所示4.4。
三个数据集的统计和神经归责方法应用和性能计算n倍交叉验证(简历)。简历背后的主要思想是将数据,通常很多次,估算风险,错误,或者每一个算法的性能。部分的数据(训练样本)每个算法用于训练,剩下的一部分(验证样本)是用于验证算法(s)。然后,简历选择算法与最小的估计风险(41]。简历可以防止过度拟合,因为训练样本是独立的验证样本。的数量参数(数据分区)10本研究的实验。这意味着90%的数据用于训练和验证为10%。在神经模型的情况下,重复训练过程(分别为十倍褶皱)。在延时的情况下,训练也为每个训练算法(见部分重复2.2)。对所有实验平均值和标准偏差(STD)的均方误差(MSE) 10折叠介绍了表3- - - - - -11。均值和标准的执行时间(以秒为单位)也提出了表3- - - - - -11为10折叠。
延时和RBFN应用了不同的网络拓扑结构:组合10、20和30隐层神经元。此外,在延时的情况下,模型训练具有相同参数的组合10倍减少随机性的影响,得到更显著的结果。
4.2。整个数据集的结果
在本节中,结果在MSE和执行时间当应用高钙,MN-LR, RBFN,简要提出了WD。
在表中3和4,它可以观察到,MSE平均值的决心3三种应用方法非常相似(高钙、MN-LR RBFN)。RBFN的情况下,略低的均方误差值,是获得最低的10个隐层神经元。关于执行时间,MN-LR方法是最慢的,RBFN更快。运行时的高值的性病RBFN的情况下是由于它极大地不同的褶皱。
表中可以看到5、LM、SCG和BR训练算法目前MSE的最低价值指的是在所有情况下(10、30、50神经元)和表中所示的非常接近3和4。MSE的最低价值获得了LM算法和50个神经元。学习算法,达到最严重的股票指数型基金(MSE)简称eft的结果。SCG算法执行时间,达到最好的结果,而LM和BR是第二个最好的,而结核病最慢的5个算法。显然,训练算法时需要更多时间50神经元隐层中定义,结核病算法是有最大的效果。
4.3。本赛季的数据集的结果
在表中6- - - - - -8RBFN的结果应用高钙,MN-LR,延时和数据子集一年中的四个季节(春、夏、秋、冬季)。
在表中6和73方法呈现相似的价值观在MSE的意思是,和最低的MSE的意思是通过50个隐层神经元的RBFN的夏季。MSE意味着值高于WD的观察。今年赛季最低的MSE的意思是夏天的价值观。其中一个原因可能是很少有污染环境的变化在夏天的时间。这是由于小的变化在夏季天气状况以及较低的工业活动和交通在城市地区由于休假时间。此外,相关系数在20多个污染物分析(42)高测量的相关性在夏天而测量在所有天的总和。今年赛季最差的结果计算的MSE一直在秋季两个回归技术和RBFN的情况下,尽管三个赛季之间的差异(春、夏、秋季)并不重要。的执行时间,再次探测,MN-LR是最慢的方法,虽然RBFN是最快的一个,返回的四季非常相似的结果。
在表8,类似于表5训练算法,实现最好的结果的MSE意味着LM, SCG和BR。LM取得最好的MSE的价值意味着在10 12例表所示8,被BR超过最小值为冬春季节配置10个神经元。GDX记录最差的MSE值12例表所示8。同样,最好的MSE的意思是获得夏季,减少MSE意味着与RBFN注册的相比。今年赛季最差的结果的计算均方误差一直是春天,尽管这个术语的差异之间的春天,秋天,冬天是最小的。
执行时间而言,可以说,SCG算法是最快的一个(平均执行时间),与细微变化(STD)低。LM和BR根据运行时表现非常好非常相似的结果。最后,结核病算法中最慢的12例表所示8。该算法的执行时间很敏感的增加隐层神经元的数目。值得一提的是,最好的价值而言,执行时间获得了SCG夏季,相同的MSE的最佳值。
图2显示了结果的箱线图所示表8。每个盒子代表整个数据集的MSE平均值(四季),为一定数量的神经元和训练算法。
在图2它可以观察到,LM和SCG训练算法优于其他算法和结核病算法实现了最糟糕的结果。也值得一提,概括地说,增加隐层神经元的数量会导致增加MSE由于模型的泛化能力的损失(尤其是在股票指数型基金结核病和简称eft算法)。第25和第75百分位数之间的差异也在算法实现业绩不佳的情况下赛季的数据集,特别是对于结核病的训练算法。
4.4。结果从车站类型数据集
表9- - - - - -11结果显示四个技术应用到两个不同的子集,根据车站类型:城市或背景(见部分4.1为进一步的细节)。
高,根据部分4.2和4.3MN-LR,估计均方误差和RBF达到类似的结果,但在这个场合是高于部分4.2和4.3。反过来,城市电视台得到更好的均方误差比背景站;这表明污染程度比在不断在城市站的最远的中心。的执行时间,MN-LR又是最慢的方法。RBFN显示比回归方法更有效的反应。
延时,以类似方式相比其他数据集(部分4.2和4.3)训练算法,实现最低的均方误差平均值LM, SCG和BR。这些值获得的类似RBFN(表10),低于与回归技术在表相关联的值9。根据车站类型,一般来说,较低的均方误差值均获得“城市”,与“背景”相比。MSE价值最低的是获得“城市”站和50个神经元和LM算法。唯一的训练算法返回的MSE意味着更高的价值比为“背景”“城市”站车站股票指数型基金是简称eft。这对三个不同数量的神经元发生,虽然MSE的其他四个算法得到较低的值为“城市”站不同数量的隐层神经元。低价值的MSE使“城市”站更容易估计失踪的啊3值;这是由于更少的污染变化值全年预测变量的这种类型的电台。
执行时间而言,SCG算法是最快的一个6例表所示11其次是LM,没有很大的区别取决于隐层神经元的数量,只有快一点10神经元。最慢的火车算法再次结核6例,从这些结果与被暴露的结果表5和8。
4.5。讨论
这两个应用回归技术(高钙和MN-LR)获得类似的均方误差值在大多数情况下,意味着和性病。然而,MN-LR获得可怜的结果根据执行时间(表3,6,9),甚至比最慢的训练算法延时股票指数型基金(简称eft和结核病的表5,8,11)。
ANN模型(RBFN和MLP),隐层神经元的不同组合进行了比较。为了简便起见,只有结果10、30岁和50个神经元(表4,5,7,8,10,11)已被包含在本文中。在RBFN的情况下,最好的执行时间是实现,优于最快的中长期规划算法(SCG表5,8,11)。在延时的情况下,取得了不同的结果,这取决于训练算法应用,获得最好的结果(MSE)的学习通过LM和SCG算法。另外SCG算法是最快的一个。GDX的算法已被确认为最严重的错误,我们可以看到在表5,8,11。没有观察到显著改善缺失值的估算根据均方误差时增加了隐层神经元的数量。相反,训练算法的选择已被确定为一个关键因素在应用延时。RBFN的神经元数量的增加不会影响显著结果的准确性的MSE和执行时间(见表4,7,10)。延时达到一个更好的MSE如果训练算法是正确的价值选择。
考虑到不同的数据集,本赛季的最低MSE数据集是夏季获得应用和50个神经元,LM算法训练时没有其他三个季节之间的巨大差异。春天,秋天,冬天季节最好的MSE对应LM算法结合50神经元。的执行时间,最快的实验,应用RBF神经元10和30的夏季,SCG 50神经元在春季,秋季RBF神经元与50,冬季RBF神经元30。在车站类型数据集的情况下,“城市”,最好的结果的均方误差为“城市”电台和夏季都伴随着最低的执行时间。必须提到,取得了良好的效果,MSE, WD应用四种归责方法时。这一事实表明你没有大变化之间无论是今年天气季节之间还是站的分析类型(“城市”和“背景”)。
5。结论
在目前的工作,提出了几种不同的归责方法来处理丢失的O3值与空气质量多维真实数据集信息。要做到这一点,两个多元回归技术(线性和非线性)和两个ANN模型(RBFN和MLP)与不同的训练算法和不同数量的隐层神经元相比。作为一个验证方案,10倍交叉验证被应用到不同的数据集。归责任务进行了首先在完整的数据集,并在不同的数据集,在原始数据将根据两个标准:根据季节的不同,根据车站类型。
以下结论值得一提:(1)高钙MN-LR取得了非常相似的结果在MSE和执行时间。这些结果略有不如两个ANN模型获得的(RBFN和MLP)。MSE的最低价值获得了WD(应用MN-LR技术)和最高的SD(也应用MN-LR技术)。(2)RBFN的,轻微的差异时取得了不同隐层神经元的数量,在MSE和执行时间。最好的结果取得了WD(10隐层神经元)和SD的最差(50隐层神经元),作为高钙和MN-LR它的发生而笑。(3)在延时的情况下,最好的结果是实现当使用LM训练算法和50个隐层神经元的数目。与前面的情况(RBFN)最好的结果获得了SD WD和最糟糕的结果,用小差异的三个数据集的结果。这是最好的结果在整个实验。中长期规划的结果改善RBFN获得的,只有当应用LM算法训练。(4)的简历技术保证可靠性在处理大型数据集的结果。
未来的工作,额外的人工智能的应用模型的归责O3和其他污染物,提出了比较结果与本研究获得。
的利益冲突
作者宣称没有利益冲突有关的出版。