复杂性

在这一页上

文摘介绍材料和方法结果讨论结论数据可用性的利益冲突确认引用版权相关文章

特殊的问题

复杂性问题由先进的计算机仿真技术在智能城市2020人

把这个特殊的问题

研究文章|开放获取

体积2020年| 文章的ID9724367| https://doi.org/10.1155/2020/9724367

每小时的应用经验正交函数插值重建细颗粒物浓度数据在天津,中国

洪武周,^1、2 Haidong锅,^1、2 双李 ,³ 和Xianqing Lv ^1、2

学术编辑器: Zhihan Lv

收到了 2020年4月28日

修改后的 2020年8月18日

接受 2020年9月28日

发表 2020年10月28日

文摘

细颗粒物直径小于2.5μ米(PM2.5)浓度监测是密切相关的公共卫生、户外活动、环境保护等领域。然而,所提供的不完整的PM2.5观察记录地面监测站PM2.5浓度对PM2.5的研究构成挑战传播和演化模型。因此,PM2.5浓度数据归责已被广泛研究。基于经验正交函数(EOF),一个新的时空插值方法,EOF插值(EOFI)介绍了,然后,EOFI应用于重建的每小时的PM2.5浓度记录两个站在今年上半年。EOFI的主要步骤是首先原始观测站点的时空数据矩阵分解成相互正交的时空模式用EOF方法。其次,空间模式缺失数据的估计逆距离加权插值空间模式的观测站点。之后,缺失数据的记录站可以通过乘以估计重建空间模式和相应的时间模式。确定最优模式数字EOFI通过最小化之间的均方根误差(RMSE)重建的记录和相应的有效记录。最后,六个评价指标(平均绝对误差(MAE)、RMSE相关系数(Corr)偏差率偏差,Nash-Sutcliffe效率(研究),和索引的协议(IA))计算。结果表明,EOFI执行比其他三种插值方法,即反距离权重插值,薄板样条曲面样条插值。 The EOFI has the advantages of less computation, less parameter selection, and ease of implementation, it is an alternative method when the number of observation stations is rare, and the proportion of missing value at some stations is large. Moreover, it can also be applied to other spatiotemporal variables interpolation and imputation.

1。介绍

细颗粒物(PM2.5)颗粒物与空气动力学直径小于2.5μ在环境空气(1]。朦胧的天气将形成如果PM2.5浓度过高,对人体健康不利影响,交通,和户外活动2,它也会产生其他间接的无可估量的经济损失3]。因此,许多国家高度重视PM2.5浓度的监测和预报。建立了大量的地面监测站。例如,1500已经设立监测站在美国。在中国,大约在454个城市设立了1500个车站2018,和一个新的国家环境空气质量标准PM2.5在2012年引入[1,2]。一般来说,相信高PM2.5浓度已成为一个突出的挑战在中国空气污染控制,主要由工业引起的燃烧煤和汽油,交通排放,和长途运输(4,5]。中国的北方平原地区,特别是京津冀地区(图1(一)),是影响最为严重的地区之一朦胧的天气(4,6]。监测空气污染,许多城市环境站建在这个地区,许多研究人员最近分析了高PM2.5浓度的原因和行为(3,7]。

(一)

(b)

图1

(一)京津冀地区的地图。矩形的研究区域是在天津(b)。(b)的位置在天津14个监测站。从1到14日,测试他们位于城市中心,南口路,勤俭路,南京路,Dazhigu 8号路,前进路,北辰科技园区、天山公路、跃进路,第四大街,永明路,联络路,Hanbei路,Tuanbowa。星星代表了缺失数据电台(站1和8),黑点代表车站用于插值(站2、3、4、5、6和9),圆圈代表车站离缺失数据电台(站7,10、11、12、13、14)。

有很多研究PM2.5浓度数据分析方法,如监测的实时数据空间插值点,加权回归模型和混合模型(1,8]。上述方法的应用主要取决于当地监测站提供的完整和连续监测数据。然而,问题是当原始时空PM2.5浓度数据不完整,这阻碍了进一步的分析和建模,如aerosol-related阴霾控制和环境健康风险评估9,10]。

在实践中,缺失值和数据差距始终存在于原始时空观测记录由于各种因素。例如,卫星遥感可能会影响到云,雨,气溶胶,或不完整的追踪覆盖率在大气研究[11,12];原位观察从陆基电台、船载监控、离岸槟榔,和其他平台可能遭受意外的因素,如仪器故障,电源故障,网络故障(10,13]。直接忽略不完整的时空观测数据应该仔细考虑。的原因包括一些平台的数据采集是昂贵的和不可替代的(例如,海洋研究船和浮标站),数据质量的苛刻要求(例如,沿海潮汐表记录),并忽略缺失值有时可能导致偏见的空间格局和无效的推论10,13]。因此,许多时间、空间和时空数据插值和归责方法提出了填补这些空白记录。

简单方法通常用于填补在单变量时间序列包括平均值替换(或中值和模式价值),多项式插值(线性、分段多项式和样条插入),最后观察结转(locf),但他们可能导致大偏差时差距太大(14- - - - - -17]。基于马尔可夫链的过程,统计参数的模型包括自回归(AR)模型、滑动平均(MA)模型、ARMA模型和线性加权或指数加权马。复杂的机器学习技术包括梯度增加和人工神经网络(ann),这是计算密集型(10,18]。

目前,也有无数的空间插值方法。常见的简单方法包括逆距离加权插值(IDW) (19)、全局多项式插值(GPI),局部多项式插值(LPI) [20.],曲面样条插值(SS) [21],克雷斯曼插值[22)和径向基函数(RBF)。使用不同的基函数,RBF包括薄板样条(TPS),薄板样条与紧张,正规化的花键,multiquadric花键,逆multiquadric花键。TPS方法不需要设置参数,而其他RBF需要设置参数(23]。一些statistical-based方法(例如,克里格插值,最优插值(OI)和卡尔曼滤波器)是传统和古典方法在地球科学12,13,24- - - - - -27]。

提出了很多方法来处理时空数据含有缺失值,其中相当一部分是基于经验正交函数(EOF)(例如,(28- - - - - -31日])。与其他方法相比,EOF-based方法易于实现的优点和更少的计算成本32,33]。

EOF的理论是基于矩阵特征值分解,EOF的核心步骤是将时空矩阵分解成space-dependent空间模式的金额乘以相应的时间时间模式。这些EOF时空模式可以揭示数据固有的特性或某些现象(例如,ENSO) [13,28]。EOF通常用于时空数据分析,但它也可以用来填补丢失的数据空白。

最早的应用EOF插值重建全球范围内的海面温度(SST) [28]。基于网格的数据(1982 - 1993)处理OI, EOF分解得到执行空间模式,然后,时间模式扩展到再时期(1950 - 1992)通过最小二乘法数据覆盖相对较差;接下来,长时间时空SST数据重建。他们的工作可以被视为另一种形式的最优插值(13,34]。2003年,数据插值经验正交函数(DINEOF),提出了一种迭代EOF插值方法,填补丢失的数据差异(30.]。基于EOF的原则,DINEOF被成功用于重建丢失的数据及数据差距。Alvera-Azcarate et al。32]亚得里亚海表面温度的重建丢失的数据。Sirjacobs et al。35]DINEOF用来显示完整的时空信息的重建表面叶绿素——四年的东西一个(背影),总悬浮物,SST在北海和英吉利海峡南部。然而,DINEOF可能会失败如果数据差距太大。

类似于DINEOF的原则,EOF插值(EOFI)提出了重建空间连续的哥伦比亚河的水位沿着河河口利用有限的验潮仪(36]。其主要步骤如下:首先,河的时空数据矩阵现有观测站与EOF分解方法。然后,锅和Lv采用一维线性插值和一维样条插值估计丢失的数据的空间模式,分别为;然后,EOFI重建获得的序列估计空间模式乘以相应的时间模式,这重建序列是在良好的协议与NS_TIDE方法。NS_TIDE是专门设计和应用的分析潮汐水位,和河流流量数据流需要(37]。

基于研究锅和Lv (36),本研究试图延长缺失数据站EOFI空间模式从一维空间内插到二维空间插值。河上游和下游网站几乎是一维分布的,而且有很强的相关性之间的上游和下游水位记录(例如,当河流的上游上升,下游的水位普遍上涨)。因此,它是合理的应用一维插值建立观测站之间的空间模式的连接和丢失的数据。与河流水位重建相比,PM2.5站的相关性并不是如此强大和直观,因为PM2.5浓度空间分布。之间建立一个连接变量二维分布在空间中,一个简单的想法是使用IDW,所以这里EOFI使用IDW估计缺失数据的空间模式。当然,其他空间插值的方法也可以应用于空间模式的建立关系,但我们不会讨论它们。我们认为简单的案例(IDW)来验证EOFI的可用性。我们所知,我们提议EOFI目前尚未应用于PM2.5浓度数据重建;因此,我们首先介绍和使用这种方法来填充数据差距与IDW插值和比较结果,表面样条(SS)和TPS插值。这里我们选择竞争方法都广泛使用和容易实现38]。

而广泛使用DINEOF——和其他EOF-based方法的新颖方法是处理稀疏分布的情况下观察站和一个大比例的一些站点中的遗漏值的记录。在这种情况下,车站的数据缺失值太多不适合EOF分解(DINEOF填补这些差距首次猜测值,然后使用这些数据EOF分解);否则,时间和空间模式的准确性会受到影响。EOFI这里只使用了一小部分的观测数据缺失值分解;因此,EOF分解时间和空间模式更准确和影响较小。然后,应用空间插值建立空间模式的观测台站和缺失的数据之间的联系站,接下来,重建序列与最优模式数量是由均方根误差(RMSE)。EOFI重建序列可以作为一个合理的首次猜测值缺失数据的其他方法进一步EOF分解(如DINEOF)。通过这种方式,空间模式模式被认为是在某种程度上。进一步对比DINEOF和EOFI将在讨论解释道。

本文安排如下:部分2。1描述了研究区和数据。然后,我们重温EOF分解的原则,介绍IDW, EOFI, TPS,党卫军。这些方法的评价指标也将部分中提到2。四种方法(IDW EOFI、TPS和SS)应用于重建两站的PM2.5浓度的记录,然后,结果与相应的有效观测部分3。EOFI逆距离加权的力量P,网站数量和数据时间长度的影响EOFI重建,并比较DINEOF和EOFI节将讨论和分析4。最后,我们目前的优缺点EOFI节5。

2。材料和方法

2.1。研究区域与数据

有14个监测站(图1 (b))位于天津。这些站点分布在不同地区的城市:一些电台位于市区(例如,站1、2和3),而其他站靠近渤海(例如,电台10、11和13)。这些监测站提供的PM2.5浓度数据来自中国国家环境监测中心(CNEMC)。附近CNEMC版本在线实时PM2.5浓度数据,但没有直接数据下载接口(10]。白等人利用网络爬虫技术获得许多城市PM2.5浓度数据从2014年到2019年。在这里,我们的数据来源和采集方法是相同的。在这项研究中,一些电台提供了每小时PM2.5 2015年全年数据,除了第一个25小时从1月1日0:00点到1月2日0:00点。因此,总时间长度是8735小时(2015年8760小时)。前25小时缺失值的原因可能是网络爬虫技术失败,或CNEMC没有公布数据的时期。图2显示了原始观测记录的几个站用于这项研究。其中,上半年PM2.5浓度数据的站(sta) 1和站(sta) 8重建并与相应的有效的记录(图2(1 - 7))。没有观测数据从6月30日23:00点到今年年底(近六个月)在sta 1和sta 8。此外,白等。10提到一些监测站在中国已经停止释放PM2.5观察自2015年年中以来,因此,观察这些电台下半年的2015人失踪。这是准确的在sta 1和sta 8在天津。在sta 1中,在上半年10.70%的数据丢失,和缺失数据的百分比几乎一整年是55.86%(图记录2(1))。在sta 8,上半年缺失数据的比例,几乎全年都是9.59%和55.31%,分别为(图2(7))。它表明仍有近400人失踪的价值观在今年上半年sta 1和sta 8。

2.2。方法

2.2.1。EOF分解

EOF方法于1902年首先提出的统计学家皮尔森,和气象学家洛伦兹首先介绍了EOF方法在1956年气象和气候研究[39]。我们认为有N站提供的观察记录和数据长度l,组成N×l时空矩阵X。列x_我由N在时间点记录我(我= 1,2,…,L)。EOF的最重要的一步是解决对称矩阵的特征值和特征向量XX^T;这包括特征值分解的结果λ_k及其对应的特征向量F_k(正交空间模式)13]:

列F_k的矩阵F从左到右排列在相应的特征值的降序排列吗λ_k(k= 1,…,N),对角矩阵的元素D=诊断接头(λ₁,λ₂、…λ_N)也安排在这个秩序,因此,方程(1)可以写成:

的N×N矩阵F被称为空间模式系数矩阵,这也是正交(例如,FF^T=F^TF=我系数矩阵),相应的时间模式一个或主成分(PC)。的N×l矩阵一个计算由以下方程:

列向量x_我,N在时间点记录我,重建

在这里,一个_我的列一个在时间我,显然,X=足总。的kth矩阵的行一个被称为颞kth模式,的元素我th列时间系数我。相应地,列F_k被称为空间kth模式,的元素jth排F(例如,F(j)表示的系数的空间模式jth站。因此,矩阵元素F_jk是kth空间模式jth站。时态模式是时间,而空间模式space-dependent [13]。此外,不同的空间模式和不同的时间模式,分别正交(例如,FF^T=F^TF=我和AA^T=D)。最后,特征值λ_j的jth模式可以用来计算的累计方差贡献率k模式的总方差:

越接近G(k)接近100%,第一的更多信息k模式反映了原始信号的(36]。在时空数据分析中,我们常常只关心第一k模式与大方差贡献和视他们为主导模式。然而,许多EOF-based插值方法不仅考虑的主导模式,和不太重要的模式也应该被考虑。最优数量的重建模式是由重建之间的均方根误差序列和相应的有效观测记录(40]。

2.2.2。IDW和EOFI

IDW公式给出如下: 在哪里d_j表示之间的距离jth站和目标站,P是逆距离电源参数,W_j是相应的规范化的重量,X(j)表示序列的观测记录jth站(即。,jth排X),和分别代表IDW估值和估计重建序列。IDW是基于Tobler地理学第一定律:“一切一切有关,但附近比遥远的相关事情”(41]。这种方法的特点是产生“牛眼”在附近地区的观察点观察点是罕见的和分布的稀疏20.]。IDW的共同价值观P是1和2(也称为逆平方距离权重),所以我们只讨论这两个参数的影响IDW和EOFI在以后的实验。

在这项研究中,EOFI方法步骤如下:丢失的数据站与观测站点共享相同的时间模式,但空间模式IDW插值估计的空间模式的观察站(F(j),j= 1,…,N):

在这里,W_jIDW中提到的重量是一样的(方程(6))。然后,1×N行向量和相应的时间模式一个重建估计价值在时间我和估计重建序列使用第一个k模式:

使用第一个k模式意味着只有第一k列和第一k行一个被认为是。最后,最优模式EOFI重建数量取决于之间的最小化RMSE重建序列( )和相应的有效观测序列X视频:

空间模式被认为是space-dependent和能反映空间特征的假设下EOF分解。在这项研究中,估计空间模式测站的距离密切相关。如果丢失数据站和测站近空间,他们的空间模式也接近彼此(更大的重量,方程(6));因此,EOFI重建序列也密切的观察序列,这是符合我们的经验。

重建之前,原始数据矩阵X可能含有缺失值并不能直接EOF分解。因此,有必要对原始数据进行预处理,得到的数据矩阵没有失踪前测量值分解。在这里,我们第一次取代缺失的值与观测值的空间平均缺失值的时间点,然后应用线性插值填补所有的时间间隔(即。、空间平均值替换和时间线性插值)。注意,时间差距不能太大,以避免插值的影响占主导地位的时空模式的准确性(36]。在这项研究中,数据用于EOF分解包括预处理站记录2,3,4,5,6,9(近一年)。原始记录的时间差距是短暂的(图2(8)2 - 6),所以我们认为,主导模式略有影响,仍然可靠。第一个半年的记录sta 1和sta 8都是排除在EOF分解。

2.2.3。薄板样条方法和曲面样条

TPS的方法是基于表面拟合的空间插值方法,它是一个最频繁的空间插值方法相比(38由Duchon[],它第一次被提出42]。它常被用来处理不均匀在地球科学数据,如从离散生成连续光滑的表面高程和稀疏采样点的高程数据。通过模拟板料的弯曲,TPS的方法生成一个光滑的表面用最小弯曲能量通过所有观测点。其形式如下:

其中,d²日志(d)术语和基本功能一个+bx+cy是当地趋势函数。丢失的数据的水平坐标(x,y)和它的距离我th (我= 1,…,NTPS所需)观测站。为了确定N+ 3未知参数T_我(我= 1,…,N),一个,b,c(方程(12)有以下关系: 与N观测点的水平坐标(x_我,y_我,我= 1,…,N),相互之间的距离(d_霁,我,j= 1,…,N),观测值(Z_我,我= 1,…,N),表面光滑(N线性方程和+ 3N+ 3生成未知参数),缺失数据的价值站也被认为是在这个表面,然后,TPS估计的值通过方程计算(12)。Bookstein[描述的TPS矩阵形式完全43],未知参数的系数矩阵只与空间相关的属性(坐标和距离),而不是属性。

曲面样条(SS)方法也是一种很好的基于表面拟合的空间插值方法。它生成光滑的表面通过离散点。然而,学生的基本功能与TPS方法不同。它不考虑趋势项,拟合函数不同,半径R介绍了。郭et al。44]使用党卫军方法插入所选独立点的底摩擦系数来获得值为整个渤海并结合伴随同化方法反演底摩擦系数对整个海洋。党卫军的方法也可以用于反演的初始条件和海洋污染物传输模型中参数估计21),这是一个显著的改善克雷斯曼插值。其形式如下:

类似于TPS,N观察点的空间属性和观察值序列z生成一个光滑的表面,然后,未知参数列向量年代解决了矩阵形式:

在这里,参数矩阵的元素D只有相关的观察点之间的距离吗d_ij(我,j= 1,…,N)和规定的半径R。半径R将因为任意两个站点之间的距离是15公里半径之内。在解决未知序列年代,党卫军估计价值缺失数据的站与方程计算(14)和(15)。注意的价值年代随半径变化R,但选择R在适当的范围内不会产生巨大的影响最终的插值结果。

2.3。评价指标

最后一节2.2。2原始数据的预处理已经提到。我们强调,预处理数据用于每个插值方法是相同的。因此,不同的插值方法的评价是有说服力的和可靠的。表1总结他们的参数设置。我们将列出一系列的量化指标来评估这些插值方法(38]。评价指标列入本研究包括平均绝对误差(MAE)、均方根误差(RMSE),相关系数(Corr)和偏差率偏差,Nash-Sutcliffe效率(研究)45),和索引的协议(IA)(或威尔默特的D) (46]。

其中,美(方程(17))和RMSE(方程(18)通常作为插值或模型的性能指标38]。越小,插值效果就越好。相关系数(方程(19))和偏见(方程(20.)测量模拟值序列之间的相关性和偏差年代和观察系列O,和分别是他们的平均值。更高程度的相关性和较小的偏差都显示插值效果越好。分析了无(方程(21)是一种常见的指数用于衡量性能或插值效果在气象,水文和环境模型。它的值范围从负无穷到1。越接近1,仿真结果更接近观测;接近0,结果更接近观测平均值,但过程误差大,而消极的研究表明,意思是观测值的性能甚至比模拟值和表明这种模拟不可接受的。IA(方程(22)被称为潜在的错误。IA是一个无量纲和指数有界值接近1表明更好的协议。上面的六个指标定义如下:

节3所示。2我们计算上述六项评价指标,反映这些模拟的准确性,和指标EOFI第一k模式(k= 1,…,N)也计算。EOFI结果与最优模式数量将与其他三种插值方法相比。

2.4。选址

追求更好的插值性能,我们只选择最近的五站的数据插值;sta 1的归责和sta 8数据是基于数据的站2,3,4,5,6,站的数据2,4,5,6,9(图1 (b)),分别,而不包括其他站的数据。近一年的记录sta 1和sta 8重建,分别通过插值数据的五个最近的站有四个插值方法,然后,重建的序列与相应的有效观测数据在今年上半年(图2)计算评价指标。节4.2为进一步验证,实现在不同时期多组实验,以及四种插值方法之间的RMSE重建序列和相应的有效观测记录进一步比较。

3所示。结果

3.1。四种方法的插值结果

观测站与目标之间的距离站和相应的归一化权重表2。sta 4是最短的距离,sta 1中的重量是最大的群体,而sta 5是最短的距离,sta 8中的重量是最大的群体。IDW的增加和EOFI功率参数P(从1到2),最近的站的归一化权重(sta 4和sta 5)增加,而其他站的权重降低。因此,估计空间模式sta 1和sta 8计算方程(9)更受sta 4和sta 5,分别。

时态模式或主成分(pc)的sta 1和sta(图83(表)和相应的空间模式2)通过EOF分解。可以看出方差贡献率的PC1 sta 1和sta 8既超过98%,和空间1模式都是0.44左右。大多数其他电脑模式改变0(图3(a2-a5和b2-b5))和相应的空间模式的绝对值也小于第一模式。因此,从第二个电脑第五个人电脑,这些模式发挥更重要作用在重建数据比第一个模式,但后来指数显示,忽略这些重要模式可能导致少EOFI重建的完美性能。此外,图3(a1和b1)说明PC1振幅的冬季(11月、12月、1月和2月)明显大于那些在夏季(4月、5月、6月、7月)。冬天表明PM2.5浓度在华北平原明显高于夏季(47]。

数据4和5描述四个插值重建序列及其残差sta 1和8,分别。两个电源参数P(1或2)采用IDW sta 1和sta 8和EOFI重建,但指数显示,选择P= 1 IDW和EOFI sta 1中更准确,PIDW = 2, EOFI sta 8更准确。最优模式在sta EOF重建两三个数量1和sta 8。在结果评价和讨论的部分,我们试图解释原因。可以看出,四种方法可以大致重现有效记录在sta 1和sta 8。在sta 1(图4),四种插值方法的残差变化接近0,但是有几个错误,从观测值有很大的不同。例如,他们都显示错误的超过100人μg / m³在2月20日和3月中旬。无论仪器故障和其他因素,大的错误在这些时间可能表明PM2.5浓度变化很大在同一城市的不同区域中,它只依赖于相邻的数据并不准确,但是在这种情况下。在图5sta 8,情况是相似的,但剩余序列的波动幅度明显大于sta 1,和大残差也更频繁地发生。sta 8中的四种方法的性能通常是比sta的1。

3.2。结果评价

在本节中,我们评估四种插值方法有量化指标。图6显示了4插值方法的比较美,RMSE Corr,图7显示的偏差,分析了无和IA。因为许多指标TPS的方法与其他方法有很大不同,为了看清楚他们之间的分歧,TPS的指示值直接标记在每个子图。可以看出,sta 1和sta 8的EOFI插值性能随数量的模式,许多指数表明,最优模式EOFI数量三个(例如,图6(a1和b1)), EOFI有时的性能比其他插值方法当它不是最优模式的数字。我们安排所有六个指数表现最佳的EOFI降序和其他三种插值方法的性能。sta 1可以看出,所有6表明EOFI的性能指标(P= 1)是最好的(红色线)(1-EOFI > 1-IDW > SS > TPS),虽然在sta 8中,所有6指标表明EOFI (P= 2)是最好的(绿线)(2-EOFI > 2-IDW > SS > TPS)。许多指数的IDW性能是相似的;sta 1喜欢P= 1,sta 8喜欢P= 2。此外,该指数的表现sta 8普遍比,sta 1。节4.1,我们试图解释为什么在两个网站不同的参数选择。

4所示。讨论

4.1。IDW权力P选择和对EOFI网站数量的影响

EOFI的这项研究中,我们没有考虑sta 1的数据和sta 8 EOF分解。这两个站的空间模式计算了其他5站IDW的空间模式,当然,他们的空间模式估计也可以通过其他方法,如锅和Lv (36分别使用线性和样条插值,计算河流水位测量的空间模式点。接下来,我们试图解释为什么不同P值选择在两个站点中提到的部分3并讨论数据的数量的影响网站EOFI重建。

首先,sta 8的指标性能显然是劣质的sta 1。有四个相同的电台(站2、4、5、6)数据选择sta 1和sta 8。但是缺失值的数量在sta 9 sta 8 sta的归责大于3 sta 1(今年上半年失踪的sta 9图2达到13%),所以原始数据的完整性可能占的糟糕结果sta 8。此外,对于sta 8,当P从1增加到2,EOFI空间模式和重建序列将更加依赖于空间模式(表吗2)和观察记录最近的车站(sta 5),分别。sta 9的数据的负面影响降低,这可能是一个解释sta 8的偏爱P= 2。

此外,在以前的实验中,数据的sta 1和sta 8重建数据的其他5相邻站,其中4台(站2、4、5、6)都是用于重建sta 1和sta 8。为了进一步探索影响剩余的插值结果,进行另一个实验的数据sta 3不用于sta 1重建和sta 9的数据并不是用于sta 8。4网站和5网站EOFI重建结果如表所示3。

可以看出,sta 1和sta 8日EOFI重建与5网站比只有4网站。此外,包含数据从沿海电视台如sta 10(图1 (b)1,远离sta和sta 8)在EOFI不如插值数据只有五个最近的站点。是很重要的确定适当数量的站EOFI根据功能和原始数据的质量。我们可以看到使用更少的网站的性能数据或添加肋EOFI网站数据,这两个比,只有五个最近的站点的数据。

4.2。进一步验证和数据时间长度EOFI结果的影响

在前面的实验中,选择EOFI PM2.5的数据几乎一整年从五个相邻站数据进行EOF分解和获得了几乎一整年的个人电脑和相应的空间模式。在本部分中,许多实验用不同长度的记录实现进一步评估和比较四种插值方法。只有有效的观测记录以来2015年上半年sta 1和sta 8,重建序列的四种插值方法必须与有效的观察在同一时期。除以日历月,我们将记录在今年上半年6月部分(Jan, 1;2月2;3月,3;4月,4;5月,5;6月,6)实验组E1和五两个部分(1 - 2、2 - 3、3 - 4、4 - 5和5 - 6)实验组E2。四个三个部分(1 - 3、2 - 4、3 - 5、4 - 6)实验组E3的实现。 Similarly, E4, E5, and E6 represent the experimental groups with a duration of 4, 5, and 6 months, respectively. There are 21 experiments in total. Since the temporal mode of EOF decomposition is related to the continuity of record, experimental groups with continuous months are set to reduce the inaccuracy of the temporal and spatial modes of EOF decomposition. February in winter and June in summer represents different seasons, and the feature of PM2.5 concentration is significantly related to the seasons. For example, in winter, more fossil fuels may be consumed for heating; therefore, the PM2.5 concentration is significantly higher than other seasons.

图8描述了主要结果EOFI重建sta 1和sta 8序列。可以看出,虽然空间2日,3日,4日和5日模式在不同时期不同,空间第一模式总是稳定在0.44左右,和相应的方差贡献也占95%以上(c1和c2),这是与以前的结果一致。sta的RMSE EOFI重建范围1 = 10到16μg / m³(b1),而sta 8是22-36的范围μg / m³(b2)。范围也与以前的结果一致,这表明EOFI稳定的方法。此外,实验的最优模式4号(即。,using first 4 modes to reconstruct) for sta 1 and sta 8 are both largest, respectively, but there are still other optimal mode numbers. The optimal mode number can be determined by finding the smallest RMSE [40]。

表4比较的性能(RMSE)四种插值方法重建序列。21个实验中,有19个sta实验1和13 sta实验8显示的RMSE EOFI重建是最小的,分别。还有另一个7组在sta 8显示学生表现最好RMSE而言,这些群体主要包括冬季1月,2月和3月。我们推断这是由于大PM2.5浓度差冬天在不同的网站,和时空模式的准确性不如其他季节。

4.3。对比EOFI DINEOF

有很多EOF-based插值方法(例如,DCCEOF (10),EOFI (36],和VE-DINEOF [40])。使用最广泛的方法之一是迭代EOF方法,DINEOF [30.]。因此,有必要比较DINEOF和EOFI在这项研究中。

首先,两种方法都是基于矩阵特征值分解理论,他们都认为短的原始时空观测记录缺失值的间隔不会影响明显占主导地位的时空模式。此外,第一个猜值缺失值,使矩阵分解。通过计算RMSE和其他指标,最优模式的时间和空间模式数量将用于最终的重建。

然而,DINEOF和EOFI最显著的区别是使用的原始数据矩阵分解。EOFI sta 1的数据和sta 8(今年下半年数据丢失)不包括在分解矩阵,但在DINEOF, sta 1和sta 8的数据纳入EOF分解;首先,缺失值替换第一个猜测值然后进行矩阵分解和迭代替换,直至收敛。然而,这个步骤可能不适合少数站的数据处理,因为这些失踪的第一个猜测值站可能大大影响时间和空间模式的准确性。即使最终的收敛时间和空间模式是通过迭代,计算资源消耗可能是巨大的。Alvera-Azcarate et al。32]提到,数据点与失踪的百分比超过95%之前删除数据分解,因为他们不能提供有效的信息。数据点的数量参与分解是巨大的;因此,这些则点“删除对最终结果影响不大。DINEOF已广泛用于重建膨胀密集采样和众多观测卫星图像遥感获得的,而在其他平台上(例如,PM2.5陆基电台在这项研究和海上浮标站数组),观察比较少见和稀疏采样,时间和空间的迭代模式EOF方法可能是不准确的,当有一个大比例的缺失值的一些站点观测数据矩阵。

因此,对于有限的观测记录,如果我们想充分利用站的数据缺失值,大部分EOFI可能更适合这种插值。EOFI的优越性是获得更合理的空间和时间模式排除大的记录丢失百分比站之前EOF分解。所有站点共享相同的时间时间模式,而space-dependent空间模式缺失数据的空间插值估计(IDW用于这项研究)和空间模式特征和模式。此外,EOFI可以提供更合理的第一个猜测值这些缺失的数据,和明年,DINEOF用于迭代计算,直到收敛。其他差异,如DINEOF迭代分解,EOFI还可以使用迭代分解在这项研究中;DINEOF随机选择交叉验证点观测数据的一部分,这里EOFI使用第一个半年有效的观察记录和每月的记录sta 1和sta 8检查站,两者都可以在这些方面是统一的。

5。结论

本文介绍了二维EOFI并应用于重建spatial-distributed PM2.5数据作为扩展维EOFI河流水位重建。EOFI的主要步骤是计算缺失数据的估计空间模式IDW插值空间模式的观测站点然后乘以和相应的时序模式获取EOFI重建序列,和最优模式的EOFI重建是由RMSE最小化。与其它三种插值方法相比(IDW、TPS和SS),定量指标表明,EOFI可以改善插值的效果。结论如下。

TPS和党卫军有固定的函数形式,及其系数矩阵是space-dependent。EOFI的优势是时空矩阵分解为时间时间模式和space-dependent空间模式下EOF的假设。观测台站和缺失数据共享相同的时间模式,而缺失数据的空间模式站估计IDW观察站的空间模式。IDW的好处是,当错过站和测站之间的距离非常近,空间模式估计IDW非常接近的观测站;因此,EOFI重建序列缺失的站也接近观测站的数据,这是符合我们的认知。本质上,IDW相邻点的权重是由统计估计观察点之间的协方差。TPS和SS权重并不取决于插值场的统计特性。EOFI可以减少美和RMSE与其他三种方法相比,和其他指标显示,EOFI也是更好的性能。这表明EOFI可以改善插值效果最优模式。一些实验小组的结果与不同长度数据显示,EOF分解的主要空间模式几乎不改变的时间长度,这是符合EOF假设的空间模式是独立的时间。 At the same time, the RMSE of EOFI reconstruction with optimal mode number still shows the advantages over the other three methods.

该方法适用于插值时观测是罕见的和稀疏分布,还有大百分比的缺失值一些电台的原始记录。EOFI重建丢失的数据序列站可以合理的首次猜测值进一步DINEOF(或其他迭代EOF-based方法)的步骤。

EOFI具有更少的计算,更少的参数选择,并易于实现,可以扩展到其他二维空间分布的缺失的数据差距物理变量。EOFI是缺失值的限制的时间和空间差距不能太大;否则,它将会影响空间和时间模式的准确性。与此同时,原始数据的质量有一个对重建结果的影响。高质量和完整的观测数据可以产生更精确的空间和时间模式,这有利于EOFI重建。

数据可用性

的数据(每小时PM2.5浓度数据8站在天津站位置)用于支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

作者要感谢杨教授高提供PM2.5浓度数据。这项工作得到了国家自然科学基金(批准号41876003)和中国国家重点研究和发展计划(批准号2017 yfa0604101和2016 yfc1401404)。

引用

翟,d . j .雅各王x et al .,“细颗粒物(PM2.5)在中国的趋势,2013 - 2018:分离来自人为排放和气象,“大气化学和物理,19卷,第11041 - 11031页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
s . Gautam a . k .智利和p . Kumar“地位和中国环境PM2.5污染的化学特性:复习一下,”环境、发展和可持续性,1-26,2018页。
视图: 出版商的网站 | 谷歌学术搜索
j . h, s . Wang,和l .张”建模的影响政策措施对居民的年代PM2.5减少行为 :一个基于主体的仿真分析,“环境地球化学与健康,1卷,2019年。
视图: 出版商的网站 | 谷歌学术搜索
c . y . Li j . Wang Chen y . Chen和j·李,“估计PM2.5在京津冀地区使用modis气溶胶产品从2014年到2015年,“国际档案的摄影测量、遥感和空间信息科学41卷,第727 - 721页,2016年。
视图: 出版商的网站 | 谷歌学术搜索
刘x和合作者”,细颗粒物污染在中国北方:seasonal-spatial变化,源分配、部门和地区运输的贡献,”环境研究文章ID 109368卷,184年,2020年。
视图: 出版商的网站 | 谷歌学术搜索
j .冯j .全h .廖和赵x, y . Li”一个空气停滞指数资格极端霾事件在中国北方,”大气科学杂志》上卷,75年,第3505 - 3489页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
吴x, y, j .郭g . Wang和y锣,“空间浓度,影响因素和掌控的PM2.5污染措施在中国,“自然灾害卷,86年,第410 - 393页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
l, c f·杨,l·格瓦拉b . Wang和d .太阳,“时空演化和PM2.5的影响因素在中国2000年到2015年之间,“j . Geogr。Sci,,29卷,第270 - 253页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
p .阴和合作者,“更高的心血管疾病风险与小size-fractioned颗粒物有关,”环境科学与技术7卷,第101 - 95页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
j . k .白k . Li郭、杨y,不可开交。常,“填补空白的原位每小时PM2.5浓度数据与经验正交函数分析的援助受到昼夜周期,”大气测量技术13卷,第1226 - 1213页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
a . Alvera-Azcarate巴斯,d . Sirjacobs f . Lenartz和j·m·贝克尔的“数据插值经验正交函数(DINEOF):地球物理数据分析的工具,”地中海海洋科学第5 - 11,12卷,页2011。
视图: 出版商的网站 | 谷歌学术搜索
d . Kondrashov和m . Ghil”时空填充缺失点在地球物理数据集,“在地球物理非线性过程13卷,第159 - 151页,2006年。
视图: 出版商的网站 | 谷歌学术搜索
j . Elken m . Zujev j .她和p . Lagemaa”重建大规模海面温度和盐度领域使用次区域EOF模式从模型中,“地球科学前沿领域,7卷,页1 - 2019。
视图: 出版商的网站 | 谷歌学术搜索
l·冯·g·诺瓦克,t . j . o .尼尔和a·h·威尔士“截止 :时空归责方法,”《水文卷,519年,第3605 - 3591页,2014年。
视图: 出版商的网站 | 谷歌学术搜索
美国莫里茨和t . Bartz-Beielstein ImputeTS:时间序列缺失值R中的归责,“R日报9卷,第218 - 207页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
m·w·贝克n . Bokde g . Asencio-Cortes和k . Kulat”R包imputetestbench比较归咎为单变量时间序列方法,”R日报,10卷,第233 - 218页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
n . Bokde m·w·贝克·马丁内斯阿尔瓦雷斯,和k . Kulat”小说归责方法基于模式序列的时间序列预测,“模式识别的字母卷,116年,第96 - 88页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
m . Lepot j·b·奥宾和f·h·l·r·克莱门斯”在时间序列插值:前言的概述现有的方法,他们的性能标准和不确定性评估,”水(瑞士),9卷,2017年。
视图: 出版商的网站 | 谷歌学术搜索
g . y . Lu和d . w . Wong“适应性inverse-distance加权空间插值技术,”电脑与地球科学34卷,第1055 - 1044页,2008年。
视图: 出版商的网站 | 谷歌学术搜索
y, x, x, t·杨f·戴·d·杨,“空间插值方法的比较研究,以确定在黄海渔业资源密度,”Oceanologica学报,35卷,不。12日,第72 - 65页,2016年。
视图: 出版商的网站 | 谷歌学术搜索
x宗庆后,m .徐、徐j .和x Lv,“改善海洋污染物传输模型通过使用表面样条插值,”忒勒斯:动力气象学和海洋学卷。70年,1-13,2018页。
视图: 出版商的网站 | 谷歌学术搜索
g·p·克雷斯曼”,一个操作客观分析系统”,每月天气回顾卷,87年,第374 - 367页,1959年。
视图: 出版商的网站 | 谷歌学术搜索
陈s、c·f·n·考恩和p . m .格兰特,“正交最小二乘学习算法的径向基函数网络,”IEEE神经网络和学习系统,2卷,第309 - 302页,1991年。
视图: 出版商的网站 | 谷歌学术搜索
j·p·c·Kleijnen,”克里格元建模仿真 :审查。”欧洲运筹学杂志》上卷,192年,第716 - 707页,2009年。
视图: 出版商的网站 | 谷歌学术搜索
y . c .方t . j . Weingartner r·a·波特·r·温莎和h . Statscewich”质量评估的高频使用最优插值radar-derived表面电流,”大气和海洋技术杂志》上32卷,第296 - 282页,2015年。
视图: 出版商的网站 | 谷歌学术搜索
z h .刘黄r . g . y . m . Hu s . d .风扇和p h·冯”生成高时空分辨率赖基于MODIS / GF-1数据和Kriging-Cressman插值相结合,“国际农业与生物工程杂志》上9卷,第131 - 120页,2016年。
视图: 出版商的网站 | 谷歌学术搜索
g .汉堡,p . j . Van Leeuwen, g . Evensen合奏卡尔曼滤波分析方案,“每月天气回顾卷,126年,第1724 - 1719页,1998年。
视图: 出版商的网站 | 谷歌学术搜索
t·m·史密斯,r·w·雷诺兹r . e . Livezey d . c .斯托克斯,“重建历史海洋表面温度的使用经验正交函数,“杂志的气候9卷,第1420 - 1403页,1996年。
视图: 出版商的网站 | 谷歌学术搜索
刘贤金”,统计插值使用周期平稳eof。”杂志的气候,10卷,第2942 - 2931页,1997年。
视图: 出版商的网站 | 谷歌学术搜索
人类。贝克斯和m . Rixen EOF计算和数据填写不完整的海洋数据集,“大气和海洋技术杂志》上,20卷,第1856 - 1839页,2003年。
视图: 出版商的网站 | 谷歌学术搜索
c, n . Priyadarshi j .孔雀舞Kumar t . v . s .乌达Bhaskar d·拉贾和a·j·Kochuparampil”分析,如膨胀并且阿拉伯海的MODIS数据,使用DINEOF重建,”国际遥感杂志》上39卷,第7522 - 7506页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
a . Alvera-Azcarate a .巴斯m . Rixen和j·m·贝克尔的“重建完整的海洋数据集使用经验正交函数:应用亚得里亚海表面温度,“海洋模型9卷,第346 - 325页,2005年。
视图: 出版商的网站 | 谷歌学术搜索
y . c .梁m . r . Mazloff罗索,s . w .方和j . y . Yu”多元经验正交函数法构造硝酸地图在南大洋,”大气和海洋技术杂志》上,35卷,第1519 - 1505页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
w . x, z . Zhang h . Li Li h .燕和f·史,“应用一种新颖的混合方法时空数据归责:一个案例研究甘肃民勤地下水的水平,”《水文卷,553年,第397 - 384页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
d . Sirjacobs a . Alvera-Azcarate a .巴斯et al .,“云填充的海洋颜色和海洋表面温度遥感数据产品在北海南部的经验正交函数插值方法,”海洋研究期刊》的研究卷,65年,第130 - 114页,2011年。
视图: 出版商的网站 | 谷歌学术搜索
h·潘x Lv,“重建空间连续在哥伦比亚河河口水位:经验正交函数再现的方法,”河口、沿海和货架的科学卷,222年,第90 - 81页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
p .无光、d·a·杰伊和e·d·Zaron”改编的经典潮汐调和分析非平稳的潮汐,潮汐河与应用程序,”大气和海洋技术杂志》上,30卷,不。3、569 - 589年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
j·李和公元堆”的空间插值方法的比较研究环境科学 :性能和影响因素,”生态信息学》第六卷,第241 - 228页,2011年。
视图: 出版商的网站 | 谷歌学术搜索
e . n .洛伦兹经验正交函数和统计天气预报、麻省理工学院、剑桥,妈,美国,1956年。
b平、f·苏和y懵了,“一种改进DINEOF缺失值填充算法在时空海面温度数据,”《公共科学图书馆•综合》文章ID e0155928卷。11日,1 - 12,2016页。
视图: 出版商的网站 | 谷歌学术搜索
w·r·Tobler”电脑电影模拟底特律地区的城市发展,”《经济地理学,46卷,第240 - 234页,1970年。
视图: 出版商的网站 | 谷歌学术搜索
j . Duchon”样条函数最小化旋转不变semi-norms在索伯列夫空间”建设性的理论函数的几个变量施普林格,页85 - 100年,柏林,德国,1977年。
视图: 谷歌学术搜索
f . l . Bookstein”主要扭曲 :利用薄板样条函数和分解变形,“IEEE模式分析与机器智能11卷,第585 - 567页,1989年。
视图: 出版商的网站 | 谷歌学术搜索
郭z h·潘,w .风扇和x Lv,“曲面样条插值应用于反演底摩擦系数,”大气和海洋技术杂志》上34卷,第2028 - 2021页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
j·e·纳什和j . v .拍摄,”河流量预测概念模型。第1部分——讨论原则。”《水文,10卷,第290 - 282页,1970年。
视图: 出版商的网站 | 谷歌学术搜索
c·j·威尔默特,”模型的验证。”自然地理的进展,2卷,第194 - 184页,1981年。
视图: 出版商的网站 | 谷歌学术搜索
王x r·r·e·迪金森l . Su c .周和k . Wang”PM 2.5污染加剧了在中国和它如何地形和气象条件,”美国气象学会的公告卷,99年,第120 - 105页,2018年。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

589年

下载

743年

引用