文摘

细颗粒物直径小于2.5μ米(PM2.5)浓度监测是密切相关的公共卫生、户外活动、环境保护等领域。然而,所提供的不完整的PM2.5观察记录地面监测站PM2.5浓度对PM2.5的研究构成挑战传播和演化模型。因此,PM2.5浓度数据归责已被广泛研究。基于经验正交函数(EOF),一个新的时空插值方法,EOF插值(EOFI)介绍了,然后,EOFI应用于重建的每小时的PM2.5浓度记录两个站在今年上半年。EOFI的主要步骤是首先原始观测站点的时空数据矩阵分解成相互正交的时空模式用EOF方法。其次,空间模式缺失数据的估计逆距离加权插值空间模式的观测站点。之后,缺失数据的记录站可以通过乘以估计重建空间模式和相应的时间模式。确定最优模式数字EOFI通过最小化之间的均方根误差(RMSE)重建的记录和相应的有效记录。最后,六个评价指标(平均绝对误差(MAE)、RMSE相关系数(Corr)偏差率偏差,Nash-Sutcliffe效率(研究),和索引的协议(IA))计算。结果表明,EOFI执行比其他三种插值方法,即反距离权重插值,薄板样条曲面样条插值。 The EOFI has the advantages of less computation, less parameter selection, and ease of implementation, it is an alternative method when the number of observation stations is rare, and the proportion of missing value at some stations is large. Moreover, it can also be applied to other spatiotemporal variables interpolation and imputation.

1。介绍

细颗粒物(PM2.5)颗粒物与空气动力学直径小于2.5μ在环境空气(1]。朦胧的天气将形成如果PM2.5浓度过高,对人体健康不利影响,交通,和户外活动2,它也会产生其他间接的无可估量的经济损失3]。因此,许多国家高度重视PM2.5浓度的监测和预报。建立了大量的地面监测站。例如,1500已经设立监测站在美国。在中国,大约在454个城市设立了1500个车站2018,和一个新的国家环境空气质量标准PM2.5在2012年引入[1,2]。一般来说,相信高PM2.5浓度已成为一个突出的挑战在中国空气污染控制,主要由工业引起的燃烧煤和汽油,交通排放,和长途运输(4,5]。中国的北方平原地区,特别是京津冀地区(图1(一)),是影响最为严重的地区之一朦胧的天气(4,6]。监测空气污染,许多城市环境站建在这个地区,许多研究人员最近分析了高PM2.5浓度的原因和行为(3,7]。

有很多研究PM2.5浓度数据分析方法,如监测的实时数据空间插值点,加权回归模型和混合模型(1,8]。上述方法的应用主要取决于当地监测站提供的完整和连续监测数据。然而,问题是当原始时空PM2.5浓度数据不完整,这阻碍了进一步的分析和建模,如aerosol-related阴霾控制和环境健康风险评估9,10]。

在实践中,缺失值和数据差距始终存在于原始时空观测记录由于各种因素。例如,卫星遥感可能会影响到云,雨,气溶胶,或不完整的追踪覆盖率在大气研究[11,12];原位观察从陆基电台、船载监控、离岸槟榔,和其他平台可能遭受意外的因素,如仪器故障,电源故障,网络故障(10,13]。直接忽略不完整的时空观测数据应该仔细考虑。的原因包括一些平台的数据采集是昂贵的和不可替代的(例如,海洋研究船和浮标站),数据质量的苛刻要求(例如,沿海潮汐表记录),并忽略缺失值有时可能导致偏见的空间格局和无效的推论10,13]。因此,许多时间、空间和时空数据插值和归责方法提出了填补这些空白记录。

简单方法通常用于填补在单变量时间序列包括平均值替换(或中值和模式价值),多项式插值(线性、分段多项式和样条插入),最后观察结转(locf),但他们可能导致大偏差时差距太大(14- - - - - -17]。基于马尔可夫链的过程,统计参数的模型包括自回归(AR)模型、滑动平均(MA)模型、ARMA模型和线性加权或指数加权马。复杂的机器学习技术包括梯度增加和人工神经网络(ann),这是计算密集型(10,18]。

目前,也有无数的空间插值方法。常见的简单方法包括逆距离加权插值(IDW) (19)、全局多项式插值(GPI),局部多项式插值(LPI) [20.],曲面样条插值(SS) [21],克雷斯曼插值[22)和径向基函数(RBF)。使用不同的基函数,RBF包括薄板样条(TPS),薄板样条与紧张,正规化的花键,multiquadric花键,逆multiquadric花键。TPS方法不需要设置参数,而其他RBF需要设置参数(23]。一些statistical-based方法(例如,克里格插值,最优插值(OI)和卡尔曼滤波器)是传统和古典方法在地球科学12,13,24- - - - - -27]。

提出了很多方法来处理时空数据含有缺失值,其中相当一部分是基于经验正交函数(EOF)(例如,(28- - - - - -31日])。与其他方法相比,EOF-based方法易于实现的优点和更少的计算成本32,33]。

EOF的理论是基于矩阵特征值分解,EOF的核心步骤是将时空矩阵分解成space-dependent空间模式的金额乘以相应的时间时间模式。这些EOF时空模式可以揭示数据固有的特性或某些现象(例如,ENSO) [13,28]。EOF通常用于时空数据分析,但它也可以用来填补丢失的数据空白。

最早的应用EOF插值重建全球范围内的海面温度(SST) [28]。基于网格的数据(1982 - 1993)处理OI, EOF分解得到执行空间模式,然后,时间模式扩展到再时期(1950 - 1992)通过最小二乘法数据覆盖相对较差;接下来,长时间时空SST数据重建。他们的工作可以被视为另一种形式的最优插值(13,34]。2003年,数据插值经验正交函数(DINEOF),提出了一种迭代EOF插值方法,填补丢失的数据差异(30.]。基于EOF的原则,DINEOF被成功用于重建丢失的数据及数据差距。Alvera-Azcarate et al。32]亚得里亚海表面温度的重建丢失的数据。Sirjacobs et al。35]DINEOF用来显示完整的时空信息的重建表面叶绿素——四年的东西一个(背影),总悬浮物,SST在北海和英吉利海峡南部。然而,DINEOF可能会失败如果数据差距太大。

类似于DINEOF的原则,EOF插值(EOFI)提出了重建空间连续的哥伦比亚河的水位沿着河河口利用有限的验潮仪(36]。其主要步骤如下:首先,河的时空数据矩阵现有观测站与EOF分解方法。然后,锅和Lv采用一维线性插值和一维样条插值估计丢失的数据的空间模式,分别为;然后,EOFI重建获得的序列估计空间模式乘以相应的时间模式,这重建序列是在良好的协议与NS_TIDE方法。NS_TIDE是专门设计和应用的分析潮汐水位,和河流流量数据流需要(37]。

基于研究锅和Lv (36),本研究试图延长缺失数据站EOFI空间模式从一维空间内插到二维空间插值。河上游和下游网站几乎是一维分布的,而且有很强的相关性之间的上游和下游水位记录(例如,当河流的上游上升,下游的水位普遍上涨)。因此,它是合理的应用一维插值建立观测站之间的空间模式的连接和丢失的数据。与河流水位重建相比,PM2.5站的相关性并不是如此强大和直观,因为PM2.5浓度空间分布。之间建立一个连接变量二维分布在空间中,一个简单的想法是使用IDW,所以这里EOFI使用IDW估计缺失数据的空间模式。当然,其他空间插值的方法也可以应用于空间模式的建立关系,但我们不会讨论它们。我们认为简单的案例(IDW)来验证EOFI的可用性。我们所知,我们提议EOFI目前尚未应用于PM2.5浓度数据重建;因此,我们首先介绍和使用这种方法来填充数据差距与IDW插值和比较结果,表面样条(SS)和TPS插值。这里我们选择竞争方法都广泛使用和容易实现38]。

而广泛使用DINEOF——和其他EOF-based方法的新颖方法是处理稀疏分布的情况下观察站和一个大比例的一些站点中的遗漏值的记录。在这种情况下,车站的数据缺失值太多不适合EOF分解(DINEOF填补这些差距首次猜测值,然后使用这些数据EOF分解);否则,时间和空间模式的准确性会受到影响。EOFI这里只使用了一小部分的观测数据缺失值分解;因此,EOF分解时间和空间模式更准确和影响较小。然后,应用空间插值建立空间模式的观测台站和缺失的数据之间的联系站,接下来,重建序列与最优模式数量是由均方根误差(RMSE)。EOFI重建序列可以作为一个合理的首次猜测值缺失数据的其他方法进一步EOF分解(如DINEOF)。通过这种方式,空间模式模式被认为是在某种程度上。进一步对比DINEOF和EOFI将在讨论解释道。

本文安排如下:部分2。1描述了研究区和数据。然后,我们重温EOF分解的原则,介绍IDW, EOFI, TPS,党卫军。这些方法的评价指标也将部分中提到2。四种方法(IDW EOFI、TPS和SS)应用于重建两站的PM2.5浓度的记录,然后,结果与相应的有效观测部分3。EOFI逆距离加权的力量P,网站数量和数据时间长度的影响EOFI重建,并比较DINEOF和EOFI节将讨论和分析4。最后,我们目前的优缺点EOFI节5

2。材料和方法

2.1。研究区域与数据

有14个监测站(图1 (b))位于天津。这些站点分布在不同地区的城市:一些电台位于市区(例如,站1、2和3),而其他站靠近渤海(例如,电台10、11和13)。这些监测站提供的PM2.5浓度数据来自中国国家环境监测中心(CNEMC)。附近CNEMC版本在线实时PM2.5浓度数据,但没有直接数据下载接口(10]。白等人利用网络爬虫技术获得许多城市PM2.5浓度数据从2014年到2019年。在这里,我们的数据来源和采集方法是相同的。在这项研究中,一些电台提供了每小时PM2.5 2015年全年数据,除了第一个25小时从1月1日0:00点到1月2日0:00点。因此,总时间长度是8735小时(2015年8760小时)。前25小时缺失值的原因可能是网络爬虫技术失败,或CNEMC没有公布数据的时期。图2显示了原始观测记录的几个站用于这项研究。其中,上半年PM2.5浓度数据的站(sta) 1和站(sta) 8重建并与相应的有效的记录(图2(1 - 7))。没有观测数据从6月30日23:00点到今年年底(近六个月)在sta 1和sta 8。此外,白等。10提到一些监测站在中国已经停止释放PM2.5观察自2015年年中以来,因此,观察这些电台下半年的2015人失踪。这是准确的在sta 1和sta 8在天津。在sta 1中,在上半年10.70%的数据丢失,和缺失数据的百分比几乎一整年是55.86%(图记录2(1))。在sta 8,上半年缺失数据的比例,几乎全年都是9.59%和55.31%,分别为(图2(7))。它表明仍有近400人失踪的价值观在今年上半年sta 1和sta 8。

2.2。方法
2.2.1。EOF分解

EOF方法于1902年首先提出的统计学家皮尔森,和气象学家洛伦兹首先介绍了EOF方法在1956年气象和气候研究[39]。我们认为有N站提供的观察记录和数据长度l,组成N×l时空矩阵X。列xN在时间点记录(= 1,2,…,L)。EOF的最重要的一步是解决对称矩阵的特征值和特征向量XXT;这包括特征值分解的结果λk及其对应的特征向量Fk(正交空间模式)13]:

Fk的矩阵F从左到右排列在相应的特征值的降序排列吗λk(k= 1,…,N),对角矩阵的元素D=诊断接头(λ1,λ2、…λN)也安排在这个秩序,因此,方程(1)可以写成:

N×N矩阵F被称为空间模式系数矩阵,这也是正交(例如,FFT=FTF=系数矩阵),相应的时间模式一个或主成分(PC)。的N×l矩阵一个计算由以下方程:

列向量x,N在时间点记录,重建

在这里,一个的列一个在时间,显然,X=足总。的kth矩阵的行一个被称为颞kth模式,的元素th列时间系数。相应地,列Fk被称为空间kth模式,的元素jth排F(例如,F(j)表示的系数的空间模式jth站。因此,矩阵元素Fjkkth空间模式jth站。时态模式是时间,而空间模式space-dependent [13]。此外,不同的空间模式和不同的时间模式,分别正交(例如,FFT=FTF=AAT=D)。最后,特征值λjjth模式可以用来计算的累计方差贡献率k模式的总方差:

越接近G(k)接近100%,第一的更多信息k模式反映了原始信号的(36]。在时空数据分析中,我们常常只关心第一k模式与大方差贡献和视他们为主导模式。然而,许多EOF-based插值方法不仅考虑的主导模式,和不太重要的模式也应该被考虑。最优数量的重建模式是由重建之间的均方根误差序列和相应的有效观测记录(40]。

2.2.2。IDW和EOFI

IDW公式给出如下: 在哪里dj表示之间的距离jth站和目标站,P是逆距离电源参数,Wj是相应的规范化的重量,X(j)表示序列的观测记录jth站(即。,jth排X), 分别代表IDW估值和估计重建序列。IDW是基于Tobler地理学第一定律:“一切一切有关,但附近比遥远的相关事情”(41]。这种方法的特点是产生“牛眼”在附近地区的观察点观察点是罕见的和分布的稀疏20.]。IDW的共同价值观P是1和2(也称为逆平方距离权重),所以我们只讨论这两个参数的影响IDW和EOFI在以后的实验。

在这项研究中,EOFI方法步骤如下:丢失的数据站与观测站点共享相同的时间模式,但空间模式 IDW插值估计的空间模式的观察站(F(j),j= 1,…,N):

在这里,WjIDW中提到的重量是一样的(方程(6))。然后,1×N行向量 和相应的时间模式一个重建估计价值 在时间和估计重建序列 使用第一个k模式:

使用第一个k模式意味着只有第一k 和第一k一个被认为是。最后,最优模式EOFI重建数量取决于之间的最小化RMSE重建序列( )和相应的有效观测序列X视频:

空间模式被认为是space-dependent和能反映空间特征的假设下EOF分解。在这项研究中,估计空间模式 测站的距离密切相关。如果丢失数据站和测站近空间,他们的空间模式也接近彼此(更大的重量,方程(6));因此,EOFI重建序列也密切的观察序列,这是符合我们的经验。

重建之前,原始数据矩阵X可能含有缺失值并不能直接EOF分解。因此,有必要对原始数据进行预处理,得到的数据矩阵没有失踪前测量值分解。在这里,我们第一次取代缺失的值与观测值的空间平均缺失值的时间点,然后应用线性插值填补所有的时间间隔(即。、空间平均值替换和时间线性插值)。注意,时间差距不能太大,以避免插值的影响占主导地位的时空模式的准确性(36]。在这项研究中,数据用于EOF分解包括预处理站记录2,3,4,5,6,9(近一年)。原始记录的时间差距是短暂的(图2(8)2 - 6),所以我们认为,主导模式略有影响,仍然可靠。第一个半年的记录sta 1和sta 8都是排除在EOF分解。

2.2.3。薄板样条方法和曲面样条

TPS的方法是基于表面拟合的空间插值方法,它是一个最频繁的空间插值方法相比(38由Duchon[],它第一次被提出42]。它常被用来处理不均匀在地球科学数据,如从离散生成连续光滑的表面高程和稀疏采样点的高程数据。通过模拟板料的弯曲,TPS的方法生成一个光滑的表面用最小弯曲能量通过所有观测点。其形式如下:

其中,d2日志(d)术语和基本功能一个+bx+cy是当地趋势函数。丢失的数据的水平坐标(x,y)和它的距离th (= 1,…,NTPS所需)观测站。为了确定N+ 3未知参数T(= 1,…,N),一个,b,c(方程(12)有以下关系: N观测点的水平坐标(x,y,= 1,…,N),相互之间的距离(d,,j= 1,…,N),观测值(Z,我= 1,…,N),表面光滑(N线性方程和+ 3N+ 3生成未知参数),缺失数据的价值站也被认为是在这个表面,然后,TPS估计的值 通过方程计算(12)。Bookstein[描述的TPS矩阵形式完全43],未知参数的系数矩阵只与空间相关的属性(坐标和距离),而不是属性。

曲面样条(SS)方法也是一种很好的基于表面拟合的空间插值方法。它生成光滑的表面通过离散点。然而,学生的基本功能与TPS方法不同。它不考虑趋势项,拟合函数不同,半径R介绍了。郭et al。44]使用党卫军方法插入所选独立点的底摩擦系数来获得值为整个渤海并结合伴随同化方法反演底摩擦系数对整个海洋。党卫军的方法也可以用于反演的初始条件和海洋污染物传输模型中参数估计21),这是一个显著的改善克雷斯曼插值。其形式如下:

类似于TPS,N观察点的空间属性和观察值序列z生成一个光滑的表面,然后,未知参数列向量年代解决了矩阵形式:

在这里,参数矩阵的元素D只有相关的观察点之间的距离吗dij(,j= 1,…,N)和规定的半径R。半径R将因为任意两个站点之间的距离是15公里半径之内。在解决未知序列年代,党卫军估计价值 缺失数据的站与方程计算(14)和(15)。注意的价值年代随半径变化R,但选择R在适当的范围内不会产生巨大的影响最终的插值结果。

2.3。评价指标

最后一节2.2。2原始数据的预处理已经提到。我们强调,预处理数据用于每个插值方法是相同的。因此,不同的插值方法的评价是有说服力的和可靠的。表1总结他们的参数设置。我们将列出一系列的量化指标来评估这些插值方法(38]。评价指标列入本研究包括平均绝对误差(MAE)、均方根误差(RMSE),相关系数(Corr)和偏差率偏差,Nash-Sutcliffe效率(研究)45),和索引的协议(IA)(或威尔默特的D) (46]。

其中,美(方程(17))和RMSE(方程(18)通常作为插值或模型的性能指标38]。越小,插值效果就越好。相关系数(方程(19))和偏见(方程(20.)测量模拟值序列之间的相关性和偏差年代和观察系列O, 分别是他们的平均值。更高程度的相关性和较小的偏差都显示插值效果越好。分析了无(方程(21)是一种常见的指数用于衡量性能或插值效果在气象,水文和环境模型。它的值范围从负无穷到1。越接近1,仿真结果更接近观测;接近0,结果更接近观测平均值,但过程误差大,而消极的研究表明,意思是观测值的性能甚至比模拟值和表明这种模拟不可接受的。IA(方程(22)被称为潜在的错误。IA是一个无量纲和指数有界值接近1表明更好的协议。上面的六个指标定义如下:

3所示。2我们计算上述六项评价指标,反映这些模拟的准确性,和指标EOFI第一k模式(k= 1,…,N)也计算。EOFI结果与最优模式数量将与其他三种插值方法相比。

2.4。选址

追求更好的插值性能,我们只选择最近的五站的数据插值;sta 1的归责和sta 8数据是基于数据的站2,3,4,5,6,站的数据2,4,5,6,9(图1 (b)),分别,而不包括其他站的数据。近一年的记录sta 1和sta 8重建,分别通过插值数据的五个最近的站有四个插值方法,然后,重建的序列与相应的有效观测数据在今年上半年(图2)计算评价指标。节4.2为进一步验证,实现在不同时期多组实验,以及四种插值方法之间的RMSE重建序列和相应的有效观测记录进一步比较。

3所示。结果

3.1。四种方法的插值结果

观测站与目标之间的距离站和相应的归一化权重表2。sta 4是最短的距离,sta 1中的重量是最大的群体,而sta 5是最短的距离,sta 8中的重量是最大的群体。IDW的增加和EOFI功率参数P(从1到2),最近的站的归一化权重(sta 4和sta 5)增加,而其他站的权重降低。因此,估计空间模式 sta 1和sta 8计算方程(9)更受sta 4和sta 5,分别。

时态模式或主成分(pc)的sta 1和sta(图83(表)和相应的空间模式2)通过EOF分解。可以看出方差贡献率的PC1 sta 1和sta 8既超过98%,和空间1模式都是0.44左右。大多数其他电脑模式改变0(图3(a2-a5和b2-b5))和相应的空间模式的绝对值也小于第一模式。因此,从第二个电脑第五个人电脑,这些模式发挥更重要作用在重建数据比第一个模式,但后来指数显示,忽略这些重要模式可能导致少EOFI重建的完美性能。此外,图3(a1和b1)说明PC1振幅的冬季(11月、12月、1月和2月)明显大于那些在夏季(4月、5月、6月、7月)。冬天表明PM2.5浓度在华北平原明显高于夏季(47]。

数据45描述四个插值重建序列及其残差sta 1和8,分别。两个电源参数P(1或2)采用IDW sta 1和sta 8和EOFI重建,但指数显示,选择P= 1 IDW和EOFI sta 1中更准确,PIDW = 2, EOFI sta 8更准确。最优模式在sta EOF重建两三个数量1和sta 8。在结果评价和讨论的部分,我们试图解释原因。可以看出,四种方法可以大致重现有效记录在sta 1和sta 8。在sta 1(图4),四种插值方法的残差变化接近0,但是有几个错误,从观测值有很大的不同。例如,他们都显示错误的超过100人μg / m3在2月20日和3月中旬。无论仪器故障和其他因素,大的错误在这些时间可能表明PM2.5浓度变化很大在同一城市的不同区域中,它只依赖于相邻的数据并不准确,但是在这种情况下。在图5sta 8,情况是相似的,但剩余序列的波动幅度明显大于sta 1,和大残差也更频繁地发生。sta 8中的四种方法的性能通常是比sta的1。

3.2。结果评价

在本节中,我们评估四种插值方法有量化指标。图6显示了4插值方法的比较美,RMSE Corr,图7显示的偏差,分析了无和IA。因为许多指标TPS的方法与其他方法有很大不同,为了看清楚他们之间的分歧,TPS的指示值直接标记在每个子图。可以看出,sta 1和sta 8的EOFI插值性能随数量的模式,许多指数表明,最优模式EOFI数量三个(例如,图6(a1和b1)), EOFI有时的性能比其他插值方法当它不是最优模式的数字。我们安排所有六个指数表现最佳的EOFI降序和其他三种插值方法的性能。sta 1可以看出,所有6表明EOFI的性能指标(P= 1)是最好的(红色线)(1-EOFI > 1-IDW > SS > TPS),虽然在sta 8中,所有6指标表明EOFI (P= 2)是最好的(绿线)(2-EOFI > 2-IDW > SS > TPS)。许多指数的IDW性能是相似的;sta 1喜欢P= 1,sta 8喜欢P= 2。此外,该指数的表现sta 8普遍比,sta 1。节4.1,我们试图解释为什么在两个网站不同的参数选择。

4所示。讨论

4.1。IDW权力P选择和对EOFI网站数量的影响

EOFI的这项研究中,我们没有考虑sta 1的数据和sta 8 EOF分解。这两个站的空间模式计算了其他5站IDW的空间模式,当然,他们的空间模式估计也可以通过其他方法,如锅和Lv (36分别使用线性和样条插值,计算河流水位测量的空间模式点。接下来,我们试图解释为什么不同P值选择在两个站点中提到的部分3并讨论数据的数量的影响网站EOFI重建。

首先,sta 8的指标性能显然是劣质的sta 1。有四个相同的电台(站2、4、5、6)数据选择sta 1和sta 8。但是缺失值的数量在sta 9 sta 8 sta的归责大于3 sta 1(今年上半年失踪的sta 9图2达到13%),所以原始数据的完整性可能占的糟糕结果sta 8。此外,对于sta 8,当P从1增加到2,EOFI空间模式和重建序列将更加依赖于空间模式(表吗2)和观察记录最近的车站(sta 5),分别。sta 9的数据的负面影响降低,这可能是一个解释sta 8的偏爱P= 2。

此外,在以前的实验中,数据的sta 1和sta 8重建数据的其他5相邻站,其中4台(站2、4、5、6)都是用于重建sta 1和sta 8。为了进一步探索影响剩余的插值结果,进行另一个实验的数据sta 3不用于sta 1重建和sta 9的数据并不是用于sta 8。4网站和5网站EOFI重建结果如表所示3

可以看出,sta 1和sta 8日EOFI重建与5网站比只有4网站。此外,包含数据从沿海电视台如sta 10(图1 (b)1,远离sta和sta 8)在EOFI不如插值数据只有五个最近的站点。是很重要的确定适当数量的站EOFI根据功能和原始数据的质量。我们可以看到使用更少的网站的性能数据或添加肋EOFI网站数据,这两个比,只有五个最近的站点的数据。

4.2。进一步验证和数据时间长度EOFI结果的影响

在前面的实验中,选择EOFI PM2.5的数据几乎一整年从五个相邻站数据进行EOF分解和获得了几乎一整年的个人电脑和相应的空间模式。在本部分中,许多实验用不同长度的记录实现进一步评估和比较四种插值方法。只有有效的观测记录以来2015年上半年sta 1和sta 8,重建序列的四种插值方法必须与有效的观察在同一时期。除以日历月,我们将记录在今年上半年6月部分(Jan, 1;2月2;3月,3;4月,4;5月,5;6月,6)实验组E1和五两个部分(1 - 2、2 - 3、3 - 4、4 - 5和5 - 6)实验组E2。四个三个部分(1 - 3、2 - 4、3 - 5、4 - 6)实验组E3的实现。 Similarly, E4, E5, and E6 represent the experimental groups with a duration of 4, 5, and 6 months, respectively. There are 21 experiments in total. Since the temporal mode of EOF decomposition is related to the continuity of record, experimental groups with continuous months are set to reduce the inaccuracy of the temporal and spatial modes of EOF decomposition. February in winter and June in summer represents different seasons, and the feature of PM2.5 concentration is significantly related to the seasons. For example, in winter, more fossil fuels may be consumed for heating; therefore, the PM2.5 concentration is significantly higher than other seasons.

8描述了主要结果EOFI重建sta 1和sta 8序列。可以看出,虽然空间2日,3日,4日和5日模式在不同时期不同,空间第一模式总是稳定在0.44左右,和相应的方差贡献也占95%以上(c1和c2),这是与以前的结果一致。sta的RMSE EOFI重建范围1 = 10到16μg / m3(b1),而sta 8是22-36的范围μg / m3(b2)。范围也与以前的结果一致,这表明EOFI稳定的方法。此外,实验的最优模式4号(即。,using first 4 modes to reconstruct) for sta 1 and sta 8 are both largest, respectively, but there are still other optimal mode numbers. The optimal mode number can be determined by finding the smallest RMSE [40]。

4比较的性能(RMSE)四种插值方法重建序列。21个实验中,有19个sta实验1和13 sta实验8显示的RMSE EOFI重建是最小的,分别。还有另一个7组在sta 8显示学生表现最好RMSE而言,这些群体主要包括冬季1月,2月和3月。我们推断这是由于大PM2.5浓度差冬天在不同的网站,和时空模式的准确性不如其他季节。

4.3。对比EOFI DINEOF

有很多EOF-based插值方法(例如,DCCEOF (10),EOFI (36],和VE-DINEOF [40])。使用最广泛的方法之一是迭代EOF方法,DINEOF [30.]。因此,有必要比较DINEOF和EOFI在这项研究中。

首先,两种方法都是基于矩阵特征值分解理论,他们都认为短的原始时空观测记录缺失值的间隔不会影响明显占主导地位的时空模式。此外,第一个猜值缺失值,使矩阵分解。通过计算RMSE和其他指标,最优模式的时间和空间模式数量将用于最终的重建。

然而,DINEOF和EOFI最显著的区别是使用的原始数据矩阵分解。EOFI sta 1的数据和sta 8(今年下半年数据丢失)不包括在分解矩阵,但在DINEOF, sta 1和sta 8的数据纳入EOF分解;首先,缺失值替换第一个猜测值然后进行矩阵分解和迭代替换,直至收敛。然而,这个步骤可能不适合少数站的数据处理,因为这些失踪的第一个猜测值站可能大大影响时间和空间模式的准确性。即使最终的收敛时间和空间模式是通过迭代,计算资源消耗可能是巨大的。Alvera-Azcarate et al。32]提到,数据点与失踪的百分比超过95%之前删除数据分解,因为他们不能提供有效的信息。数据点的数量参与分解是巨大的;因此,这些则点“删除对最终结果影响不大。DINEOF已广泛用于重建膨胀密集采样和众多观测卫星图像遥感获得的,而在其他平台上(例如,PM2.5陆基电台在这项研究和海上浮标站数组),观察比较少见和稀疏采样,时间和空间的迭代模式EOF方法可能是不准确的,当有一个大比例的缺失值的一些站点观测数据矩阵。

因此,对于有限的观测记录,如果我们想充分利用站的数据缺失值,大部分EOFI可能更适合这种插值。EOFI的优越性是获得更合理的空间和时间模式排除大的记录丢失百分比站之前EOF分解。所有站点共享相同的时间时间模式,而space-dependent空间模式缺失数据的空间插值估计(IDW用于这项研究)和空间模式特征和模式。此外,EOFI可以提供更合理的第一个猜测值这些缺失的数据,和明年,DINEOF用于迭代计算,直到收敛。其他差异,如DINEOF迭代分解,EOFI还可以使用迭代分解在这项研究中;DINEOF随机选择交叉验证点观测数据的一部分,这里EOFI使用第一个半年有效的观察记录和每月的记录sta 1和sta 8检查站,两者都可以在这些方面是统一的。

5。结论

本文介绍了二维EOFI并应用于重建spatial-distributed PM2.5数据作为扩展维EOFI河流水位重建。EOFI的主要步骤是计算缺失数据的估计空间模式 IDW插值空间模式的观测站点然后乘以 和相应的时序模式获取EOFI重建序列,和最优模式的EOFI重建是由RMSE最小化。与其它三种插值方法相比(IDW、TPS和SS),定量指标表明,EOFI可以改善插值的效果。结论如下。

TPS和党卫军有固定的函数形式,及其系数矩阵是space-dependent。EOFI的优势是时空矩阵分解为时间时间模式和space-dependent空间模式下EOF的假设。观测台站和缺失数据共享相同的时间模式,而缺失数据的空间模式站估计IDW观察站的空间模式。IDW的好处是,当错过站和测站之间的距离非常近,空间模式估计IDW非常接近的观测站;因此,EOFI重建序列缺失的站也接近观测站的数据,这是符合我们的认知。本质上,IDW相邻点的权重是由统计估计观察点之间的协方差。TPS和SS权重并不取决于插值场的统计特性。EOFI可以减少美和RMSE与其他三种方法相比,和其他指标显示,EOFI也是更好的性能。这表明EOFI可以改善插值效果最优模式。一些实验小组的结果与不同长度数据显示,EOF分解的主要空间模式几乎不改变的时间长度,这是符合EOF假设的空间模式是独立的时间。 At the same time, the RMSE of EOFI reconstruction with optimal mode number still shows the advantages over the other three methods.

该方法适用于插值时观测是罕见的和稀疏分布,还有大百分比的缺失值一些电台的原始记录。EOFI重建丢失的数据序列站可以合理的首次猜测值进一步DINEOF(或其他迭代EOF-based方法)的步骤。

EOFI具有更少的计算,更少的参数选择,并易于实现,可以扩展到其他二维空间分布的缺失的数据差距物理变量。EOFI是缺失值的限制的时间和空间差距不能太大;否则,它将会影响空间和时间模式的准确性。与此同时,原始数据的质量有一个对重建结果的影响。高质量和完整的观测数据可以产生更精确的空间和时间模式,这有利于EOFI重建。

数据可用性

的数据(每小时PM2.5浓度数据8站在天津站位置)用于支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

作者要感谢杨教授高提供PM2.5浓度数据。这项工作得到了国家自然科学基金(批准号41876003)和中国国家重点研究和发展计划(批准号2017 yfa0604101和2016 yfc1401404)。