文摘
智能应用程序可用于IIoT环境的数量正在增长,但是当这些应用程序依赖于时间序列数据不完整,影响他们的性能。不幸的是,不完整的数据都太频繁IIoT的现象在世界上。常用的解决方法是使用归责。然而,当前的主要方法是为了重建一个失踪的模式,一个健壮的和灵活的归责框架能够处理许多不同的失踪的模式。因此,在这项研究中,所给出的框架RAEF,能够处理多个失踪的模式。基于周期性autoencoder, RAEF房屋小说神经元结构,称为封闭的调节器,它可以减少不同缺失模式的负面影响。比较先进的时间序列的归责框架在一系列不同的缺失率,RAEF产生更少的错误比其所有。
1。介绍
今天的IIoT传感器能够收集大量的数据,和处理这些数据构建的应用程序允许我们监视、分析和理解在我们的物质世界正在改变随着时间的推移1]。然而,继续改善我们的时间序列分析的能力,它并不足以改善的分析方法有更好的上下文识别(2),扩大服务的建议3),提高异常检测(4),等等。时间序列数据的数量和质量还需要提高。在大多数情况下,提高数据质量意味着确保全面、完整的数据流。这两个范围往往是容易的网址添加更多的和不同类型的传感器将完成工作。不幸的是,完整性通常是一个更普遍和克服困难的问题5]。由于噪声数据不完整,传感器故障,设备误差、人为错误、不正确的测量,和其他不可避免的情况下6]。因此,几乎每一个传感器产生的数据流将在某种程度上是不完整的7]。
如此普遍,有几种处理不完整数据的方法。第一个是安装冗余的传感器作为备份。如果一个传感器无法捕捉一些数据,其他可能不会。这个解决方案的主要缺点是,两个传感器不能在同样的地方,他们常常也不完全相同的时间,所以很难调整的时间和空间特征数据8]。因此,一个更常见的补救措施是某种形式的数据操作:一般来说,删除或非难(9]。
删除是一个简单和有效的回答时丢失的数据的数量与总相比是很小的。然而,在对时间序列非常敏感的应用程序,删除一个小数量的记录就足以摧毁一个序列的一致性,可能严重影响结果的正确性。此外,大多数数据分析方法,特别是机器学习方法,需要一套完整的时间戳和不健壮的丢失的数据。相比之下,将缺失的数据可以减少敏感性和提供一套完整的时间戳。因此,污名所吩咐的大部分研究集中在最近几十年10,11]。
最简单的归责方法简单地取代丢失的信息与统计合理值,如方法、模式,中位数,或任何预定义的值(12]。然而,尽管简单,方便,这种方法的准确性依赖于样品的复杂性。小,基本样本,他们的工作很好,但是当成为复杂的特性,这些方法并不可靠。例如,纷纷与多元数据通常需要一个算法基于集群。类似的样本分成相同的集群,然后用来评估缺失值同邦(13]。拉赫曼和伊斯兰教(14粗糙模糊k - means算法是这种类型的集群污名的一个例子。这里,研究人员利用模糊采用模糊聚类来构建一个缺失值填补方式进行数据预处理的框架。拉贾和Sasirekha15)方法旨在处理缺失值,而赵et al。8)开发了一种局部相似性归责方法估计缺失数据基于堆叠autoencoder (SAE)快速聚类算法和顶部再邻居。毫无疑问,这些clustering-based归罪方法获得非常好的结果。然而,整个时间序列聚类是非常耗时的,这些方法不能跟上当今数据量急剧增加。此外,所以当这些方法的数据可能太不完整的工作与任何程度的准确性。
在IIoT范式中,传感器数据有特殊属性。例如,多个传感器通常用于记录相同/相似的测量在很多系统(16]。传感器,地理上接近彼此往往是高度相关的特定时间的(17]。这意味着缺失的数据有时会估算相关的传感器,无论是空间或暂时。在这些情况下,建模时间序列,然后应用一个归责方法如平滑或插值(18)可以是一个不错的选择。
一般来说,平滑或插值方法计算开销较低,容易实现,尽管他们不适合在时间序列数据找到长期的相关性。机器学习技术可以关联特性,可以提高归罪性能,如生成对抗模型(19- - - - - -22)和递归神经网络(RNNs)。其中,RNNs已知擅长时间序列建模,出于这个原因,许多hybrid-RNN方法已经开发出来。这是因为香草RNNs估计缺失值的数据立即前的差距。例如,金等。23)设计了一个RNN转嫁失踪体检数据模型。RNNs的时间序列进行建模,然后弥补丢失的测量和预测未来值。Minseok et al。24),例如,开发了一个叫深化版的归责框架基于这种类型的相关信息。深化版的使用深度网络组成的多个LSTMs安排根据每个IIoT设备的相关信息。马et al。(25]LIME-RNN模型不完整的时间序列(线性递归神经网络记忆向量)。可学的前历史的线性组合状态意味着梯度信息可以有效地传播。这样,LIME-RNN可以充分利用先前观察到的信息来减少缺失值的负面影响。另外,李et al。26)提出了一种多视点学习方法估计缺失值时间序列结合RNNs和协同过滤技术的流量数据。有大量的论文将不完整的时间序列假设任何缺失的数据从当前时间步是一样的以前的时间步(25,27,28]或衰变机制适用于一个隐藏的状态归咎于丢失的数据(29日- - - - - -31日]。然而,RNNs归罪性能受当缺失值连续的。此外,上面的归责策略会导致不稳定在训练,缺失率高,衰减机制并不能找到足够的隐藏信息。
调查的另一个分支在搜索性能改善归责原则缺失模式。在这条小溪,Minseok et al。24)而丢失的连续性和间断性归罪性能的影响。Anindita et al。32)和蔡Chang (33)认为失踪的任意性和单调性在医学数据的模式。Insuwan et al。34)发现评级数据呈现出特殊的失踪模式造成的用户偏好类型。Tak et al。35区分和对比失踪的模式在长期的物理伤害造成的交通数据的传感器和测量噪声。然而,我们所知,没有特殊IIoT环境缺失模式。本研究试图改变这种状况。因此,我们的贡献如下:(1)我们提出一个框架基于autoencoder复发,称为RAEF。编码器的一个不完整的时间序列转化为向量表示本地和全球信息的信息。译码器然后使用全球信息初始化,解码当地信息完整的时间序列数据。(2)代替腐朽的隐藏状态,RAEF内部,一个封闭的监管机构关注地面实况信息之间的歧视和虚假信息。这种机制能够更好地减少缺失率增加的负面影响在不同缺失模式。(3)在实证评估在实际IIoT环境中,RAEF被证明是有效的。此外,对比RAEF和一些先进的框架表明RAEF导致更少的错误在每一个缺失率测试。
本研究的其余部分组织如下。部分二世。介绍了问题公式化和一些必要的预赛。部分三世。描述RAEF的结构。部分二世。和四世。目前的实验和结果的细节,和部分V。总结了研究。
2。初步
2.1。不完整的时间序列数据
一个连续时间序列数据 是一个序列观察。在每个时间步 ,观察 有特性 。一个连续的二进制失踪的面具 应用在生成的数据,在哪里表示在时间步缺少哪些特性 。时间步的功能缺失可以描述如下:
因此,一个不完整的连续时间序列表示 。
以下规则应用在训练模型来创建一个人工不完整的时间序列:
2.2。失踪的分析模式
大量的时间序列数据的分析从真正的IIoT环境,一块知识是主要缺失模式的两种类型:单变量的共模失踪,下落不明。
单变量缺失的数据是最常见的模式,通常表现为一系列的阅读损失在单个传感器在很短的时间内,如图1。通常导致传感器本身是一个错误。为简单起见,我们只考虑可恢复的情况下,本研究即可以恢复数据收集在一个有限的时间。在这里,的最大长度是连续缺失的数据,注意的是,一般来说, 。
其他类型的失踪的共模模式缺失的数据,也称为共模故障。在这些情况下,大量的传感器不能同时上传数据。通常,这是由于一些外部因素,如磁盘错误,网络通信错误,人工干预。(36]。图2显示了一个示例这种类型的失踪的模式。
2.3。复发性神经网络
递归神经网络(RNNs)尤其适合处理时间与空间相关信息,因为他们递归地处理历史信息和历史记忆模型。RNNs神经网络工作在一个可变长度的序列 通过维护一个隐藏的状态随着时间的推移。在每个时间步 ,隐藏的状态更新由以下方程: 在哪里是一个激活函数。经常很简单,执行一个线性变换的输入向量,应用以聪明元素求和,物流乙状结肠函数。是一个内部的中间状态,模型参数的象征吗 , , , ,和 。进一步,我们可以简化RNN时间步作为一个功能由以下方程: 在哪里封装了不同RNN变体。LSTMs [37)和封闭的复发性单位(天鹤座)(38)都是非常受欢迎的RNN变体。
3所示。RAEF归责框架
图3显示了RAEF的结构。它学会可能含有缺失数据的编码序列,然后解码这些向量回连续时间序列数据没有丢失的数据。注意,使用的基本神经元RAEF GR包括一个小说。
3.1。RNN编码器
编码器是一个模型基于RNN或变异。在我们的例子中,可能已经丢失的数据,它不能用于更新吗根据方程(4)。所以,当不见了,以前的时间步的输出使用。信息在这之前的时间步是一种当地的信息。此外,的意思跨越时间的步骤,来表示和 。 ,可以描述如下:
正式,最初的隐藏状态初始化是一个零向量。从 来 ,更新模型由以下方程: 在哪里是一种可习得的标量,初始化为0。介绍一种可习得的允许网络依赖的线索 。渐渐地,它学会分配更多的重量 。因此,编码器可以被描述为 ,在哪里是顺序输入,是一个隐藏的状态,然后呢是一个可微函数由方程(6)的参数 。一旦连续时间序列数据被送入编码器, 记录,一个向量生成包含全球信息的完整序列时序数据输入: 在哪里是一些非线性函数。在这里,我们考虑一个简单的部署和假设 。编码器的损失函数如下: 在哪里是一个权重系数,代表前面的归责的重要性在每一个时间步。直观地说,它不需要过于精确的步骤前几次培训编码器。共同点,假定:
3.2。RNN解码器
译码器也是一个模型基于RNN或变体,旨在解码序列从编码器回没有缺失数据的连续时间序列数据。用于初始化隐藏状态的解码器。注意,根据方程(6), 被认为是替代 。因此,向后译码器的工作原理,在相反的顺序(即阅读顺序。,从来 )。的顺序输出解码器可以使用方程(3),表示为 。
因此,可以描述为解码器 。最后,解码器列车之间的参数通过最小化错误输出和输入连续的时间序列数据 。损失函数定义如下: 在哪里使用绝对误差,
3.3。封闭的监管机构
由于编码器的操作是在方程(5)和(6),每个时间步的输入数据是不完全一致的真实性。凭直觉,如果归责框架可以评估输入数据真正处于初级阶段,和之前计算候选状态,隐藏的状态可以减少的发生率不准确的信息。一个封闭的结构,即,a gated regulator, is therefore integrated into the encoder, as shown in Figure4。动机是允许编码器来决定多少当前隐藏状态将获得其信息从当前输入不增加额外的信息。形式上,这可以描述如下:
方程(6)成为
注意,封闭的监管机构是一个独立的结构,这意味着它必须兼容RNN或变异。作为一个例子,LSTM-GR意味着LSTM封闭的调节器。
3.4。培训过程
防止消失梯度或爆炸问题,传播RAEF,训练算法,算法1规定,异步编码器和译码器是训练有素的。因此,训练过程分为三个部分:(1)输入编码器,并更新编码器通过下行梯度 。(2)编码器的输出记录(3)输入译码器,更新解码器通过下行梯度 。
,体重剪裁是用来限制编码器梯度的变化。
|
4所示。实验的细节
我们的现实世界经验IIoT数据,如图5是,很多数据点可以从时间序列缺失在这些环境中收集。在图所示的水平5显示是多么普遍IIoT环境中缺失数据的问题。这一令人不安的现象不仅会影响实时监控设备的能力,还可以减少任何后续分析的准确性由下游应用程序。
在一系列的分析,我们比较归罪与RAEF几个先进的基于RNNs归责框架。然后,我们说明了不完整的时间序列归责可以提高数据应用的有效性。最后,我们讨论的选择 。
4.1。数据集和实验设置
总结了实验中使用的数据表1。
以下4.4.1。UCI空气质量数据(UAQ)
UCI数据集包含9358条记录数组的平均小时反应5金属氧化物化学传感器嵌入在一个空气质量化学多传感器设备2004年3月和2005年2月之间拍摄的。空气质量数据点有12个功能,和7.5%的值是失踪。删除的记录缺失的数据后,我们随机选择20%的数据进行测试和其他培训。皮尔森的每个特性之间的相关性如图6。这个数据集可以被认为是一个不完整的时间序列数据集的真实IIoT环境丰富的信息和低-中层缺失率。
4.1.2。基站状态数据(BSS)
这个数据集收集从一个ePLCM002FR边缘节点,由杭州Yiyitaidi信息技术有限公司开发和部署在一个基站位于周家镇春天购物中心,山东淄博(见图7)。数据集由14820年的数据解读2018年2月和2019年2月之间拍摄的。每个数据点都包含六个属性:温度和两个整流器的电流强度,空调设置温度和环境温度。18.2%的值是失踪。我们使用收集的数据为2018年5月和9月和2019年2月进行测试。剩下的数据用于训练。
皮尔森的每个特性之间的相关性如图8。与UAQ数据集相比,BSS数据收集周期短,低维数据,缺失率较高。稳定与每个数据集训练,我们标准化的原始数据通过一个线性变换使用前的最大和最小(min-max正常化)实验。然而,由于BSS数据集不包含任何地面实况标签,尝试实际缺失值是不可能的。因此,我们通过随机模拟缺失的数据忽略数据根据不同的缺失率,并使用真正的值作为一个地面实况标签表1提供细节。
结果的评估(美)和(绝笔),计算如下: 在哪里表示索引设置缺失值,表示大小。地面的真相吗th缺失项,是它的估算值。
4.2。基线
比较器我们选择基线的简要描述如下:(1)边境的意思(BM)使用前和后的平均记录缺失值的估算值。(2)再(资讯)使用资讯(40与一个固定的) 找到类似的样品和背景缺失的值根据加权平均的邻居。(3)英国人(29日)——基于RNN的新颖方法相结合的双向反复隐藏状态衰变机理和非难。这种方法可以归咎于缺失的值在一个没有任何特定的双向的经常性动力系统的假设。(4)LIME-LSTM [25)——小说框架不完整的时间序列建模基于LIME-RNN使用LSTM,网络学习的剩余时间步骤之间的联系,并实现了一个之前的历史状态的线性组合。
注意,BM和资讯是常见的归责方法。英国和LIME-LSTM都归罪框架基于RNNs时间序列。
4.3。实现细节
我们开发了两个RAEF的实现:一个带有LSTM格勒乌和其他。进一步,我们配置每个模型和没有封闭的监管导致四个基线如下。
对于拟议中的RAEF实现,我们试过两个RNN变体:LSTM和格勒乌。因此,我们实现了四种RAEF, RAEF-LSTM, RAEF-GRU, RAEF-LSTM-GR, RAEF-GRU-GR:(1)RAEF-LSTM(采用树脂):编码器和译码器实现LSTMs(2)RAEF-LSTM-GR (RFLR):编码器是一个LSTM融合一个封闭的监管机构和译码器是一个LSTM(3)RAEF-GRU (RFG):编码器和译码器实现为天鹤座(4)RAEF-GRU-GR (RFGR):编码器被实现为一个格勒乌封闭的监管机构,和解码器格勒乌。
对于所有方法,我们固定RNNs的参数是相同的。隐藏状态的尺寸 ,和学习速率 。在部署RNN-based模型,我们把数据集切成固定长度的序列和输入在一次训练样本。设置的值和最后两行所示的表吗1并应用于所有RNNs一致。注意,在培训过程中,而不是使用一个验证集,我们结束了培训的时候培训损失趋于平稳。
我们的实验过程有三个主要步骤。首先,我们随机删除的数据完成时间序列来模拟不同的缺失模式和不同的缺失率。然后我们将数据分为训练集和测试集根据比例答:第二节中提到的,我们训练有素的框架。第三,我们使用不同的框架为测试集生成归责的结果和评估框架通过比较结果与地面实况数据的评价指标。
所有实验在TensorFlow平台上运行使用英特尔酷睿i7 - 8700 k, 3.60 - ghz CPU和16 gb RAM, GeForce RTX 2080 8 g。
5。结果和讨论
5.1。归责单缺失模式的性能
表2和3显示的结果归罪,议员表示缺失模式,代表先生失踪率。从这些结果,我们画了下面的观察。(1)边境的意思(BM)很不准确,变得不那么准确的缺失率增加。(2)资讯并不是有效的将缺失的值与模模式因为样本之间的距离通常无法测量给定的所有属性的完全丧失。资讯能够实现结果与univariate-type缺失模式缺失率低但变化是敏感率,及其性能恶化率增加。(3)LIME-LSTM,单向RNNs,不执行也包含一个双向RNN的框架,即。、英国和RAEF。(4)LIME-LSTM和BSS无法应对缺失率高。在缺失率低,RAEF和英国人展示了类似的性能。然而,随着缺失率的增加,RAEF表现明显比英国人好,尤其是LSTM-GR实现。(5)的LSTM版本RAEF通常比格勒乌版本。(6)关注模模式,RNN方法清楚地表明大多少的影响这种类型的缺失数据的单变量的品牌。例如,看着BSS缺失率高(20% - -30%),所有框架的性能迅速恶化。
除了这些基本的观察,我们还指出一些区分性能特性在比较封闭的监管机构的变种RAEF平原版本。一般来说,封闭的监管机构RAEF都优于其他框架的实现在有限的范围内的缺失率和在更高的缺失率有明显的优势。失踪UAQ利率从5%降至15%,比例增加在绝笔non-gated版本的RAEF模模式是7.46%和23.54%,分别。一元模式,这个数字是8.57%和20.23%。我们可以看到这一趋势BSS数据集。这些结果表明,封闭的监管机构能够减少的负面影响与两种类型的缺失模式缺失率增加。
5.2。污名失踪混合模式的性能
理想情况下,丢失的数据时间序列会遵循一个模式要不一元模式或共模。然而,有些场合,这两种模式都将出席。对于这一系列的实验,我们固定失踪的水平——10% UAQ数据集和BSS的20%。然后我们模拟以下模式缺失数据的时间序列:100%的单变量,共模(CM) 20% / 80%单变量(嗯),40%厘米/ 60%,60%厘米/ 40%,厘米厘米80% / 20%,和100%。图9显示了结果。RAEF-LSTM-GR是清晰的表现明显比其他人更好的结果。
5.3。任务:将缺失的值在一个不完整的时间序列
为了更清楚的看到数据归责的重要性对于下游应用程序,我们使用不完整的时间序列数据进行预测任务和比较结果相同的任务使用估算数据。近似真实的应用场景不同,我们执行了一系列的任务错过率。更具体地说,我们准备好的版本的UAQ集缺失率为5%,10%,和15%,进行了三组实验,B和C如下:(1)答:嫁祸于R AIN-LSTMF,然后使用一个LSTM预测(2)B:嫁祸于英国人,然后使用一个LSTM预测(3)C:转嫁LIME-LSTM然后使用一个LSTM预测
a - c组所有使用相同的LSTM预测,包含64个神经元,训练了一个完整的数据集。预测结果之间的差异和地面实况数据测量使用美。每个实验重复50次,结果都被记录下来,如图10。
5.4。的选择
评估选择过程中,我们不同的价值 。如图11,RAEF-LSTM-GR通常为每个数据集提供最佳的性能。但是,正如缺失率改变,最优值略有不同。在更高的利率,RAEF-LSTM-GR首选更大获得更多的信息从输入时间序列。然而,当太大,性能下降,表明该模型受到爆炸梯度的影响。
6。结论
本研究提出RAEF,归责框架基于周期性autoencoder IIoT环境。RAEF标识缺失模式不完整的时间序列,并使用它们作为指导推定缺失值。作为这项研究的一部分,我们第一次,总结了失踪的完整IIoT时间序列数据中的模式。不像其他一些方法,衰变隐藏状态,RAEF使用一个封闭的监管机构更大的缺失率,减少负面影响。这种方法测试合成和真实数据显示RAEF具有更高的鲁棒性,更大的灵活性,并返回错误少于其他先进的归责框架为时间序列数据而设计的。
数据可用性
BSS和UAQ数据用于支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是支持中国国家重点研发项目的一部分(2020 yfb2010901)和部分浙江省科技计划(没有。2020 c01031)。