研究文章|开放获取
安德烈Bigand Thi-Thu-Hong表象,艾米莉泊松Caillault, ”一个新的模糊基于逻辑的相似性度量应用于巨大的差距归咎为不相关的多元时间序列”,应用计算智能和软计算, 卷。2018年, 文章的ID9095683, 15 页面, 2018年。 https://doi.org/10.1155/2018/9095683
一个新的模糊基于逻辑的相似性度量应用于巨大的差距归咎为不相关的多元时间序列
文摘
缺失值的完成是一个普遍的问题在许多领域的模式识别和信号处理。分析数据和不完整可能导致丧失权力和不可靠的结果,特别是对于大型失踪的子序列(年代)。因此,本文旨在介绍一种新的方法连续填补缺失值在低/不相关的多元时间序列可以管理一个高水平的不确定性。通过这种方式,我们建议使用一种新颖的模糊weighting-based相似的措施。该方法包括三个主要步骤。首先,对于每一个不完整的信号,之前的数据差距,这种差距视为两个分离后的数据参考时间序列与各自的查询窗口和 。然后我们找到最相似的子序列(这种差距之前)的子序列最相似的一个()后的子序列的差距 。找到这些类似的窗户,我们建立一个新的相似性测量基于模糊等级的基本相似性措施和模糊逻辑规则。最后,我们填写后与窗口的平均值之间的差距和前一个 。实验结果表明,该方法优于多元时间序列的最先进的方法,以防有低/ noncorrelated数据但有效的信息在每个信号。
1。介绍
如今巨大的时间序列可以被认为是由于有效的可用性低成本传感器、遥感系统的广泛部署,基于互联网的测量网络,等。然而,收集的数据往往是不完整的传感器等各种原因错误,传输问题,不正确的测量,恶劣的天气条件(室外传感器),手册 ,等等。这是特别的海洋样品(1我们认为本文。例如,MAREL-Carnot数据库描述海水在东英吉利海峡,在法国(2]。数据包含19时间序列由传感器测量每20分钟硝酸、荧光、磷酸盐、pH值等。分析这些数据的大小和形状可以让海洋生物学家揭示事件如海藻、了解浮游植物过程(3详细),或检测海洋污染等等。但数据有很多缺失值:62.2%磷酸、硝酸为59.9%,27.22% ,等,和缺失数据的大小从三分之一小时到几个月不等。
大多数提出了多元时间序列分析模型处理不完整数据集通常有困难,尽管他们强大的技术。他们通常需要完整的数据。问题是如何处理缺失值吗?忽视或删除一个简单的方法来解决这个缺点。但严重的问题经常出现在应用这个解决方案。这是著名的在时间序列数据被认为是依赖于之前的值。此外,基于系统的分析观察到的和未被注意的数据之间的差异会导致偏见和不可靠的结果4]。因此,重要的是要提出一个新的技术来估计缺失值。归责的技术是一个传统的方法处理不完备问题[5]。
考虑归责方法多元时间序列,利用变量通常被应用于预测缺乏数据之间的相关性(6- - - - - -11]。这意味着允许使用可用的价值特性的关系估计缺失值的其他特性。然而,考虑到多元数据集有低/ noncorrelations(例如MAREL-Carnot数据集),全部变量的观测值不能被利用来完成属性包含缺失值。来处理缺失数据在这种情况下,我们必须采用独特的变量的观测值与缺失的数据计算出不完整的价值观。因此该方法来管理这类信号的高水平的不确定性。
特别是,不完美的时间序列可以使用模糊集模型。模糊方法可以处理不完整数据,模糊的、不精确的情况下(12),提供一个高不确定性的环境做出的决定。这个属性允许建模和短期预测城市干线交通流网络使用多元交通数据(13,14]。近期作品对城市交通流量预测(15和变道预测16)已经提出了成功。此外,fuzzy-based相似性度量的成功使用模式识别(17在检索系统中,12),在推荐系统(18)引导我们学习的能力完全不相关的多元时间序列中的遗漏值。王等人。19提议使用信息颗粒和模糊聚类时间序列长期预测。但据我们所知,没有应用程序用来完成巨大的差距(s)在使用模糊权重不相关的多元时间序列相似性度量。
因此,本文旨在提出一种新的方法,名叫FSMUMI大型缺失值填补低/不相关的多元时间序列通过开发一个新的相似性度量基于模糊逻辑。然而,估计缺失值的分布和整个信号是非常困难的,所以我们的方法使得一个假设的有效模式(或复发性数据)在每个信号。
本文的其余部分组织如下。节2、相关作品归责方法和模糊相似性测度方法进行了综述。部分3介绍我们的方法完成大型失踪低/不相关的多元时间序列的子序列。接下来,节4演示了我们的实验协议归责的任务。部分5结果与讨论。结论是,在上一节展示了未来的工作。
2。相关的工作
本节礼物,首先,相关工作关于多元归责方法,综述模糊相似性度量及其应用。
2.1。经典的多元归责方法
到目前为止,许多成功的研究一直致力于完成等多元时间序列归责缺失的数据(10,11,20.- - - - - -28]。归责技术可以在不同的角度分类:基于模型和基于机器学习clustering-based归罪技术。
针对基于模型的归责,提出了两种主要的方法。第一个方法是引入了谢弗(20.]。假设所有变量遵循多元正态分布,这种方法是基于多元正态(MVN)模型来确定完成值。第二种方法,即老鼠,是由范Buuren et al。21)和Raghunathan et al。22]。这种方法使用链方程填写不完整的数据:为每个变量缺失值,老鼠计算归罪数据利用所有其他变量之间的关系。
根据基于机器学习的概念归责,很多研究专注于完成多元时间序列的丢失的数据。Stekhoven和Buhlmann6)实现missForest基于随机森林(RF)的多元归责方法。P。Bonissone et al。29日)提出了一种模糊版的RF为模糊随机森林结构。目前只降维分类和在我们的例子中误差也可能只是有趣的相关和不相关的独立变量多元时间序列,如果必要的。在[25),沙阿等人研究了老鼠的变体填写每个变量使用射频产生的估计。结果表明,小鼠和射频的结合比原来的多元归责方法更有效。再邻居(神经网络)的归责也是一个受欢迎的方法等完成缺失值(11,26,27,30.- - - - - -32]。这种方法确定最相似的空间特性来转嫁缺失的数据可用。
除了这些主要技术,clustering-based归责方法视为电动工具完成缺失值由于检测相似的能力。这些技术的目标是将数据分成几个集群时满足下列条件:intercluster相似性最大化和最小化的星团内不同。李等人。33)提出了聚类则归责技术估计缺失值使用最后的集群信息。模糊——(FcM)聚类是一种常见的扩展则。应用squared-norm衡量集群中心和数据点之间的相似性。不同的应用程序基于FcM是归责的调查任务(7- - - - - -9,34- - - - - -38]。王等人。19)使用FcM基于DTW成功预测时间序列长期预测。
一般来说,大部分的归责的多元时间序列算法利用属性之间的依赖关系来预测缺失值。
2.2。基于模糊相似度测量方法
事实上相似性时间序列分析方法是一种很有前途的工具。然而,许多这些技术依赖于参数调优,他们可能有缺点由于变量之间的依赖关系。本研究的目的是填补缺失值大不相关的多元时间序列。因此,我们必须处理一个高水平的不确定性。Mikalsen et al。39]提出使用GMM(高斯混合模型)和集群内核处理不确定性。整体学习他们的方法需要大量学习的数据集,目前没有在我们的例子中(海洋数据)。所以我们选择了用模糊集模型这种全球不确定性(FS)引入的德40]。这些技术考虑测量所固有的模糊性而非随机性。
不确定性使用三个概念上独特的特点:经典呈现模糊性、随机性和不完全性。这个分类是有趣的对于许多应用程序,比如传感器管理(图像处理、语音处理和时间序列处理)和实际的决策。本文主要关注(传感器)测量治疗但也是相关的其他应用程序。
不完备常常会影响时间序列预测(从海洋获得的时间序列数据如盐度和)。所以看起来自然使用模糊时间序列的子序列之间的相似性来处理这三种不确定性(模糊性、随机性和不完备)。模糊集现在众所周知的,我们只需要提醒“FS的基本定义。“考虑到宇宙 ,一个模糊集 特点是使用模糊隶属函数 :
在哪里代表成员来和相关的不确定性 。在我们的例子中,我们将考虑定义的子序列之间的相似度值。一个解决方案来处理不确定性带来的多元时间序列是使用模糊时间数列的概念(41]。在这个框架中,变量观测是模糊数,而不是实数。在我们的例子中使用了相同的造型考虑距离的子序列,然后我们计算之间的模糊相似性这些子序列找到类似windows为了估计缺失值的观察。
模糊相似度是一个泛化的古典等价的概念,定义了两个对象之间的相似之处(这里是时间序列的子序列)。相似性度量的模糊值在[相比42和一直在扩展43]。在[42)、冠毛和Karacapilidis提出三个主要类型的相似性度量的模糊值,包括(我)基于联盟和交叉操作的措施,(2)措施基于最大的区别,(3)基于不同措施和会员等级的总和。
在[44,45),作者使用这些定义提出一个距离度量空间的语言总结基于模糊原生体。阿尔梅达等人扩展这项工作提出的语言总结分类时间序列(46]。引入相似性度量不仅考虑了语言意义的总结还附加数值特征。同样,古普塔et al。12]介绍了这种方法来创建一个混合相似性度量基于模糊逻辑。用于检索相关文件的方法。在其他研究中,Al-shamri和Al-Ashwal模糊权重的流行的基于内存的相似性措施协同推荐系统(18]。
关于两个时间序列的子序列之间的相似性,我们可以使用DTW成本作为相似性度量。然而,处理加工的高水平的不确定性信号,众多的相似性措施可以用来计算相似余弦相似性,欧几里得距离,皮尔森相关系数。此外,分数的模糊权重组合产生不同的相似性措施可能相对实现检索结果优于使用单一的相似性度量(12,18]。
基于相同的概念,我们提出用模糊规则插值方案模糊等级的会员之间的值。这种方法可以建立一个新的混合相似性度量时间序列的子序列之间寻找类似的值。
3所示。建议的方法
拟议中的归责方法是基于检索和可用的子序列的相似性比较。为了比较子序列,我们创建一个新的相似性度量应用多个模糊规则插值。本节分为两个部分。首先,我们关注的方式来计算一个新的子序列之间的相似性度量。然后,我们提供详细的建议的方法(即基于模糊相似度测量的不相关的多元归责,FSMUMI)转嫁的连续缺失值低/不相关的多元时间序列。
3.1。模糊权重子序列之间的相似性度量
引入一个新的相似性度量使用多个模糊规则插值解决缺失的问题,我们必须定义一个信息粒,引入Pedrycz [47]。的原则合理的粒度的实验数据是基于两个条件:(i)的数字证据积累的范围内数值数据必须尽可能高,(2)同时,颗粒应该尽可能具体的信息(19]。
要回答第一个条件,我们考虑三种不同的距离两个子序列之间的措施( ),( ),包括余弦距离、欧氏距离(这两个措施是在文献中广泛使用的),和相似距离(这是在我们以前的研究(48])。这三个措施定义如下:(我)余弦距离计算(2)。这个系数夹角的余弦值和 (2)欧氏距离计算 为了满足模糊逻辑规则的输入条件,这个距离我们正常化通过这个函数 。(3)相似性度量是定义的函数(4)。这种方法表明之间的相似性百分比和
回答第二个条件,我们使用这三个距离措施(或属性)产生的模糊相似之处(见图42),然后应用模糊推理系统(见图1)使用圆柱形3属性提供的延伸系数来计算一个新的相似性度量。每个距离测量是规范化的论域的值 。
最后,新的相似性度量是由 在哪里 , ,和的权重是余弦,艾德,分别和Sim措施。因此不确定性建模使用FS在相似度计算和保存可以处理高水平的不确定性所示的续集。系数生成的模糊插值系统(图1)。我们使用FuzzyR R-package [49开发这个系统。4语言表达的所有输入和输出变量都低,中,中,高。梯形隶属函数是在这种情况下匹配处理输入和输出空间的隶属程度(图2)。应用多个规则插值建立模糊规则库。所以,64年引入模糊规则。每一个模糊规则提出了以下形式:规则R:如果(是)和(是)和(是)然后(是)和(是)和(是)中, , 。
3.2。FSMUBI方法
让我们考虑一些关于多元时间序列的符号和概念的巨大的差距。一个多变量时间序列表示为一个矩阵与采集的信号大小 。 的价值吗th信号在时间 。 特征向量的吗th观测的变量。就是一个不完整的时间序列包含缺失值。我们定义术语的差距在位置作为一个部分至少一个信号在哪里之间的和 包含连续缺失值 。
这里,我们处理大型低/不相关的多元时间序列中的遗漏值。对于孤立的缺失值( )或小差距,传统的技术可以应用如均值或中位数的值(50,51]。一个当时间差距很大是超过已知的变化过程。例如,在浮游植物研究中,等于一小时”来形容朗缪尔细胞和一天藻华过程(52]。对于小时间序列( 没有应用程序及其变化过程的先验知识,我们当有很大的差距 。
FSMUMI机制的方法是显示在图3。不失一般性,在这个图中,我们考虑一个多元时间序列包括3变量的相关性很低。该方法包括三个主要阶段。第一阶段是建立两个查询和 。第二阶段是致力于找到最相似的窗口查询。这一阶段包括两个小步骤,比较滑动窗口查询通过使用新的相似性度量并选择相似的窗口和 。最后,归责值计算窗口的平均价值和前一个完成的差距。
这种方法集中于填补缺失值低/不相关的多元时间序列。对于这种类型的数据,我们不能利用特征之间的关系来估计缺失值。所以我们必须基于我们的方法观测值在每个信号完成缺失的数据。这意味着我们可以在每个变量完全缺失的数据,一个接一个。此外,我们的方法的一个重要的一点是,每个不完整的信号处理两个时间序列分离,前一个时间序列认为差距,这种差距后一个时间序列。这允许增加类似值的搜索空间。此外,应用该过程(一个接一个),FSMUMI能够处理完全缺失变量的问题(所有丢失的数据在同一索引变量)。
该模型中描述的算法1,主要分为三个阶段:(我)第一阶段:构建查询(cf 1图2)对于每一个不完整的信号差距,两个引用数据库从原始时间序列中提取和构建两个查询窗口检索相似的窗口。之前的数据差距(指出在这种差距(表示)和数据)是两个分离的时间序列。我们注意到差距和之前的子序列吗后各自的子序列的差距。这些查询窗口大小相同的差距。(2)第二阶段:找到最相似的窗口(cf。在图2和图32)为数据库,建立滑动参考窗口(指出)的大小 。从这些窗户,我们最相似检索窗口()查询使用新的相似性度量正如前面部分中定义3所示。1。以下细节:我们第一次发现阈值时,考虑两个窗口可以是相似的。为每一个增量 ,我们计算一个滑动窗口之间的相似性度量和查询 。的从所有获得最大价值计算(步骤一:在算法1)。然后我们找到最相似的窗口查询 。为每个增量相似的窗口 ,一个的滑动参考和查询估计。然后,我们比较这到以确定这参考类似于查询 。我们最终选择最相似的窗口的最大所有类似的窗口(步骤b:在算法1)。执行相同的过程找到最相似的窗口在数据。在建议的方法,动力学和数据之前和之后的一个缺口的形状是一个关键的方法。这意味着我们考虑两个查询(差距)(之前的差距)。这使人们有可能发现窗户有最相似的形状和动态查询。(3)第三阶段(cf。4在图2)当来自两个引用可用时间序列的结果,我们通过平均填补的空白值的窗口前和一个后 。值是用于我们的方法,因为平均模型平均使最终的结果更稳定和公正的53]。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4所示。试验协议
实验进行三个多元时间序列具有相同的实验过程和缺口,在下面详细描述。
4.1。数据集描述
的评估建议的方法,其公布的几个性能算法的比较,我们使用3多元时间序列,一个来自UCI机器学习库,一个模拟数据集(这使我们能够处理缺失值的变量之间的相关性和百分比),最后一个真正的时间序列每小时取样,i(法国)在东英吉利海峡。(我)合成数据集(54]:合成时间序列数据,包括10个特性,100000个采样点。所有数据点在-0.5 + 0.5的范围内。数据出现高度周期性,但不会完全重复。结构在不同的决议。每10个特性是由独立调用的功能: 在哪里产生一个随机整数0之间 。这些数据是非常大的,所以我们只选择一个子集的信号进行实验。(2)模拟数据集:在第二个实验中,模拟数据集包括3信号产生如下:第一变量,我们用5正弦函数有不同的频率和振幅 。接下来,3各种噪音被添加到数据 , 。然后重复4倍(这个数据集有32000个采样点)。在这项研究中,我们处理缺失数据在低/不相关的多元时间序列。为了满足这个条件,剩下的两个信号的生成是基于第一信号,这些信号之间的相关性很低()。我们应用的Corgen功能ecodist R-package [55创建第二个和第三个变量)。(3)MAREL-Carnot数据集(2]:第三是在MAREL-Carnot数据集上进行实验。这个数据集包含19个系列如磷酸、盐度、浊度,水温、荧光和水描述海水。这些信号的收集2005年1月到2009年2月在一个20分钟的频率。他们每小时采样,所以他们有35334次样本。但数据包括许多缺失值,每个信号缺失数据的大小不同。评估方法的性能并与其他方法进行比较,我们选择一个小组包括荧光、水位、水温(水位和荧光信号完成数据,而水温包含孤立的缺失值和许多空白)。我们选择这些信号,因为他们的相关性很低。在完成缺失值,完成数据与实际值相比会完成系列评估不同的归责方法的能力。因此,有必要在水温填补缺失值。为了确保所有算法的公平性,填写水温系列是由使用na.interp方法([56])。
4.2。多元归责方法
在目前的研究中,我们执行算法的比较与7其他方法(包括阿米莉亚II、FcM、MI、老鼠、missForest, na。约,DTWUMI)多元时间序列的归责。我们用R语言执行所有这些算法。(1)阿米莉亚二世(阿梅利亚II R-package) [57]:该算法使用熟悉的采用算法在多个引导原始样本不完整的数据绘制的完整的数据值参数。然后算法吸引从每个组引导参数,估算值代替缺失值的值。(2)FcM-Fuzzy ——基于归责:此方法包括两个步骤。第一步是整个数据组集群使用模糊-技术手段。每个样本的集群成员和集群中心为每个生成功能。第二步是填写不完整的数据,利用隶属度和中心质心(33]。我们的原则基础上33),并使用则函数(58开发这种方法)。(3)心肌梗死:多个归责(MI R-package) [59:这种方法使用预测意味着匹配估计缺失值的连续变量。对于每一个缺失值,其归责值是随机选择从一组观察值最接近的预测意味着与缺失值的变量。(4)老鼠:多元归责通过链方程(老鼠R-package) [60):为每一个不完整的变量的假设下3月(随机缺失),该算法充分条件规范执行完成的预测模型。相同的过程实现与其他变量缺失的数据。(5)missForest(missForest R-package) [6):该算法使用随机森林方法完成缺失值。对于包含缺失数据的每个变量,missForest可用数据构建一个随机森林模型。应用这个模型来估计缺失的数据变量,重复这个过程,直到满足停止条件。(6)线性插值:na.approx(动物园R-package) [61年):这种方法是基于一个插值函数来预测每个缺失点。(7)DTWUMI(62年]:对于每一个缺口,这种方法找到最相似的窗口(resp后的子序列。之前)的差距的基础上,结合形态特征提取和动态时间规整算法。然后,前面(分别地。后)窗口的最相似的一个不完整的信号是用来完成差距。
4.3。归责性能测量
为了估计归责方法的定量性能,通常六个标准文献中使用如下:(1)相似性评估估计之间的相似的百分比值()和各自的实际价值()。这个指数被定义为 其中T是缺失值的数量。相似倾向于1时,两条曲线是相同的,倾向于0时振幅强烈不同。(2) 分数是确定两个变量之间的相关系数的平方和 。这个指标可以评估一个归责模式的质量。方法提供了更好的性能,当其得分较高( )(3)均方根误差(均方根误差)是计算的平均平方之间的区别和 。这是一个欣赏系数来衡量全球完成方法的能力。一般来说,较低的RMSE突显出一个更好的归责的性能。 现在承认,好归责性能并不一定会导致良好的估计性能。这就是为什么女性性功能障碍等其他指标,FA2, FB(使评估两个信号的形状)被用于这项研究。(4)女性性功能障碍(标准差的分数)被定义为 这一部分指出是否一个方法是可以接受的。申请归责任务,当女性性功能障碍值趋于0,一个归责方法是完美的。(5)弗拉维奥-布里亚托利:部分偏见:确定预测值高估或低估了相对于观测值 。这个指标是由(10)。一个归责模式被认为是理想的FB = 0。 (6)FA2定义两个变量之间的离群值的百分比和 。这是所描述的 当FA2值接近于1,一个模型被认为是完美的。
4.4。实验过程
事实上,评估的能力归责方法不能做,因为缺乏实际的值。所以我们必须生产人工缺失的数据时间序列完成为了比较归责方法的性能。我们使用一种技术基于评估结果详细在以下三个步骤:(我)第一步:生成模拟缺失值通过删除数据值从完整的时间序列。(2)第二步:归责方法适用于填写缺失的数据。(3)第三步:评估建议的方法的能力和使用不同的性能指标上述比较先进的方法。
在本文中,我们对三大执行实验水平七缺失数据的数据集。在每一个信号,我们创建模拟差距与不同的利率从1%,2%,3%,4%,5%,7.5%,10%的数据完整的信号(这里的最大差距MAREL-Carnot数据是3533人失踪每小时采样的值对应于5个月)。对于每个缺失率,方法是运行5次通过随机选择的位置丢失的数据。然后,我们执行为每个数据集迭代。
5。结果与讨论
本节提供建议的方法的实验结果和比较的能力与七发布方法。结果讨论了三个部分,即。,quantitative performance, visual performance, and execution times.
5.1。量化性能比较
表1,2,3说明各种归责方法合成的平均能力,模拟,MAREL-Carnot使用时间序列测量之前定义。对于每一个失踪的水平,最好的结果以粗体突出显示。这些结果表明了改进的性能FSMUMI完成缺失数据的低/不相关的多元时间序列。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
合成数据集。表1提出了一种比较8归责方法合成数据集,其中包含7缺失数据的水平(1 - 10%)。结果清楚地表明,当间隙尺寸大于2%,该方法产量最高的相似度, ,FA2 RMSE最低,FB。这个数据集,na。一个pprox gives the best performance at the smallest missing data level for all indices and is ranked second for other ratios of missing values (2-5%) for similarity and FA2, RMSE (2-4%), and(缺失率2%,排名为3%,5%)。结果可以解释,合成一个函数生成的数据(6)。na.approxmethod applies the interpolation function to estimate missing values. So it is easy to find a function to generate values that are approximate real values when missing data rates are small. But this work is more difficult when the missing sample size rises; that is why the ability of na.approx decreases as missing data levels increase, especially at 7.5% and 10% rates. Although this dataset never exactly repeats itself and our approach is proposed under the assumption of recurrent data the FSMUMI approach proves its performance for the imputation task even if the missing size increases.
在FcM-based考虑方法,方法是不准确在缺失率有所降低,但它提供了更好的结果在更大的缺失率的精度指标。
模拟数据集。表2说明了不同的评价结果归责算法在模拟数据集。每个失踪水平最好的值以粗体突出显示。我们提出的方法优于其他方法的归责任务精度指标:相似性最高, ,和最低的RMSE在每一个失踪的比率。然而,当考虑其他指标如FA2,女性性功能障碍,和FB, FSMUMI不再显示了它的性能。它只涨幅在4% FB指数和FA2比率为10%。FSMUMI相比,DTWUMI为女性性功能障碍提供了最好的结果指标在所有失踪的水平,在第一个5 FA2失踪比例(从1%到5%)。
不同的合成数据集,在模拟数据集,FcM-based方法总是排名第三的缺失率相似性和RMSE指标。FcM missForest算法后的两个指标。
虽然在第二个实验中,数据是由不同功能但却相当复杂,na。约不提供良好的结果。
MAREL-Carnot数据集。再一次,报道在表3,我们的算法演示了归责任务的能力。FSMUMI方法产生最好的结果作为对精度指标几乎缺失比率(扣除2%失踪水平指数,缺失率5%分数)。但是当考虑形状指标,FSMUMI只提供最高FA2值在几个失踪的水平(3%,5%,-10%)。特别是,我们的方法说明了与大型填写不完整的数据的能力缺失率(7.5%和10%):相似性最高, ,FA2 RMSE最低,女性性功能障碍(不含7.5%),和facebook。这些漏洞对应每小时110.4和147.2天采样频率。
在上面的两个数据集相比,MAREL-Carnot数据,na。一个pprox indicates quite good results: the permanent second or third rank for the accuracy indices (the在缺失率为5%分数),最低的女性性功能障碍(缺失率从3%到5%),和FB其他水平的缺失的数据。但当看着归责的形状从这种方法生成的值,它绝对让最坏的结果(图6)。
其他方法(包括FcM-based归责、MI、老鼠,阿米莉亚,和missForest)利用属性估计缺失值之间的关系。然而,三个考虑数据集变量之间的相关性较低(0.2全面MAREL-Carnot数据,模拟和合成数据集)。所以这些方法不展示他们的表现完成缺失值低/不相关的多元时间序列。否则,我们的算法显示其能力和稳定时申请的归责任务类型的数据。
DTWUMI方法提出了大型缺失值填补低/不相关的多元时间序列。然而,这种方法不是FSMUMI一样强大的方法。DTWUMI只会产生最好的结果在2%失踪的水平MAREL-Carnot数据集和总是在第二或第三等级其余失踪利率MAREL-Carnot和模拟数据集。这是因为DTWUMI方法只找到最相似的窗口查询这个差距,差距之前或之后,它只使用一个相似度衡量,DTW成本,获取最相似的窗口。此外,另一个原因可能是DTWUMI后直接使用数据从窗口或最相似的窗口前完成的差距。
5.2。视觉性能比较
在这篇文章中,我们也比较完成的可视化性能值产生了不同的算法。数据4和5说明的形式估算值产生不同的方法合成系列两个缺失率为1%和5%。
在缺失率为1%,污名的值由na的形状。一个pprox method is closer to the one of true values than the form of completion values given by our approach. However, at a 5% level of missing data, this method no longer shows the performance (Figure5)。在这种情况下,该方法证明其相关性归责的任务。FSMUMI归罪数据的形状几乎是类似于真实值(图的形式5)。
查看图6,FSMUMI再一次证明了它的功能不相关的多元时间序列归责:完成由FSMUMI价值观产生了几乎相同的MAREL-Carnot数据集上的真实数据。DTWUMI FSMUMI比较的时候,很明显,FSMUMI提供改进的结果(数据4,5,6)。
5.3。计算时间
此外,我们执行一个比较每种方法的计算时间的合成系列(第二)。表4表明na。一个pprox method requires the shortest running time and DTWUMI approach takes the longest computing time. The proposed method, FSMUMI, demands more execution time as missing rates increase. However, considering the quantitative and visual performance of FSMUMI for the imputation task (Table1,数据5和6),所需的时间建议的方法是完全可以接受的。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
6。结论
本文提出了一种新颖的方法不相关的多元时间序列归责使用模糊基于逻辑的相似性度量,即FSMUMI。这种方法可以管理不确定性的可理解性语言变量。FSMUMI已经测试了在不同的数据集,而发表的算法(FcM,阿米莉亚II MI、老鼠、missForest, na。约,DTWUMI)精度和形状标准。这些方法也是研究的视觉能力。实验结果肯定强调该方法取得了提高性能精度在以前方法的多元时间序列之间有巨大的差距和低或non-correlation变量。然而,有必要做一个假设的复发性数据和足够大的数据集应用算法。这意味着我们的方法需要模式(在我们的例子中,两个查询(考虑前后差距))现有数据库中的某个地方。这使我们能够预测缺失值的模式发生在过去或在以下的数据位置。因此一个令人满意的和足够的数据集(大数据集)是必需的。
在未来的工作中,我们计划(i)结合FSMUMI方法与其他算法如随机森林或深度学习为了有效地填补完整值在任何类型的多元时间序列;(2)调查这种方法应用于多变量时间序列的短期/长期预测。我们还可以研究复杂模糊集([63年]),而不是普通的模糊集,得到好的结果使用一种自适应方案的双变量时间序列与小数据集。
数据可用性
使用的数据来支持本研究可从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是支持的请教育部国际教育和培训越南发展,法国政府,和菲德尔,该地区Hauts-de-France (cp 2014 - 2020马可)。实验进行了使用CALCULCO计算平台,支持SCoSI / ULCO(大学滨海)。
引用
- h·t·Ceong h . j . Kim和j·s·公园,“从失败中发现和恢复在沿海海洋USN服务中,“信息和通信融合工程杂志》上,10卷,不。1、11日至20日,2012页。视图:谷歌学术搜索
- a . LefebvreMAREL卡诺从科里奥利数据中心数据和元数据,2015年SEANOE。视图:出版商的网站
- k . Rousseeuw e·泊松Caillault a . Lefebvre d·哈马德,“混合隐马尔可夫模型对海洋环境监测、”IEEE选择杂志的主题应用地球观测和遥感,8卷,不。1,第213 - 204页,2015。视图:出版商的网站|谷歌学术搜索
- g .霍桑和p .艾略特,”冠之横断面缺失的数据:比较常见的技术,”澳大利亚和新西兰精神病学杂志》上,39卷,不。7,583 - 590年,2005页。视图:出版商的网站|谷歌学术搜索
- h . Junninen h . Niska k . Tuppurainen j . Ruuskanen和m . Kolehmainen“归责方法缺失值的空气质量的数据集,”大气环境,38卷,不。18日,第2907 - 2895页,2004年。视图:出版商的网站|谷歌学术搜索
- d . j . Stekhoven和p . Buhlmann Missforest-Non-parametric缺失值归咎为混合型数据,”生物信息学,28卷,不。1,第118 - 112页,2012。视图:出版商的网站|谷歌学术搜索
- h . Ichihashi k .本田、a . Notsu和t .八木”模糊c均值分类器确定的初始化和缺失值归责,”学报2007年IEEE研讨会的基础计算智能,2007年焦点,页214 - 221,美国,2007年4月。视图:谷歌学术搜索
- p .萨拉瓦南和p . Sailakshmi缺失值归责使用模糊可能性c意味着与支持向量回归和遗传算法优化,“理论和应用信息技术杂志》上,卷72,不。1,34-39,2015页。视图:谷歌学术搜索
- t·古吴建,Shin-ichi Yamanoi孝宏。失踪的分类数据归责FCM聚类的混合不完整的数据,2014年。
- y邓,c . Chang m . s .我问:长,“多重填补方式一般在高维数据缺失的数据模式,”科学报告》第六卷,ID 21689条,2016年。视图:出版商的网站|谷歌学术搜索
- s . Oehmcke o . Zielinski o·克莱默,”然而,乐团与惩罚DTW多元时间序列归责,”《2016国际联合神经网络会议上,IJCNN 20167月,页2774 - 2781,加拿大,2016。视图:谷歌学术搜索
- y Gupta, a .赛,a . k . Saxena”模糊基于逻辑的方法来制定有效的信息检索,混合相似性度量”信息科学杂志》,40卷,不。6,846 - 857年,2014页。视图:出版商的网站|谷歌学术搜索
- l . Dimitriou t Tsekeris, a . Stathopoulos”自适应混合模糊规则系统方法对城市交通流建模和预测,“交通研究部分C:新兴技术,16卷,不。5,554 - 573年,2008页。视图:出版商的网站|谷歌学术搜索
- a . Stathopoulos m . g . Karlaftis和l . Dimitriou“模糊规则系统结合交通统计预测方法,”交通研究记录,没有。2183年,第128 - 120页,2010年。视图:谷歌学术搜索
- j . h . b .阴,s . c . Wong徐,和c k . Wong“城市交通流量预测使用选别方法”,交通研究部分C:新兴技术,10卷,不。2、85 - 98年,2002页。视图:出版商的网站|谷歌学术搜索
- w . j . Tang f . Liu, r·柯和y .邹,“变道基于自适应模糊神经网络预测。”专家系统与应用程序卷,91年,第463 - 452页,2018年。视图:出版商的网站|谷歌学术搜索
- Shahmoradi和美国阿訇Shouraki”,一种新颖的模糊评价序列模式识别工具(模糊弹性匹配机器)及其应用在语音和手写识别,”应用软计算卷,62年,第327 - 315页,2018年。视图:出版商的网站|谷歌学术搜索
- m . y Al-Shamri和n . h . Al-Ashwal”模糊权重相似措施基于内存的协作推荐系统,”《智能学习系统和应用程序》第六卷,没有。1、1 - 10,2014页。视图:出版商的网站|谷歌学术搜索
- w . w . n . Wang Pedrycz, x·d·刘,“时间序列长期预测模型基于颗粒和模糊聚类的信息,“人工智能技术的工程应用卷,41 17-24,2015页。视图:出版商的网站|谷歌学术搜索
- j·l·谢弗不完整的多元数据分析查普曼&大厅,纽约,纽约,美国,1997年。视图:MathSciNet
- s . Van Buuren h . c . Boshuizen, d . l . Knook“失踪的多个归罪血压在生存分析中,反是;”医学统计,18卷,不。6,681 - 694年,1999页。视图:出版商的网站|谷歌学术搜索
- e·r·Trivellore m . l . James h·范·约翰,和p . Solenberger”冠之缺失的值相乘的多元技术使用一系列的回归模型,”调查方法,27卷,不。1,第96 - 85页,2001。视图:谷歌学术搜索
- j . m .恩格斯和p . Diehr案中的理由,”污名失踪的纵向数据:比较的方法,”临床流行病学杂志卷,56号10日,968 - 976年,2003页。视图:出版商的网站|谷歌学术搜索
- p·罗伊斯顿,“多个归责缺失值:冰的进一步更新,重点是间隔审查,”占据杂志,7卷,不。4、445 - 464年,2007页。视图:谷歌学术搜索
- 公元沙,j·w·巴特利特,j .木匠,o·尼古拉斯,和h .海明威“比较的随机森林和参数的归责模式将丢失的数据使用老鼠:口径的一项研究中,“美国流行病学杂志》,卷179,不。6,764 - 774年,2014页。视图:出版商的网站|谷歌学术搜索
- s . g .辽林y, d·d·康et al .,”缺失值归罪在高维phenomic数据:可归因的与否,以及如何?”BMC生物信息学,15卷,不。1,2014。视图:出版商的网站|谷歌学术搜索
- s a·拉赫曼y黄,j . Claassen n . Heintzman和s . jonkleinberg”结合傅里叶和滞后再归罪为生物医学时间序列数据”生物医学信息学杂志58卷,第207 - 198页,2015年。视图:出版商的网站|谷歌学术搜索
- 安德鲁·g·h·詹妮弗,s Yu-Sung et al .,苏Yu-Sung,2015年。
- p . Bonissone j . m . cadena m·c·加里多和r . A . Diaz-Valladares“模糊随机森林,”国际期刊的近似推理,51卷,不。7,729 - 747年,2010页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- h。许,a·c·杨,医学博士。,“基于KNN-DTW缺失值归责微阵列时间序列数据,”电脑杂志》第六卷,没有。3、418 - 425年,2011页。视图:谷歌学术搜索
- c . y .安迪·h·Hui-Huang, l . Ming-Da微阵列基因表达数据。在、金门、台湾,2009年。
- e . Kostadinova诉Boeva、l . Boneva和e . Tsiporkova”一个综合DTW-based归罪基因表达时间序列数据的方法,”学报2012年IEEE国际会议6日智能系统,是2012保加利亚,页258 - 263年,2012年9月。视图:谷歌学术搜索
- j . d . Li Deogun、w·丁和b . Shuart”对缺失的数据归责:模糊k - means聚类方法的研究”粗糙集,计算当前的趋势卷,3066课堂讲稿的第一版。科学。施普林格,页573 - 579年,柏林,2004年。视图:出版商的网站|谷歌学术搜索|MathSciNet
- h . g . j . Tang, y Wang Wang和f·刘,“基于混合方法将模糊c归责方法和遗传算法对缺失的交通量数据估计,“交通研究部分C:新兴技术卷,51 29-40,2015页。视图:出版商的网站|谷歌学术搜索
- i b Aydilek亚斯兰A,“归责的混合方法缺失值使用优化的支持向量回归机与模糊c和遗传算法,”信息科学卷。233年,25 - 35,2013页。视图:出版商的网站|谷歌学术搜索
- t·古河道,siv。吴建,t . Yamanoi”模糊c均值算法混合使用部分距离和归责,不完整的数据”学报的国际MultiConference工程师和计算机科学家,IMECS 2014香港,页319 - 323年,2014年3月。视图:谷歌学术搜索
- Azim和s . Aggarwal”混合模型对数据归责:使用模糊c手段和多层感知器,”学报的第四届IEEE国际预先计算会议(IACC的14)古尔加翁,页1281 - 1285年,印度,2014年2月。视图:出版商的网站|谷歌学术搜索
- j .唐、张,y . Wang h . Wang f . Liu和s . Yu”缺失的交通数据归责基于模糊c均值方法通过考虑时空相关性,”交通研究记录卷,2528年,第95 - 86页,2015年。视图:出版商的网站|谷歌学术搜索
- k .Ø。Mikalsen, f·m·比安奇,c . Soguero-Ruiz和r . Jenssen”时间序列集群学习内核的多元时间序列相似性与缺失的数据,”模式识别卷,76年,第581 - 569页,2018年。视图:出版商的网站|谷歌学术搜索
- 洛杉矶德,“模糊集”,信息和计算,8卷,第353 - 338页,1965年。视图:谷歌学术搜索|MathSciNet
- h . j . Sadaei f . g .吉马良斯c·席尔瓦·m·h·李和t·伊斯拉米“基于模糊时间序列的短期负荷预测方法,季节性和长记忆过程中,“国际期刊的近似推理卷,83年,第217 - 196页,2017年。视图:出版商的网站|谷歌学术搜索|MathSciNet
- c·p·冠毛和n i Karacapilidis模糊值的比较相似的评估措施,”模糊集和系统卷,56号2、171 - 174年,1993页。视图:出版商的网站|谷歌学术搜索
- m . s . s . m . Chen叶,p . y .萧”比较模糊值的相似性措施”,模糊集和系统,卷72,不。1,第89 - 79页,1995。视图:出版商的网站|谷歌学术搜索|MathSciNet
- A . Wilbik和j·m·凯勒”,距离度量空间的语言总结,“模糊集和系统卷,208年,第94 - 79页,2012年。视图:出版商的网站|谷歌学术搜索|MathSciNet
- A . Wilbik和j·m·凯勒”模糊度量相似性的语言总结,“IEEE模糊系统,21卷,不。1,第189 - 183页,2013。视图:出版商的网站|谷歌学术搜索
- r·j·阿尔梅达蔡明俊。Lesot, b . Bouchon-Meunier Kaymak, g . Moyses”语言总结感染性休克病人的分类时间序列数据,”学报2013年IEEE国际会议在模糊系统中,FUZZ-IEEE 20132013年7月,印度。视图:谷歌学术搜索
- w . Pedrycz和f . Gomide模糊系统工程:向以人为中心的计算美国新泽西州霍博肯市约翰·威利,2007年。
- T.-T。表象,E。泊松Caillault、a . Lefebvre和a . Bigand”动态时间warping-based归咎为单变量时间序列数据,”模式识别的字母,2017年。视图:谷歌学术搜索
- j·加里波第,c .曹国伟和f . Tajul”R2017 FuzzyR:模糊逻辑工具箱”,R包版本2.1,2017年。视图:谷歌学术搜索
- d·a·保罗,缺失的数据定量应用社会科学卷。136年,圣人出版,2001年。
- m·b·克里斯托弗模式识别和机器学习(信息科学和统计)斯考克斯市,新泽西,美国,斯普林格出版社,2006年版。
- t·d·迪基“新兴跨学科的海洋观测数据同化系统,”海洋系统杂志卷,40-41 5-48,2003页。视图:出版商的网站|谷歌学术搜索
- m . Schomaker和c·休曼模型选择和模型平均多重填补方式后,“计算统计和数据分析卷,71年,第770 - 758页,2014年。视图:出版商的网站|谷歌学术搜索|MathSciNet
- e·j·基奥和m . j . Pazzani”快速索引方案在大型时间序列数据库相似性搜索,”第11届国际会议上科学学报》和统计数据库管理(SSDBM ' 99),页56 - 67年,克利夫兰,俄亥俄州,美国,1999年7月。视图:出版商的网站|谷歌学术搜索
- s . c . Goslee和d . l .城市“ecodist包dissimilarity-based生态数据的分析,“杂志的统计软件,22卷,不。7 - 2007页。视图:谷歌学术搜索
- R . j . Hyndman和y Khandakar自动时间序列预测:预测包R,”杂志的统计软件,27卷,不。3、22页,2008页。视图:出版商的网站|谷歌学术搜索
- j . Honaker g .国王,m·布莱克威尔“阿米莉亚II:程序缺失的数据,”杂志的统计软件,45卷,不。7,1-47,2011页。视图:谷歌学术搜索
- m . David e . Dimitriadou k . Hornik a . Weingessel和l·弗里德里希e1071: Misc功能部门的统计,概率理论集团(原:e1071),涂Wien2015。1.6版本7 R包。
- Y.-S。苏,a > j·希尔,m . Yajima”多个归罪与诊断(mi) R:黑盒打开窗户,“杂志的统计软件,45卷,不。2日至31日,2011页。视图:谷歌学术搜索
- 美国范Buuren和k . Groothuis-Oudshoorn”老鼠:多元归责链方程R,”杂志的统计软件,45卷,不。3、1 - 67、2011页。视图:谷歌学术搜索
- a . Zeileis和g . Grothendieck安德鲁斯Felix。动物园:S3基础设施规则和不规则的时间序列(Z命令观察),14卷,2016年。
- t .表象,e . p . Caillault a . Lefebvre和a . Bigand”DTW方法应用于船用单变量时间序列归责,”海洋学报》2017 -阿伯丁英国阿伯丁,页1 - 7,2017年6月。视图:出版商的网站|谷歌学术搜索
- o . Yazdanbakhsh和美国迪克”,系统回顾复杂的模糊集和逻辑,“模糊集和系统卷。338年,22页,2018页。视图:出版商的网站|谷歌学术搜索|MathSciNet
版权
版权©2018 Thi-Thu-Hong表象等。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。