硬盘驱动器故障预测为移动计算基于递归神经网络LSTM边缘

文摘

智能应用程序和服务的增加,实时视频监控系统,移动边缘计算和物联网(物联网),技术很大程度上参与了我们的日常生活中。然而,这些系统的可靠性不能总是保证由于硬盘驱动器(HDD)失败的边缘节点。具体来说,大量的读/写操作和危险边缘环境维护工作更加困难。硬盘故障预测的可伸缩性和低开销主动容错方法来提高设备的可靠性。在本文中,我们提出一个LSTM递归神经网络硬盘故障预测模型,利用长时间开车健康数据的依赖特性来提高预测效率。此外,我们设计一个新的健康度评价方法,存储当前卫生细节和恶化。综合实验两个真实的硬盘数据证明该方法取得了良好的预测精度较低的开销。

1。介绍

最近的应用程序和服务都大大增加,全球物联网在2020年达到1.29万亿美元的支出。例如,视频监控是广泛应用于公共和私人安全环境,伴随着户外摄像机的普及,数据存储的成本,和传输是巨大的(1]。保证的性能监测系统,移动边缘计算解决方案和物联网技术应用于实时处理和传输大量的数据(2]。边缘节点负责收集数据从一个或多个传感器和执行轻量级预处理计算。因此,频繁的读写操作,结合危险边缘环境(如剧烈振动和高温)导致硬盘失败率高。它极大地影响监测系统的可靠性和性能。

被动失败宽容是一种常见的技术用于提高存储系统的可靠性数据中心(3]。然而,这种技术并不适用于移动计算环境边缘由于成本高,伸缩性差(4]。因此,它是非常紧急开发合适的主动容错方法。

通常硬盘故障预测方法分析驱动健康数据和替换日志建立分类模型;然后,它将表明soon-to-fail hdd。一旦检测到即将发生的故障,预测系统提醒管理员和更换驱动器备份数据。硬盘驱动器制造商通常采用阈值算法,建立了基于智能(自我监控分析和报告技术)的数据(5]。不幸的是,这种方法的故障检测率(罗斯福)非常低,仅为3 - 10%,误警率(远)大约是0.1% (5]。故障预测的低精度阻碍主动容错方法的有效性。

提高硬盘故障预测的性能,许多machine-learning-based预测方法已经提出,包括贝叶斯算法(6- - - - - -9),支持向量机(SVM) [10),分类树(CT) (11,12),随机森林(RF) (13,14),人工神经网络(ANN) [15],卷积神经网络(CNN) [16递归神经网络(RNN) [],17,18]。RNN-based预测模型实现最高的罗斯福,法尔斯和RF-based模型达到最低的。原因是驱动健康数据提取的时间依赖RNN模型获取驱动恶化的特点,而早期的研究者(5,7]以来很少利用时间序列特征数据集规模很小。然而,传统的RNN模型只保持短期记忆由于梯度消失或爆炸19]。为了解决这个问题,一些研究人员(17,19采用分割方法来简化驱动恶化。不幸的是,与云计算、移动计算边缘更糟糕的环境条件导致更复杂的恶化。因此,该方法没有很好的工作。此外,标签的准确性硬盘健康状况也是一个主要决定因素的预测性能。二进制方法和恶化度被广泛使用的方法,但前者忽略了hdd的恶化过程当前健康状况高度相关,而后者只需要考虑时间序列。样本不平衡也是一个重要障碍为硬盘故障预测好的驱动器的数量远远超过失败的驱动器的训练数据集。

在本文中,我们应用长期短期记忆(LSTM) RNN检测异常驱动健康样本根据长时间开车健康数据的依赖特性。LSTM模型复杂多变量序列准确。为了提高训练样本标签的准确性,我们提出一个新颖的健康度评估方法,同时考虑时序特性和驱动健康状况全面描述驱动的恶化。解决不平衡的问题样品,我们使用k - means clustering-based欠采样的方法来减少训练集样本的规模好驱动器。它保留好驱动的特征样本,极大地降低了计算开销。

本文的主要贡献如下:(1)我们提出一个LSTM-RNN-based硬盘故障预测模型为移动计算环境。它提取的长期驱动健康数据的时序依赖特性来改善健康度计算的准确性。(2)健康度评估方法,考虑了时间序列特性和当前健康状况的驱动器在训练集解决标签问题。(3)我们进行了综合评价与两个真实数据集从生产数据中心。实验结果表明,该预测模型可以归档一个罗斯福的94.49%到0.09%,和大多数驱动器的交货期不超过168小时。大多数soon-to-fail驱动器预计7天之内,这是合理的和可接受的。

本文的其余部分的结构如下。第二节回顾智能的背景信息,推动健康评估及相关工作。第三节介绍了LSTM-RNN-based预测模型和硬盘健康度评价方法。第四节介绍了实验结果,包括与最先进的故障预测方法。第五节总结了纸。

2.1。聪明的

聪明是一种自我监控系统用于收集和报告各种性能指标的HDD,几乎所有支持的硬盘制造(5]。智能允许30内置驱动器属性,如重新分配部门数(RSC),自旋向上的时间(SUT),并寻求错误率(SER)。每个属性有五个字段、原始数据值、阈值,最值,和地位。原始数据是由一个传感器测量值或一个计数器。值是当前原始数据的归一化值;算法计算的值被定义为硬盘驱动器制造商和制造商之间的不同。智能问题故障报警用户当任何属性的值超过给定的阈值,它就变成了一个警告。

智能驱动属性大致可以分为两组,增量计数和累积计数(20.]。前者记录增量误差项在一个固定的时间间隔。大部分的智能属性属于这个群体,如SUT,从权力的时间准备数据传输。RSC的计数是重新分配领域,这是一个磁盘媒体的健康状况的指标;这个属性属于累积计数组。累积计算属性,它们的值和改变利率关联与退化的驱动器和有利于检测异常聪明的样本。因此,我们添加的值以及利率的智能属性更改为候选特征子集。

2.2。推动健康评估

推动健康评价直接影响soon-to-fail驱动器的预测精度,主要分为三组:二进制方法(8,20.),相位法(17),和健康程度的方法(11,18,21]。

二进制方法分类驱动健康分为两种状态:失败,好。驱动恶化通常是一个循序渐进的过程;然而,这些评价方法忽略了开车健康的变化过程,从而导致不满意的罗斯福和一个大范围的交货期。

相位法分离传动退化的过程分为几个阶段。徐et al。17)驱动器的健康状况分为六层,随着时间的推移逐渐减少。6和5水平表明,驱动是好的和公平,分别。1 - 4水平意味着开车会失败。1级表示剩余时间小于72小时。标准的区间划分方法取决于经验。

健康度方法构建函数来描述驱动退化。朱et al。10)使用了一个线性函数来描述和时间序列之间的关系恶化,这个函数的值范围在哪里(−1,0)。然而,这些评价功能的健康程度只改变随着时间的推移,和推动健康也改变系统工作负载波动在真实的存储系统。因此,线性评价方法也不能足够准确地描述恶化过程。黄等。21]提出了一种量化的方法评估的健康状态hdd基于欧氏距离的方法和将失败的硬盘分成三组进行分析最后驱动健康样本。每组的CART-based预测模型是建立驱动器。研究者认为,驱动一组有一个类似的恶化过程和建立退化模型为每个组。驱动结构复杂,驱动恶化是受到内在和外在因素的影响,比如健康状况,工作负载,和年龄。健康度计算简单的基于欧几里得距离涉及nonignored噪音。因此,我们提出的评价方法模型考虑当前驱动器一起来改善健康状况和恶化样品标签的准确性。

2.3。预测Soon-To-Fail hdd

预测soon-to-fail hdd通常使用统计方法,贝叶斯方法,支持向量机,摘要,决策树,随机森林,RNN, CNN。

考虑到许多nonparametrically分布式智能属性,休斯等。20.)采用了多元rank-sum测试和一个单一变量或者艾德测试来检测soon-to-fail驱动器。rank-sum测试只是用于特征选择为以后相关研究(22]。

贝叶斯方法是常用的故障检测。马等。9)发现,RSC与驱动器故障并提出RAIDShield,使用贝叶斯预测驱动失败RAID存储系统。这种方法消除88%的三重磁盘错误。贝叶斯网络的故障预测方法已用于转移学习这硬盘模型和大量的数据可以用来为驱动器与缺乏数据建立预测模型(6]。贝叶斯网络的故障预测方法在hdd (BNFH) [7)提出了估计剩下的hdd的生活。

BPNN-based模型和一种改进的支持向量机模型(10)是一个聪明的数据集从百度的数据中心。罗斯福摘要模型取得了高于SVM,和SVM获得较低。实验数据包含22962好驱动器和433驱动失败,和这个数据集的规模远远大于以前的研究的数据集。

李等人。11]提出CT-based和分类和回归树(CART)的预测模型,实现了罗斯福的95%和0.1%的远。良好的预测性能是由于健康度模型他们提议和一个更大的实验数据集。林康et al。23)用决策树预测硬盘失败由于缺少聪明的值(24]。考尔和考尔(12]介绍了voting-based决策树分类器预测硬盘失败和一个R-CNN-based健康状态的评估方法。使用在线随机森林预测模型(orf),成为新的HDD健康数据到达时,提出了实现在线故障预测硬盘(13]。一个part-voting RF-based失败预测驱动提出了区分故障预测(14]。

比其他的深层神经网络实现更好的性能。颞CNN-based模型系统级硬件故障预测提出了提取离散时间序列数据(16]。RNN-based模型被用于健康状态评估和故障预测的hdd [17]。一个layer-wise perturbation-based对抗训练对硬盘的健康程度预测也提出(18]。这些网络在移动边缘计算[也变得受欢迎24,25]。

上述工作完成好的预测效率;然而,仍有许多改进的空间。在本文中,我们试图使用一个LSTM RNN soon-to-fail HDD预测驱动健康数据提取长时间依赖的特性,提出一种新的健康度评估。

3所示。该方法

在本节中,我们首先介绍一个LSTM-RNN-based分段预测模型3所示。1然后在分段呈现健康度评价方法3所示。2。

3.1。LSTM-RNN-Based预测模型

RNNs被广泛用于各种应用,如语言理解(26),图像处理27),和计算机视觉28]。与人工神经网络不同,RNNs使用其内部记忆过程任意序列的输入样本。因此,选择RNNs驱动健康数据提取时间依赖的特性在我们预测模型计算健康程度的驱动器。

RNN可分为三层:输入层、隐层和输出层。计算细胞在一个RNN时变,实值激活,可修改的重量。相同的权重集使用递归在一个RNN direct-graph-structure网络。让H_我是我th隐藏层和我_我的输入我隐藏层。隐层的输出和输入我_t在时间t有合作的影响在隐层的输出H_t,如以下公式:

通过使用一个RNN,历史推动健康数据持续传播和推动健康数据的时间序列都可以使用。然而,很难RNNs学习远程依赖,因为梯度消失或爆炸29日,30.]。前者描述了长期细胞指数下降梯度为零,而后者描述相反的事件。为了解决这些问题,提出了LSTM架构(19,31日),已成为流行的对于许多应用程序(32,33]。在驱动恶化过程中,某些健康状况变化和工作负载长期影响硬盘健康;LSTM可以占这些长序列。因此,我们建立一个驱动器故障预测模型基于LSTM网络利用的时间依赖性特征驱动的健康数据。

我们的模型有两个阶段:计算健康程度的健康LSTM网络和检测样品的soon-to-fail hdd滑动窗口(见图1)。预测模型来描述我们的建议,考虑图的左边LSTM结构1。LSTM需要驱动健康样本作为输入,并生成健康度的样品进入第二阶段。如图1,X表示一个输入样本序列, ,在哪里x_t代表一个k维向量的一个示例t -时间步长。LSTM块由四部分组成,包括神经细胞状态,忘记门,一个输入门,和一个输出通道。年代是神经状态向量,用于通过历史驱动健康信息。神经细胞状态年代_t−1合并的中间输出和随后的输入x_t内部状态向量,以确定哪些元素需要更新,维护,或抹去。忘记门决定信息的一部分。显示了忘记门由以下方程: 在哪里f_t是忘记门,用于确定是否健康样本的最后时期已被删除从历史;x_t是驱动健康样品时间t;y_t−1开车时的健康程度吗t−1;和W_k和b_k时参数矩阵和向量k= 1,2,3,4。

乙状结肠的价值是“0”和“1”,“0”意味着完全遗忘了,“1”是指完全记录。

输入门由输入、方程所示(3)。LSTM维护一个内部存储单元状态在其整个生命建造时间连接。方程(4显示当前状态。在哪里我是输入,用于确定驱动健康信息从这段时间一直存储在神经状态;h当前状态;和褐色h()是双曲函数,生成一个新的向量,将被添加到状态。LSTM合并现状与历史地位和计算新的神经状态矩阵运算处理后,由以下方程: 在哪里年代_t是神经细胞状态的时间吗t。门的输出显示了由以下方程: 在哪里o是输出,用于确定输出的一部分神经状态和输出值传递给下一个神经元,如以下公式所示: 在哪里y_t健康程度的时间吗t。

在第二阶段中,我们使用一个滑动窗口平滑样本噪声和基于采用点决策方法确定一个驱动器或soon-to-fail一样好。滑动窗口广泛应用于时间序列预测(34]。数的决策方法是显示为下面的公式: 在哪里ε是一个数字大于0,是一个滑动窗口的大小,健康吗_我(j)是硬盘的健康程度我在时间j由LSTM计算。检测到一个驱动器soon-to-fail如果这个驱动程序在一个滑动窗口的健康度都是低于阈值。

3.2。硬盘的健康度评估方法

训练数据集的质量,如样品标签和噪音,确定预测模型的性能在使用深度学习。硬盘恶化是一个循序渐进的过程;我们采用健康程度而不是二进制方法标签驱动健康样本作为一种记录的变化驱动的健康。健康变化趋势和利率是影响使用和驱动器的当前健康状况,所以我们考虑健康状况恶化以及评估硬盘健康程度。

目前我们把驱动健康数据驱动器故障的异常样本,这些样本的健康程度−1。好的驱动器设置为1的样本。作为智能属性的值和改变利率反映hdd的健康状况,我们计算样本之间的相似性t的样品在最后一刻开车去衡量一个给定的硬盘的健康状况t。通过以下所示的相似度计算公式: 在哪里O(我)是样本之间的相似性我最后一个驱动,x_ij的价值吗j样本的特征时间我,x_新泽西的价值吗jth特性的样本在最后一刻,和米样品的数量特征。需要归一化的相似之处(−1,1)。

图2描述了基于相似性健康程度的一个驱动器。很明显,有大型的随机波动,和健康程度有时非常接近−1时仍有超过100小时前失败。不过,根据硬盘退化过程中,健康程度的一个示例方法−1在它接近它的生命的终结。因此,转换函数采用加强健康状态趋势。我们引入一个指数函数或对数函数变换函数。更具体地说,我们导入相似变换函数和作为函数的结果健康程度的驱动在给定的时间。算法1细节的过程计算健康训练集硬盘失败的程度。

	输入:
	(1)驱动的健康样本:healthsamples
	(2)样本的数量特征:featuresNum
	(3)转换函数:
	(4)健康状况的权重和时间: ,
	输出:
	健康程度的一个驱动器:drive_health_degree
	开始
	(1)去年= healthsamples (len (healthsamples) - 1)
	(2)为样品在healthsamples
	(3)而我< featuresNum
	(4)o⟵o+战俘(样本(我)——去年(我),2.0)
	(5)我⟵我+ 1
	(6)Endwhile
	(7)O。追加(√o))
	(8)endfor
	/ /标准化的值O(−1,1)
	(9)O⟵标准(O)
	(10)而我< len (healthsamples)
	(11)E(我]⟵f(我)
	(12)我⟵我+ 1
	(13)Endwhile
	(14)E⟵标准(E)
	(15)而我< len (healthsamples)
	(16)health_degree [我]⟵ω₁O(我)+ω₂E(我]
	(17)Endwhile
	(18)返回health_degree
	结束

我们的评估方法强化健康程度的递减趋势随着时间和保留驱动基于相似性的健康状况的细节。图3显示的结果失败的硬盘的健康度评价方法。红线是由一个对数函数,计算和蓝线是一个指数函数计算。我们喜欢蓝线的指数函数,因为趋势的下降更明显的硬盘故障前的一小段时间内。

健康度波动在一个驱动器的退化。这种现象是因为开车的健康状况变化是受几个因素的影响,如年龄、IO负载,和环境。为了解决这个问题,我们采用平均滤波方法来减少噪音对健康的影响程度。健康度的平均值,不包括最大值和最小值的时间窗口 ,被视为健康程度的时间吗t,在那里滤波窗口的大小。图4显示健康度的平滑结果图3。

4所示。实验结果

评估我们的方法的有效性,我们进行几个实验两个数据集。在本节中,我们介绍了数据集、实验设置、评价指标、数据预处理、特征选择。然后,我们目前的实验结果和分析。

4.1。数据集

有两个数据集用于我们的实验:一个是从百度数据中心(35),另一个是来自Backblaze存储系统(36]。第一个数据集有23395个企业级硬盘,433失败的驱动器和22962好驱动器组成。这些驱动器都是相同的模型。根据替换日志驱动器的数据中心,一个驱动器被贴上“失败”或“好。“智能数据从这些驱动器每小时收集一次。对于每一个故障驱动器,20天智能样品之前使用失败。驱动器,7天使用聪明的样本。总共有156312个样品失败的驱动器和3850141个样本的驱动器。这个数据集的样本只有12个属性:RSC, SUT,爵士,原始读错误率(rr),报告无法改正的错误(街),高飞(HFW)写道,硬件ECC(她)中恢复过来,目前等待部门统计(消费品安全委员会),POH, TC, RSC的原始数据和消费品安全委员会。

Backblaze包括35491桌面级硬盘的数据集有706失败的驱动器和34785年好驱动器组成的80模型在2年以上,这是最大的公共智能数据集。这个数据集的样本收集每一天。在我们的实验中,这个数据集是由驱动模型来减少不同模型的影响,失败率和退化是整个模型和不同的制造商(4]。我们选择三个推动家庭最多的驱动器,即“ST4000DM000”,“HDS722020ALA330,”和“HDS5C3030ALA630”,我们的实验数据。这些数据集的每个样本24智能属性,和所有属性有一个值和原始数据。这四个驱动的细节表中描述的家庭1。明确地描述实验中,这三个推动家庭表示为“B1, B2,”和“B3,”来自百度的数据集表示为“百度”。


数据集	家庭	提供者	模型	许多失败的驱动器	许多好的驱动	驱动器的总数

百度	百度	希捷	- - - - - -	426年	22969年	23395年

Backblaze的	B1	希捷	ST4000DM000	706年	34785年	35491年
	B2	日立	HDS722020ALA330	251年	4468年	4719年
	B3	日立	HDS5C3030ALA630	131年	4540年	4671年

4.2。实验装置

模拟真实环境的数据中心,我们建立了实验数据集按照下列方法:所有样品失败的驱动器被随机分成两部分的比例7:3 -确保失败的独立驱动器之间的训练集和测试集。鉴于驱动器的恶化过程,我们只添加过去几个样本70%之前失败的驱动器故障时间的训练集,所有卫生样本30%失败的驱动器被添加到测试集。所有样本好驱动器被分成两部分的比例7:3根据他们收集时间。早期的健康样本用于训练集,和后来的样本用于测试集。

消除缩放效果,我们使用数据规范化,鼓励公平对比不同特性的值在统计方法和机器学习算法。这些属性的值和原始数据已归一化数据集从百度时公布。从Backblaze的数据集,数据归一化的公式,给出了我们使用如下: 在哪里是一个属性的初始值,在数据集属性的最大值,然后呢在数据集属性的最小值。所有属性的值归一化的范围(−1,1)。

我们的实验训练和测试的GPU,因为沉重的BPTT算法的计算开销。GPU模型是一个NVIDIA Tesla K80,服务器内存是128 g。

4.3。评价指标

硬盘驱动器故障预测的能力通常是评估和基于罗斯福相比,到目前为止,和交货时间。当预测硬盘失败,失败的HDD被视为积极的驱动器和良好的HDD被视为消极的驱动器。真阳性驱动器是失败的驱动器失败之前检测到的预测模型。假阳性硬盘驱动器并被错误地归类为soon-to-fail驱动器。

罗斯福的比例是如此积极的驱动器的总数没有驱动器。这个指标的措施的能力预测模型来检测soon-to-fail hdd。

是假阳性的比率驱动器的总数好的驱动器。因为有更多的好的比soon-to-fail驱动器驱动,高远导致过度浪费资源,比如网络带宽和hdd。因此,是用于我们的实验。

我们使用高罗斯福和低罗斯福对于我们的预测模型,但深度学习很难同时实现两个目标。因此,我们采用接收操作特征(ROC)曲线,这情节罗斯福和远。中华民国曲线是用来评估的性能预测模型区分soon-to-fail驱动器和良好的驱动器。左边的曲线越接近球门上角,更准确的模型检测soon-to-fail驱动器。

交货时间是时间跨度从检测到硬盘,soon-to-fail时间实际上失败了。用户启动备份数据的及时提醒。有必要为用户提供充足的时间来执行预防性维护,包括备份数据和取代soon-to-fail驱动器;然而,过度导致不必要的时间是没有意义的,膨胀的可靠性开销。因此,我们采用铅时间来评估预测模型的实验。

4.4。特征选择

一些聪明的属性不是强与恶化,并留住这些属性对预测性能有负面影响。因此,我们为我们的实验数据集进行特征选择。我们的特征选择由两个步骤;驱动器故障的特征关联弱起初被移除,然后添加了一些功能描述属性的变化。

在“百度”只有12个样品特性和规范化的公共数据集;因此,我们没有在第一步。对于其他数据集,大约有30个属性为每个聪明的样本。我们介绍了信息增益率(IGR)来评估每个属性的重要性来检测soon-to-fail驱动器。我们选择的属性制定(见表122):RSC, rr错误率(生读),RRSC, TC, SUT,消费品安全委员会,HFW,她,RCPSC, POH,爵士,和家庭“B1”和RRSC街,rr, RSC, RCPSC(原始当前等待部门数),SRC(自旋重试计数),SUT,街,CT(命令超时),TC, HFW,南加州大学(不能补救的部门数),POH,回答(写错误率)家庭B2和B3。“从这个表,我们发现智能驱动器的属性来自不同制造商略有不同。


B1		B2		B3
属性	IGR	属性	IGR	属性	IGR

RSC	0.0326	RRSC	0.0413	RRSC	0.0339
rr	0.028	rr	0.031	rr	0.0327
RRSC	0.0278	RSC	0.0297	RSC	0.0262
TC	0.0277	RCPSC	0.0277	SRC	0.0231
SUT	0.0276	SRC	0.0271	SUT	0.0228
消费品安全委员会	0.0272	SUT	0.0251	RCPSC	0.0227
HFW	0.0269	街	0.0248	街	0.0214
她的	0.0251	CT	0.0201	TC	0.0208
RCPSC	0.0239	TC	0.0189	回答	0.0189
POH	0.0166	HFW	0.0161	CT	0.0131
爵士	0.0118	南加州大学	0.0133	南加州大学	0.0129
街	0.0067	POH	0.0098	HFW	0.0117

一些变化的智能属性与驱动器的健康状况有关14]。我们添加了一些改变的基本特性改善的性能预测方法。家庭“百度”,我们添加了6小时和12小时的变化率特性。对家庭“B1, B2,”和“B3,“我们添加以下属性的天,为期两天的改变率:RSC, RRSC, rr, TC, RCPSC,爵士,街,爵士,回答,使疲倦。

4.5。参数分析

我们的预测模型有几个参数优化:LSTM-RNN-based模型层的数量,滑动窗口的大小,阈值。本节实验的结果是基于“百度”家庭的其他家庭中的结果是相似的,长度是有限的。

图5显示的效果不同数量的层的范围7 - 17 LSTM-RNN-based预测模型。当层数小于12,罗斯福稳步增加,但波动。当层数超过12,罗斯福不再增加。在12层达到最小值。与LSTM-RNN-based模型相比,FDR-based模型不再增加当RNN的数量超过6层,如图6。

我们测试了不同大小的滑动窗口的影响和阈值的预测性能。窗口大小越大,罗斯福和越高越低。我们的模型达到最好的精度在窗口的大小设置为14。随着阈值的增加,罗斯福和远都上升。我们设置窗口的大小14和阈值0.4−在接下来的实验。

曾经有一段严重的失衡问题,培训家庭“百度”和“B1”,因为有更少的失败比好的驱动器,并不是所有失败的驱动器被添加到训练集样本。为了解决这个问题,我们采用了k-means-clustering-based欠采样方法(14),以减少负样本训练集的规模。样本好驱动器被集群分成几组,然后从每一组采样。我们说好的样品速度150倍样品与健康程度小于-0.5失败的驱动器被添加到训练集家庭“百度”。

4.6。比较和分析

在本节中,我们定量比较我们的方法的性能与广泛使用的模型在百度和Backblaze的测试集。我们关注的分类和回归树(CART)和RNN-based预测模型。

图7显示了家庭的不同模型得到的ROC曲线”百度。“我们的方法优于RNN-based模型和CART-based模型。该预测模型实现了罗斯福的94.49%和0.09%的远。LSTM-RNN-based模型利用长时间开车健康数据的依赖特性,和健康度评估细节驱动恶化,有效降低了法尔斯。模型与指数函数与对数函数一般比模型。罗斯福和法尔斯的家庭比较不同预测模型如表所示3。“B1”,“B2,”和“B3,”我们的方法实现了罗斯福比其他模型。CART-based模型取得了较低的法尔斯比其他模型。法尔斯的家庭“B2”不如其他家庭。和法尔斯家庭“百度”比FARs家庭“B1, B2,”和“单位”,因为样本数据集从Backblaze之间的间隔是24小时,这是太长时间观察变化的健康状况恶化之前开车失败了。


预测模型	B1		B2		B3
预测模型	罗斯福(%)	远(%)	罗斯福(%)	远(%)	罗斯福(%)	远(%)

车	76.82	0.47	68.67	1.47	63.85	0.84
RNN	73.46	0.65	68.00	2.19	66.67	1.07
LSTM (Exp)	79.15	0.59	77.33	2.43	79.49	0.92
LSTM(日志)	80.00	0.76	69.33	2.63	74.36	1.37

此外,我们比较这些模型的前置时间。表4显示了家庭的交货时间预测模型的比较“百度。”可以清楚地观察到100%正确积极的驱动器在提前24小时预测他们失败了。数据8和9显示驱动器大多LSTM-RNN-based模型所预测的失败之前提前7天左右。这一次允许备份和数据迁移过程。


模型	交货时间
模型	> 24小时(%)	> 48 h (%)	> 96 h (%)

车	90.48	67.62	0.95
RNN	100.00	83.49	33.03
LSTM (Exp)	100.00	93.91	41.74
LSTM(日志)	100.00	91.45	41.88

5。结论

随着越来越多的服务被从云到网络的边缘,边缘节点上的高存储可靠性是迫切需要的,特别是在智能监测系统。本文试图评估hdd的健康程度提高soon-to-fail驱动器的性能预测在移动计算环境。一个LSTM RNN是用来提取时间依赖的特性推动健康数据和计算出的健康程度。驱动器的恶化过程大大地受健康状况的影响,IO负载和环境情况。因此,一个k方法欠采样方法用于解决数据不平衡的问题。它减少了计算开销和提高了罗斯福的预测模型。我们验证方法与两个真实数据集。与传统方法比较,实验结果表明,该模型达到了更好的预测性能较低的开销。

在未来,更多的硬盘故障的分析可以进一步提高预测精度,使预测模型足够智能提供有效的指导和建议。

数据可用性

本研究的实验中使用的数据可在百度和Backblaze的。这些数据都来源于以下可用资源在公共领域:http://pan.baidu.com/share/link?shareid=189977&uk=4278294944和https://www.backblaze.com/b2/hard-drive-test-data.html downloading-the-raw-hard-drive-test-data。

的利益冲突

作者宣称没有利益冲突。

确认

本文中描述的工作得到了浙江省自然科学基金基金(没有。LQ17F020004)和国家重点实验室开放研究基金的计算机体系结构。作者还要感谢百度,BackBlaze inc .)提供的数据集用于这项工作。

引用

Gartner预测室外监控摄像机将5 g物联网解决方案的最大市场在未来三年。https://www.gartner.com/en/newsroom/press-releases/2019-10-17-gartner-predicts-outdoor-surveillance-cameras-will-be。
g . Honghao l, l . Youhuizi和y Xiaoxian”V2VR:可靠hybrid-network-oriented V2V数据传输和路由考虑限制和连接概率,”IEEE智能交通系统(它),2020年。视图:出版商的网站|谷歌学术搜索
k . v .史和n . Nagappan”描述云计算硬件的可靠性,”云计算学报第一ACM研讨会ACM,页193 - 204年,印第安纳波利斯,2010年1月,美国。视图:谷歌学术搜索
b·施罗德和g·a·吉布森“磁盘失败在现实世界:MTTF 1, 000年,000个小时对你来说,意味着什么?“在第五届USENIX大会文件的程序和存储技术,2007快加利福尼亚州圣何塞,页1 - 16,,美国,2007年2月。视图:谷歌学术搜索
b·艾伦,”与智能监控硬盘”,Linux日志卷,117年,第77 - 74页,2004年。视图:谷歌学术搜索
f·l·f·佩雷拉f·d·多斯桑托斯利马·l·g·德·莫拉雷特et al .,“转移学习贝叶斯网络应用程序在硬盘驱动器故障预测,”学报2017巴西智能会议系统(BRACIS)IEEE,页228 - 233年,Uberlandia,巴西,2017年10月。视图:谷歌学术搜索
i c·查维斯·m·r·p·德波拉·l·g·m·雷特et al .,“硬盘驱动器基于贝叶斯网络的故障预测方法”2018年IJCNN学报》上IEEE,页1 - 7,里约热内卢,巴西,2018年7月。视图:谷歌学术搜索
g·哈默尔和c·埃尔坎贝叶斯方法对磁盘驱动器故障预测,”《ICML威廉姆斯,页202 - 209年,妈,美国,2001年7月。视图:谷歌学术搜索
答:妈,f . Douglis陆g . et al .,“RAIDShield:描述、监控和主动防止磁盘失败,”13日USENIX大会文件的程序和存储技术快2015USENIX协会,页241 - 256年,加州大学伯克利分校,美国,2015年2月。视图:谷歌学术搜索
d·b·朱g . Wang x Liu, s .林和j·马,“主动推动大规模存储系统的故障预测,”学报2013年IEEE MSST 29日研讨会美国CA,页1 - 5,蒙特利,2013年5月。视图:谷歌学术搜索
j·李,x, y贾et al .,“硬盘故障预测使用分类和回归树,”学报2014年第44届IEEE /联合会国际会议上可靠的系统和网络IEEE,页383 - 394年,亚特兰大,乔治亚州,美国,2014年6月。视图:谷歌学术搜索
Kaur k和k·考尔故障预测、铅时间估计和健康度评估硬盘驱动器使用基于投票决策树,”电脑,材料和连续,60卷,不。3、913 - 946年,2019页。视图:出版商的网站|谷歌学术搜索
j·肖,z, s .吴et al .,“磁盘故障预测数据中心通过在线学习”在第47届国际会议上并行处理程序,页1 - 10,尤金,或者美国,2018年8月。视图:谷歌学术搜索
j .沈j . Wan s . j . Lim et al .,“Random-forest-based硬盘驱动器故障预测,“国际期刊的分布式传感器网络,14卷,不。11日,2018年。视图:出版商的网站|谷歌学术搜索
j .钱斯凯尔顿,j·摩尔et al .,“P3:基于优先级主动预测soon-to-fail磁盘,”NAS学报2015年IEEE国际会议IEEE,页81 - 86年,波士顿,MA,美国,2015年8月。视图:谷歌学术搜索
x太阳,k . Chakrabarty黄r . et al .,“系统级硬件故障预测使用深度学习,”学报2019年第56 ACM和IEEE设计自动化会议(DAC),页1 - 6,IEEE、拉斯维加斯、NV,美国,2019年6月。视图:谷歌学术搜索
d . c .徐g . Wang x Liu郭,和T.-Y。刘:“健康状态评估和故障预测与复发性神经网络硬盘,”IEEE计算机,卷65,不。11日,第3508 - 3502页,2016年。视图:出版商的网站|谷歌学术搜索
l . j ., j . Wang他et al .,“Layerwise perturbation-based对抗训练对硬盘的健康程度的预测,”2018年IEEE ICDM学报》上新加坡,页1428 - 1433年,2018年11月。视图:谷歌学术搜索
,的Hochreiter和j。施密德胡贝尔表示“长短期记忆。”神经计算,9卷,不。8,1735 - 1780年,1997页。视图:出版商的网站|谷歌学术搜索
g·f·休斯,j·f·默里,k . Kreutz-Delgado和c·埃尔坎,“提高磁盘驱动器故障警告,”IEEE可靠性,51卷,不。3、350 - 357年,2002页。视图:出版商的网站|谷歌学术搜索
黄,s .傅问:Zhang et al .,”描述与量化故障磁盘退化签名:早期经验,工作负载特性(IISWC)”《2015年IEEE国际研讨会IEEE,页150 - 159年,佛罗伦萨,意大利,2015年5月。视图:谷歌学术搜索
j·f·默里,g·f·休斯和k . Kreutz-Delgado“硬盘故障预测使用非参数统计方法,”ICANN / ICONIP学报》上2003年6月,伊斯坦布尔,土耳其,。视图:谷歌学术搜索
c·a·c·林康j . f .巴黎et al .,“在异构环境中,磁盘故障预测”学报2017年的方面美国,西雅图,佤邦,2017年7月。视图:谷歌学术搜索
y Xiaoxian, z .该矿,c . Min”的方法来缓解的稀疏问题混合基于协同过滤的推荐:用户评论的产品属性的角度来看,“移动网络和应用程序,25卷,不。2、376 - 390年,2020页。视图:谷歌学术搜索
g . Honghao x Yueshen认为y, z Weipeng, l·鲁伊·w·Xinheng,“环境敏感QoS预测与神经对物联网服务的协同过滤,“IEEE物联网期刊(IoT-J),7卷,不。5,4532 - 4542年,2020页。视图:谷歌学术搜索
认为y, c . Zengxu x Yueshen, g . Honghao l·鲁伊和m . Zhida”QoS服务推荐特性的预测学习在移动计算环境中,“IEEE认知通信和网络》第六卷,没有。4、2020。视图:出版商的网站|谷歌学术搜索
沈t, t .周,g . et al .,“Disan:定向self-attention RNN网络/ CNN-free语言理解”三十二AAAI学报》关于人工智能的会议2018年2月,新奥尔良,洛杉矶,美国。视图:谷歌学术搜索
毛y . j . Wang, j . et al .,“CNN-RNN:一个统一的多标记图像分类框架”《IEEE计算机视觉与模式识别会议拉斯维加斯,页2285 - 2294年,NV,美国,2016年7月。视图:谷歌学术搜索
a . Jain a . r . Zamir s Savarese et al .,“Structural-RNN:深度学习在时空图”《IEEE计算机视觉与模式识别会议拉斯维加斯,页5308 - 5317年,NV,美国,2016年7月。视图:谷歌学术搜索
y Bengio、p . Simard和p . Frasconi”学习与梯度下降的长期依赖性是困难的,”IEEE神经网络,5卷,不。2、157 - 166年,1994页。视图:出版商的网站|谷歌学术搜索
s . Hochreiter y Bengio、p . Frasconi和,的j。施密德胡贝尔表示“梯度流在复发性网:学习的困难长期依赖关系,“现场指导动态递归神经网络美国新泽西,IEEE出版社,皮斯卡塔韦,2001。视图:谷歌学术搜索
f . a .蒙古包,的j。施密德胡贝尔表示和f·康明斯,“与LSTM学习忘记:持续的预测,”神经计算,12卷,不。10日,2451 - 2471年,2000页。视图:出版商的网站|谷歌学术搜索
p . Mishra k Khurana认为,s·古普塔et al .,“VMAnalyzer:恶意软件使用集成CNN和语义分析双向LSTM在云检测vm级别的攻击,”学报》2019年第12当代计算国际会议(IC3),页1 - 6,IEEE,诺伊达,印度,2019年8月。视图:谷歌学术搜索
g . Honghao k . Li认为y, g . Bin和d·凯,“挖掘消费行为与移动营销应用的个性化推荐,演化”ACM / Springer移动网络和应用程序(莫奈),25卷,不。4、1233 - 1248年,2020页。视图:出版商的网站|谷歌学术搜索
智能数据集来自南开大学和百度公司。http://pan.baidu.com/share/link?shareid=189977&uk=4278294944,2013年。
Backblaze的数据集。https://www.backblaze.com/。

移动信息系统