文摘
传统的基础设施即服务(IaaS)云平台往往实现高数据可用性通过引入专用存储设备。然而,这种异构体系结构具有较高的维护成本和可能减少虚拟机的性能。在均匀IaaS云平台、服务器平台的统一提供计算资源和存储资源,这有效地解决上述问题,虽然需要引入相应的机制来提高数据可用性。有效的存储资源可用性管理是一个关键的方法来提高数据的可用性。机械硬盘的主要方法是实现数据存储目前在IaaS云平台,及时、准确预测机械硬盘故障和活跃的数据备份和迁移之前机械硬盘失败将有效改善IaaS云平台的数据可用性。在本文中,我们提出一种改进算法,早期预警的机械硬盘故障。我们第一次使用救援特征选择算法进行参数选择。然后,我们使用生成的零和博弈思想对抗网络(GAN)生成更少的类别样本达到一个平衡的示例数据。最后,一种改进的长期短期记忆(LSTM)模型称为Convolution-LSTM (C-LSTM)是用于完成准确检测硬盘故障,实现故障预警。我们评估几个模型使用精度、召回和曲线下面积(AUC)值,和广泛的实验表明,我们的算法优于其他算法机械硬盘的警告。
1。介绍
目前,基础设施即服务(IaaS)云平台已经成为主要的解决方案提供企业IT基础设施。大数据技术的发展和应用,越来越多的企业开始认识到数据的重要性,所以他们的数据可用性提出了更高的要求。传统的IaaS云平台一般介绍专用存储设备的平台来实现高可用性数据存储和提供虚拟机配合专用的计算设备图1(1]。这种异构架构通常会导致两个问题:首先,它使异构平台的硬件更重要,提高平台的操作和维护成本和可伸缩性成本;第二,当计算资源和存储资源来自不同的设备之间的连接计算资源和存储资源的虚拟机必须基于设备之间的网络连接,这将减少虚拟机的性能。Hyperconverged提案的基础设施(HCI),越来越多的IaaS云平台开始采用均匀的体系结构。中的服务器平台统一提供计算资源和存储资源,如图所示2(1]。这种均匀的架构可以有效地解决异构体系结构所遇到的问题。
由于没有专用的存储硬件异构体系结构中,数据可用性高的云平台需要引入相应的机制来保证数据的可用性。实现高数据可用性的IaaS云平台主要包括两个方面:一个是数据备份,另一个是实现存储资源的可用性管理。数据备份的部分主要介绍备份策略管理和备份数据管理。这部分不是本文的重点。此外,有两种主要类型的存储资源服务器:固态硬盘(SSD)硬盘和机械硬盘。SSD硬盘可以提供更高的数据读写速度,然而,成本高,因此它常被用来实现虚拟机系统磁盘性能要求高。机械硬盘,虽然它的数据读写速度相对较低,但它的成本很低,因此,机械硬盘的主要方法是实现IaaS云平台的数据存储能力。如果我们能更准确地预测机械硬盘的寿命和执行操作,如数据及时备份,我们可以有效地减少伤害的风险。现有机械硬盘提供自我监控分析和报告技术(维持——遵循S.M.A.R.T.来),可用于传感器机械硬盘的运行状况。此外,维持——遵循S.M.A.R.T.来提供指标的各种组件的运行状态,如头、盘、汽车和电路协助机械硬盘状态的预测。
因此,要解决的关键问题是如何根据维持——遵循S.M.A.R.T.来预测机械硬盘生命指标及时、准确。近年来,一些研究人员提出了机械硬盘故障预测方法,主要分为数学为基础的方法(2,3和基于机器学习故障预测方法4]。这些方法没有充分考虑的问题,删除不必要的维持——遵循S.M.A.R.T.来指标,少数失败的样品,和充分利用时间数据,预测机械硬盘寿命。此外,一些研究[5- - - - - -7)都集中在评估的动态可靠性和故障预测整个系统,而我们主要完成故障预测单个组件硬盘。
在细节,有三个挑战硬盘的故障预测:(1)如何过滤维持——遵循S.M.A.R.T.来产生最大的影响在故障预警指标。机械硬盘的维持——遵循S.M.A.R.T.来指标确定断层的基础。然而,也有一些失败的结果不相关的特征,过度的特点是无用的,甚至可能影响到最终的分析结果(2)如何解决样本不平衡故障的问题。据统计,数据中心的年度机械硬盘损坏率大约是2% - -5%。因此,在传感器数据的硬盘操作状态,相关的数据异常状态远低于正常状态有关(3)如何充分利用时间的机械硬盘数据的关系。现有的预警模型对故障硬盘第一次使用时间序列数据压缩完成特征提取,然后通过提取的数据分类的分类器。这个过程可能导致的损失大量的有价值的特性
因此,要解决的关键问题在机械硬盘故障预测本文是如何及时、准确地预测机械硬盘的使用寿命,以积极开展数据备份或迁移之前机械硬盘失败,以提高数据的可用性。
应对上述挑战,我们首先提出了救援特征选择算法筛选指标,并选择有价值的指标。我们提出了生成对抗网络(GAN)模型来生成一个少数类样本。然后,我们提出了Convolution-Long短期记忆(C-LSTM)来解决这个问题的长期依赖时间序列数据和准确地检测到错误的硬盘数据。
本文列出的大纲如下:第二部分相关工作回顾和讨论了之前的相关工作;第三节算法提出了我们的算法;实验设置,结果,分析第四节中给出了实验结果和讨论;最后,第五部分的结论是本文的结论。
2。相关工作
机械硬盘故障警报已成为越来越重要的IaaS云平台的发展。硬盘是最常见的一种失败的组件在今天的IT系统,并破坏可能导致停止系统服务或数据丢失。随着越来越多的服务运行,造成的损害硬盘腐败是每年增加。
2.1。异常检测的机械硬盘
已经有几种方法来检测异常机械硬盘。杨et al。8)提出了一个评价方法比较和异常检测算法的特征选择方法预测硬盘故障。Yu et al。9)提出了一种自适应误差跟踪硬盘故障预测方法。王等人。10)提出了一个域自适应方法来提高故障的预测性能。
随着深度学习的发展,加上它的许多优良性能,深度学习现在被广泛用于解决问题在预测领域11- - - - - -13]。如何处理时间序列数据时需要考虑使用深度学习方法完成硬盘故障预测。一些现有的研究一直在考虑如何处理时间序列数据。胡锦涛et al。(14]提出一种基于长期短期记忆的磁盘故障预测系统(LSTM)网络。代替输入LSTM网络的连续操作记录磁盘,磁盘的个体变异的问题能够解决。
2.2。自我监控分析和报告技术(维持——遵循S.M.A.R.T.来)指标
自我监控分析和报告技术(维持——遵循S.M.A.R.T.来)是一个监测系统,收集性能指标,可用于推断出硬盘的实际情况。维持——遵循S.M.A.R.T.来的主动容错使用一个阈值方法(15),但传统的维持——遵循S.M.A.R.T.来基于故障检测有问题的准确性(16]。它不再是足够的单独使用维持——遵循S.M.A.R.T.来完成分析。大量的维持——遵循S.M.A.R.T.来已经提出的优化方法。李等人。2]探索决策树(DTs)的能力(17)和梯度提高了回归树(GBRT) (18]基于维持——遵循S.M.A.R.T.来指标预测硬盘故障,和实验表明,预测模型具有较高的故障检测率和较低的误报率。查维斯et al。3]目前使用贝叶斯网络的故障预测方法。硬盘的方法计算恶化随着时间的推移使用维持——遵循S.M.A.R.T.来指标预测最终失败。德圣et al。19基于LSTM]提出一个模型,它结合了维持——遵循S.M.A.R.T.来估算的健康指标和时间分析硬盘根据其故障时间。
李等人。20.)提出了一种结合XGBoost LSTM,集成学习算法基于维持——遵循S.M.A.R.T.来有效地预测硬盘故障指标。结合维持——遵循S.M.A.R.T.来沈et al。21]提出一个硬盘故障预测模型基于LSTM复发性神经网络和一种新的方法来评估健康的程度。模型利用硬盘健康数据的长期时间特点有效地提高预测效率和存储当前的健康细节和恶化。
除了选择维持——遵循S.M.A.R.T.来的所有属性,some studies have also taken the approach of selecting some of the attributes. Wu et al. [4]提出的使用信息熵优化维持——遵循S.M.A.R.T.来启用的选择最相关的指标属性预测,结合多通道卷积神经网络长期短期记忆(MCCNN-LSTM)完成硬盘故障的预测模型。
2.3。样本不平衡
上述研究侧重于使用维持——遵循S.M.A.R.T.来检测异常指标和健康状态的硬盘。此外,硬盘是健康的大部分生命周期和相对较少的失败,它创建了一个样本不平衡的问题。
GAN-based方法常用于解决样本不平衡的问题。李和公园(22)提出了一个GAN-based融合检测系统不平衡数据。徐et al。23)提出了一个收敛瓦瑟斯坦GAN解决网络威胁检测类不平衡的问题。黄和雷24甘)提出了一个新颖的不平衡(IGAN)来处理这个问题类的不平衡。
除了GAN-based方法,一些人提出了解决不平衡的问题,硬盘故障样本。托马et al。25)建议将机器学习技术应用到准确、主动预测硬盘故障。施等。26)提出了一种深生成转移学习网络(DGTL-Net)集成了一个深生成样本生成pseudofailure网络生成pseudofailure样本和深转移网络解决硬盘分布差异的问题,使智能故障诊断的新硬盘。Ircio et al。27)提出了一个优化分类器解决失衡问题的硬盘故障和正常的硬盘高度。王g . et al。28)提出一个多实例基于LSTM长期数据分类方法和注意力机制来解决数据不平衡的问题。
3所示。算法
我们提出了一个比较评价方法和异常检测算法的特征选择方法预测硬盘故障。它使的快速选择最佳算法特定模型的硬盘。它包括评估机制来评估特征选择方法从性能和鲁棒性的角度来看,评估性能,鲁棒性、效率和generalisability的异常检测算法。
硬盘故障预测需要处理三个重要点,指标选择、时间压缩和不平衡样本处理。整个过程如图3。
首先,时间参数输入特征向量,这个向量 被定义为的时间特征参数输入,相关分析是使用的相关结果,执行和参数选择相关性就越高。在时间序列特征提取阶段,当前的主流方法是使用单一压缩在一段连续时间序列数据,它可以表示为: 在哪里是累计数据,一个节点的数据,是系数。
然而,这些时间序列特征的抽取,通常是不够的。主要问题是之前的数据是被遗忘的随着时间的推移越来越快,不考虑和序列的值,导致数据不能发挥应有的作用。
另一方面,处理不平衡样本相对粗糙,经常使用一些类别的数据采样过密或欠采样的大部分类别的数据。然而,过采样的几个类别的数据导致数据的概率特性的变化,似乎性能优良的训练集,并减少在测试集的影响,导致低召回率。使用欠采样算法、聚类等方法去除样本实现样本平衡的一部分,经常导致损失的重要特性,或减少数据样本容量,导致过度拟合问题。
该算法分为离线和在线数据分析模型实现。详细的算法流程如图4。
如图4,该算法主要包括离线模型生成模型和在线检测。在离线模型生成阶段,历史数据用于参数选择,然后提取时间序列特性,跟其他样品,最后生成一个判别模型。在在线检测阶段,参数选择,执行时间序列特征提取后,进行模型检测,最后预测结果是生成的。(1)指标的选择。地形特征选择算法用于过滤参数和选择有价值的指标(2)不平衡处理。针对几个样品的机械硬盘损坏,氮化镓(29日)模型用于生成少数类样本达到平衡状态模型样本用于生成少数类样本实现样品的平衡状态(3)模型生成。使用处理过的数据集训练机械硬盘的健康状况如C-LSTM生成模型
3.1。Relief-Based特征选择算法参数的选择
维持——遵循S.M.A.R.T.来(30.]指标收集的传感器安装在传感器的机械硬盘机械硬盘的状态通常有一个故障预警的特点,确定故障的基础(31日]。然而,也有一些指标不相关的失败result-excessive指标是无用的,甚至可能影响到最终的分析结果。执行硬盘分析时,必须考虑各种硬盘所面临的复杂性。例如,硬盘的容量会随着时间逐渐增加。此外,硬盘会慢慢恶化,尽管这两个不太相关的容量硬盘可能会随时调整。因此,它是必不可少的选择指标去除干扰特性。
为了解决这些问题,我们选择合适的指标作为模型输入基于救灾特征选择算法(32]。救援算法着重于二元分类问题,本文指硬盘是否已经损坏。我们提出了“相关统计”来衡量一个特性的重要性。相关统计数据是一个向量,其中每个组件的评价是一个最初的功能,和功能的一个子集的重要性和相关性统计每个特性的子集。特性的测量问题,缓解借假想的间隔的想法,决定表面可以移动的最大距离,同时保持样本分类常数,可表示为(33]: 在哪里和指最近的邻居是相同的和那些不一样的 ,分别。
我们知道,当一个属性有利于分类,然后样本的属性更接近,而样品相反属性进一步除了。
假设训练集是 ,为每个样本 ,最近的邻居相同的类别计算,这叫做“猜最近邻” 。然后最近的邻居 ,这是不一样的吗 ,被称为“最近邻” ,和相关统计属性是(33]: 在哪里代表样本的价值在属性 。的计算取决于类型的属性 。
离散属性:
连续属性:
3.2。GAN-Based不平衡数据处理
日常运作的一个IaaS云平台系统,硬盘失败的数量相对较小,而正常的样品总是很大。据统计,数据中心的年度机械硬盘损坏率大约是2% - -5%,和一个硬盘是正常的大部分时间,导致原始正负样本数据总是被不平衡。使用机器学习的方法对故障预测不平衡数据集需要过采样数量较小的数据类别来实现数据平衡或欠采样数据的一个更大的部分。传统的过采样算法,然而,可能导致变化的概率数据几类,欠采样导致的损失重要的功能在大多数课程,由于训练数据不足或过度拟合问题。例子包括使用合成少数过采样技术(杀)过采样算法34),合成新的样品几类基于插值,使用聚类算法来实现欠采样和丢弃一些样品来缓解类不平衡。
考虑问题的原始算法在处理不平衡数据,该算法的创新是使用氮化镓的零和博弈思想产生的类别样本。甘一直扮演着游戏通过生成网络和歧视的网络 ,进而使学习数据的分布。使用氮化镓的方法,生成网络和歧视的网络不断的使用博弈论中的零和游戏的想法,进而使吗学习数据的分布。
定义的分布的真实图像,成为一个真正的形象。现在需要生成一些照片,也属于这种分布。定义生成器生成的分布作为 ,与分布参数。现在,计算生成模型的似然函数(35]:
实现发电机生成真正的图片最大似然函数需要最大化。也就是说,它找到一个是必要的最大化的可能性(36]:
发电机随机生成一个向量并生成一幅画通过发电机 网络,即发电机取样间隔。然后鉴频器 是用来区分生成器生成的样本与原始样本空间。和氮化镓计算如下36]:
目标函数如下(36]:
通过轮培训,鉴频器可以准确区分原始数据和数据生成器生成的 。接下来,火车发电机,发电机可以混淆鉴别器,使它无法区分。经过多次培训和调整鉴别器和生成器网络的结果,可以实现一个更好的模式影响。然而,GAN训练的稳定性不是很好,很难达到预期的效果在这个实验。通过改善氮化镓,目前有更好的算法,如甘深卷积(DCGAN) [37甘,瓦瑟斯坦(WGAN) [38甘,瓦瑟斯坦与梯度点球(WGAN-GP) [39]。
WGAN使用瓦瑟斯坦距离,平滑性能优越而Jense-Shannon (JS),解决了梯度消失问题[23]。此外,WGAN地址不仅GAN培训不稳定的问题,还提供了一个可靠的训练过程的指标,指标是与生成的样本的质量高度相关。因此,我们选择WGAN作为一个方法来解决数据不平衡问题。
3.3。基于LSTM网络异常检测和识别
我们提出LSTM网络模型解决问题的长期依赖时间序列数据和准确地检测到错误的硬盘数据。传统硬盘故障早期预警模型使用时间序列数据压缩,首先提取特征,然后将提取的数据分类的分类器,导致丧失了许多有价值的特性。提取机械硬盘数据的时序关系,LSTM网络被添加到模型的训练。
3.3.1。LSTM的改善网络结构
原LSTM网络结构只考虑了时间序列的数据。然而,对于硬盘,某些参数的变化将影响到其他参数的数据。常见LSTM结构相比,该算法从卷积LSTM借,这意味着卷积计算添加到输入层,介绍了当地的感知和池、空间特性和输入添加到LSTM连同原始数据结构。C-LSTM图所示的结构5。
考虑到这个模型是一个multicategory模型,输出应该每个类别的概率。获得的值神经网络使用将Softmax归一化函数,将[0,1]之间的结果,用更大的值对应于更大的概率。将Softmax功能类别概率 计算如下(40]: 在哪里 , 。
在将Softmax函数处理结果后,我们的模型使用交叉熵作为损失函数。Softmax损失函数公式如下(41]: 在哪里类别的概率是 。
在计算损失函数、梯度爆炸产生的问题,我们的模型使用剪辑梯度方法(42)保持重量在一定的范围内。
4所示。实验结果和讨论
验证算法的预测效果、故障预警实验机械硬盘上的数据从数据中心并与传统undersampling-based均衡和二进制分类方法(实验的演示:https://github.com/Eva0417/HardDisk)。
4.1。数据描述
实验数据来自Backblaze的,它主要由传感器收集的数据,来自近30000000个机械硬盘在2017年一年段(数据集:https://github.com/1210882202/data)。收集的数据主要是维持——遵循S.M.A.R.T.来指标一天一次,磁盘不是传感器的维持——遵循S.M.A.R.T.来指标随着时间的推移,表明机械磁盘已损坏。实验的目的是预测磁盘是否会成为影响未来基于过去60天为这些磁盘的数据。机械硬盘一般缓慢恶化的组件的年龄,这个实验假设机械硬盘不是损坏的十五天内,这个数据被标记为健康,如果磁盘损坏十五天内该数据被标记为错误。基于样本数据,实验希望设计一个故障预警模型具有优良性能的准确性,召回,曲线下面积(AUC)值。
4.2。基线
评估C-LSTM反对传统模型的性能,传统分类器被添加到实验。细节如下:(1)逻辑回归(LR)(43]。LR是一个监督学习方法通常用于异常检测。一个变量或多个独立变量,找到最合适的模型来描述独立变量的集合,并完成异常检测(2)随机森林(RF)(44]。射频是一种常见的异常检测方法通过结合多个决策树。决策树的基本单元是一个树形结构。使用这种结构,正常情况下可以学到和实例,并不属于正常视为异常
4.3。实验装置
4.3.1。LSTM的设置
(1)输入和输出。对于输入数据,数据相关性首先判断使用救援算法获得有效16-dimensional数据,并且数据样本地图获得基于错误的样本生成方法。特定的输入是一个没有Seq16-dimensional张量,输出是一个没有二维张量(2)网络结构。LSTM网络用于实验使用网络包含两层LSTM隐藏层,添加了一层辍学后每个隐层,其次是一个完全连接层连接LSTM和输出,最后SoftMax层(3)网络参数。关键参数的神经网络用于实验的设置如表所示1
4.3.2。C-LSTM的设置
(1)输入和输出设置。输入数据与原始LSTM相同(2)网络结构。实验中使用的网络增加了一层后的卷积网络输入层,结合原始输入数据,送入LSTM隐层网络
4.4。实验的结果
在应用减压筛选算法,特征相关的统计组件来计算由传感器收集的指标在硬盘,分数越大,分类能力越大。排名统计组件的大小和扩展所需的关键指标。首先,我们分析了从26339年收集的数据磁盘在六个月期间在2017年上半年。结果基于减压过滤算法如图所示6。
在图6,横轴代表每个维度数量,纵轴代表了每个维度的相关性,结果在范围值[0,1],接近零表示结果的相关性。基于统计的结果组件图6,结果大于阈值的参数选择,最后硬盘相关。
根据上面的分析,我们使用WGAN网络进行实验,样本生成如图7。
图的横轴7代表每一个指标的传感器收集的机械硬盘,纵轴代表时间。深色在图7代表值较低的指标,较轻的颜色代表更高指标的值。从图可以看出7,WGAN网络使用博弈论的原理来生成样本相对较为相似,可以模拟大量的信息,同时又不同于直接复制。实验结果表明,使用WGAN整体故障样本的特征提取和再生解决样本不平衡的问题,扩展了故障样本。
除了实验对我们提出C-LSTM模型,我们也尝试比较算法。
根据特定的实验装置,该实验的结果为LR的比较模型如图8- - - - - -10。在这些数据中,我们使用不同的颜色来显示不同的LR分数。
根据特定的实验装置,该实验的结果比较模型的射频如图11- - - - - -13。在这些数据中,我们也使用不同的颜色来显示不同的射频分数。
根据特定的实验装置,该实验的结果为训练LSTM的网络模型如图14- - - - - -16。
水平轴的图表数据14- - - - - -16代表培训时期的数量,纵轴的第一个图在图14代表了准确率在训练,第二个图的纵轴代表了训练数据损失。根据图在图143时代后,我们可以看到,训练逐渐趋于平稳(在本文中,我们定义的损失减少不超过0.1后1时代被认为是光滑),损失聚集在0.05左右。基于数据的15和16,我们可以看到训练大约是0.91的准确性。
这个实验的结果对C - LSTM网络模型的训练数据所示17- - - - - -19。
水平轴的图表数据17- - - - - -19代表数量的训练时期,第一个图的纵轴表示在图的训练中准确率17,第二个图的纵轴代表了训练数据损失。4.0时代,培训后逐渐趋于平稳,精度损失集中在0.05和0.93培训在。
比较训练LSTM结果数据14- - - - - -16C-LSTM网络模型的数据17- - - - - -19,我们可以得出这样的结论:C-LSTM有更快的收敛速度,降低损失下降,和更高的精度。因此,从培训的角度来看,C-LSTM执行得更好。
个人分类模型评估ac -连接精度,回忆和AUC值,结果如表所示2。在每个指标方面,C-LSTM模型有最好的结果。
5。结论
首先,机械硬盘与传感器安装传感器机械硬盘的状态和维持——遵循S.M.A.R.T.来这些传感器收集的指标对磁盘的操作状态的各种组件可以用于预测机械硬盘的寿命。在此基础上,我们专注于如何准确预测机械硬盘故障,实现有效改进IaaS云平台的数据可用性。
本文提出的模型包括三个部分:救援特征选择算法,WGAN, LSTM模型。从维持——遵循S.M.A.R.T.来移除特性指标无关的机械硬盘失败的结果,我们使用救援特征选择算法去除干扰特性和完整的参数筛选。失败的硬盘数量很小的IaaS云平台系统,我们使用的零和博弈思想WGAN产生更少的类别样本来解决样本数据不平衡问题。最后,我们用改进的C-LSTM模型完成硬盘故障检测和预警。
通过大量的实验,我们构建的模型和评价模型设计和其他方法使用精度,召回,AUC值。实验表明,我们的算法优于其他算法机械硬盘的警告。
为我们未来的工作,我们的目标是将我们的方法扩展到SSD-based IaaS云平台。在我们建议的方法,我们主要实现机械硬盘维持——遵循S.M.A.R.T.来的故障预警通过WGAN LSTM达到有效改善IaaS云平台的数据可用性。然而,随着越来越多的IaaS云平台系统逐渐采用SSD追求显著的性能改进。在此基础上,如何更好地实现自动化的修复SSD-based IaaS云平台和研究参数的自动适应是我们未来的目标去完成。
数据可用性
所有的数据、模型和代码生成或使用在研究出现在提交文章。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是由从国家电网科技项目信息和中国电信分公司:研究面向操作的云网络集成平台的关键技术(52993920002页)。