文摘

深度学习的成功是基于大量的标记数据,这是具有挑战性的,以满足在许多场合。尤其是在工业故障诊断,考虑到数据收集的成本、故障数据很少,严重不平衡。因此,它并不足以支持一个可靠的数据驱动的深度学习模型。Few-shot学习有效地解决了一些样本问题,但传统的方法很少关注不平衡数据的影响。然而,大量存在不平衡数据。同时,不平衡数据往往导致决策边界会偏向有大量的样本分类,导致较低的精度。本研究提出了一种工业故障诊断的原型网络整合中心损失few-shot样本。典型的网络基础上,通过添加中心损失损失,样本在特征空间的映射点玩的角色组内收缩和阶级之间的分离,从而提高分类效果。实验以TE过程工业数据集作为一个例子。比较各种当前few-shot学习方法反映了方法的优越性在few-shot不平衡情况。

1。介绍

工业网络在社会中起着重要作用,各种传感器嵌入到实际工业过程收集实验数据,并且数据在这项研究是基于这一点。工业发展的智力技能和行业的出现4.0 [1,2),工业工程故障的识别和诊断尤其维持机械设备安全性和可用性的关键。工业的失败将导致更短的生活组件、机械损伤,甚至人员伤亡。与此同时,通过特定的技术手段需要专家来诊断往往要消耗大量的人力资源和财产和有一定的机会错过了黄金机会处理故障。因此,准确地预测和诊断各种故障在实际工业场景中意义重大。故障诊断在现实世界中有一个问题,那就是,同样的故障不同工作条件下变化显著,所以它往往是相当具有挑战性的获得足够的样本。例如,带安全标签的数据是昂贵的。这种情况可能出现下面几个原因:首先,产业体系不允许一些频繁发生故障,可以带来巨大的损失。其次,大多数机电故障发生在一个缓慢的过程,遵循一个降解路径,使系统的故障恶化一个漫长的过程,将大量的时间成本,收集相关的数据集和具有挑战性的获得。第三,机械系统的操作条件是非常复杂的,不断变化世代根据生产需求。收集和标签足够的训练样本是不切实际的2]。因此,使用一个基于few-shot学习数据驱动的故障检查和分析方法是非常相关的。在目前的方法中,可以区分如下三类:增量学习,metalearning,度量学习。

数据增加3,4)是合成新的样本数据的方法通过挖掘现有数据信息。数据扩增方法可以分为两个层次,即数据级和特征级。数据级别的图片数据为例,实现合成新的数据样本的目的通过简单的旋转,翻转,剪裁,加一点噪音。然而,这种方法不能带来有用的信息基于现有的数据模型的训练。它甚至可能导致减少由于添加噪声不准确。功能水平是生成有用的信息合成新的数据样本充分挖掘现有数据的特点。如今,受欢迎的特性数据扩增方法包括特征轨迹转换(FFT) (5)和attribute-guided增大(AGA) [6]。通过轨迹的转移特性,FFT可以通过学习获得特征轨迹,轨迹特征转移到其他类别较少的样本到增强特性数据5]。然而,这种方法需要有一个细粒度和连续描述,这是一个禁止的成本数据准备。AGA列车encoder-decoder网络有能力合成另一个综合特性及其映射关系获得通过使用样例输入特性,合成丢失的特性与样品的现有功能的帮助下,实现数据增大。然而,这种方法需要有一方的信息(6]。总之,数据扩增方法需要充分挖掘现有数据样本所提供的特征信息,常常需要方信息。因此,矿业信息数据扩充成为一个困难的问题。

Metalearning [7)直接寻求优化的快速学习算法通过使用一个数据集的任务(8作为一种新型、高效的cross-task学习策略。Metalearning few-shot学习有至关重要的作用。斯奈尔et al。9)测量原型网提出的解决过度拟合问题由训练数据少造成的。芬恩提出的model-agnostic metalearning (MAML) et al。10)可结合基于梯度的任何任务更新最大化模型的准确性受迭代通过学习它的初始化参数。Mishra et al。11)提出了一个简单的神经细心metalearner(蜗牛),应用序列卷积的新组合和因果注意力机制来实现一个值得称赞的预测效果的新样品。然而,metalearning有一些局限性。任务之间的相似之处不应太高。否则,它将沦为监督学习,并且无法记忆。

度量学习(12- - - - - -14),少数民族学习的主要类型字段,分类查询样品通过学习在底层特征提取代理类,提取样本特征从新手类在测试过程中,和仪表分离或相似标签支持样品和查询样品的影响。度量学习的两个最具代表性的类是一对孪生网络和原型网络,分别。不同标准的分类,结合网络(15,16)可以执行一个新类样本的分类没有任何培训的新类别。最初进行离线训练在很多样本对属于同一类别或不同类别。暹罗网络下载后,数据分类匹配明显代理每个类别的例子。它被称为原型在这项工作的其余部分。传入的样品不需要属于类在训练。赢得的类别相对应的最大相似兴趣和保存的样品原型。典型的网络的设计(17假定嵌入式空间的存在,每个类的示例项目都聚集在一个原型(或者重心)。分类然后由计数分离从每个类别的原型表示嵌入空间。通过这样做,一般适应是使用一个原型,代表每个类的分布和火柴嵌入空间中每个类的原型学习来自不同领域的数据。然而,大多数现有的概率学习方法(9,18- - - - - -21)重点支持和查询样本之间的相关性,不充分利用基础类的信息,导致不能很好地解决样本不平衡。

上述方法解决few-shot-learning问题可以达到不错的效果,但不涉及类不平衡问题。类别不平衡问题是非常普遍的,和不同类别的数据集工业失败往往不是理想的均匀分布。数据将显示一个“长尾分布”21)当按频率从高到低不同类别的数据。据推测不平衡样本对模型进行训练。在这种情况下,模型将学习训练集的先验信息的样本比例减少损失函数的值,导致实际的预测将集中在主类和第二类的泛化能力会差,这会影响学习模型的鲁棒性。

经典的机器学习模型(22- - - - - -25),它可以分为级别和模型算法示例。在样本层面,它可以分为下采样(26减少多数类的数目,过采样(27)提高少数类的数目,和数据扩增方法。这些方面的目标是平衡梯度学习样本对模型的贡献,消除模型对不同阶级的偏见,并学习更多的基本特征。在模型算法层面上,它们可以分为使用分类模型,对不平衡、重处罚小类错误分类,处理在重新配置分类器级别。在这种情况下,学习算法修改。例如,在分类器级别,误分类的例子从不同的类是由引入不同的权重28)或之前通过显式地调整类概率(29日]。然而,这些方法是使用基于few-shot-learning框架。由于故障诊断是非常重要的在工业、工业常常为不平衡故障样本类别,极少数的一些样品,和小相似类别之间的差异。

目前,在工业的缺点,错误的诊断是非常重要的。深度学习已广泛应用于工业检测的缺点,比如添加调度通信基础设施来解决事故(30.]。同时,人工智能模型也被应用于自动化决策,如可辩解的人工智能(新品)系统在医疗领域的作用31日,32),尽管这些方法在故障诊断中有良好的结果,然后对一些故障,由于相对困难,故障诊断的小样本学习也是非常重要的。

这项研究是出于这样一个事实:一方面,样本数据不足的问题是充分考虑和小样本学习考虑;另一方面,样本不平衡的问题进一步考虑和原型网络思想相结合,有效解决样本不平衡造成的决策偏差,使工业故障分类更准确。

考虑到样本不足的问题,我们采用了原型的想法。这是一个基于指标的建模方法在样本的距离。然而,损失函数用于文学,不考虑距离和扩展战略类不平衡。为了更好地衡量相似性查询图像和样本图像,本研究结合判别损失函数和典型的网络,这是适用于组内压缩和组内的分离来解决小样本不平衡的问题。具体地说,这项工作为工业设计小说典型的网络故障诊断和测试指标任务与工业数据集。研究结果表明,当前有关目前的方法优于传统方法。本研究的贡献点总结如下:(我)一种改进的典型的网络模型设计结合中心的损失。通过压实组内样本和分离组内的样本,该方法可以解决few-shot学习的类不平衡问题。(2)提出的方法应用于一个工业过程中几个故障类不平衡情况下的设计验证方法。与几个不同的学习方法,我们的方法产量最优秀的结果。

研究的其余部分组织如下:在第二节,我们提出预备知识,在第三节,我们描述详细的实验方法,并在接下来的章节我们目前的实验方法,结果和总结分析。

2。预赛

在这项研究中,我们简要介绍few-shot学习的概念和基本方法的典型的网络。

2.1。Few-Shot学习

Few-shot学习寻求解决机器学习任务使用一个有限的数据量。目前可以把数据分割成三个部分,即训练集,支持设置和查询集。训练集是一个类别,大量的实例,以便模型可以学习一个模型,可以从这个类别提取特征。在训练阶段,与样本类别是随机选择的,每个类别(共享样本)被选为支持组的训练集,其余的数据类别样本被选为查询模型。当支持设置包括类别,每个类别的类别,这是称为c收费方法k拍摄的问题。

2.2。典型的网络

典型的网络将是一种度量学习(9]。它学习训练集的映射,可以提取模式特性实现从输入映射到嵌入式空间。一个距离函数的指标选择的空间 ⟶(0,+∞),计算每个类的m维表示或原型通过嵌入函数学习参数。典型的距离函数是欧几里得距离和三角形的弦距离,并在这项研究中,选择欧几里得距离。此外,每个原型向量的平均值的嵌入支持点类。这个类的原型表示平均后得到的样品。最后,查询的执行相同的映射操作集,和分类可以通过计算原型代表了每个类的分离。距离越小,越高的概率样本属于类,和最后的分类结果是最高的类概率。然后,选择了损失函数优化映射函数中的参数。具体公式如下:

在这个公式中,输入数据样本属性变量x和任何类标签y,输出数据的概率样本属于这个类。公式代表的原型的特征向量表示相应的类别,代表相应的样本的特征向量在特征空间,和属性的映射函数向量样本的特征向量。它代表样本之间的欧氏距离特征向量和范畴的原型代表特征向量。从这个公式可以看出,样本之间的距离越接近某个类别的原型表示,更大的概率样本属于这一类。

3所示。方法

3.1。研究的必要性

在目前,样本不平衡会有很大的影响。目前的方法基于一个典型的网络作为一个例子来详细解释。每个类有四个数据有五类来解决一个分类问题,称为5维4-shot目前的任务。属于同一类的数据分组,这些支持数据抛在特征空间中使用了网络。然后,原型 计算的平均为每个类嵌入式支持数据。特征向量的均值生成的网络 。然后,它需要的平均中心的五类 新鲜的查询图像投射到特征或插入空间并与这些原型使用欧氏距离方法将其分配给其中的一个类。如果x最接近平衡数据分类的一级原型,它属于1级(图1)。

然而,由于工业故障诊断数据分类的不平衡,如果原始4样品减少2 3班的原型,判断区域的范围将会改变。的 接近5班原型在分类和可能错误地判断了 ,导致分类错误。如果我们把样本的平均法与几个类别,分类错误很容易发生,和几个类别的样本不能代表,导致模型的鲁棒性较差。为了最大化每个样本的价值失衡few-shot样本的情况下,改善目前基于典型的网络在这项研究中重要得多。

3.2。中心的损失

改进模型的分类精度的关键是减少类之间的空间的最小化和类间的空间,所以添加在这个研究中心的损失。中心损失需要类似的特性更接近他们的中心点,从而直接限制样本特性,如方程所示(2)。 在哪里 代表了特征提取 样本, 代表的平均特性 样本, 代表样本计数。

表示 的梯度 在公式(3)和(4), 时表示的函数吗 是真的,否则返回1和0。分母的“1”是防止除以0的例外,因为没有 min-batch样本。 当我们更新质心特征 类的 ,如果类别 不是一样的类中心对应功能。也就是说,一个特定的类的功能只是负责更新相应的类中心 算法1显示了特定的算法对中心的损失。

输入训练数据:{ }。初始化参数 在卷积层。在损失层参数W和{ }。Hyperparameter 和学习速度 T←0。
输出:参数
(1) 不收敛
(2) tt+ 1。
(3) 计算损失
(4) 计算了传播的错 为每一个
(5) 更新W的
(6) 更新 对于每一个 通过
(7) 更新 通过
(8) 结束时
3.3。提高典型的网络

由于不稳定的原型表示几类的类不平衡问题,地区分类映射空间是混乱的。因此,中心可以添加基于损失将SoftMax损失缩短距离内增加类别和类别之间的距离,这样的地区分布不同的类变得清晰。

下面是(4SoftMax损失+中心损失(33]:

在改进原型网络在这项研究中,提出的主要原则是反映在改善网络损失函数的原型。损失函数,它由SoftMax损失和中心的损失。在将SoftMax损失, 代表函数组成的线性函数和激活函数的参数确定神经网络的训练。其独立变量的属性向量样本,和它的因变量是一个标量测量每个类别的隶属程度。在SoftMax标准化使其价值区间[0,1]。在中心的损失, 对应的特征向量的属性向量样本在特征空间,和 代表了相应类别的特征向量所代表的原型。 措施SoftMax损失和中心之间的重量损失。

SoftMax激活函数可以得到一个在0和1之间,这通常被认为是一个概率属于这个类。SoftMax损失,SoftMax的倒数。如果标签,属于这个类别的概率越大得到的SoftMax,损失函数值越小。结合反向传播神经网络参数的调整,分类效果。中使用的欧几里得距离中心的损失函数,由求和得到的所有样品和原型之间的距离相应的类别。如果金额小的距离,损失函数值小。结合反向传播神经网络参数的修正,组内的距离减少,阶级之间的距离扩大。

培训的情节是由形成一个随机的选择一个类别分段训练集,然后选择一个分段在每个类的实例作为一个支持组和其他查询点。典型的网络计算m维表达式 或通过嵌入式函数原型为每一个类 : 关于learning-ready参数φ。每个类的集群中心如下: 步骤1:给定一个距离函数 ⟶(0,+∞),典型的网络特征的样本 属于某个类在距离原型基于SoftMax嵌入维数,可以显示在方程(2)。步骤2:了解每个类的群集中心后的样本,我们可以描述这类样本 属于,距离和Softmax所代表的功能。同时,找到目标函数 使用的参数 网络的 ,如方程所示(2)。步骤3:损失函数J,参数φ嵌入函数被随机梯度下降法更新。伪代码来计算中心损失提供了算法1

典型的网络训练集的伤害计算。 在训练集类的计数, 在训练集计数的例子, 类每集的计数, 支持的例子是计算每个类, 是查询示例的计算每个类。 表示N个元素的集合选择均匀集s算法和随机不重复2是典型的网络的算法。

输入:训练集 , 代表的子集 包含所有的元素
输出:损失J对于一个随机生成的训练集。
结束了
r
结束了

对于小样本与样本不平衡的问题,本研究结合中央损失函数提高典型的网络,实现组内收缩的优良特性和阶级之间的分离,提高功能类别的区分度,有效地减少了偏差和误判的问题分类。

图中包含三个模块,包括输入层、运作层、输出层,和工作原理可以理解如下:(1)输入层代表输入训练集和验证集的不同类别的数据(2)手术层编码数据、卷积和其他操作和流程的数据损失水平(3)神经网络输出层执行数据,提取特征,并执行预测得到的结果

如图2这个数字包含三个模块,包括嵌入式模块,感应模块,输出模块。嵌入式模块代表输入数据从不同类别的训练集和验证集和项目提交样本。感应模块对数据执行操作,如卷积编码和生成类别原型G,在处理丢失的数据。输出模块对数据执行神经网络处理,提取特征,并进行预测分类获得最终结果。最后的分类结果表明,蓝色和橙色类之间的距离减少,和类之间的距离增加,使该地区划分更加明显。

4所示。实验

4.1。数据描述

本实验采用经典的工业数据集通过(TE)过程的波动和沃格尔34]。通过过程模拟的实际化学过程异常检测和过程优化。此外,整个过程包括五个操作单元,即反应器、冷凝器、气液分离器、循环压缩机,和产品脱模。在TE过程中,单一确定性水库模型适合多个输入和多个输出信号,将信号空间映射到模型空间。TE过程数据,实验数据,具有一定的严密性和权威性。TE过程数据也被用于验证在以前文献[35- - - - - -37]。

TE过程由11个操作变量和41个测量变量。这些52变量被用作输入和分析使用一个高维向量的故障数据,与表中列出的变量的具体含义1和表2。few-shot组合的学习和不平衡数据,表中所示的五个错误3被用在这个实验演示模型的优越功能对TE过程数据集。

4.2。实验细节和评价指标

一个典型的网络结合中心损失是用于对TE过程建模数据集。初始化参数的批量大小是5,和最初的学习速率是设置为0.1。

在这个实验中,准确率和F1采用评价指标。是最常见的一种分类精度评价指标来衡量分类器的分类精度,这表明正确分类样本与总体样本的百分比。模型的准确率是一个很好的指标区分负样本的能力。准确率,更好的模型分离负样本。

回忆是一个很好的指标模型的区分阳性样本的能力。召回率越高,越能够区分阳性样本的模型。调和平均精度和召回,两个是一对矛盾的数量。作为一个指标变得更好,它往往伴随着另一个度量变得更糟。因此,为了更好地评估分类器的性能,F1和准确性作为评估标准来衡量分类器的综合性能。详细信息见以下方程: TP, FN、FP和TN,分别表达成功确认阳性样本的数量,积极的样品错误地认为是消极的,负面的样品错误地认为是积极的,并成功地证实了负样本。

4.3。实验结果

证明新模型算法的优越性在工业故障检测条件下的小样本和不平衡样本,实验分类TE过程数据集,并使用适当的训练集和验证集(不重叠)对模型进行比较实验。六百个样本的每个故障被选为测试验证集。这项工作选择metalearning和典型的网络作为主要的对比对象。基于原型的网络编码研究提取每个样本的特性;样品在样品平均编码方法,根据最小距离分类结果,显示使用欧氏距离计算,以确定哪些分类查询样品属于哪一类,获取类别之间的距离和使用将Softmax从概率形式转换。

每个模型的算法性能比较在不同的实验条件下,即平衡数据样本(方案1)和不平衡数据样本(计划2,3,4)计划,实验有不同比例五TE过程的故障类型。训练集的数量被描述在表4。和什么损失函数是否应该被添加到model-agnostic metalearning (MAML [10])。此外,典型的网络模型进行了定量分析和计算。实验结果进一步根据不同群体相比,如表所示5。例如,在不平衡的情况下计划4日的ACC MAML模型从38.9%增加到49.2%,增加中心损失,和F1也从41.4%增加到56.3%。与简单的应用程序原型网络相比,该网络中心的损失与原型相结合的新方法改进F1 ACC 37.2%和30.7%。

这项工作,计划1,是平衡故障样本的情况。然而,计划2,故障样本是不平衡的。与其他方法相比,价值4和价值5数据暴跌从原来的10 - 2,导致不平衡的性质实验样本,如图3。影响提取单靠典型的网络更偏向于三种类型的故障样本与更高的数字在前面,和更少的注意价值价值4和5。常见的典型的网络和类似的方法不考虑数据的重量分布比率,从而导致错误的分类属于价值4和价值5到价值1-IDV 3更多的故障样本,和故障分类结果的准确性降低。

本研究充分占few-shot失衡问题通过给不同的关注不同数量的数据集获得加权类原型。此外,取得良好的分类结果。然后,不同的分配比率的结果与混淆矩阵分析相比,很明显,改进策略提高了分类性能。混淆矩阵比较了典型的网络有或没有损失的中心。如表所示6计划2,这个实验使用共有3000个测试样品,每个故障样本600。断层IDV1,我们的方法提高了模型精度24.2%相比,简单的原型网络,故障IDV5,从原来的14.9%提高到80.3%。在左边的图的典型的网络混淆矩阵图3,它可以可视化,IDV1 IDV2, IDV3,样本的比例很好,成功地分类精度达到0.65,0.60,和0.60,分别。

然而,对于IDV4 IDV5,分类鉴别的范围相对较小的是因为他们的不均匀故障样本,训练和原型并不代表,导致分类精度IDV4只有0.16,这是经常在测试期间IDV5歧视。错误分类的准确性IDV5达到了0.39。在IDV5,误分类的准确性IDV4达到0.38,而正确分类的准确性IDV5只有0.15。

建议不平衡样本影响故障分类的准确性。组内包含的收缩和组内的分离中心损失,成功分类的准确性IDV1故障分类样本,IDV2, IDV3超过0.80与0.89,0.85,和0.93,分别。的不平衡样本IDV4 IDV5,成功的分类精度达到0.76和0.80。成功的歧视的准确性显著增加,反映出模型故障歧视的优越性能。

计划3,失败的样本是一样的是不平衡的。2计划相比,两个不平衡数字成为价值1和价值2,和数据从原来的10 2和1急转直下,分别与一个极端不平衡的实验样品。单独提取的效果与典型的网络更偏向三种类型的故障样本背后更多的样品,和更少的注意价值1和价值2;故障分类原本属于价值1和价值2是错误地分类为价值3-IDV 5,有大量的故障样本造成分类结果的准确性下降。在使用典型的网络+中心损失,精度大大提高,一个成功的价值3的分类精度为89.8%,和价值的精度从11.8%提高到了60.7% 2。价值4,准确性也从68.1%提高到了86.4%。

同时,计划3,实验使用3000测试样品(表7)。可以在典型的可视化网络混淆矩阵图4(一),IDV3 IDV4 IDV5,正确的分类精度达到了0.65,0.68,和0.70,分别。然而,对于不平衡样本IDV1 IDV2,正确的分类精度IDV1只有0.22,和错误分类的准确性IDV2达到0.51。IDV2,正确分类的准确性只有0.11,IDV1错误分类为0.49的准确性。指出一些拍摄样本不平衡故障分类精度有相当大的影响。然而,在立即右侧图所示4后,将组内收缩中心和损失类之间的分离。成功的分类的准确性IDV1达到0.70,和成功的分类的准确性IDV2达到0.61。成功的歧视的准确性明显提高。准确分类的ACC IDV3、IDV4 IDV5也维持在高水平的0.90,0.86,和0.84,分别。

这同样适用于计划4,IDV1训练样本的数量,IDV2, IDV3下降10到2,3,1(表8),分别。单独使用原型网络故障分类相比,我们的方法的准确性提高IDV1从31.9%降至70.3%,IDV2从25.3%到79.5%,和50.6%,26.8%,15.7%,IDV3, IDV4和IDV5分别。IDV4和IDV5,结果只有0.65和0.74仅为典型的网络,但由于中央损失,准确性增加到0.91和0.90,是一个重大突破。IDV3只有1训练样本的准确性从0.18增加到0.69。四个不平衡的混淆矩阵结果表明,我们的方法达到最优分类结果(图5)。

4.4。分析

实验结果表明,本研究提出的模型演示了不同平衡态下性能优越。损失函数的加法也带来显著改善模型性能。有一个特定的差距metalearning和典型的网络的分类效果。而添加焦损失和损失典型的网络中心,很明显,添加核心功能有利于收缩在类和类之间的分离,进一步提高了分类的精度。本研究提出了一种新的模型,表现良好的样本平衡(方案1),明显优于其他方法。对于不平衡样本(计划2,3,4)计划,效果也比一般的结果。这部小说所介绍的模型算法在这项研究中有很大的应用潜力行业很难获得样品,样品是不平衡的。

实验执行t-distributed随机邻居嵌入(39)(t-SNE)和主成分分析(40)(PCA)降维的操作结果。在这里,t-SNE转换数据点之间的距离在高纬度地区成高斯分布概率,这是一个非线性降维方法。PCA降低特征维度的数量用于训练模型从多个特性。通过构造所谓的主成分该模型算法增加了故障分类的精度,使组内收缩和组内的分类、和可视化结果如图6- - - - - -9。可以看出,样品是否平衡或不平衡,甚至用很少的训练样本,我们的方法可以实现组内收紧和组内的分离性能的误分类明确分类和更少的混乱。

5。结论

在这项研究中,工业故障诊断方法在复杂的操作情况下限制数据被认为是一个不平衡分类问题few-shot学习,和典型的网络整合中央损失提出了改进模型。这些训练模型的特点,研究了使用学习方法在模型空间中实现组内收缩和组内分离,可有效识别和隔离故障。本研究调查了TE过程基于概率学习和第一次数据不平衡问题。与其他方法,通过大量的实验和模拟结果表明,该模型获得最佳的性能在不同c-way k次。我们将继续调查智能故障诊断基于原型网络在未来。一个方面探讨优化的hyperparameters原型网络,如选择学习速率和meta-batch大小可学的方式。另一个领域是监督学习semisupervised学习的延伸。(41,42]。

数据可用性

使用的数据来支持本研究的结果都包含在这篇文章。

的利益冲突

作者宣称没有利益冲突。