文摘
滚子轴承是最常用的组件转动机器。因此滚子轴承的故障诊断中扮演一个重要的角色在确保安全功能的机械系统。然而,在大多数情况下的轴承故障诊断,有有限数量的标签数据达到一个合适的故障诊断。因此,利用标记数据加上几个标记数据,提出了一种基于tritraining滚柱轴承故障诊断方法,提高滚子轴承诊断性能。克服错误的标签带来的噪声分类器训练过程,切割边缘权重引入诊断框架的信心。除了一个小技巧叫做怀疑原则是用来避免过度拟合问题。验证了该方法在两个独立的滚柱轴承故障实验中振动信号,包括三种类型的缺点:内圈的错,外圈故障和滚动体故障。结果证明了该方法的诊断性能改进的在极端情况下只有有限数量的标签数据。
1。介绍
滚子轴承是最常用的组件转动机器和他们的错误可能会导致巨大的经济损失,环境污染,人类的伤亡。因此,滚动轴承的故障诊断是至关重要的保证机械系统的顺利和安全功能。
有大量研究vibration-based滚子轴承的故障诊断和几个强大的诊断方法是可用的(1]。李等人。2]介绍了电动机滚动轴承故障诊断的方法使用神经网络。Seryasat et al。3)提出了一个滚珠轴承故障诊断方法使用快速傅里叶变换(FFT)和小波能量熵值和均方根(RMS)。彭和蒋介石4)使用C4.5决策树和随机森林算法诊断故障三相感应电动机的滚珠轴承。金等。5]介绍了轴承故障诊断的方法使用跟踪比线性判别分析。和刘et al。6)提出了一个扩展的子波频谱分析技术实现轴承健康状况的更积极的评估。事实上,所有这些方法产生一个相当优秀的性能不同轴承的故障诊断。然而,这些方法中使用的数据都是带安全标签的数据时,那种已经标记根据轴承状态。然而,在轴承故障诊断的情况下,带安全标签的数据时非常昂贵的获得,因为他们需要人类努力而大量的未标记数据是现成的。为了更好的实用价值,使用无标号数据应该被考虑。因此,semisupervised学习技术,利用标记数据加上几个标记数据来训练好的分类器,可能是有前途的候选人在滚柱轴承诊断有限数量的带安全标签的数据时。
好评(7,8)给出semisupervised分类方法的一个很好的复习。其中,生成模型、自我训练和cotraining三个经典semisupervised学习方法。生成模型指定一个联合概率分布的观察和标签序列,从而用于建模的数据。尼噶等人应用期望最大化(EM)算法,一个经典的生成模型,对多项分布的混合文本分类的任务。结果显示分类器的表现比训练只有从带安全标签的数据时9]。然而,生成模型必须精心构造反映现实;否则无标号数据应该帮助实际上可能伤害的准确性(10]。自我训练技术分类器在哪里第一次少量的标记的训练数据,然后使用分类的无标号数据将被添加到训练集进行进一步的培训。罗森博格et al。11)自我训练应用于对象图像和检测系统显示semisupervised技术最先进的探测器相比并不逊色。但自我训练受到错误的标签;注意,分类器使用自己的预测教本身(12]。Cotraining,布卢姆提出的和米切尔(13),可以非常有效,在极端的情况下只有一个标记点是需要学习的分类器,这是最大的令人难以置信的神奇(14]。然而,cotraining更比强假设(1)功能可以分成两组;(2)每个subfeature集足够训练好的分类器;和(3)两组有条件独立的阶级分裂的特性,通常在现实生活中无法满足。周和李来处理这个问题,(15)提出了一个名叫tritraining cotraining风格semisupervised学习算法。在tritraining过程中,会生成三个弱分类器从原始标记示例集,然后精制使用标记的例子。Tritraining既不需要实例空间与充分冗余视图描述也不让任何约束监督学习算法。此外,它具有良好的效率和泛化能力的优点。Tritraining已成功应用在中国组块(16),生物命名实体识别(17),和网络垃圾邮件检测(18]。所有这些优势和成功应用在其他领域,tritraining应该是一种很有前途的在轴承故障诊断方法。然而,无标号数据的过程采用tritraining是简单的一致性原则。详细,在每一轮tritraining第三分类器标记的例子是标记标签如果其他两个分类器同意,在一定条件下。这可能破坏的性能稳定性tritraining因为标记数据可能经常被错误地标记在学习过程中两个分类器(19]。为了克服这个问题,切边重量统计(经济网)20.)是利用给每个标签无标号数据预测的信心。只有当信心足够高可以预测标签被添加到训练集,这个问题解决了切边重量信心(CEWC)加上所有的优点,毫无疑问,tritraining semisupervised将很有前途的算法提高轴承故障诊断。
因此完全欣赏大量的未标记数据的滚柱轴承,从而提高轴承的性能故障诊断,提出了一种滚动轴承故障诊断方法的基础上,结合tritraining CEWC。和本文的其余部分组织如下。节2,本文中使用的方法的详细描述。节3,实验设置和相对的两个独立的滚柱轴承故障信息数据集。节4,并给出了结果。节5结果进行了讨论。最后的部分6,研究的结论。
2。方法
2.1。Tritraining
Tritraining是semisupervised周提出的机器学习和李15]。tritraining的过程如下。首先从装袋最初三个不同的分类器训练样本原始标记示例集。分类器的多样性保证了原始标记示例集的操作通过一个受欢迎的集成学习算法,也就是说,装袋(21]。第二,三个训练分类器是用来预测的示例标记集。那些通过一致性原则将被添加到标记数据集。第三,更新初始分类器和重复的过程。
让表示标记的数据集的大小和表示无标号数据集的大小。在标准tritraining算法,有三种不同的分类器,,最初从最初的训练。然后,对于任何一个分类器,一个标记示例可以标记,只要其他两个分类器同意这个例子的标签。例如,如果和同意标签的一个例子在,然后可以标记。很明显,在这样一个计划的预测和在是正确的,然后会得到一个可靠的新实例进行进一步的培训。否则,会得到一个例子与嘈杂的标签。然而,周和李15]证明了,即使在最坏的情况下,分类的增加噪声可以补偿如果新标签的例子是充分的和约束条件(1)是满足。 在哪里和是标签的例子的其他两个分类器分类器tth轮和()th轮,分别。的上限是其他两个分类器的分类错误率的吗t轮。和噪声的分类吗;也就是说,例子的数量这是贴错了标签。
值得注意的是,如果标签的例子是不充分或不满足约束条件,而是令人怀疑的好处大于缺点,是否一个标记的例子是错误的标记。因此,它仍然需要测量每个分类器的标签的信心。
2.2。切边质量的信心
建立了CEWC通过一个两步过程。在第一步中,通过使用最近的邻居的标准,一个社区图是由标签的例子,在那里的属性是pth例子在集合和标签。具体地说,每个示例对应于图中一个顶点。会有优势连接两个顶点和如果任何一是k最近的邻居的或是最近的邻居的。和重量与边缘计算为,在那里之间的欧几里得距离吗和。
在第二步中,标签是否的信心与是正确的评估通过探索信息编码在吗的结构。如图1的边缘被称为切割边缘如果相关联的两个顶点连接,它有不同的标签。经济网如下: 在哪里对应的集合与示例在和对应于一个先验知识。伯努利随机变量的值为1不同于。当的大小是足够大,根据中心极限定理,可以通过正态分布近似建模。让表示的标准化形式。然后基于左单边的价值关于标签的信心如下: 在哪里标签的信心和吗是的价值标准正态分布。
请注意,只代表一个启发式方法估计标签的信心,决不应被视为代表的真实概率正确的标签。然而,实验结果(22)验证这种启发式信心评估策略的有效性识别正确的标签不正确标签的例子。
2.3。诊断框架
该方法结合了tritraining和CEWC实现轴承故障诊断,因此被称为C-tritraining。的框架见图2。用于诊断轴承振动信号的数据。第一,诊断原始振动信号的特征提取。使用集成经验模态分解(EEMD)原始振动信号可分为固有模式函数(货币)23]。货币基金的信息熵,令人惊讶的是良好的特性对轴承故障诊断(24),使用的特性,该方法的输入。然后,三个装袋样本集是来自标记特性集和每个人用于初始训练弱分类器,采用BP神经网络。三个弱分类器将获得并用来预测特定比例的标记功能的例子。详细的预测弱分类器1和弱分类器2,如果CEWC都高于阈值,将被添加到样本集3更新的弱分类器3。这同样适用于弱分类器1和分类器2的更新;即训练集是扩大其他两个弱分类器的预测。此外,无标号的初始比例特性例子从数据库设置为0.5。更新比例如下: 在哪里和的比例th和迭代。和训练误差th和()迭代。更新过程比例相当直观。如果错误减少扩大后的训练集添加了标记预测,我们自然有信心弱分类器是可靠的,能够处理更多的未标记示例。然而,如果错误的增加,我们将信心较低的弱分类器和无标号的例子是下次信任他们。tritraining进程一直运行,直到达到终止条件。最后一个框架集成分类器的输出将被用来做最后的轴承诊断使用多数表决。
试图避免过度拟合问题,一个叫怀疑的小技巧原则引入分类器更新过程终止条件。怀疑原则的核心在于,当三个初始分类器tritraining已经更新为他们最好的(错误率停止减少)的帮助下无标号的例子,我们仍怀疑他们已经达到最佳或陷入局部最优。因此,终止条件设置为分类器更新进程一直运行在某些时候,错误率停止下降。值得讨论的我们应该如何设置怀疑原则的价值。在部分实验结果4表明四次是一个很好的选择。
3所示。案例描述
验证了该方法的有效性和泛化能力,从两个单独的轴承故障数据集情况下由不同群体。
案例1。如图3、第一例最初进行旋转机械故障模拟试验台(QPZZ-II)预测和健康管理可靠性与系统工程学院实验室的北航。
内圈故障、外圈故障和滚动元件故障介绍表面通过电极丝切割缝隙内圈、外圈、滚子的元素标记,如图4。振动信号采样的频率每秒5120样品和旋转速度是每分钟1500转。
使用的测试轴承圆柱滚子轴承(N205EM HRB中国),上市的详细的结构信息表1。
例2。第二例最初是由智能仪器和诊断研究所、西安交通大学。试验装置如图5他们是完全设计和制造。它主要由调速器,驱动电机、电源盒、横向和径向加载设备,当然传感器。
轴承故障的情况下2包括内圈故障、外圈故障和滚动元素故障面积3.8毫米27毫米2,3毫米2装有猛表面剥落内环,外环,分别和辊元素。测试轴承用深沟球轴承(6308),其详细的结构信息是列在表中2。采样频率是每秒20 K样本和旋转速度是每分钟1500转。
4所示。结果
通过EEMD过程,从两个案例收集的原始振动信号转换为两个特性集。根据(18EEMD],两个参数,即添加噪声的标准差之比和输入,将0.15和整体数量将是100。信息的特性集列在下表中3。对于每个特性集,85%的数据作为训练集,其余的则是作为测试集来检查训练分类器。训练集,由标签池和无标号池,也就是说,分区不同unlabeling利率包括80%,60%,40%,20%。的数据情况1的大小是400的例子;例如,培训组有340例(85%)和测试组60例(15%)。当unlabeling率是80%,68例340例子是那么投入和其他投入292示例没有他们的标签。为了克服结果的随机性,50个执行独立运行和平均结果概括为最终结果。
图6显示了分类错误率的病例1和2在不同unlabeling率和怀疑的价值原则。当怀疑值设置为四个原则,分类错误率最低或第二个最低在大多数情况下只有分类错误率的情况下除外2根据unlabeling率为0.6。因此,自然直观确定可疑值设置为四个原则是一个实用的最优选择。
(一)
(b)
怀疑原则值设置为四个,平均结果总结表4,提出了初始的分类错误率合奏弱分类器,也就是说,这三个最初的BP神经网络分类器的组合只有训练最后合奏tritraining生成的分类器,后者对前者的提高。BP神经网络的结构和参数如表所示4。
4.1。比较实验与不同Semisupervised学习模型
在这篇文章中,自学和tritraining模型进行比较。自主学习模式是一种传统semisupervised学习方法最自信的无标号数据样本,预测标签,添加到最初的训练集,这样可以重新训练神经网络分类器和重复的过程。tritraining模型是一个基本模型的参数是相同的除了经济网C-tritraining优化过程。详细的诊断是列在表中5- - - - - -7和图7。
4.2。比较实验与不同的基分类器
为目的的调查诊断性能不同的基分类器,进行额外的实验,建立了支持向量机(SVM)和RBF核函数的内核参数设置为0.08和惩罚因子设置为128。SVM模型使用one-versus-all标准训练。注意,SVM模型可以被视为一个更稳定的分类器,而基于神经网络的分类器主要是不稳定的培训机制。在情况下1作为一个例子,详细的诊断结果显示在表中8。
5。讨论
(1)不同于基于监督学习的诊断故障检测和识别方法,这手稿提出了一种新的增量学习方法,利用未标记数据提高诊断滚动轴承的性能。考虑到故障样本不断获得随着时间监控,semisupervised合奏学习使用,避免手动标记错误,以及改善分类精度对健康评估利用之前学到的知识和新获得的信息实时诊断机制。tritraining在这方面,三种不同的分类器产生的包装样品和集成故障诊断,是提高基分类器的分类性能。在此基础上,采用CEWC我在这项研究中,进一步突出无标号数据的特点,设计一个更聪明的诊断模型。这个方法应用于两个轴承与不同比例的无标号样本(20、40、60岁和80%,职责)。如表所示5,该方法能够有效地提高最初的系综分类器的性能在这两种情况下的所有标记率1和2。改进的范围从25.9%到2.6%。(2)这是值得注意的图8大幅提高百分比增加unlabeling加息在这两种情况下1和2。这意味着,利用未标记数据,该方法非常重要,那里是有限的标记数据来训练分类器。当有不带安全标签的数据来训练分类器,该方法能够提高分类器的性能。然而,改善和诊断出错率的绝对值2通常高于情况1。两个结果之间的差异是由于他们的数据集的大小。情况下的特性集1有400个例子,案例2只有128的例子。为例2,当unlabeling率是0.8,那么只有标签的例子来训练分类器,训练好的分类器显然是不够的。难怪最初underfitting分类器的分类误差达到0.4589时unlabeling率是0.8。该方法促进25.91%初始分类器在这种极端情况下的性能。例如,当有足够的标签数据的情况1当unlabeling率为0.2,分类错误率降低到0.0487(95.13%诊断准确性)。这意味着滚柱轴承故障诊断基于tritraining承诺在两种情况下(a)没有足够的标记数据来获得好的分类器或情况(b),有足够的标签数据。情况(一)tritraining大大改善了分类器的性能,利用未标记数据容易获得。和性能将继续升级,只要有更多的无标号数据。在情况(b) tritraining仍然可以帮助尽管初始分类器轴承故障诊断的足够好。(3)在这项研究中,semisupervised学习方法包括自学和传统tritraining进行比较。在表中列出详细的诊断结果3- - - - - -7和图8。可以看出虽然所有方法的分类率提高,基于tritraining方法似乎产生在大部分的情况下正确的利率上升。把诊断结果unlabeling率为0.82作为一个例子,分类精度的提高25.91%,14.33%,23.13%,C-tritraining,自主学习,和tritraining分别。这主要是因为这样整体过程能有效地加强单个分类器的学习能力通过集成多个视图。此外,基本tritraining模型相比,该方法获得更好的诊断结果证明的有效性经济网从unlabeling捕获关键故障特征数据在滚动轴承诊断问题。它也指出1自学的诊断结果减少unlabeling率为0.8,这可能由于训练不当一些负面影响,如过度拟合问题。(4)从基于支持向量机的诊断结果C-tritraining,有人指出故障分类性能也得到了改进,论证的有效性提出semisupervised学习方法在滚动轴承诊断;也就是说,这种模型可以适当应用使用不同的基分类器。然而,测试数据的误分类率相对较高的基于摘要模型相比,这可能是由于小三种SVM模型的区别。整体过程只能在基分类器的条件下,更有效更大的多样性。因此在这项研究中,当确定基分类器和体系结构中,我们遵循一个简单的想法,应该尽可能不同分类器在装袋过程中,以便更充分的信息可以从unlabeling数据。
6。结论
为了提高轴承的性能故障诊断时带安全标签的数据有限,本文提出了一种滚动轴承故障诊断方法的基础上,结合tritraining CEWC。方法验证在两个滚子轴承故障情况下由两个独立的团体。结果表明,与未标记示例的帮助下,该方法可以有效地提高故障诊断的圆柱滚子轴承、深沟球轴承有限时标签的例子。该方法还可以帮助即使有足够的标记数据和诊断精度可以达到95%。
虽然该方法是有前途的,有一些可以改进今后的工作。从振动信号中提取特征信息熵通过EEMD货币基金,这是一个迭代过程tritraining也是如此。使得该方法费时,削弱了其适用性在滚柱轴承在线诊断。因此,提高效率是未来工作的重点之一。
相互竞争的利益
作者宣称没有利益冲突有关的出版。
作者的贡献
魏利秦和Zheng-Ya王同样应该考虑这个工作和共同第一作者。
确认
这项研究得到了国家自然科学基金(批准号51575021和51575021),国防技术基础项目(批准号Z132013B002),中央大学的基础研究基金(批准号YWF-16-BJ-J-18)。