设备运行状态的评估与改进的随机森林

文摘

准确地评估在风力涡轮机和发电机的状态及时发现异常,该方法提出了基于改进的随机森林(IRF)。过采样技术的平衡策略,结合(打)和欠采样是申请不平衡数据。引导应用于原始数据集重新取样发电机方面的监控和数据采集(SCADA)系统,并生成决策树。后的决策树与不同的加权分类功能,IRF模式。模型的精度和性能是基于10倍交叉验证和混淆矩阵。60集评估测试,和准确性为95.67%。这是超过1.67%高于传统分类器。60个数据集在每个类的概率计算,确定相应的状态类。结果表明,提出的IRF具有较高的精度,可以有效地评估和国家。该方法具有良好的应用前景在风力发电设备的状态评估。

1。介绍

近年来,风力涡轮机的数量增加风能的广泛应用。发电机是风力发电机的重要组成部分。所以,它的运行状态直接影响风力发电机的发电。一般来说,风力发电场是建立在复杂和苛刻的地方如戈壁。风力涡轮发电机没有频繁的影响下极其恶劣的工作环境,复杂的工作环境,和极端天气(1,2]。一个主要问题是维护困难和昂贵。所以,这是至关重要的评估风力涡轮发电机的运行状态。

有越来越多的学者认识到风力涡轮发电机状态评估的重要性。模糊综合评价等方法,支持向量机(SVM)和神经网络(NN)是主要的方法来评估。同时,SCADA系统已经安装在许多风力发电场。这是一个强大的风力涡轮机的方式来获得操作数据。广泛的研究表明,从SCADA系统状态参数数据是至关重要的。它与风力发电机的运行状态,实现和国家评估。王等人建立了一个基于模糊数学评价模型综合评估风力涡轮机的设计性能,但其操作状态不是评估有效(3]。郑等人考虑随机性的模糊方法。组合权重应用于确定的指标权重更高的精度,有效和健康状态评估(4]。一个等人综合考虑风速和转速等多源信息。不同故障的实验数据验证了基于支持向量机。最后,风力发电机的故障诊断是实现(5]。梁和方认为风力涡轮机的组件之间的耦合关系,建立了回归预测模型与支持向量机(6]。林等人提出了一种自适应免疫果蝇优化算法(AIFOA)来优化支持向量机的参数。功能指数预测更准确。和性能评估实现了比较正常的偏差值(7]。与使用传统的SCADA报警系统,故障诊断是更方便的。李等人建立了一个基于神经网络的正常行为模型来评估风力发电机运行状态。健康类提出了测量操作状态和正常状态之间的差异。最后,风力发电系统有效地评估(8]。小王提出了一个两级神经网络识别方法用于故障分类和故障诊断,分别为(9]。赵等人提出了一个深刻的学习方法(DLM)深autoencoder (DAE)网络和建立了DAE模型。SCADA数据输入和故障早期预警组件实现(10]。杨等人建立了一个风力涡轮机首先评价指标体系。定量评估等主要部件的叶片在风力涡轮机和发电机轴承实现了基于SCADA数据(11]。陶和华生意识到国家基于SCADA数据和故障监测风力涡轮机和五个方面得出的聚类方法,正常行为建模、损伤建模和专家系统回顾估计(12]。胡等人提出了一个评价方法基于温度特性参数和恶化程度的函数。早期恶化的风力涡轮发电机系统检测成功13]。钱等人提出了一个在线连续极端学习机(OS-ELM)风力发电机状态监测算法。长期恶化的特点和短期故障变速箱检测有效的基于SCADA数据,该方法14]。许等人认为控制图基于指数加权移动平均(EWMA)模型作为主要评价方法和设置监控状态变量的上限和下限。风力发电机运行状态的可能反应,但是这个过程的数据是有限的(15]。

这些研究结果提供了理论和实验基础评估风力涡轮机或他们的核心组件。然而,存在一些问题。模糊综合评价是在指标权重的确定有缺陷;它是非常主观的。支持向量机适用于分类基于小样本的大小,但它是困难的大尺寸的样品。神经网络是简单的学习和实现与前两种方法相比,但必须获得准确结果基于大量的数据集。重要的是,结果是高度依赖于参数,和大量的工作和经验需要微调的过程中这些参数要求(16]。

然而,总体学习是一种学习模式,许多分类器相结合来解决一个问题。单个分类器的泛化能力可以显著提高基于分类器。例如,随机森林(RF)是广泛应用因为分类能力强,学习能力强,没有要求样品。重要的是,该方法更适合的分类或回归问题与低噪音。它是对参数的调整。分类属性不是划分太多,和数据维度应该在数万维度。王等人提出了一个全景的裂缝检测方法基于结构化射频实现状态监测和故障诊断。最后,全景的表面裂纹钢梁被发现有效(17]。但同样的体重给决策树与不同分类能力在最后射频的投票阶段,这削弱了分类性能。

因此,状态评估方法提出了基于IRF。介绍了采样打不平衡数据集。正确的重量是引入射频的最后投票阶段。为了提高精度,设置不同的权重根据决策树的不同的功能。10倍交叉验证和改进评估标准基于混淆矩阵的应用模型评估。最后,该方法验证基于SCADA系统的数据集风力涡轮机。发电机的正确评估。方法验证的效率与传统分类器。

2。方法:改进的随机森林

2.1。对不平衡数据处理

不平衡数据意味着某些类别有大量的样品和其他少数样本,形成每个类别不平衡的数据集。一般来说,少量的样本被称为少数民族。很容易与少量的类别,分类错误是和分类精度不好,因为不平衡。目前,不平衡是解决数据处理和算法。数据处理是提高少数样本是基于欠采样或减少大多数基于过采样样本。然而,过采样是一份少数样本,导致重叠和过度拟合的数据集。一个随机采样方法是删除一些数据来平衡样本,导致一些重要的样本信息丢失,结果受到影响。有人研究了两种方法的结合,并得到良好的结果,所以在欠采样相结合的方法和合成少数过采样技术(杀)介绍了(18]。

杀几个邻近样本之间的线性插值实现合成新的少数样本。也就是说,样本(通常是5)最近的邻居发现少数民族中的每个样本数据集。根据采样放大 , 同样的样本是随机选择的 - - - - - -最近邻样本,它是。之间的线性插值实现和少数样品的合成新的少数样本。这个公式表示如下: 在哪里之间的一个随机数。是新的样品。

2.2。随机森林

2.2.1。射频模型的建立

射频是一个分类器集成算法,结合了“随机子空间法”和“引导总”建立决策树(DT)。射频建立如下(19]。

引导重采样方法来分配训练集和测试集。原样品集和随机抽样所取代时代形成新的训练集是相同的大小与原始样本集。根据概率的分布,反复收集60 + %的样本作为训练集,约36%的样品不是收集测试集。

每个生成的训练集应用于建立一个相应的决策树。属性提取从决策树的每个节点作为当前节点的分裂属性分类。在整个森林的生长,是由每个节点的基尼系数。每个节点的基尼系数表明杂质。纯度基尼指数成反比。这个公式表示如下: 在哪里概率是样品吗包含属性。

输入测试集验证了每一个决策树,并获得结果基于投票的数量。射频模型表示如下(20.]: 在哪里输出的决策树。是相应的类别, , 决策树的数量是随机森林。指标函数。正确分类;它的值是1;否则,它是0。

决策树的数量射频对泛化能力有至关重要的影响。将提取的数据集不。输入上述射频模型;相应的输出分类结果。不正确的分类将的数量 ,所以不正确分类的概率是。最后,决策树的数量确定有效(21]。

2.2.2。改进过程的射频

为了避免传统射频的效果评估准确性由于每个决策树同样的重量。重介绍了投票过程。赋予不同的权重不同的决策树,并提高泛化能力。重量的公式表示如下: 在哪里是预先测试过的样品(训练集)的一部分,是样品的数量正确分类。

改进后的射频模型表示如下:

风力涡轮发电机的评估过程和IRF如图1。权重的设置如图2。

2.3。在线评估策略

评估由噪声引起的错误,介绍了在线评估。将类的操作状态 ;数据在时间是输入IRF模式吗。投票结果每个决策树的输出,所以概率的程度th运行状态表示如下:

发电机的状态度相邻度之间的转换。最后,相应的状态程度的数据表示如下:

2.4。评估模型的性能

2.4.1。 - - - - - -折交叉验证

为了保证结果统计学意义,10倍交叉验证应用来验证该模型的性能。样品是随机分成10份,确保尽可能均匀分布的数据集。九是作为训练集,剩下的1是作为测试集,重复10次,结果是100个值的平均值。

2.4.2。混淆矩阵

一般来说,分类精度作为模型的一个评估标准。但模型的性能通常是忽略少数样本不平衡数据集。所以,混淆矩阵是介绍了22]。真正的类别之间的关系描述的样本和分类结果由混淆矩阵模型性能的评估标准。混淆矩阵如表所示1。


真正的价值	分类值
	积极的实例	消极的实例

积极的实例	真阳性( )	假阳性( )
消极的实例	假阳性( )	真阳性( )

绝大多数类;是少数类; , 是多数类和少数类分类的数量正确,分别;和 , 是多数类和少数类分类错误的数量。

评估分类模型更准确地说,调和平均数的准确性和少数类 ,正确几何平均速度 ,和马修相关系数确定评估标准模型的基于混淆矩阵。具体的公式表示如下:

然而, , ,和只适用于二进制的问题。”和一个“策略解决多类问题的介绍。也就是说,多级成对成对;多类问题转化为二进制的问题。终于作为一个平均的结果。因此,应用改进的评估标准。这个公式表示如下:

3所示。仿真结果和讨论

3.1。准备模拟

3.1.1。数据收集

论文中的数据集来自SCADA系统的风电场风力涡轮机。SCADA是分布式控制系统(DCS)和电力自动化监控系统基于计算机。实现数据采集、设备控制、测量、参数调整风力涡轮机的核心组件,如发电机、齿轮箱、叶片通过监测和控制现场设备,即风力涡轮机。目的是为了正确地掌握系统和每个组件的状态,迅速做出决定,以帮助诊断故障状态,等等。F7风力涡轮机失败在风电场14:01 7月1日,2017年。发电机故障之前收集的数据集从SCADA系统。细节的数据如表所示2,其中包括样品的数量、特点、类、类分布和不平衡率。最大不平衡率是获得的样本和最小的样本。


样品	特性	类	类分布	不平衡率

1266年	9	4	354/457/403/52	8.79

3.1.2。评估的设置功能

根据特性与SCADA系统的发电机,九个特征数据集确定发电机,产生更大的影响,分别 :前面轴温度; :后轴承温度; :冷却水入口温度; : 绕组温度; : 绕组温度; : 绕组温度; : 绕组温度; : 绕组温度;和 : 绕组温度。

3.1.3。设置状态的程度

一般来说,它是适合状态度划分为3 - 5。摘要风力涡轮发电机的状态度最后确定为4,即“优秀”,“好”,“关注,”和“坏处”。

3.1.4。最优的设置特点

均值计算精度的基础上降低指数(如图3)。最优特征的数量是一样的在70%以上。即最优特征的数量设置为4,和决策树分支。

如图4带外(OOB)错误率降低决策树的数量增加。后 ,OOB错误率仍然稳定在4%以下。更准确地评估,它将。

3.2。状态评估和仿真结果的分析

验证该模型本文基于表的数据集2。不平衡数据集的分类问题。数据集的一部分表所示3。


特性	时间
特性	四点半	6点半	8:30	10:30	12:30	夏令时间

	44.0	46.6	50.7	48.7	55.1	58.5
	44.4	46.9	49.7	47.8	49.8	52.3
	54.2	39.5	44.0	44.7	45.5	48.2
	78.6	77.8	84.0	81.5	81.6	85.3
	75.5	75.3	81.0	76.5	78.5	83.2
	78.1	77.2	82.9	79.0	80.9	85.9
	77.3	76.7	82.5	78.6	79.1	85.8
	78.6	79.0	84.2	80.2	80.7	87.3
	77.4	76.3	82.6	78.8	80.3	84.7

功能分布如图5不平衡数据集处理后基于欠采样和击杀。

(一)前轴承

(b)后轴承

(c)冷却水入口

(d)绕组

(e)绕组

(f)绕组

(g)绕组

(h)绕组

(我)绕组

本文在MATLAB R2016a模拟测试完成。首先,样本容量的影响进行了分析模型的准确性。确定样品的总数在1400年,1000年和600年。改进的随机森林模型的准确性验证了10倍交叉验证和改进的评估标准。结果如表所示4。


数据集的大小	类	大小	平均数量的修正评估	评估标准


1400年	卓越	35	32	0.9529	0.9536	0.9546
	好	35	31日
	注意	35	35
	坏处	35	35

1000年	卓越	25	23	0.9560	0.9548	0.9615
	好	25	23
	注意	25	25
	坏处	25	24

600年	卓越	15	13	0.9567	0.9545	0.9600
	好	15	14
	注意	15	15
	坏处	15	15

根据评估结果表4,它不是重要的对训练集的数目影响评估模型的准确性,和最终评估精度波动95% - -96%左右。同时,评估结果为10倍交叉验证基于600年的数据集在图所示6。

进一步验证IRF具有较高的泛化能力和分类能力状态评估的发电机,在同等条件下,DT,射频,概率神经网络(并),学习矢量量化(LVQ),并分别采用支持向量机进行训练和测试。600的数据集大小作为一个例子,和比较不同分类器的评估精度的基于10倍交叉验证和混淆矩阵如表所示5。


分类器	评估标准
分类器

IRF	0.9567	0.9545	0.9600	0.9159
射频	0.9400	0.9379	0.9428	0.8824
LVQ	0.9400	0.9386	0.9502	0.8926
支持向量机	0.9067	0.9046	0.9188	0.8282
DT	0.9083	0.9013	0.9283	0.8380
并通过	0.9083	0.9045	0.9245	0.8358

正如你所看到的从表5基于RF, IRF显著提高。评估标准是按模型 : , : , : ,和 : 。综合分析的结果。平均准确率是1.67%高于射频。世界宗教自由模型具有最佳性能,反映了它具有良好的预测精度,推断能力,和鲁棒性能。所有的论文中使用的符号的定义如表所示6。


:前轴承温度	:指标函数
:后轴承温度	:5最近邻样本的数量
:冷却水进口温度	:属性的数量
: 绕组温度	:最优属性的数量
: 绕组温度	:马修相关系数
: 绕组温度	:的平均水平
: 绕组温度	:数据集的数量
: 绕组温度	:决策树的数量
: 绕组温度	:新样品
:分类精度	: ,概率抽样包含属性
:的平均水平	:的概率在学位
:的th决策树	:数据集的数量不能提取
:国家学位	:从数据集的数量不正确的分类提取
:国家学位时	:时间
:错误的分类	: ,重量的th决策树
:假阳性	:发电机的数据值
:假阳性	: ,正确分类样本的数量th树
:调和平均数少数类的精度和召回	:预先测试过的样品的数量
:的平均水平	:一些示例
:基尼系数	:从最近邻样本是随机选择样本
:正确几何平均速度	:之间的随机数(0,1)
:的平均水平	:真阳性
:综合评价结果	:真阳性
: ,评估的结果th决策树	:相应的类别

同时,60测试集是用来计算的概率状态类。概率图所示的结果7。

在图7,“优秀”的概率是最大的13个样本。从14示例中,“好”的概率逐渐增加。从14日样本到23日示例中,“好”的概率是最大的。从24日示例中,“好”的概率逐渐减少,和“关注”的概率逐渐增加。从31日样本到第37示例中,“关注”的概率是最大的。从38示例中,“关注”的概率逐渐减少,和“坏”的概率逐渐增加。从46样本60例中,“恶”的概率是最大的。

状态评估类和原始类图所示8。60的评估结果确定数据集:1 st-13th:优秀;14 th-30th:好;31日st-45th:注意;46 th-60th:坏处。即原始测试设定在“优秀”类是两次误分类好,和原来的测试设定在“好”类是错误地分类为“优秀”类。结果的准确性达到95.67%状态程度的实际操作。因此,验证了该方法的有效性。

4所示。结论

一个风力涡轮发电机的状态评估方法提出了基于改进的随机森林(IRF)。首先,数据集包含九个特征确定发电机的监控和数据采集(SCADA)系统。采样合成少数过采样技术(杀)介绍解决不平衡数据问题。引导应用于原始数据集重新取样,然后,生成决策树。重量是根据不同决策树分类的性能决定的。世界宗教自由模型,并建立了相应的在线评价策略。最后,60数据集选择输入验证建立的模型是基于10倍交叉验证和混淆矩阵。正确地评估风力涡轮发电机的状态,然后,相同的数据集应用于实现在线评估。精度达到95.67%。该方法不仅能保证准确性和有效性的评估也提高效率。 The accuracy of the proposed method is better than traditional classifiers. It provides a certain reference for state assessment of wind power equipment.

数据可用性

所有的数据在手稿。如果研究人员有兴趣获得数值解文件,请联系电子邮件地址:skyyangna@126.com。

的利益冲突

作者声明没有潜在的利益冲突的研究,本文的作者和出版。

确认

作者欣然承认提供的金融支持自然科学基金(51675350)和辽宁省教育部门(没有。LQGD2020016)。

引用

h . j . m . x f . Chen Li Cheng b·李和z,他“状态监测和故障诊断技术的研究和应用在风力涡轮机,”机械工程学报卷,47号9日,45-52,2011页。视图:出版商的网站|谷歌学术搜索
刘h·h·赵h . Liu, y . k .林”风力涡轮发电机状态监测和故障诊断基于堆叠autoencoder网络,”电力系统自动化,42卷,不。11日,第108 - 102页,2018年。视图:谷歌学术搜索
w .治国,m .伊泰、y赵和l .,“风力发电单元的模糊综合评价方法,”Energiae Solaris学报,25卷,不。2、177 - 181年,2004页。视图:谷歌学术搜索
k, l . n .汉s l .郭张x, z . Wang和x盾,“模糊综合条件评估基于组合权重的风力涡轮机和云模型,”智能和模糊系统杂志》上,32卷,不。6,4563 - 4572年,2017页。视图:出版商的网站|谷歌学术搜索
x l, m . h .赵江d . x,和美国,“直驱风力发电机故障诊断基于支持向量机和多源信息,“电力系统技术,35卷,不。4、117 - 122年,2011页。视图:谷歌学术搜索
y梁和r·m·方”在线风力涡轮机条件基于SCADA的评估方法和支持向量回归,”电力系统自动化,37卷,不。14日7 - 12 + 31,2013页。视图:谷歌学术搜索
t·林l . Zhang r .问:Cai, x, z和w·廖,g . Liu”风力涡轮机绩效评估基于支持向量机优化改进果蝇优化算法,”可再生能源资源37卷,第1137 - 1132页,2019年。视图:谷歌学术搜索
x j . Li Lei, h·李和l .跑“正常行为模式的条件评估风力涡轮发电机系统,”电力组件和系统,42卷,不。11日,第1212 - 1201页,2014年。视图:出版商的网站|谷歌学术搜索
x y王”,在传动系统故障诊断的基于小波包变换的风力涡轮机和RBF神经网络,”ICMRA卷,373 - 375,1102 - 1105年,2013页。视图:谷歌学术搜索
w·j·h . s .赵h . h . Liu, x燕,“异常检测和故障分析的风力涡轮机组件基于深度学习网络,”可再生能源卷,127年,第834 - 825页,2018年。视图:出版商的网站|谷歌学术搜索
杨w . x、r .法院和j·s .江“风力发电机状态监测方法的SCADA数据分析,“可再生能源53卷,第376 - 365页,2013年。视图:出版商的网站|谷歌学术搜索
w·j·陶和s . j . Watson”使用SCADA数据风力发电机状态监测-评估”专业可再生发电,11卷,不。4、382 - 394年,2017页。视图:出版商的网站|谷歌学术搜索
x y, h . Li廖,大肠的歌,h . Liu和z陈,“条件概率评价方法早期恶化风力涡轮发电机系统的关键部件,“机械系统和信号处理卷,76 - 77,729 - 741年,2016页。视图:出版商的网站|谷歌学术搜索
p .钱、马x和d,“估计风力涡轮机动力传动系统系统的健康状况,”能量,10卷,不。10日,1583 - 1583年,2017页。视图:出版商的网站|谷歌学术搜索
h . y .许,l·h·梅和m . l .春”的方法结合数据挖掘和基于控制图的故障检测模型在风力涡轮机,”可再生能源卷,115年,第816 - 808页,2018年。视图:出版商的网站|谷歌学术搜索
a . Bustillo j . f . Diez-Pastor g .昆塔纳和c . Garcia-Osorio”避免神经网络通过整体学习使用微调:应用球头铣削操作,“国际先进制造技术杂志》上卷,57号5 - 8,521 - 532年,2011页。视图:出版商的网站|谷歌学术搜索
t . s . Wang x Liu Yang,吴x”全景裂纹检测基于结构随机森林的钢梁,”IEEE访问》第六卷,第16444 - 16432页,2018年。视图:出版商的网站|谷歌学术搜索
a . Bustillo和j·j·罗德里格斯,”在线破损检测的多齿的工具使用不平衡数据的分类器集合体,”国际系统科学杂志》上,45卷,第2602 - 2590页,2014年。视图:出版商的网站|谷歌学术搜索
l . Breiman“随机森林”,机器学习,45卷,不。1,5-32,2001页。视图:出版商的网站|谷歌学术搜索
李,d . Chen问:邱et al .,“基于随机森林的电能质量综合评估,”现代电力36卷,第87 - 81页,2019年。视图:谷歌学术搜索
x高,j·温,c·张,“一种改进的随机森林算法预测员工流动,”数学问题在工程卷,2019篇文章ID 4140707, 12页,2019。视图:出版商的网站|谷歌学术搜索
j·p·桑托斯·莫德·a . Bustillo,“识别齿轮箱的故障诊断,最大不平衡数据集”《智能制造,29卷,第351 - 331页,2018年。视图:出版商的网站|谷歌学术搜索

旋转机械的国际期刊

文摘