文摘

传统的图像目标检测算法应用于电力检测不能有效职位权力组件,在场景识别精度低和一些干扰。在这个研究中,我们提出了一个数据驱动的功率检测方法基于改进YOLOv4-tiny模型,结合ResNet-D模块和调整Res-CBAM骨干网的现有YOLOv4-tiny模块。我们更换了CSPOSANet模块与ResNet-D YOLOv4-tiny骨干网络模块以减少所需的失败模式。同时,调整Res-CBAM的特征融合方法取代堆积在渠道相结合作为一种辅助分类器。最后,五个不同的接受尺度的特点被用于预测,显示的结果是通过合并优化预测盒。在这项实验中,57134在权力检查行图像采集处理和标记,和默认的锚箱re-clustered,模型的速度和准确度进行评估通过视频和验证的3459张照片。处理多个从电力检查项目收集的图片和视频,我们re-clustered默认锚箱和测试模型的速度和准确度。结果表明,与原始YOLOv4-tiny模型相比,我们的方法的准确性,可以定位对象阻塞和复杂的照明条件下保证检测速度快13%。

1。介绍

作为一个国民经济和民生相关的基础设施,电力系统是现代社会非常重要(1,2]。因此,它是一个非常重要的任务监控电源组件是否安全、可靠地工作。传统的人工检测方法要求人们工作很长一段时间,及其相关的影响员工的经验和工作状态。系统不能连续监测和不可靠。保持电力设备的正常运行,提高电力系统的安全性和可靠性,相关算法已经开始被应用在电力行业3,9]。

在检查,图像的背景是复杂的、及时性要求高。传统的目标检测算法主要使用人工设计的特性,如哈雾分类器(10,11),级联分类器(12),筛选(尺度不变特征变换)3,4,13- - - - - -15),猪(面向梯度直方图)(16),DPM(可变形模型部分)17),SVM(支持向量机)18),等等,或者把它们19,20.]。这些方法(3- - - - - -20.缺点如下:(1)特征提取器是手动选择和不健壮的复杂的实际应用场景的变化。(2)他们的地区选择策略是基于滑动窗口、时间复杂度高和窗口冗余,从而影响检测的准确性和速度。

与神经网络和人工智能技术的快速发展,已经有大量的基于深度学习目标检测算法应用于电力检查(5- - - - - -9]。这些方法大致可以分为两类。一个两阶段方法,搜索框,然后进行分类和回归,其精度较高但是速度很慢,比如R-CNN系列算法基于区域建议(R-CNN [21),快R-CNN [22],和更快的R-CNN [23]。另一个是单程的方法,使用只有一个CNN预测的类别和位置不同的目标,比如SSD (24],RetinaNet [25],RefineDet [26],YOLO(你只看一次)[意思27]系列提到以后。虽然这种方法在精度低,它可以实现实时检测。

有一个潜在的矛盾,更高的精度是不符合检测的速度越快。尽管内在困难对象检测算法,无人机的应用功率实时检测挑战由于互连和重叠的组件,光照变化,复杂的背景,多样性和随机性之间的相对位置和运动目标和相机。

针对实际功率的实时检测要求项目场景,我们提出一种基于改进的YOLOv4-tiny数据驱动功率检测方法。详细Res-CBAM块重建和ResNet-D块的捷径是调整,然后是两个街区被结合在YOLOv4-tiny的支柱。结果表明,我们的方法可以适应场景与多个障碍物和更快的同时确保准确性。

2。材料和方法

2.1。无人机图像数据集

本文中的数据集收集从权力的无人机影像检查,包括53675年3459年的训练集和验证集。电源检查图片和视频是由高分辨率的无人机,不同的随机角度,和快速视频过渡。马克的关键连接部分的数据集,包括三类:接线座(dx_gt),塔连接绝缘子(gt_jyz),绝缘子连接线(jyz_dx)。标签时,试图掩盖的目标区域标签框尽可能和减少其他背景信息标签框同时(图1)。

2.2。YOLO

YOLO提出了意思Redmon et al。27]。这是一个单程的实时检测算法。与两阶段模型相比,如R-CNN系列,YOLO系列意思模型简化了对象检测任务到一个回归的盒子和预测的类,和对象的位置和类别框推断从输入。由于默认的锚,放弃YOLO系列意思模型比两阶段模型在检测速度快,可以实现实时检测,但它也牺牲一定的模型精度和识别小物体的能力。

YOLO系列意思模型检验过程中所描述的人物2。在训练阶段,图像分为特定的网格,每个网格都有一些默认的锚盒子。在这些锚箱对应网格包括真正的框的中心,真正最匹配的盒子,最大IOU-is负责检测真正的盒子和获得真实的信息框,也就是说,位置信息,置信概率和分类信息。当图像被输入YOLO模型,意思定位损失 ,对象失去信心 ,和分类损失 可以计算,所以总损失函数 ,在哪里 是权重。最后,通过反向传播模型参数更新。在预测阶段,没有可更新的参数训练模型,和一些相应的类别和信心水平的一些可能的预测盒后获得的图像输入到模型中。最后,结果通过nonmaximum抑制(NMS)的过程。

YOLOv4 [28]是一种改进的版本YOLOv3 [29日YOLO系列的意思)。它结合了许多小技巧的基础上,前者,比如CutMix,马赛克,DropBlock正规化,SPP等等。此外,YOLOv4-tiny [30.YOLOv4的)是一个简化的版本。的数量特征用于分类和回归检测简化为两个,和参数的简化与应用程序从6000万年到600万年CSPOSANet (CSP),类似于ResNet模块。当输入的大小是608 608年 3,模型结构如图3

2.3。改善YOLOv4-Tiny
2.3.1。ResNet-D

ResNet-D [31日)是一个修改ResNet (32体系结构如图4。动机是1 1卷积downsample忽略了3/4的2步输入修改的ResNet。因此,这是修改,将采样可以通过下一个3 3卷曲在一个路径和通过max-pooling捷径的道路,和造成的损失的特性同时发生的1 1卷积和步幅2是可以避免的。

失败(33)(每秒浮点操作)是用来测量硬件性能。当输入特性映射是152 152年 ResNet-D所需的64年,失败和CSPOSANet模块如表所示1

它可以知道所需的失败ResNet-D模块是CSPOSANet的十分之一左右。在本文中,我们考虑用ResNet-D取代CSPOSANet模块加速模型。

特别是ResNet-D意味着元素的捷径,但在这篇文章中,这意味着堆放在通道,即。,输出是2n当输入是维的通道n维的通道。

2.3.2。Res-CBAM

吴et al。34]提出CBAM(卷积块关注模块)(图5)。频道关注模块将计算一个通道的重量 的大小(通道,1,1),也就是说,高度的值 宽度像素在一个频道乘以相同的重量,主要关注的信息在不同的输入通道信息;空间关注模块将计算空间的体重 的大小(1、高度、宽度),这意味着不同的通道的值在同一像素位置乘以相同重量,主要关注输入不同的位置信息。具体的计算过程 在哪里 的输入通道注意模块和空间注意模块,分别和 通道的结果关注模块和空间注意模块,分别。 分别代表频道关注和空间的关注。

我们设计了基于CBAM Res-CBAM,更换频道关注模块upsampled平均池层和调整融合方法的特性从乘法点叠加在英吉利海峡(图6)。

结合特征提取的调整Res-CBAM和防止梯度爆炸引起的网络模块太深,两个卷积操作和一个卷积操作前后添加模块,剩磁法是用于连接它们。

2.3.3。改进的模型

在本文中,我们考虑替换CSP模块在原始YOLOv4-tiny ResNet-D模块加速模型,但ResNet-D模块很小,可能影响精度。平衡精度,设计Res-CBAM纳入骨干网协助检测。拟议中的骨干和模型结构如图78

2.4。处理的输入和输出
2.4.1。处理输入

考虑到IO限制数据训练,照片是事先预处理在一定程度上。我们作物图像基于对象的类别和规模来减少输入图像的大小。 最大边长大小设置为在哪里 ,放大图像的宽度和高度 ,和放大图像的宽度和高度

2.4.2。处理输出

尽管模型的输出处理nonmaximum抑制(NMS),以减少冗余的结果,在实际现场测试中,多个箱子被输出一些信息检测框重叠干扰正常的检查工作。因此,我们设置的规则,任何预测盒( )在类别 ,当他们之间的重叠(借据)大于或等于0.5时,它可以被认为是重叠的两个检测框太大,所以两个盒子合并成一个更大的一个(3)。 在哪里

3所示。实验

3.1。k聚类则

YOLO默认的意思锚箱是一个经验值获得通过k80年——可可数据集的聚类类别。然而,应用此默认值数据集收集的项目可能会影响模型的收敛速度和精度。因此,有必要进行重聚簇分析对象框的数据集。19的特点 19岁,38 38岁时获得输入大小是608 608年,每个尺度对应于三个锚箱值,总共6锚(表2)。19的特点 19对应于一个更大的接受域,即。,the large-scale anchor frame, while the feature of 38  38对应于一个较小的接受域,即。,小规模锚框架。在这篇文章中,19岁的特性 19日对应的锚帧3、4、5,38岁的特性 38锚帧对应1、2和3。

3.2。网络训练

本文中的训练环境信息如表所示3。学习速率设置策略如图9和学习速率 迭代可以表示如下: 基本的学习速率在哪里吗 ,最初的学习速率改变节点 ,最初的学习速率变化系数n(n= 4),迭代的最大数量 ,和学习速率改变节点 , ( )。

在线数据增强统一用于培训和马赛克和Gaussian_noise。采用的策略马赛克的策略手段结合多个图像丰富的对象信息和检测对象的背景,和Gaussian_noise意味着添加高斯噪声。

4所示。结果与讨论

我们使用地图(平均精度的平均值),AvgFPS(平均帧每秒),和GPU(图形处理器)内存占用指标评价模型,在地图上指的是所有类别的平均精度模型,检测到的和AvgFPS指的平均数量能被探测到的帧每秒,和GPU内存使用是指GPU内存大小的模型运行时。在这篇文章中,YOLOv4-tiny模型相比,我们的方法,我们测试的性能模型训练与默认锚锚re-clustered(表4)。

4显示如下:(1)是我们提出的模型还是YOLOv4-tiny,模型的准确性与re-clustered锚已经下降了约10%。(2)YOLOv4-tiny的准确性较高,和我们的方法的AvgFPS更高。我们的方法的准确性是低于YOLOv4-tiny大约1%,但在识别速度方面,我们提出的模型是比YOLOv4-tiny快13%,和增加远远大于减少模型的准确性。(3)我们测试的模型GTX1080Ti 1080 p检查视频,和结果表明,都可以达到的速度超过210 AvgFPS,超出了实时检测标准。

数据1011显示六个电线的照片,结果,可以得出一些结论如下:(1)如数据所示10 (),10 (b),(11日),11 (b),这两种方法可以更好地识别图像上的对象,即使对象是位于图像的边界,我们提出的方法具有较高的预测框架比YOLOv4-tiny的信心。盒子的信心水平更大,但在人物10 ()(11日)YOLOv4-tiny预测,一个正确的箱子超过了我们提出的方法。如数据所示10 ()(11日)的信心水平,我们的方法预测的盒子是83.29,48.53,53.46,和64.65,分别的信心水平YOLOv4-tiny预测的盒子是36.69,56.98,37.19,和30.56,分别;如数据所示10 (b)11 (b)的信心水平,我们的方法预测的盒子是98.72,61.49,和45.51,和盒子的信心水平预测的YOLOv4-tiny是97.80,73.83,和37.20,分别。(2)如数据所示10 (c),10 (d),11 (c),11 (d)模型,我们提出了可以更好的位置部分闭塞jyz_dx对象,但YOLOv4-tiny并不检测阻挡对象,表明我们提出的模型是更好的认识遮挡物体的能力。(3)如数据所示10 (e),10 (f),11 (e),11 (f),当拍摄条件不好(背光和曝光不足),这两种方法都可以定位对象在一定限制。它可以证明我们的方法的性能通常是类似于YOLOv4-tiny。的识别能力阻挡目标,我们提出的模型是更好。

当模型输入大小是608 608年,体重YOLOv4-tiny模型的文件大小和我们提出的模型是22.4 MB和25.1 MB,分别。在实际部署(表5),占据的内存YOLOv4-tiny在单个GPU当培训和测试是1163 MB和501 MB,分别。在一个单一的GPU占用的内存当培训和测试我们提出的模型是1150 MB和485 MB,分别。当模型输入大小是608 608年,体重YOLOv4-tiny模型的文件大小和我们提出的模型是22.4 MB和25.1 MB,分别。在实际就业(表6),占据的内存YOLOv4-tiny在单个GPU当培训和测试是1163 MB和501 MB,分别。在单一的GPU占用的内存模型的训练和测试我们是1150 MB和485 MB,分别。的体重文件基于上述分析,我们提出的模型是YOLOv4-tiny大于12%,但这需要在GPU入住率低大约2%。同时,我们提出的模型的检测速度快13%左右,适合部署在一些边缘GPU性能较差的计算设备。

杰森TX2和杰森Xavier NX都是轻量级的AI开发板由NVIDIA CUDA计算单位提供。他们边计算模块的嵌入式设备,可以应用于实时检测的实际检验。我们使用相同的1080 p视频收集在实际的电力线路测试AvgFPS YOLOv4-tiny和模型提出了杰森,TX2和杰森Xavier NX设备(表6)。YOLOv4-tiny AvgFPS和我们提出的模型是33.8和38.9在杰森TX2杰森Xavier NX 45.2和52.1,两者都可以实现实时检测。同时,我们提出的速度模型比YOLOv4-tiny增长了约15%,略高于1080年。

5。结论

本文改进YOLOv4-tiny网络权力检查结合ResNet-D块和调整Res-CBAM块解决效率低下的问题,提出了检验目标识别。结果表明,精度是保证,速度增加了13%。提出的模型我们达到0.6401地图和1080 ti 248 FPS。对象可以被识别和高度的信心闭塞和照明条件差;甚至可以实现实时检测(35帧以上)与一个较小的GPU入住率较弱的GPU设备(Jetson TX2和杰森Xavier NX)。

数据可用性

在这项研究中提出的数据都可以在请求从相应的作者。

信息披露

资助者没有作用的设计研究;在收集、分析或解释数据;写的手稿;或决定发布结果。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究是由公司的科技项目(研究和应用视听主动感知和协作认知技术的智能电网运行和维护场景)(5600 - 202046347 - 0 - 0 - 00)。作者要感谢电力研究所国家电网河南省电力公司和北京帝国支持的图像智能科技有限公司工作。