文摘
介绍了一个智能头盔基于YOLOv5识别模型在复杂的场景。首先,在建筑工地的项目中,考虑到需要的照片发现有许多问题。例如,头盔的像素太微小的检测,或大量的工人使头盔显示人口。SE-Net频道关注模块添加到模型的网络层的不同部分,以便改进模型可以更加注重全局变量和增加小目标的检测性能信息和目标信息密度。此外,本文构造了一个头盔基于项目和增加训练样本数据集的密度目标和远距离小目标。最后,修改后的马赛克数据增强减少冗余背景模型的影响,提高了识别精度的小目标。实验结果表明,在项目中,头盔检测的平均精度达到92.82%。与SSD相比,YOLOv3 YOLOv5,该算法精度平均提高了6.89%,8.28%,和2.44%,具有较强的泛化能力,在密集的场景和小目标场景,满足精度要求的头盔佩戴检测在工程应用中。
1。介绍
建筑工地的工作环境是复杂的,充满危险,和工人们很容易受伤在工作的过程中。因此,至关重要的是建筑工地的工人佩戴安全防护设备。在实际工作中,人工监督通常是用来判断工人佩戴安全头盔。因此,有宽的操作范围等问题的构造函数和未能及时跟踪和管理所有工人在工地1- - - - - -5]。基于视频的自动监测有利于现场实时监控。
传统的目标检测通常采用手工特征选择和分类器设计和列车根据特定的检测对象。该方法具有较强的主观性,复杂的设计过程,泛化能力差和工程应用有很大的局限性。因此,许多研究人员都致力于一个域模型结合一个实际的可能性,工地现场。2015年,Redmon et al。6)提出了一个单程检测模型YOLO(你只看一次),意思抽象探测任务为第一次回归问题。2016年,刘等人。7]提出的SSD(单镜头multibox探测器)检测算法,引入了多尺度检测方法,可有效检测组的小目标。2018年,Redmon和哈蒂(83)进一步提出你只看一次版本。金字塔模型使用功能网络红外系统)方法整合三个大小不一的特征图谱检测任务,大大提高了小型目标的检测效果。2020年,Bochkovskiy et al。9]提出YOLOv4(你只看一次版本4)。该模型选择CSP(交叉阶段部分)darknet-53为骨干网络,并使用PAnet(路径聚合网络)方法来取代红外系统算法YOLOv3网络,从而大大提高了模型的检测精度。2020年,乌斯曼et al。10]提出YOLOv5(5)你只看一次版本,添加了一个焦点结构到骨干网络之间达到最佳平衡速度和准确性。
如今,大量的学者进行了一系列的相关研究头盔检测。2016年,鲁拜集等人,席尔瓦et al。11- - - - - -14)结合频域方向梯度直方图的图像中的信息(猪)算法来检测人体,然后使用圆霍夫变换(十)检测头盔。2017年,李15]使用视觉背景提取器(氛围)算法来定位人体,然后使用凸算法来检测,最后结合猪算法和支持向量机实现头盔佩戴检测。2018年,内科医师和Jza [16]提出了一种混合描述符组成的局部二进制模式(LBP),颜色直方图(CH)和胡锦涛矩不变量(HMI)提取头盔特性,然后构造层次支持向量机(H-SVM)分类头盔。由于复杂的环境中,佩戴头盔的检测精度很低在这个阶段,不满足实际生产环境的监控要求。
在本文中,我们使用两种类型的目标,建筑工人佩戴安全头盔和建筑工人没有安全头盔,这是作为检测任务。总共有26491图片收集收集和操作网站的预处理,安全帽检测数据集构造,YOLOv5网络模型被选中为基本模型。本文的主要贡献如下:(1)头盔的数据集的基础上构造一个工程项目,和密集的训练样本目标和远距离小目标。data-enhanced马赛克优化减少无用的边界信息,提高模型的鲁棒性(2)C3模块后YOLOv5骨干网和颈部层,SE-Net频道关注模块介绍了收集全球信息特征提取阶段改善头盔小目标检测的影响(3)通过引入像素借据,准确定位框架的问题解决,和加工损失价值的敏感性维度框架是改善
实验结果表明,均值的平均精度(mAP)优化模型算法显著提高满足检测要求在施工现场。
2。材料和方法
2.1。YOLOv5算法的原则
YOLOv5网络结构分为输入、骨干,脖子,根据处理和预测阶段,如图1。输入部分基本完成加工任务,如数据增强、自适应图像缩放和锚箱计算。随着骨干网,骨干主要使用CSP结构提取主要信息在后续阶段的输入样本。脖子部分使用红外系统和盘的结构和使用信息从主干中提取部分加强功能融合。预测部分进行预测和计算等GIOU_Loss价值损失(见图1)。
2.2。SE-Net关注模块
注意机制来自于人类的大脑处理视觉信息的方式。迅速观察图像的全局信息,人类发现需要聚焦的候选区域,也就是说,焦点的位置,将专注于这个领域来提取目标的更详细的信息17]。因为它的强大和有效的表达,它已广泛应用于深学习,特别是在根深蒂固的高性能网络(18)(见图2)。
首先,地图频道号码的功能 ,每个频道都包含不同的功能信息。在特征提取过程中,卷积层主要计算相邻位置的每个特性的特征信息映射不考虑相关渠道信息之间的映射(19]。因为头盔的小目标图像分辨率低和像素值和信道特征信息是有限的,需要加强培训相关信道特征信息的过程。参考文献(20.- - - - - -26)充分证明SE-Net频道的关注模块可以优化特定类别的特征信息的学习在一个根深蒂固的网络。和模块也是一个即插即用模块,通常应用在卷积模块。因此,我们添加SE-Net频道注意颈部的模块在C3模块检测层YOLOv5网络;后,检测不同尺度层,我们添加SE-Net模块,分别通过建立特征之间的映射关系渠道;全球网络充分利用这些信息,给更高的体重小的通道特性信息的目标。以便更好地适应小目标渠道之间的相关特征信息,忽视和抑制无用的信息,最后使模型专注于培训小目标的特定类别的头盔。
2.3。损失函数的改进
损失函数的类型通常用于YOLO系列算法GIoU,意思DIoU和意识。进化从GIoU意识使回归损失更准确和目标框架回归更稳定。然而,发现上述三种类型的损失函数会导致不准确的问题定位框架目标具有高纵横比和密集的目标;为了解决这个问题,像素借据(PIoU)函数(27]介绍了。
通过引入一个旋转参数,损失函数可以帧目标更加简洁。为了准确计算目标交集联盟比,损失函数计算目标像素计数借据,这使得损失值敏感的大小、位置,旋转处理标签的盒子。PIoU损失的计算公式
的公式,是所有积极的样本和的集合是积极的数量样品。地面实况,是目标。PIoU函数的计算公式
的公式,和 ,分别代表像素的数量目标的十字路口和目标框架在欧盟和像素的数量正在处理的损失函数内核函数。
2.4。网络层添加SE-Net
在小目标探测任务中,网络层的数量逐渐增加,可收集的小目标特征信息也逐渐减弱,所以很容易导致错误的检测和错过检测小目标的网络模型。SE关注模块本身使用全球平均池和其它频率成分增强地图的功能特性,所以网络可以加强容易查看学习目标特性的培训过程。然而,在这个阶段,没有研究表明,SE注意力机制模块应该整合网络的位置可以有效地提高检测效率。
灵感来自引用(28- - - - - -33),本文将SE关注模块集成到不同位置的网络模型,研究了检测结果。根据YOLOv5网络模型的结构,SE关注模块融合YOLOv5骨干网和脖子。自从SE模块执行功能增强重要渠道和空间位置,SE关注模块融合到每个功能融合区域在上面的两个部分,分别产生两个新的网络模型基于YOLOv5算法:SE-backbone SE-neck。图3显示了特定位置SE注意模块的融合网络。
(一)
(b)
添加SE注意模块的实验比较在两个不同的位置如表所示1。后可以得出结论,SE-Net模块集成到YOLOv5的骨干网,小目标的检测精度显著提高,可有效提高网络对小目标的检测效果对象,和平均平均精度(地图)增加了3.3。后SE-Net YOLOv5模块集成到脖子模块,模型的性能没有改善;相反,地图也减少了。本文认为SE-Net模块的原因是融合模型中不同位置产生不同的实验结果是,虽然骨干网中的语义信息并不丰富,它还意味着纹理信息和轮廓信息,很容易被忽略和低层次的目标。SE-Net模块在骨干网络的融合可以更好地融合的空间特性和信道特性的小目标特征映射,以提高特征信息。更深的脖子和预测模块的网络,因为它的功能地图有更丰富的语义功能,地图一个较小的特性,和一个巨大的接受域,SE净模块难以区分重要的空间特性和信道特性。
2.5。马赛克的改进
马赛克,YOLOv5数据增强方法的算法,非常实用。随机选择的基本原则是四个图片:首先把它们随机,然后拼接一张图中顺时针方向,最后他们设置输入大小规模,即引入模型作为一种新的样本。这丰富的背景目标,小目标的数量增加,和不同尺度的目标之间达到平衡34]。
本文中的数据集分为两类:头盔和头部。数据的总量也与可可相比相对较小的数据集,只有20000多件文物贩子手中的文物。由于建筑工地的安全头盔图片的特殊性,确定的目标往往不是在画面的中心。随机切割高概率的削减目标,所以只有背景输入图片中的样品,这将使拼接照片黑白界限,这将导致大量的无用的特征信息模型训练和影响模型的收敛速度35]。
与可可数据集不同,大多数的图像数据集本文来自帧的视频,和图像的大小是一致的像素。因此,根据数据集的特点,本文改进了马赛克数据增强方法。首先,马赛克的数量从4到16,然后判断条件添加到确保尽可能少的无用的区域,这些充满黑白界限的边缘图像。如图,优化原来镶嵌有一个大面积的空白填满,和改进的图片有小面积的空白填充(见图4)。
(一)
(b)
两种方法的性能比较如表所示1。可以看出,改进的模型的准确性仍基本持平,但回忆和改进模型的平均精度提高2.08%和1.71%,分别。
的比较测试结果如图5。图5(一个)是原始模型试验图,图呢5 (b)改进后的模型试验效果关系图。图5显示了人口的头盔形象闭塞的小目标。从观察可以看出,与原始模型相比,改进的模型检测目标佩戴安全头盔。结果表明,改进的模型具有较强的鲁棒性在这些场景中(见图5)。
(一)
(b)
3所示。结果与讨论
3.1。训练数据和设置
给出的结果与讨论可能单独或在一个部分相结合,可以被分成部分。
开源头盔的主要来源网络上的数据集是SHWD(安全帽穿数据集)36),和大多数场景监控图像的学生在课堂上。数据集大大偏离了标准的网站场景数据集。因此,本文扩展了数据集。主要来自现场视频图像帧切割和手持设备。收集的数据包括两种类型:工人佩戴安全头盔和工人没有佩戴安全头盔在不同的现场环境中。为了增加训练集的多样性和鲁棒性,一些棒球帽,帽子,和其他数据被添加到模型的泛化能力增加(见图6)。
(一)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
本文获得的数据集最后共有26491图片,具体信息的目标戴与不戴头盔的数据集如表所示2。数据集包含了各种各样的建筑场景,可以充分反映真正的建筑场景。
本文是基于Linux Ubuntu 18.04,并与24 GPU的GeForce 3090视频内存,CUDA的版本是11.2,pytorch选择框架。数据集随机分为训练集,验证集和测试集的比例根据8:1:1, , ,和 。
3.2。实验结果
模型训练损失图如下(见图比较7),热打印我们的模型图。可以看出,优化后的模型可以提出小目标的特点和秘密脚本的目标(见图8)。
(一)
(b)
从图可以看出,我们的模型可以捕捉远距离识别目标图像中根据摄像机所拍摄的照片的特点。midpicture描述了特征映射的原始图。它可以得出结论,我们的模型区分前景和背景,捕获的小和microtargets增加特性。
测量结果的一些网站的图片,可以看出本文的优化模型提高了小目标的检测效果和密集的目标和适用于许多不同的实际场景(见图9)。
与此同时,本文还比较了优化模型与主流目标探测模型。结果如表所示3。
实验结果表明,该算法可以有效地提高检测精度的安全头盔和建筑工人不安全头盔。这个算法的平均检测精度为建筑工人佩戴安全头盔是94.77%,平均精度(mAP)是92.82%,远高于YOLOv5和SSD。与SSD相比,YOLOv3原始YOLOv5,这个算法有一定的改善准确性和地图。这表明该算法执行在头盔佩戴检测的准确性,可以满足精度要求的头盔检测在复杂的工作环境。
4所示。结论
为了提高现有头盔算法的缺点在密集目标、小目标情况下,一个YOLOv5算法。通过SE-Net关注模块和改进的数据增强方法,模型对小目标的检测效果提高头盔,损失函数进行优化,在密集的场景模型的泛化能力增加。通过比较实验,与原YOLOv5模型相比,改进的模型减少了头盔的缺失检测,提高分类的信心得分。实验结果表明,该算法可以获得更好的检测精度,基本满足精度要求的头盔佩戴检测复杂的建筑场景。
数据可用性
数据集包括相应的图片和标签和文件大小是2 GB。数据用于支持本研究的发现可以从相应的作者。
的利益冲突
作者声明没有竞争的经济利益或个人关系可能出现影响工作报告。
确认
这项工作是由中国国家自然科学基金(U1836208号,61811530332,61811540410)。