文摘
作为一个重要工具加载、卸载和分发托盘货物,叉车广泛应用于工业生产过程的不同的链接。然而,由于商品的类型和数量的快速增加,项目统计已经成为生产的主要瓶颈。机器视觉的基础上,提出了一种方法来计算货物的装载和卸载工作期限内分析叉车的效率。该方法包括数据预处理部分和对象检测部分。在数据预处理部分,通过操作框架和集群等收集到的视频数据,利用改进的图像散列算法消除类似的图像,一个新的叉车产品的数据集。在目标检测部分,注意机制和更换网络层被用来提高YOLOv5的性能。实验结果表明,与原始YOLOv5模型相比,改进后的模型更轻的规模和速度在检测速度没有损失的检测精度,可以满足实时的要求统计叉车的运行效率。
1。介绍
与智能物流集中在工业生产的不断发展,机器视觉的需求正在增加。在工业物流系统,叉车发挥重要作用在传输和存储货物。然而,在大多数工厂,由于大量的叉车和各种各样的商品,传统的管理方法的主要障碍是无法有效评估叉车的效率。
近年来,智能物流应用机器视觉和深度学习已经成为一个研究热点。智能物流的基本研究方向,对能效管理对象检测具有深远的影响(1]。Himstedt和Maehle2)提出了一个叉车检测解决方案基于3 d相机和SVM分类器,从而准确地检测对象。然而,物体的距离范围和大小范围需要预设,和模型的泛化能力较差。穆罕默德et al。3结合二维激光测距仪和更快的托盘R-CNN模型本地化。虽然精度高,但效率很低。李等人。4泰坦X GPU用来检测叉车托盘。检测速度快,但硬件成本是昂贵和嵌入的效果较差。Iinuma et al。5)使用单发射击multibox检测器(SSD)作为检测模型。虽然该模型有很好的流动性,检测精度是有限的由于功能不足。总之,尽管大量的学者做过广泛的研究对叉车对象检测,在实际工业生产中,数据收集、硬件选择和模型选择有限深度学习的应用。
解决上述问题,实现一个平衡无论速度、准确性、大小和模型,并适应复杂和多样的操作环境,本研究提高YOLOv5骨干网络结构,并使用较轻的特征提取网络减少冗余功能。在这个过程中,引入机制模块维护检测精度。实验结果表明,我们的模型表现良好在自建复杂场景叉车产品数据集。这项工作的主要贡献如下:(我)YOLOv5模型提高了结合GhostNet模块和squeeze-and-excitation注意力机制,然后改进模型是用来检测叉车。(2)改进的基于主成分分析的图像散列算法用于删除类似的图像在图像预处理部分。(3)与原始模型相比,改进的YOLOv5模型计算量减少了2/3,而不降低精度。(iv)改进YOLOv5模型是更健壮的和有效的移动计算设备。
2。相关工作
作为核心部分在机器视觉领域,对象检测技术,挖掘潜在对象类别和位置信息从一个图像。因为有许多类型的对象上,大小,位置,和姿势相似的对象的形象往往是不同的,不同成像条件下造成的干扰也带来一些困难,所以目标检测是充满了挑战。
深度学习的广泛应用之前,传统的目标检测算法确定物体的位置和大小通过遍历图像使用不同大小的滑动窗口,同时提取人为定义的健壮的特性,例如,尺度不变特征变换(筛选)6)和面向梯度直方图(猪)7]。因此,对象检测结合深度学习使用卷积神经网络提取特征打破人工特征提取的限制。
2.1。快R-CNN
快R-CNN [8],起源于R-CNN [9),广泛应用于对象检测工作。R-CNN, 4个独立的步骤使用:候选人一代通过选择性搜索区域,由CNN特征提取,支持向量机分类,和边界框回归,消耗了大量的时间。快R-CNN [10]减少了时间消耗和提高精度通过操作,比如候选区域映射到功能,ROI池和FC层。因为快R-CNN不是一个真正的端到端的工作,更快R-CNN成一个神经网络结合4个独立的步骤。之后,R-CNN快的基础上,许多学者提出了各种各样的目标检测算法,以适应不同的任务。增加中心损失函数的方法来减少内部类变异学特性表现良好在人脸检测11]。钟等。12)取代了边界框回归模块与LocNet-based定位模块,这提高了自然场景文本定位精度检测。虽然这些模型的准确性逐步达到机器视觉任务的精度限制,模型的规模也呈指数级增长。过度模型大小会导致更高的硬件要求,导致巨大的阻力在嵌入式设备实现实时检测。
2.2。YOLOv5
与R-CNN系列相比,最显著的优势YOLO系列(你只看一次)意思是他们有更快的检测速度。Redmon et al。13)首次提出YOLOv1,统一的对象分类和边界框回归到一个回归的问题。这个框架在图像处理设计使YOLOv1极其迅速,但与R-CNN相比,YOLOv1坐标误差更大。因此,Redmon和哈蒂(14提出YOLOv2,提高了检测精度通过改善网络结构和训练方法。之后,根据YOLOv2 Redmon和哈蒂15)进一步提出YOLOv3 Darknet-53通过扩大网络,大大提高了小目标识别的能力。
的检测精度与速度R-CNN YOLOv3仍有差距,Bochkovskiy et al。16]YOLOv4求婚。YOLOv4结合不同的检测技术达到最好的平衡检测精度和推理速度之间基于大量有说服力的实验。同年,Ultralytics YOLOv5发布。YOLOv5单程的是一个典型的代表对象检测算法,包括四个部分:输入、支柱、脖子,预测。在输入,YOLOv5 YOLOv4一样,使用马赛克方法来增强数据,这对小目标检测是非常有效的。与YOLOv4相比,YOLOv5不仅使用交叉阶段部分网络(CSPNet) [17)为骨干,也使用相同的脖子融合增强特性。也值得一提YOLOv5使用路径聚合网络(PAN) (18金字塔)和功能网络(红外系统)(19脖子上的操作。通过upsampling红外系统传递强大的语义功能,锅是用来传达密集的定位功能。
YOLOv5最初提供四个对象检测网络模型:yolov5s, yolov5m, yolov5l, yolov5x,包含不同的网络深度和宽度特征映射。从这些模型,yolov5s显示其性格最轻的大小和最快的速度。相反,最低平均精度(美联社),但它是理想的检测大型对象。为满足实时检测的要求基本处理器,它是有意义的进一步改进YOLOv5模型。
3所示。方法
首先,单眼2 d相机是部署在叉车驾驶室顶部的照片货物在托盘叉车的前面。获得实际场景的视频后,我们拦截相同数量的帧的图像形成一个图像资源的图书馆。图像是集群,和一种改进的图像散列算法是用于过滤重复的图片,避免手动过滤的主观判断的差异和节省大量的时间成本。
最后获得的图像作为数据集的源文件,和类别和位置数据是通过手动标记。摘要YOLOv5作为机器视觉检测算法,提高网络框架实现实时和准确的采集叉车运输状态。我们的目标检测方法是显示在图1。
3.1。数据预处理
本文构造一个数据集叉车检测货物的状态。后获得的视频是司机的驾驶过程领域的研讨会。复杂样品不同的天气条件下,不同的时间,不同的地点收集。通过操作如图2数据集包含四种不同状态的完整的托盘,托盘,空,装卸。自建叉车数据集接近现实的复杂多变的工业现场,这带来了更大的挑战对象的网络性能检测。
自框架后的数据量大,有许多类似的图片,直接删除的工作量太大。因此,聚类算法可以用来剥掉图像的语义信息。为平衡集群效应和计算时间,集群的数量在这个实验中被设置为9。聚类后,很容易删除图片。
聚类后,图像在同一集群较为相似,和大规模的比较需要消除类似的图像。散列算法(20.),作为一个单独的映射函数,可以压缩一个固定大小的输入到一个固定长度的输出,提高数据存储利用率的优点和改进数据查询效率。图像的散列算法(21)需要人类视觉系统作为参考图像中提取感知健壮的特性和地图图像相同的视觉感知相同或相似的散列值。对于不同的视觉感知的图像,散列算法生成完全不同的散列值。
图像基于主成分分析(PCA)的散列算法可以快速生成图像的散列值(22]。首先,原始图像大小为608×304受到灰度处理和滤波器用于消除图像的噪声。然后,图像分割成32个不重叠的图像片段大小为76×76。图像的像素片段连接的顺序从左到右和从上到下构建32 5776 -维的向量。由于向量维数太高,计算速度将减少,所以PCA用于降低数据维度10维由以下方程: 在哪里是基础,是高维向量代表的形象。映射到获得降低维度的目标 。
最后,设计了一种密钥生成散列值,和一个32-dimensional特征向量来表示原始图像的输出。图3通常说明了电路图像的散列算法。
不同图像的散列值之间的相关系数计算在同一集群中,和一个阈值集过滤相似的图像来解决自建数据冗余的问题。相似函数是由以下方程: 在哪里是图像的散列值1,是图2的散列值,的方差 , 的方差 ,和 之间的协方差和 。
3.2。改善YOLOv5模型
虽然原始的准确性YOLOv5模型满足我们对叉车的需求对象检测,检测速度需要提高嵌入式设备和移动终端计算能力有限的操作。YOLOv5网络结构分析的基础上,重建一个新的轻量级对象检测模型在这个研究。修改后的模型使用GhostBottleneck (GB)模块替换原来的网络层和介绍Squeeze-and-Excitation (SE)注意机制。同时提高检测速度,使模型更小,这个模型可以确保检测的准确性。
3.2.1之上。GhostBottleneck模块
针对解决的问题,移动设备的计算能力有限,我们采用GhostNet (23专门为移动设备设计)结构。GhostNet的核心是生成丰富的特性映射使用线性操作。在卷积模块的原始YOLOv5网络特征提取产生太多类似的冗余特征图。GB模块用于本文首先使用普通的卷积来获得局部特征图谱,然后执行线性卷积操作放大他们相同数量的特征图谱与原始网络。同时,因为线性卷积的计算量远小于普通的卷积,模型的计算量减少一半。GB模块分为Conv部分和一个快捷方式部分,框架如图4。
图4可以注意到,GB的特性映射用作输入模块。Conv部分,第一GhostConv层用来实现通道扩张,然后第二GhostConv层执行与快捷的部分。由于梯度的散度,深化网络很难确保网络性能的改善。实际上,快捷方式添加部分和Conv部分作为输出,而自适应调整网络输出通道的数量同时确保模型的影响。
GhostConv GB模块连接的两个不同的卷积层,cv1 cv2。首先,cv1层使用1×1卷积内核实现更深层次的特征提取。然后,cv2层使用一个5×5卷积内核分离多尺度局部特征信息通过线性变换。最后,结果cv1层和cv2层和输出连接在一起。GhostConv网络保证了卷积效应通过分组卷积同时极大地降低了模型的复杂性。
3.2.2。Squeeze-and-Excitation模块
叉车托盘占据了一个大面积的形象,和所有的渠道都是一样的重要。仍有改进的空间这方面的检测精度。SE块提出了胡锦涛et al。(24),自适应地调整不同渠道的特性反应关注渠道之间的关系。
SE模块包括两个部分,紧缩和激励。GB的连续卷积叠加层后,可能发生问题,如模型过度拟合。挤压部分,执行所产生的全球特性是全球平均池操作特性映射层。然后,整个网络正规化,防止过度拟合。1×1×的输出C是由以下方程: 在哪里是上一层的卷积和的结果吗和表示的高度和宽度特征地图,分别。
随后,励磁部分获得渠道之间的连接通过连接FC层。方程如下: 在哪里降维层的参数以及吗维度增强层的参数。这样一个操作平衡性能和计算。保证输出的重量是在0和1之间,乙状结肠激活函数是选择。
最后,在规模层,归一化权重乘以原始特性的输出。在我们自建数据集,SE层用于提取更多的定向功能。尽管SE块不可避免地增加一些参数和计算,改进网络结构显示了更好的性能。
摘要改进YOLOv5模型框架主要由输入、骨干,脖子,预测。首先,骨干是利用完善的细粒度特性不同的输入图像获取丰富的语义信息和位置信息。然后,红外系统的设计+锅占据了脖子。红外系统的路径组合使用upsampling保险丝骨架提取的特性来传达强烈的语义特征。锅的特性金字塔结构强化模型来表达强烈的定位功能,这有利于在不同尺度对象的检测。最后,预测部分预测边界框,类别,和其他信息,将其映射到对应的形象。更换后的网络层GhostBottleneck模块和引入注意力机制,我们大幅削减的数量参数,有效降低模型的复杂度,同时保持与原模型相比精度。整体改善YOLOv5模型如图5GFLOPS 5.6,计算复杂度。
4所示。实验和讨论
4.1。实验环境
在本研究中,两个不同的配置被用于模型的训练和测试。表1列出了具体的培训环境的配置。
在获得权重训练后,模型是部署在移动计算设备边缘杰森纳米性能测试。设备的具体信息如表所示2。实验环境接近实际的应用场景。
4.2。训练结果分析
为客观评价,我们比较了改进yolov5s模型与原YOLOv5 v3.0 yolov5s模型和YOLOv5 v4.0 yolov5s自建数据集模型。唯一的区别是,YOLOv5 v3.0 BottleneckCSP模块使用,和YOLOv5 v4.0 C3模块使用,所以我们称之为前yolov5s_CSP yolov5s_GS后者yolov5s_C3,我们的模型。表3收集和比较层、参数和GFLOPS三个不同的模型。
根据表3网络,我们的模型是建立在一个更深的方式通过骨干网的改善,而模型参数减少了2/3,从而达到有效减少的目标模型的复杂性。
4.2.1。准备索引和培训细节
最常用的指标定量评估的有效性目标检测算法精度和召回,由方程(表示5)和(6): 在哪里是指对象的数量,我们判断正确的话,是指对象的数量,我们判断不正确,和指的是数量的对象,我们应该判断正确,但错过了。
本文使用(电子邮件保护)和(电子邮件保护):0.95,相关的精度和召回,作为索引来定量判断对象检测方法满足精度和速度的要求(25]。
培训过程监控,在每一次迭代,(电子邮件保护)和(电子邮件保护):0.95计算。后0.732 h yolov5s_C3训练,0.758 h yolov5s_CSP训练,训练我们的模型yolov5s_GS和0.849 h,我们得到两个线形图的三个模型的映射,如图6。图表明,我们的模型有更少的波动和更快的收敛,与原来相比YOLOv5模型。
同时,cls_loss(类损失)和obj_loss损失(对象)26在每个迭代的训练过程如图7我们的模型的,显示良好的收敛性。
4.3。性能测试在移动设备上
作为一个小型计算机,杰森纳米具有良好的计算能力可以完成目标检测任务,和它的小尺寸也可以满足嵌入式开发的需求和移动终端的操作。模型部署在杰森Nano模拟对象检测推理过程在现实工业场景。在表4显示,不同模型的性能指标。
在(电子邮件保护):从表0.95,它可以被发现4我们的模型yolov5s_GS只有1.2%低于yolov5s_C3表现最好的模型,虽然yolov5s_GS yolov5s_C3高出0.85%(电子邮件保护)%。在体重方面,可以看出我们的模型的大小训练后只有5.4 MB。从检测的角度来看,我们的模型的检测时间减少到0.118 s /帧与原来相比网络。同时,更大的帧每秒(FPS)也意味着,我们的模型可以每秒检测更多的图片。
结合实际应用场景,我们的模型实现了嵌入式开发和满足实时检测的要求。与原YOLOv5模型相比,我们的模型的大小减少到1/3,和检测速度明显加快,而不是降低检测精度。这可以从图中找到8在复杂的工业场景,我们改进的模型是更健壮。
(一)
(b)
(c)
5。结论
本文中我们提出一种改进的对象检测方法可应用于叉车。首先,叉车产品数据集构建一个复杂的场景。YOLOv5的原因是选择的对象检测算法与速度R-CNN相比,YOLOv5检测速度更快,更小的模型,和硬件要求低,适用于移动设备操作和嵌入式开发。对象检测部分,具体修改YOLOv5模型,进一步加强YOLOv5的检测速度和减少模型的大小相对于原始模型,同时保持了检测精度。最后,我们提出的方法执行叉车对象检测任务。由于轻量级和极快的速度,我们的方法也适合其他场景限制硬件资源和应用程序实时检测有很高的要求,比如手机二维码定位,自然场景文本检测和自动驾驶。在未来,我们也会考虑这种方法迁移到其他领域东方多样化和复杂对象检测任务。
数据可用性
使用的实验数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究得到了国家自然科学基金(71974130),中国的国家社会科学基金(18 bgl093),和上海浦江计划(2019 pjc096)。作者感谢支持。