复杂性

在这一页上

文摘介绍背景和概况方法结论数据可用性的利益冲突确认引用版权相关文章

研究文章|开放获取

体积2023年| 文章的ID6460639| https://doi.org/10.1155/2023/6460639

实时分割模型实例车辆部件的识别

Abdulmalik Aldawsari,¹ Syed Adnan优素福,¹ 利雅得Souissi,¹ 和默罕默德AL-Qurishi ¹

学术编辑器: 凌众郭

收到了 2022年7月18日

修改后的 2023年1月15日

接受 2023年2月20日

发表 2023年4月11日

文摘

自动评估汽车损坏的汽车修理是一个主要的挑战和损失评估行业。域有几个应用领域,从汽车评估公司,如租车和修理厂,为汽车保险公司意外损伤评估。在车辆评估,损害可以有多种形式,从划痕,轻微的凹陷,凹陷主要缺失的部分。通常,评估区域有很大的噪声级,如灰尘、油脂、油,或匆忙,这使得准确识别具有挑战性。此外,在维修行业,识别一个特定的部分是获得一个精确的劳动和部分的第一步评估,不同车型的存在,形状和尺寸让机器学习模型更具挑战性的任务执行。为应对这些挑战,本研究探索和应用各种分割方法确定表现最好的模型实例。本研究着重于两个流派的实时分割模型实例,即SipMask YOLACT,由于他们的工业意义。这些方法进行评估与之前报道的数据集汽车零部件(DSMLR)以及一个内部策划数据集提取当地汽车修理车间。YOLACT-based部分定位和分割方法优于其它实时66.5实例的映射机制。为车间维修数据集,SipMask + +报告更好的准确性与地图对象检测57.0,结果和报告分别为72.0和67.0,而YOLACT观察更好的表现44.0和2.6的目标检测和分割类别,分别。

1。介绍

汽车零部件的评估是一个重要的过程,主要源于保险行业的要求。过程有几个其他正在迅速发展的工业应用,包括生产线分析(发动机零件缺陷检测)1,2),手术器械定位(3)、医疗(身体姿势,骨骼、器官和癌症/肿瘤分割)(4- - - - - -7),植物分割(植物和杂草检测/智能农业)(8- - - - - -10[],地质图分析11,12),3 d对象分割与主应用程序自治/机器人点云形状分析和理解域(13- - - - - -15),和结构健康监测和评估16- - - - - -18]。大多数这些应用程序越来越多地关注real-timepixel-level评估感兴趣的领域以最小的对整体精度的影响。精度是最重要的在某些应用程序中,如手术或杂草清除。

这项研究报告的工作集中在汽车零部件领域的评估和识别由于其重要性,如意外损伤评估、保险索赔的处理,汽车状况评估租赁和其他汽车门户网站,和自动化的汽车修理和美体小铺的车库。传统车辆评估过程意外损坏修复由车主或执法当局,然后遵循复杂断层和索赔评估过程补偿方没有过错19]。这同样适用于汽车租赁收益,司机和租赁公司不同意损坏车辆的所有权的时候回来。这些过程所涉及的补偿过程往往耗时,需要几周才能完成。此外,相当比例的索赔金额是浪费的,因为不正确的或不公平的评估,最终影响当事人的保费。应急部门人员和当局也依赖于视觉评估和记录,这是浪费时间。一个实时自动视觉意外损伤评估系统是一个有前途的研究领域。

最近的进步在边缘和移动device-basedmachine-learning算法更容易执行复杂应用的实时推理任务。MobileNet是一个轻量级深层神经网络,特别关注hyperparameter调优之间保持一个平衡的延迟和准确性的分类器20.]。同样,DeepDecision是另一个架构,重点是平衡取舍,比如视频分辨率的影响,参数化精度,端到端延迟,和视频压缩、视频开发优势分析深度学习框架(21]。R-CNN[的对象边界框的评估机制22),快R-CNN [23),快R-CNN [24],SSD [25有人知道由罗[],26),是众所周知的算法。在工业应用中,更快的检测和分割机制正越来越多地用于域,如缺陷/焊缝图像表面检查(27- - - - - -30.)、制造/纺织线质量分析(31日),聪明的作物和农业(32),半导体制造和设计过程33),和工程状态监测故障诊断由于他们更快和更准确的性能34- - - - - -36]。

这些框架需要大量的训练数据。此外,当前工作范围,识别汽车零部件不能局限于确定边界框的汽车零部件的复杂性和损害概述;因此,它是难以实现端到端检测。此外,汽车数据集非常大由于变化模型的变体。因此,在特征提取阶段,回旋的层数的增加会导致梯度消失或爆炸。为应对这些挑战,一系列深层网络架构,每个都有自己的优点和缺点,介绍了。他等人提出了一个resi网络(ResNet)协助模型融合利用剩余模块;这个模块加速神经网络的训练过程(37结合它与目标探测模型使用面具R-CNN [38]。面具R-CNN算法是第一批深入学习机制,结合目标检测和分割技术来提高整体识别精度。其他类似的深度学习变体在这一领域包括AlexNet [39],VGGNet [40],GoogLeNet [41]。

这些体系结构的一个主要缺点是他们的主要着重于实现精度高而不是提高延迟和性能,这使得它们不适合实时图像处理。范围内的汽车零部件市场细分,大多数目标检测和分割技术提供两个主要的缺点:(1)实时处理图像的能力,(2)段相邻地区独特的模型的能力。这样的一个例子是前方和后方的门,这在许多情况下,很少有分离是唯一标识。这些限制导致一个著名的图像处理原则称为“实例分割,”,这是最可能出现的深度学习因为几个独特的类的方法往往是相邻的,有很高的相似性。到目前为止,先前的模型关注的准确性,而不是速度。

对于移动/边缘应用程序,较小的网络体系结构分布式训练更有效,需要更少的带宽在远程模式更新,最重要的是,可以部署在较小,移动和边缘设备(42]。此外,有限的空间移动和边缘设备的仍然是一个重大的挑战。不管大的存储大小,安装一个移动应用程序,需要500 MB的内存权重的形式文件是一个实质性的限制因素为用户由于大多数智能手机应用程序不超过100 MB。模型修剪是一个众所周知的方法,用于创建更小、更高效的神经网络。该技术涉及消除不必要的体重值神经网络的张量,导致压缩网络运行速度,降低计算成本在网络训练(43]。

本研究探讨了利用和改进现有的移动/ edge-device-level深层神经网络算法用于汽车分割一部分。提出的方法采用各种对象检测体系结构来识别车辆的部分。阶段是至关重要的,因为失踪车辆的识别部分使用一个标准的对象检测算法提出了大量的真阴性(缺少标识部分)或假阳性(nonvehicle背景缺失的部分识别)情况下,由于高可变性的背景中可见丢失的汽车零部件。在目前的情况下,部分检测方法训练29汽车部件类型与每个部分,然后进一步标记他们有三个独特的危害类别:划痕,小,大的凹痕。每个伤害的严重性类型被映射到生成的整体损伤水平类别回归评分。广义执行得分由于单个部分的不可用;劳动力成本预测范式由于使用这些不同的世界经济体的可变性。此外,我们已经开发出综合汽车零部件的数据集。第一数据集从国家政府的事故信息数据库和数据管理活动执法、保险和其他用途。第二个数据集样本涉及初始数据集从本地资源中提取。 The third dataset involved data augmentation and class merging phases in a bid to improve overall segmentation and detection accuracy by minimizing crossclass similarity. Next, we implemented a single stage for real-time instance segmentation algorithm (Yolact) [44]。最后,比较两级检测机制与单级实例分割机制(SipMask)及其变种(SipMask + +)45]。最初我们比较四个算法对提取的第三方数据集(DSMLR)以及我们的一个内部数据集提取。YOLACT-based部分定位和分割方法如4所示优于其他实时地图66.5实例机制。为车间维修数据集,SipMask + +报告更好的对象检测精度与图57.0的结果和报告分别为72.0和67.0,而YOLACT观察更好的表现44.0和2.6的目标检测和分割类别,分别。一般来说,本研究的主要目的是评估各种CNN-based实例分类模型的性能在多个数据集汽车零部件。我们还提供见解如何提高这些模型通过数据增加的性能和模型hyperparameter优化,基于我们遇到的挑战在这工作。剩下的纸是组织如下。部分2现有深度学习方法,综述了现有的车辆零部件、损失评估流程和研究的范围。部分3介绍了架构,包括实例分割方法,包括YOLACT SipMask, SipMask + +架构。本节提供了一个深入的比较这些体系结构的性能。部分4总结了论文的讨论本研究的主要成果和未来的方向。这项工作的预印本之前发表(46]。

2。背景和概况

工业视觉检测获得快速发展和兴趣。先进的计算机视觉和深度学习方法一直在探索促进自动化而解决问题,如弱注释/稀疏数据集(47),深度方面可分离旋转(MYOLOV3-Tiny) [48],mixed-supervision注释更快和更好的识别模型训练和重叠或复杂的区域定位(49]。这些技术大部分集中在改善深度学习建模管道通过多元化数据提取流程,优化管道参数,提高培训机制,或发展现有的体系结构,以获得潜在分割或检测技术。表1显示一些缩写的列表,在此工作中使用不同的任务。

本文中给出的研究侧重于评价和应用的实时分割方法识别复杂的部分组织车辆。汽车零部件的布局遵循几个空间约束,可以非常严格的在某些情况下,如一面镜子与门、或不同,如在后门或后门窗户封闭在车辆本身的身体(双门汽车)。这些限制只能使用统计multimodel分布模型来解决。主动外观模型(50和可变形模型的一部分51)是两个这样的模型用于确定,提前,各种组合的部分可能在车辆形式。这样的组合可能不足以涵盖所有形状组因为变化引起的汽车图像由于角度,旋转,和对象变形。

深卷积神经网络(cnn)最近展示了出色的一系列计算机视觉问题的结果。在过去的十年中,更多的兴趣和研究关注的方面,比如hyperparameter调优和优化,网络修剪,和连接学习改善模型的大小和性能,特别是在移动和边缘设备(52,53]。此外,模型修剪和连接学习强调增加模型大小和网络性能54,55]。语义和实例分割机制是两个对象形状估计技术通常用于识别对象边界。

在这个阶段,提取车辆的详细信息。在常规情况下,这可能包括标记车辆模板记录损伤区域特定于事故以及损害的严重程度。党参与事故或负责人记录也可以捕捉图像和视频的保险和其他调查的目的。然后由有关部门统一的信息,如保险机构,准备赔偿格兰特声称是给受影响的各方。

智能损伤评估的目的是自动化和简化整个过程。在大部分车辆损伤情况下,评估包括四个核心阶段,解释图1:(1)证据数据提取:提取的视觉证据,如图片和视频,清楚地记录了伤害。确保损害上下文是适当保存,这样图像都是取自一个合适的距离,让相关算法来区分不同的汽车零部件。(2)自动识别部分:视觉信息然后提交车辆识别算法,利用一部分pretrained人工智能(AI)模型来确定边界的部分。这一阶段包括车辆的品牌、类型和年龄的车辆选择模型类型识别模型相关。例如,模型训练预测一个3岁的轿车不能用于确定不超过一年的保险杠SUV。(3)自动化的损伤评估:这个阶段包括每个车的损伤区域提取部分随着人工智能逻辑估计部分成本以及劳动力的估算。(4)损害推荐输出:和损失部分信息然后建模对其他相关信息,如汽车模型和类型,以生成一个精确的损伤报告。这份报告可能包含评估从汽车整体劳动力成本价格的一部分,修理需要。报告也会生成一个建议如果完全替代部分是必需的。

2.1。汽车部件损伤的解剖学

一辆车由一组部件中加入了一个复杂的装配,不能直接确定损伤的分布。这表明前保险杠的伤害将会有一个不同的成本评估范式的一扇门。此外,不同的严重性级别也有部分变量的影响。例如,后保险杠和底盘发动机后置车辆损伤评估的主要损伤机制不同的前置引擎汽车。在传统的环境中,损坏的汽车由指定的工厂,首先评估外损害在哪里第一次分类属于许多伤害类型之一。基于损伤的严重程度,决定修复,完全取代它,或者注销。部分修复成本估算通常是不同的各种情况下,如小划痕和凹痕,根据每个部分受损的传播以及部分类型。例如,一个小,scratchless削弱常常需要pull-correction没有重新绘制,如图2(一个),而scratch-and-dent组合在一个汽车门不仅需要重新粉刷面积变大,而且结构变形修正,如图2 (b)。然而,损伤导致实质性的结构变形可能产生完全替代支付(车辆怪圈)。小凹痕经常纠正使用特殊part-molds和热枪,而划痕是重新粉刷颜色部分代码。

(一)

(b)

(c)

(d)

2.2。识别丢失的部分

汽车部件识别的另一个重大挑战是失踪的部分本身,这是很常见的可拆卸工具部分,如保险杠,一面镜子,和轮帽,如图2 (d)。由于缺少汽车零部件的高可变性的背景,通常是具有挑战性的分类没有仅仅基于这部分的背景。这是非常常见的重大事故,一辆车是完全缺失或扭曲的程度,它不能明显标识。一个例子是左挡板,如图2 (c)。

2.3。概括准确分割的模型

在本研究报告的另外一个主要的挑战是训练一个通用汽车部件识别模型,提出的Pasupa et al。56),完善的深度学习模型,如面具R-CNN GCNet,生成的低映射结果从大约48.5为HTC在resnet GCNet 54.3 - 101编码器检测和部分43.0到65.2 GCNet和CBNet resnet - 101和ResNet-50,分别为分割一部分。低利率的部分定位和分割形成实质性的基础在这项研究中,这种方法使用一个模型来确定各种汽车零部件的设计,尽管汽车设计的高可变性。

3所示。提出了系统架构和方法

到目前为止,大多数评论在车辆损失评估主要集中在两个核心领域:汽车零部件市场细分和损伤评估。两阶段通常是连接顺序获得一个更精确的评估部分的损伤模型的基础上,汽车,实际价格的评估。随后,损失评估阶段分为部分成本和劳动力成本预测模型,除了咨询方面在不同情况下是根据潜在的政策需要替换基于损害发生的水平。训练了一个特定群体的汽车模型(例如,轿车和suv)可能是相当准确的某些部分,但一个普遍损失评估模型不能有效地训练。本研究领域做出了一些贡献,车辆分割一部分。首先,我们比较了性能提出的四个深度学习模型Pasupa et al。面具R-CNN GCNet, PANet, CBNet,和HTC在同一数据集YOLACT, YOLACT + +, SipMask, SipMask + +算法。然后,我们提出一个更详细的检测体系结构一部分数据集收集内部和比较两个单级实例分割机制的性能(YOLACT)如图3对两个单级机制(SipMask / SipMask + +)。

3.1。深度学习汽车零部件市场细分的方法

汽车部件识别可以解决在深度学习两个独特的环境。一个常见approa4ch源于检测部分,每个部分是贴上一个边界框。然而,因为汽车是一个对称的小部件/组件的复杂组合,带有匹配背景注释每个部分创建低阶级的变化,这可能会导致更高层次的阶级不匹配。另一种方法是对每辆车进行像素级分割部分,导致更准确的多边形表示每辆车的部分。这种技术被认为是更可靠的,尽管语义或实例的推理时间分割机制迄今为止计算昂贵的任务则更加注重准确性和性能。最近,实时分割了牵引由于硬件和方法在软计算技术的改进(57]。深入学习,各种体系结构管理40 +帧的帧速率例如分割。面具R-CNN分割技术,是最常见的实例包含两级建模机制,包括一个对象提议阶段延长分割计算,面具,类的信心和边界框抵消评估阶段。因此,第二阶段是每个面具的计算系数。因为两个任务并行运行,分割过程速度远比其他方法更快。部分检测系统是评价三个主要变量的实例上分割技术:YOLACT SipMask, SipMask + +。

YOLACT是最近提议实例分割机制报道表现出优越的性能和精度之间的权衡是预测的基础字典面具(category-independent地图)一个图像和一组特定的系数。然而,方法有劣质的结果相比,两阶段方法。YOLACT实例分割机制Bolya等人提出的第一种方法尝试实时分割实例(44]。本研究的范围内,实例发挥重要作用在汽车零件分割;本研究主要侧重于评价YOLACT延伸并比较其性能与其他知名和细分报告机制,包括SipMask SipMask + +, YOLACT + +范例(58),如图4据报道,到目前为止,SipMask + +有最好的面具美联社(35.4),其次是yolact - 550 + + (34.6) resnet - 101骨干。然而,YOLACT先于SipMask在帧速率,45.3 fps SipMask 41.7帧/秒;SipMask + + 27帧率明显降低。YOLACT和SipMask政权的杰出表演激发了这些技术的评价汽车零部件的分割。

SipMask模块是一个轻量级的空间保存技术,保留了每辆车部分的空间信息在一个边界框。是一个单级实例的方法分割方法旨在加快推理速度,避免方案生成和功能池阶段。然而,单级方法的准确性很差。图5显示的整体架构SipMask实例用于汽车部件分割,分割机制包括完全卷积mask-specialized分类,回归分支。SipMask设计侧重于空间保存(SP)模块mask-specialized回归分支和执行任务的调整特性和生成空间系数。在这种方法中,每个预测边界框包含一组单独的空间系数。这些空间系数保持空间信息包含在每个对象实例,因此,允许一个更好的定义相邻空间对象,特别是在这些物体的空间相似性很高。这样的一个例子是前后车门,在两者之间的唯一的分离通常是一个模糊的线。mask-specialized回归分支,反之,预测边界框补偿以及一套面具,是一类独立的基础。图5图片显示了一个示例车一组空间系数为基础生成面具,包括保险杠、尾灯,靴子。SipMask案例和YOLACT比较如图6,只有“保险杠”实例的情况下被认为是为了简单起见。比较相应的面具代YOLACT和SipMask提出了(A)和(b),地图显示了一组一组的线性组合系数和基础面具。在YOLACT,最后的面具通过修剪和阈值的面具。图6(b)显示第二象限(k= 2)空间系数生成边界框j。这个结果在一个单独的空间地图 ,在哪里我象限边界框的数量吗j。空间地图然后修剪和综合使用简单的加法和阈值来获得最终的地图。这种空间关系降低了邻“引导”的影响实例并生成更好的面具的预测。更好的空间比较的过程进一步重复的“引导”“LT尾灯”和“RT尾灯”实例。

(一)

(b)

3.2。数据集描述

在研究社区,只有数量有限的数据集是公开的。Pasupa et al。56]最近的汽车部件组成的数据集使用500汽车图像捕获从不同角度对各种汽车18汽车部件面具和边界框。这个数据集被用来训练YOLACT模型评估数据集的适用性分段汽车零部件。由于数据集的高可变性覆盖稀疏分布类组和模型,生成的数据很低BBox地图0.33,0.65改善MAP50精度。因此,需要有一个更有组织的针对特定的汽车类型和平衡的数据集。因为本研究的目的是进行损伤评估成本,汽车模型也发挥着重要作用。因此,培训检测模型变量范围的一部分车型也会产生部分和劳动力成本在后期不准确。因此,本研究的范围内,数据提取的车型被认为是现代伊兰特模型从过去7年。

这项研究包括1032名图像包含的数据集11707注释汽车零部件来自29独特的类(图7)。大多数图像提取图片捕获从汽车车间车辆维修。最初的提取工艺是任意的,和图片被用于购物的记录。现有结果报道在这些任意图像,虽然数据收集方法已经大幅组织模型再培训和进一步调优阶段,包括部分或全部实例的捕捉。固有的数据有一个偏向“轮”和“Wheel_cap”类别(图8),但由于这些类的独特的空间特征;偏见被认为有较小影响其他部分。

3.3。训练实例的分割模型

本研究的训练目标是学习部分的特征识别和段在看不见的图像。因为这项研究的目标是识别和评估损失,伤害的推定是任何模型类型更广泛可以识别特定的模型,而不是任何车型一般由于可变车辆成本范围,因此只关注一个汽车模型背后的基本原理。模型选择特别关注以下目标:(我)模型分别确定重叠部分的能力(2)确定模型的能力来处理实时定位和分割两部分(3)的精确定位和分割的例程

根据评估的部分3所示。2,两个算法类型进行评估,以及它们的扩展。其中,SipMask / SipMask + +不同于YOLACT政权因其单级分割网络,提高分割的性能没有任何权衡速度使用一种称为空间保存(SP)的小说结构,在网络生成一组空间系数每箱的预测。在可可最初报告的测试数据集,相邻对象的信息被保存了下来。因为底层基础架构YOLACT SipMask是相同的,区别在他们的头。YOLACT的两个头(1)anchor-based回归生产bbox(边界框),类,系数和(2)Protonet生产图片大小面具。两个枝子被结合成一个单一的网络最后产生一个纠正面具以及边界框。相比之下,SipMask,单一的回归量收益率基本面具和边界框之后美联储的事先生成的空间分类系数和盒子。新奇的SP基础模块的系数和面具分为KxK地区保护和描绘相邻对象互相掩盖。SipMask + +声称一个出色的性能水平的小图片(大约550×550),而原YOLACT比别人大图片(大约1330×800)。我们还观察到在两级网络更好的分类性能,如YOLACT。 Our reasoning is that separate networks dedicated to such tasks should yield improved segmentation results. Moreover, there are plans for the future to integrate DarkNet as a backbone because it generates good performance in terms of bbox and classification, which is likely to play a substantial role in the optimization of the network as well as in the incorporation of the Bayesian layer or graph similarity nodes to obtain adjacency information benefits.

3.4。实验装置和结果

火车汽车零部件的ML模型分割,三汽车零部件系统训练数据集,如下。

3.4.1。数据集1 (DSMLR)

初始DSMLR面具和边界框数据集与18类实例有:(我)数据集大小:500的轿车,皮卡和suv主要是刮的在线图像。(2)格式:可可挑战格式的数据集可以从[56]。(3)准备:1024×1024像素图像归一化,用零填充用于保持长宽比。数据集随机划分为训练集(70%)和测试组(30%)。该模型训练了300时代而储蓄的最佳模型生成验证最低损失的时代。(iv)损失的计算(1)分类损失(2)本地化的损失(3)部分细分任务损失(v)crossentropy损失是用来计算验证损失的随机梯度下降法(SGD)方法参数优化学习速率的0.1和0.0015的重量衰变。预定的实验运行时期,最好的中间模型存储尽管培训运行直到整个数量的时代。

3.4.2。数据集2(车间维修数据集)

车间维修数据集收集,如部分所述3所示。2、29类实例面具和边界框:(我)数据集大小:1032的轿车,皮卡和suv。(2)准备:550×550像素图像归一化,与数据集随机划分为训练集(70%)和测试集(30%)。这个正常化是不同于上一个,因为它使用低分辨率图像来提高模型的泛化。此外,使用低分辨率图像与一个更大的批量大小是更有效的比使用高质量的图片小批量大小。填充图像匹配数据集1中的大小也是不必要的,因为许多添加像素将是零,这不会导致模型训练。该模型训练了300时代而储蓄的最佳模型生成验证最低损失的时代。(3)损失的计算(1)分类损失(2)本地化的损失(3)部分细分任务损失(iv)crossentropy损失是用来计算验证损失的随机梯度下降法(SGD)方法参数优化学习速率的0.1和0.0015的重量衰变。预定的实验运行时期,最好的中间模型存储尽管培训运行直到整个数量的时代。

3.4.3。数据集3

这个数据集样本的数量增加到2200图片,同时将不同品牌的低数量的图像属于相同的车辆类型,即轿车。这些图片代表了不到20%的数据集。此外,为了克服数据集样本的短缺,删除一些汽车零部件的位置标签帮助大幅提高模型的性能。类合并类的总数减少到22岁,来自29个独特的类。标签位置是左边或右边的类的类相同的类类型(例如,一边门),和一个类标签分配。我们添加了out-of-distribution图像(不同的汽车品牌,但相同的类型,即。轿车)来提高模型的多样性和鲁棒性。

3.4.4。数据增加

最初的技术解释图6公开底层模型广泛的测试图像具有实质性的变化背景,独特的汽车颜色,不清楚,角度,或身体部位,或翻转图像。此外,有实质性的左派和右派之间的相似性汽车零部件,如门或镜子,导致一个重要的阶级偏见。为了克服这些缺点,以下增加步骤进行:(我)增加少乘代表类,比如车窗玻璃(2)解决光强度变化通过调整伽玛值(3)合并端类(例如,左和右尾灯)(iv)翻转调整左、右侧图像在水平方向和垂直方向上(v)将旋转,因为数据集被确认被注入在特定角度倾斜标准化图像作为一个简单的FCN VGG16骨干的基础上有四个旋转类别(0,90,270,360)(vi)为了弥补颜色变化,模型被引入RGB颜色不可知论者转变,对比和规范化(七)解决边界模糊的部分,使用模糊和色相饱和度

此外,因为非常小的对象地图显示低,复制粘贴增强方法介绍(59]。这大大提高了基线SipMask的结果。这项技术产生新的培训与不同的背景图片,part-visible汽车零部件,分散汽车零部件(如分离保险杠)。与其他传统的数据集,对象可以从背景中分离,边界框回归量受益的多部分汽车零部件数据集的复杂性。

3.4.5。Hyperparameters

以下参数产生最好的结果的报道模式。一些参数是常见的所有模型,而另一些人则是基于作者的建议。我们使用一个学习速率的0.1和0.0015的重量衰变。解决不平衡在图像类的数量,我们修改了焦损失参数模型来处理不平衡数据集和鼓励更多关注困难的情况下,即,很少有汽车的品牌,通过增加伽马值2.2。阿尔法参数保持在0.25,推荐为平衡类数据集。虽然只有一个不平衡的数据集类(轮子),我们发现这是不必要的改变参数。

3.5。绩效评价指标

在培训期间,每一个真实的预言多边形分割算法相比,基于交叉在联盟通过更新其在每个迭代参数如下:

底层原理,按照可可挑战,获得一个 ,因此,指示任何重叠的超过或等于50%作为一个真正的预测。汽车零部件的预测用例,这个阈值是站在维护。的四个算法提出了表2评估六出12检测评价指标定义的可可挑战,包括平均精度主要挑战指标美联社,帕斯卡VOC度量 ,和严格的规和跨尺度的美联社 , ,和。地图计算平均20个路口在联盟(借据)值阈值0.5和0.95之间的每个对象如下:

0.50和0.75的计算作为一个借据相应指标,和 ,文章分别和指标表明,借据是大于或等于0.5和0.75十字路口的原始和检测边界框,分别。

3.6。实验结果和讨论

本节提供了一个性能比较的三个算法(SipMask + +, SipMask YOLACT) DSMLR和修理车间的数据集(包括nonaugmented和增强)。比较了基于(1)汽车零件的实例/语义分割结果与地面实况(2)鲁棒性在不同的任意角度和缩放级别(3)计算效率(每秒帧数)

这些算法的使用导致明显降低速度和模型的大小。例如,在[45),帧每秒的面具R-CNN使用ResNet101骨干是116 ms,而SipMask fps是89 ms coco-test数据集,这两种模型显示可比美联社约38在大型图像( )。数据集平均面具上面的大小像素,我们发现SipMask + +表现最好的这一类,AP(左)为56.8,超过两阶段模型如面具R-CNN和单程PolarMask等模型。这一点适用在我们的数据集,如表所示3。我们有更少的中小面具的大小,在这些情况下,两级模型表现更好,更高的fps,使它不适合实时使用。我们也比较模型使用的受欢迎的网站,比如ProovStation专注于提供快速拍照光线设置。我们的解决方案牺牲一些速度精度的同时,仍满足最低标准,以确保准确的结果。

3.6.1。数据集1

本节提供了一个性能比较DSMLR数据集对五个算法(R-CNN面具,GCNet, PANet CBNet,宏达电)据Pasupa等人对三个算法(YOLACT、SipMask SipMask + +)相比,在这项研究中。如表所示1,YOLACT明显提高整体对象检测准确性与图61.3对HTC对象检测精度为54.1。的分割性能,YOLACT优于HTC地图为66.5,而GCNet表现更好与78.2。一般来说,据报道,价值表现最差的精度,在(42.6)YOLACT表现略好于PANet (38.5)。

操作。数据集2

数据集2的性能输出如表所示2,其中包括地图和美联社在不同阈值与resnet - 101骨干。如表所示,SipMask + +显示最高的0.57地图以及最好的结果和分别为0.72和0.67,对象检测和0.65和0.44,例如,细分类别。YOLACT被确认是一个更好的表现0.44和0.026的目标检测和分割类别,分别

图9提出了一种视觉比较的检测和分割结果与三种算法(YOLACT SipMask, SipMask + +)从上到下一点显示行操作。对于汽车,所有三个算法未能段左后门。直角度(汽车B),门课程被正确检测到;然而,YOLACT SipMask错过了后保险杠检测和分割。一般来说,SipMask + +显示更多的实例分割弹性较小和较大的部分,有一些屏蔽重叠/不准确(e)和定位精度较低的部分。本地化部分(检测)产生最好的结果为所有三辆车使用SipMask(胃肠道)。在整体计算效率方面,SipMask + +再次带头平均为17.5 fps,其次是第二好的表演者,SipMask为20.8 fps。这些结果的共识是,SipMask + +显示更好的本地化/检测和地图0.57。其次是与0.49和0.41地图YOLACT检测和分割,分别。YOLACT观察处理更好的检测和分割,表中有说明)3。

3.6.3。数据集3

合并后的类的数据集上的性能结果如表所示4。显著的改善可以注意到所有方面,包括bbox和地图的分数。结果表明,SipMask类型优于YOLACT算法除了在较小的边界框。YOLACT和SipMask调整更好的引入增大和类调节措施。

3.7。类级别的性能YOLACT

进一步检查YOLACT算法的类级地图显示的显著性能损失类,要么是非常不同(例如,玻璃类,由于其不同的形状和大小以及反射率)或更小的横截面,如支柱或侧裙类(图10。这三个类地图的20.3、21.9和27.6,分别与类相比有更大的可能性被类似的不同模型,如罩、Bumper-rear,引导类地图(0.775、0.739和0.734)。玻璃类的数据集;然而,对于剩下的两个类,不管他们的丰富的数据集,他们的面具是离群值相比,剩下的部分边界框,导致较低的小对象地图。一般来说,更大的地图和空间相似的对象显示比规模较小或薄的部分。观察同样适用于检测和分割结果;因此,分析进一步扩展到三个随机选择的例子(汽车,汽车B, C和汽车),如图11表中所示的详细地图5。表显示了有效的地图绿色细胞,与任何更进一步的一对细胞(例如,轮盖)显示为黄色。任何未被发现或错误地分类类是由红细胞表示。进一步精确/召回三辆车对三种算法的分析显示了YOLACT和SipMask流派之间的显著差异,与后者明显优于边界框尺度(表6)。

4所示。结论和未来的工作

本研究应用一些实时分割方法分割汽车部分系统实例。有许多实际应用这项技术,比如行车车辆损伤的评估、汽车租赁公司、和远程车辆维修报价。评估这些方法的性能,我们使用三个汽车零部件数据集,一个公开的和其他人收集内部。我们比较单级和两级实例分割模型,发现单程模型健壮和执行相对更复杂的两阶段模型。底层模型推广到模仿现实世界的随机和noise-prone车辆损失。研究还考虑了各种因素,如图像大小、光强度、合并端类,失真,图像旋转/翻转。

在未来,我们打算解决的问题,如未类、本地化等小物件的一面镜子,不同汽车品牌的特定需求和越野车等类型。这将包括使用合成数据集复制汽车与不同背景和设置,比起以及探索的基于变压器模型。我们的目标是创建一个更加可靠和有效的实例分割模型,可以捕获相关信息周围的物体,提高整体性能。我们还计划继续探索微小目标检测文献,考虑转移学习与其他相关的数据集。这些努力将支持这项研究汽车评估的使用。

数据可用性

使用的数据来支持本研究的发现属于一个叫做榆树的私人公司,可以授权要求。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究得到了在榆树公司研究部门。

引用

m . Mazzetto m .特谢拉E。o·罗德里格斯,d .卡萨诺瓦,“深度学习模型的汽车装配生产线上进行目视检查,”2020年,https://arxiv.org/abs/2007.01857。
视图: 谷歌学术搜索
瞿z, j .沈r . Li j .刘问:关,“Partsnet:一个统一的深度网络汽车发动机精密零件缺陷检测,”学报2018年第二计算机科学与人工智能国际会议,页594 - 599,深圳,中国,2018年12月。
视图: 谷歌学术搜索
a . a . Shvets r·亚历山大·a·a·卡里宁,和弗拉基米尔,“符合手术使用深度学习,自动仪器分割”学报2018年17 IEEE国际会议上机器学习和应用程序(ICMLA)IEEE,页624 - 628年,2018年12月美国佛罗里达州奥兰多市。
视图: 谷歌学术搜索
林德格列Belal, m .沙迪克r . Kaboteh et al .,“深度学习49选骨头的分割ct扫描:第一步自动pet / ct-based 3 d骨骼转移的量化,”欧洲放射学杂志卷,113年,第95 - 89页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
o·穆罕默德,c . Lassner g . Pons-Moll·格尔和s . Bernt”神经身体配件:统一的形状和深度学习和基于模型的人体姿态估计,”《2018年国际会议上3 d视觉(3 dv)IEEE,页484 - 494年,维罗纳,意大利,2018年9月。
视图: 谷歌学术搜索
m·米塔尔·l·m·Goyal考尔,考尔,a Verma和d . Jude Hemanth“深度学习基础增强肿瘤磁共振脑图像分割方法,”应用软计算卷,78年,第354 - 346页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
p·m·沙克尔,m·布尔汉丁·m . i Desa“肺癌检测使用改进从ct图像丰富的集群和深度学习瞬间训练神经网络,”测量卷,145年,第712 - 702页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
j .冠军a . Mora-Fallas h . Goeau e·马塔还是蒙特罗p .阀盖和a·乔利”实例分割好检测作物和杂草植物由精密农业机器人,”应用在植物科学,8卷,不。7篇文章ID e11373 2020。
视图: 出版商的网站 | 谷歌学术搜索
答:汗,t·伊卜拉欣- m . Umraiz z甘露聚糖,h·金,“Ced-net:智能农业作物和杂草分割使用一个小级联encoder-decoder架构,”电子产品,9卷,不。10日,2020年。
视图: 谷歌学术搜索
p . Bosilj t .从此之后,g . Cielniak”连接属性形态统一植被分割和分类在精准农业,”计算机在工业领域卷,98年,第240 - 226页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
t .锄头和c Kuenzer”,目标检测和图像分割与深度学习在地球观测数据:review-part我:进化和最近的趋势,”遥感,卷1667,不。10,1667年,页2020。
视图: 出版商的网站 | 谷歌学术搜索
f . i Diakogiannis瓦尔德内尔,p . Caccetta和c .吴”Resunet-a:深入学习遥感数据的语义分割框架,“ISPRS《摄影测量与遥感卷,162年,第114 - 94页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
t·勒和y段,“Pointgrid:深3 d形状理解网络”《IEEE计算机视觉与模式识别会议,页9204 - 9214,盐湖城犹他,美国,2018年6月。
视图: 谷歌学术搜索
r . w . Wang,问:黄,诺伊曼,“SGPN:相似性组建议网络分割三维点云实例,”《IEEE计算机视觉与模式识别会议,页2569 - 2578,盐湖城犹他,美国,2018年6月。
视图: 谷歌学术搜索
r .先知,a . Deligiannis j . c . Fuentes-Michel韦伯,和m . Vossiek”语义分割3 d汽车雷达、占用网格”IEEE访问,8卷,第197930 - 197917页,2020年。
视图: 出版商的网站 | 谷歌学术搜索
j·j·卢比奥,t . Kashiwa t Laiteerapong et al .,“多层次结构破坏分割使用完全卷积网络。”计算机在工业领域文章ID 103121卷,112年,2019年。
视图: 出版商的网站 | 谷歌学术搜索
y . h . Wang, l . m .讨厌李,和h的月亮,“进行像素级隧道裂缝分割使用弱监督注释的方法,”计算机在工业领域文章ID 103545卷,133年,2021年。
视图: 出版商的网站 | 谷歌学术搜索
那波里塔诺d马志尼、p、f . Piccoli和r . Schettini”小说为路面遇险分割数据扩增方法,”计算机在工业领域文章ID 103225卷,121年,2020年。
视图: 出版商的网站 | 谷歌学术搜索
k . s . Braunwarth m·凯泽和a·l·穆勒”经济评价和优化的自动化程度在保险过程中,“业务和信息系统工程,卷2,不。1,29-39,2010页。
视图: 出版商的网站 | 谷歌学术搜索
a·g·霍华德·m·朱、陈,“Mobilenets:高效移动视觉卷积神经网络应用程序,”2017年,https://arxiv.org/abs/1704.04861。
视图: 谷歌学术搜索
x x, h . Chen Zhu z . Liu和j·陈,“Deepdecision:移动深度学习框架边缘的视频分析,”IEEE INFOCOM学报》2018 - IEEE计算机通讯大会上IEEE,页1421 - 1429年,火奴鲁鲁,嗨,美国,2018年4月。
视图: 谷歌学术搜索
r . Girshick j·多纳休、d·特雷弗和j·马利克,“丰富的特性准确的对象层次结构检测和语义分割”《IEEE计算机视觉与模式识别会议哥伦布,页580 - 587年,哦,美国,2014年6月。
视图: 谷歌学术搜索
在r . Girshick“快速r-cnn。《IEEE计算机视觉国际会议哥伦布,页1440 - 1448年,哦,美国,2015年6月。
视图: 谷歌学术搜索
任,k .他、r . Girshick和j .太阳,“快r-cnn:对与地区建议网络实时目标检测,”先进的神经信息处理系统2015年,卷。28日。
视图: 谷歌学术搜索
d . w . Liu Anguelov, d . Erhan“Ssd:单身multibox探测器拍摄,”欧洲计算机视觉的诉讼页21-37 Springer,阿姆斯特丹,荷兰,2016年10月。
视图: 谷歌学术搜索
r·约瑟夫·s . Divvala r . Girshick f·阿里,“你只看一次:统一、实时检测,”《IEEE计算机视觉与模式识别会议拉斯维加斯,页779 - 788年,NV,美国,2016年6月。
视图: 谷歌学术搜索
李y, z . Ma, m .黄黄,j . Cheng和唐,“一个轻量级探测器基于注意机制铝带表面缺陷检测,”计算机在工业领域文章ID 103585卷,136年,2022年。
视图: 出版商的网站 | 谷歌学术搜索
谢j . m . Liu, j ., y, x,, y,”一个轻量级的和准确的识别框架,x射线焊缝图像的迹象,”计算机在工业领域文章ID 103559卷,135年,2022年。
视图: 出版商的网站 | 谷歌学术搜索
a . s . Mangat j .绞肉机,s . Rinderle-Ma”互动基于轻量级对象检测过程自动化生产流程,“计算机在工业领域文章ID 103482卷,130年,2021年。
视图: 出版商的网站 | 谷歌学术搜索
m·肖杨,s . Wang z, x,和l .康”功能增强的多尺度融合cnn与注意力机制点焊表面识别,”计算机在工业领域文章ID 103583卷,135年,2022年。
视图: 出版商的网站 | 谷歌学术搜索
c . l . m . Chen Yu智et al .,“提高更快r-cnn基于伽柏的织物疵点检测滤波器与遗传算法优化,“计算机在工业领域文章ID 103551卷,134年,2022年。
视图: 出版商的网站 | 谷歌学术搜索
s . Coulibaly b Kamsu-Foguem、d . Kamissoko和d·特拉奥雷“深层神经网络转移学习小米作物图像,”计算机在工业领域卷,108年,第120 - 115页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
h·康和美国康”,与手工和卷积特性叠加系综分类器晶片地图模式分类,“计算机在工业领域文章ID 103450卷,129年,2021年。
视图: 出版商的网站 | 谷歌学术搜索
r·陈黄x l·杨,x, x,, y,“行星变速箱的智能故障诊断方法基于卷积神经网络和离散小波变换,“计算机在工业领域卷。106年,48-59,2019页。
视图: 出版商的网站 | 谷歌学术搜索
j . Ko, j·h·荣格h . b .香港、j . Lee m . Kim和b . d .梦想,“多任务学习的分类和去噪(MLCD) noise-robust转子系统诊断,”计算机在工业领域文章ID 103385卷,125年,2021年。
视图: 出版商的网站 | 谷歌学术搜索
m·l·霍夫曼Souza c . A . da Costa g . de Oliveira拉莫斯和r·达·罗莎Righi”特征识别方法来解释异常状态监测,“计算机在工业领域文章ID 103528卷,133年,2021年。
视图: 出版商的网站 | 谷歌学术搜索
k . x张,他任美国,j .太阳,“深残余学习图像识别,”《IEEE计算机视觉与模式识别会议拉斯维加斯,页770 - 778年,NV,美国,2016年6月。
视图: 谷歌学术搜索
k .他g . Gkioxari p .美元,r . Girshick“面具r-cnn”《IEEE计算机视觉国际会议,第2969 - 2961页,威尼斯,意大利,2017年10月。
视图: 谷歌学术搜索
a . Krizhevsky i Sutskever, g·e·辛顿“Imagenet分类与深卷积神经网络,”先进的神经信息处理系统,25卷,2012年。
视图: 谷歌学术搜索
k . Simonyan和a . Zisserman”很深的卷积网络大规模图像识别,”2014年,https://arxiv.org/abs/1409.1556。
视图: 谷歌学术搜索
c . Szegedy w·刘,y贾”更深层次的曲线玲珑,”《IEEE计算机视觉与模式识别会议美国,页1 - 9,波士顿,MA, 2015年6月。
视图: 谷歌学术搜索
f . n . Iandola美国汉,m . w . Moskewicz”Squeezenet: alexnet-level准确性少50 x模型参数和¡0.5 mb大小,”2016年,https://arxiv.org/abs/1602.07360。
视图: 谷歌学术搜索
b·戴维斯,j . Frankle和j . Guttag“神经网络剪枝的状态是什么?”机器学习程序和系统,2卷,第146 - 129页,2020年。
视图: 谷歌学术搜索
d . Bolya周c、f·肖和y . j .李“Yolact:实时分割实例,”《IEEE / CVF计算机视觉国际会议9166年,页9157 - 2019年11月首尔,韩国。
视图: 谷歌学术搜索
j .曹r . m .出全新,h . Cholakkal”Sipmask:空间信息保存的快速分割,图像和视频实例”欧洲计算机视觉施普林格,页队,柏林,德国,2020年。
视图: 谷歌学术搜索
y Syed Adnan Abdulmalik:篇名,r . Souissi“汽车零部件评价:应用real-timeinstance-segmentation模型来识别车辆部件,”2022年,https://arxiv.org/abs/2202.00884。
视图: 谷歌学术搜索
问:j . c . Ge j . Wang Wang气,h .太阳和j .廖”向自动视觉检测:弱监督学习方法对工业适用对象检测,”计算机在工业领域文章ID 103232卷,121年,2020年。
视图: 出版商的网站 | 谷歌学术搜索
h .气徐t、g . Wang y Cheng和c·陈,“Myolov3-tiny:一个新的卷积神经网络架构实时检测跟踪紧固件,”计算机在工业领域文章ID 103303卷,123年,2020年。
视图: 出版商的网站 | 谷歌学术搜索
j . Božičd Tabernik, d . Skočaj”混合表面缺陷检测的监督:从弱到完全监督学习,”计算机在工业领域文章ID 103459卷,129年,2021年。
视图: 出版商的网站 | 谷歌学术搜索
t . f .笨蛋、g·j·爱德华兹和c·j·泰勒,“主动外观模型,”IEEE模式分析与机器智能,23卷,不。6,681 - 685年,2001页。
视图: 出版商的网站 | 谷歌学术搜索
p . Felzenszwalb d McAllester, d . Ramanan”有区别地训练,多尺度,可变形模型的一部分,”学报2008年IEEE计算机视觉与模式识别会议IEEE,页1 - 8,安克雷奇,正义与发展党,美国,2008年6月。
视图: 谷歌学术搜索
碧玉,o . Rippel,凯文,“可伸缩的贝叶斯优化使用深层神经网络,”机器学习的国际会议PMLR,页2171 - 2180年,里尔,法国,2015年7月。
视图: 谷歌学术搜索
戈拉米,美国金,z盾”的调查量子化方法高效的神经网络推理,”2021年,https://arxiv.org/abs/2103.13630。
视图: 谷歌学术搜索
美国汉,j .池、j . Tran和w .磨磨蹭蹭的,快”学习为高效的神经网络权重和连接,”先进的神经信息处理系统2015年,卷。28日。
视图: 谷歌学术搜索
t·霍弗勒d . Alistarh t . ben - nun:德莱顿和有害生物,“稀疏的深度学习:修剪和增长有效的推理和神经网络训练,”机器学习研究杂志》上,22卷,不。241年,页1 - 124,2021。
视图: 谷歌学术搜索
k . Pasupa p Kittiworapanya: Hongngern, k . Woraratpanya”评估深度学习算法的语义分割汽车零部件、”复杂和智能系统,8卷,不。5,3613 - 3625年,2021页。
视图: 出版商的网站 | 谷歌学术搜索
a .泰伯和h Medeiros“自动分割的树木在动态的户外环境中,“计算机在工业领域卷,98年,第99 - 90页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
d . Bolya周c、f·肖和y . j .李“Yolact + +:更好的实时分割实例,”IEEE模式分析与机器智能,44卷,不。2、1108 - 1121年,2022页。
视图: 出版商的网站 | 谷歌学术搜索
g . Ghiasi y崔,a .斯”简单的复制粘贴是一个强大的数据扩增方法例如分割,”《IEEE / CVF计算机视觉与模式识别会议加拿大蒙特利尔,页2918 - 2928,,2021年6月。
视图: 谷歌学术搜索
k . Pasupa p Kittiworapanya: Hongngern, k . Woraratpanya”评估深度学习算法的语义分割汽车零部件、”复杂和智能系统,,1-13,2021页。
视图: 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

407年

下载

154年

引用