移动信息系统

在这一页上

文摘介绍结论数据可用性的利益冲突确认引用版权相关文章

特殊的问题

计算机视觉和图像处理的移动设备

把这个特殊的问题

研究文章|开放获取

体积2021年| 文章的ID1837894| https://doi.org/10.1155/2021/1837894

无监督图像生成增强适应热图像的目标检测

彭刘,¹ 付羽李,² 姗姗元,¹ 和李万宜 ²

学术编辑器: 韩惠珍金

收到了 2021年11月03

接受 2021年12月10

发表 2021年12月27日

文摘

热图像目标检测是计算机视觉的一个重要任务,有许多应用,如无人驾驶车辆、机器人、监视、夜间视力。深上优于探测器取得了重大进展,这通常需要大量的训练数据标签。然而,标签数据的对象检测热图像稀缺和昂贵的收集。如何利用大量标签可见图像和适应成热影像领域有望解决。本文提出了一种无监督图像生成增强适应热图像中目标检测的方法。减少之间的差距可见域和热领域,该方法能够生成模拟假热图像与目标图像和保持可见的源域的注释信息。图像生成包括CycleGAN-based image-to-image翻译和一个强度反演变换。生成的假热图像作为新的源域,然后是现成的域自适应速度RCNN利用减少之间的差距所生成的中间域和热目标域。实验证明了该方法的有效性和优越性。

大胆的数字代表了最好的结果。

1。介绍

热相机捕捉被动的所有对象发出的红外辐射温度高于绝对零度(1]。使用热摄像机视觉系统可以消除光照正常的灰度和RGB相机的问题。热图像中目标检测是一个非常重要的计算机视觉任务,有许多应用程序包括无人驾驶车辆、机器人、监测、夜视、工业和军事。

深上优于探测器,如快RCNN [2],SSD [3有人知道由罗[],4),在可见的领域取得了重大进展,这通常需要大量的训练数据标签。然而,标签热图像为培训对象探测器稀缺和昂贵的收集,虽然有大量的标签可见图像。因此,它将利用这些注释可见光图像和适应成热图像目标检测领域。这个问题称为域自适应对象检测从可见到热。

在热图像目标检测研究领域适应上下文与颜色不一样发达,包括唯一的几种方法。赫曼et al。5)提出将热红外数据尽可能RGB域通过基本的图像处理操作和调整pretrained CNN-based探测器预处理数据。郭et al。6)提供了一个有限的行人检测方法在热红外图像注释。作者解决域转变热与彩色图像通过学习一对图像变形金刚两个模式之间的转换图像,会同行人检测器。对于一般域自适应目标检测,7)是第一个工作处理对目标检测领域适应问题。作者进行对抗训练特点和设计三个适应组件处理领域转变,即。,实例级适应映像级别适应和一致性检查。现有深度域自适应目标检测(DDAOD)作品可以主要分类adversarial-based reconstruction-based和混合。详细的回顾可以发现在8]。

比较上述工作,我们最好的知识,本文是第一个工作处理无监督自适应检测从visible-to-thermal域对象。这项工作的贡献主要包括以下三个方面:(1)我们提出一个无监督图像生成增强适应对象检测方法在热图像,图像生成模块和readaptation模块。(2)减少之间的差距可见域和热领域,设计了一个图像生成的过程。的图像生成过程由CycleGAN-based image-to-image翻译和一个强度反演变换。(3)我们进行广泛的实验提出的方法与其他方法相比,在收益率显著的性能提升。

2。该方法

在本节中,我们提出我们建议的无监督图像生成的细节增强域自适应热对象检测器。图1显示了框架概述。它由两个模块、图像生成和readaptation。图像生成模块生成模拟假CycleGAN热图像的图像翻译过程和强度反演变换。readaptation模块首先需要生成的假热图像作为新的源域和真正的热作为目标域,然后进行一个现成的域自适应速度RCNN对象检测。训练检测器可以应用于热目标域。下面提供了更多细节。

2.1。图像生成

减少之间的差距可见源域和热目标域,我们设计一个图像生成模块生成模拟图像,类似于目标图像。该模块包括两个步骤,一个CycleGAN [9翻译]一步可见光图像热的风格,多样化的外观和强度反演一步生成的假热图像。

2.1.1。图像通过CycleGAN[翻译9]

CycleGAN是一个未配对image-to-image翻译方法。本文的目标CycleGAN [9是学习一个映射这样的分布图像是不可区分的分布使用一个敌对的损失。因为这种映射是高度underconstrained,再加上是一个逆映射吗引入了一个循环执行一致性损失 (反之亦然)。代表颜色域和可见代表了热域。CycleGAN最小化的目标是显示如下:

在方程(1), 和映射函数的敌对的损失吗和 ,分别; 是周期的一致性的损失。λ表示的相对重要性敌对的损失和周期的一致性的损失。优化问题来解决

翻译假热图像演示图所示2。左列的图像从颜色可见域,生成中间列假热图像,和右列是真实的地面实况的热图像。

(一)

(b)

(c)

2.1.2。强度反演

生成的假热图像和真实的地面实况热图像比较数据2 (b)和2 (c)。很可能生成的假热图像与彩色可见域图像的内容和风格的热域图像。然而,特定目标对象区域的强度是相反的,比如人的地区。从数据2 (b)和2 (c),结果表明,假人地区图像的强度较低,高真正的热图像。我们认为,如果我们训练检测器只使用图像类似于图2 (b),探测器将错过与逆强度的对象。这个论点所示实验;细节可以发现在烧蚀研究中,即,部分3所示。3。

基于上述分析,我们建议增加生成的假热图像的强度反演变换。预计增加多样化的外观标记的训练数据,提高探测器的性能对象。提出了强度反演变换定义如下:

在方程(3),反转函数对应于强度反演变换,表示假的热影像转化是一个8位的图像,和表示实像。

强度反演变换的例子在图所示3。反向图像的外观对象地区变成了类似于真正的热图像。

2.2。Readaptation

做图像生成模块后,我们的联盟生成的假热图像和反向假冒热图像作为新的源域,定义为在哪里表示更新源域,由生成的图像集和注释 , 是生成的假热图像集的结合和反向假冒热图像集 , 表示图像的颜色可见域 ,和的注释 ,指出,新的源域是双的数量从和注释。

直觉上,我们可以训练检测器注释直接应用到目标域。然而,仍然存在差距和。因此,我们利用现成的域自适应速度RCNN [7](称为DAF)进行readaptation来。

DAF) (7)使用H-divergence测量数据分布之间的分歧源域和目标域。作者制定目标检测作为概率的角度来看,后学习问题, ,在哪里我是图片,B是一个物体的边界框,C对象的类别。基于H-divergence测量和概率公式,提出了三个适应组件,即。,实例级适应映像级别适应和一致性正规化。三个适应组件与敌对的联合培训学习。

3所示。实验

在本节中,进行各种实验评价了该方法的有效性。节3所示。1介绍实验设置包括数据集、评价指标和实现。节3所示。2与最先进的方法,我们比较该方法精度的性能。最后,在节3所示。3,我们分析和讨论每个模块在烧蚀研究的影响。

3.1。设置

3.1.1。数据集

为了评估该方法,我们进行多光谱数据集对象检测实验10]。多光谱数据集对象检测(10)是为自主收集车辆。它由RGB,近红外光谱、米尔和冷杉图像和地面实况添加标签。总有7512个图像(3740 3772年在日间和晚上时间)。边界框坐标和标签由在地面真理。四个不同的图像同时捕获和光谱图像中的每个对象是注释。在这个数据集,五类对象(自行车,车,car_stop,color_cone,和人贴上标签。在我们的实验中,注释的RGB图像设置为源域,冷杉,即。热图像,设置为目标域。热图像的注释在训练过程中不使用。

3.1.2。评价指标

评估对象检测器的性能,我们采用广泛应用意味着平均精度(mAP)作为评估标准,由回忆和计算精度。

回忆(R)和精密(P)是用来获得美联社每个类的价值。地图意味着所有类别的美联社的平均值。他们定义如下: 在哪里表示的类别数。

3.1.3。实现细节

我们的实验上实现PyTorch [11)平台。对于CycleGAN,开源PyTorch版本(12使用)。CycleGAN训练200回声。readaptation情况下,我们使用一个开源PyTorch实现(13]。快RCNN和DAF都是训练有素的20回声和参数设置为默认。

3.2。与最先进的方法

在本节中,我们评估检测性能定量和定性。在定量部分,地图RCNN越快2源数据训练,基线和最先进的方法域自适应速度RCNN [7)(称为DAF),我们提出的方法进行了比较。在定性部分,我们比较该方法最先进的方法是(7]。

3.2.1之上。定量评价

表1总结了不同方法的实验结果。我们比较该方法与快速RCNN [2]在源数据和域自适应速度RCNN [7)(称为DAF)。DAF训练在注释的源数据和标记目标数据。该方法训练生成图像与原始颜色可见域的注释。快RCNN注释目标样本训练作为甲骨文。该方法实现了地图的26.5%,而快RCNN(不适应)达到1.4%,和DAF达到19.4%。我们的方法优于DAF)为8.8%。

3.2.2。定性评价

一些定性结果如图4和5。如图4、更快RCNN不能检测到人中间的形象;来说,只能检测汽车在左边的一部分。在图5、更快RCNN不能发现左边的人,两个小型汽车在中间;DAF承认两条腿的人,忽略了正确的汽车。而我们的方法检测。定性结果表明,我们提出的方法检测比RCNN和DAF更快更正确的对象。

(一)

(b)

(c)

(d)

(一)

(b)

(c)

(d)

3.3。烧蚀研究

在本节中,我们进行消融研究分析每个提出了组件的影响整个管道的性能。

表2提供每个提议的烧蚀性能不同的配置组件。比较配置和CycleGAN-based形象翻译那些灰色的翻译,似乎这款CycleGAN表现的更好。例如,配置在第七行获得地图12.6%,第一行获得1.4%,第三行获得5.3%。比较配置图像翻译(灰色或CycleGAN)和强度反演款只有形象翻译,那些强度反演产量明显增加。例如,配置在第八行获得地图22.4%,而第七行获得12.6%。最后,配置比那些没有readaptation readaptation表现得更好。例如,配置在第十行获得地图26.5%,而第八行获得22.4%。从上面的分析,很明显,提出三个组件,即。,CycleGAN-based image translation, intensity inversion, and readaptation, are all necessary and yield performance gain.

4所示。结论

在本文中,我们提出了一个无监督图像生成增强适应热图像中目标检测的方法。包括两个模块。图像生成模块生成模拟假热图像与目标图像,和readaptation模块是减少之间的差距产生中间域和热目标域。提出了实验结果表明,该方法大大优于最先进的。

的基础上,提出了自适应检测框架,未来可以扩展工作,如产生更多类似的热图像颜色可见图像,整合不同的范畴领域适应方法的优点和应用visual-to-thermal域自适应对象检测、和学习紧凑的端到端模型。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是财政支持的国家科技计划项目管理市场监管(2020可162),中国国家自然科学基金(61771471),中央基础研究资助项目(562020 y - 7482)和中国国家自然科学基金(61401463号,U1613213, 91748131)。一个预印本曾发表(14]。

引用

r·盖德和t . b . Moeslund热相机和应用程序:一项调查,”机器视觉和应用程序,25卷,不。1,第262 - 245页,2014。
视图: 出版商的网站 | 谷歌学术搜索
任,k .他r . Girshick j .太阳和R.-C。n . n .更快,“快R-CNN:对与地区建议网络实时目标检测,”IEEE模式分析与机器智能,39卷,不。6,1137 - 1149年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
d . w . Liu Anguelov, d . Erhan et al .,“Ssd:单身multibox探测器拍摄,”欧洲计算机视觉的诉讼,页21-37,阿姆斯特丹,荷兰,2016年10月。
视图: 出版商的网站 | 谷歌学术搜索
j . Redmon s Divvala r . Girshick,哈蒂,“你只看一次:统一、实时检测,”《IEEE计算机视觉与模式识别会议拉斯维加斯,页779 - 788年,NV,美国,2016年6月。
视图: 出版商的网站 | 谷歌学术搜索
c·赫尔曼,m .革命联合阵线,j·拜尔,“CNN-based热红外检测人员领域适应,”自治系统的程序:传感器,车辆,安全,和互联网的一切美国奥兰多,2018年4月。
视图: 谷歌学术搜索
郭t、c·p·黄齐和m . Solh“Domain-adaptive行人检测在热图像,”学报2019年IEEE国际会议上图像处理(ICIP),页1660 - 1664,台北,台湾,2019年9月。
视图: 出版商的网站 | 谷歌学术搜索
w . y . Chen Li c . Sakaridis戴d, l . Van干傻事,”域自适应速度R-CNN对象检测在野外,”程序的计算机视觉和模式识别,页3339 - 3348,盐湖城犹他,美国,2018年6月。
视图: 出版商的网站 | 谷歌学术搜索
f . w . Li Li y罗,p . Wang“深度域自适应对象检测:一项调查,”计算情报学报2020年IEEE研讨会系列(1),页1808 - 1813,堪培拉,澳大利亚,2020年12月。
视图: 谷歌学术搜索
J.-Y。朱,t .公园,p .伊索拉,a . a .埃“未配对image-to-image翻译使用cycle-consistent敌对的网络,”《IEEE计算机视觉国际会议,第2232 - 2223页,威尼斯,意大利,2017年10月。
视图: 出版商的网站 | 谷歌学术搜索
k . Takumi k .渡边问:哈,a . Tejero-De-Pablos y Ushiku, t .原田,“多光谱自动车辆目标检测,”诉讼的ACM多媒体的专题研讨会页,35-43山景、钙、美国,2017年10月。
视图: 出版商的网站 | 谷歌学术搜索
a . Paszke总值,f·马萨,a·莱瑞·j·布拉德伯里,和g . Chanan”PyTorch:命令式风格、高性能深度学习图书馆”诉讼进展的神经信息处理系统加拿大温哥华,页8024 - 8035,2019年8月。
视图: 谷歌学术搜索
在PyTorch Image-to-Image翻译。可用:https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix。
(2017年,2020/1/3)。非官方的实施对象的域自适应速度R-CNN检测野生的。可用:https://github.com/tiancity-NJU/da-faster-rcnn-PyTorch。
f . p . Liu,和w·李,“无监督图像生成增强适应对象检测的热图像,”2021年,https://arxiv.org/abs/2002.06770。
视图: 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

523年

下载

455年

引用