文摘

视觉跟踪仍然是一个挑战性的任务由于闭塞,外观变化,复杂的运动,等等。我们提出一个新颖的RGB-D跟踪基于多通道深度特征融合(MMDFF)。MMDFF模型由四个深卷积神经网络(CNN): Motion-specific CNN, RGB -特定的CNN, Depth-specific CNN, CNN RGB-Depth相关。的深度图像编码为三个渠道发送到depth-specific CNN来提取深深度特性。光流计算出每一帧图像,然后喂养motion-specific CNN学习深度运动特性。深RGB、深度和运动信息可以有效地融合通过MMDFF多层模型。最后,多通道融合深度特性被发送到C-COT追踪获得跟踪结果。进行评价,实验是最近两次大规模RGB-D数据和结果表明,我们建议的RGB-D跟踪方法实现更好的性能比其他技术发展水平RGB-D追踪器。

1。介绍

作为一个最基本的问题在计算机视觉,视觉物体跟踪,旨在估计对象的轨迹在视频,已经成功地解决了在许多应用程序中,包括智能交通控制、人工智能、自动驾驶(1- - - - - -3]。尽管视觉物体跟踪研究取得了令人瞩目的成就,许多挑战仍然在寻求在实践中有效地跟踪对象。例如,它仍然是相当困难的跟踪对象经常阻塞发生时,外观的变化,物体的运动是复杂的,和光照变化4- - - - - -6]。

跟踪方法的主要缺点只使用RGB数据是他们不健壮的外观变化。由于消费级RGB-D传感器的可用性,如国际米兰RealSense,微软Kinect和华硕这款产品,两可以获得更加准确的深度信息的对象重新审视存在的问题跟踪(7,8]。与RGB数据相比,RGB-D数据可以明显提高跟踪的性能由于获得深度信息互补的RGB (9]。深度信息是不变的照明或颜色变化(10,11),可以提供几何线索和空间结构信息;因此,在视觉物体跟踪显示强大的好处。然而,如何有效地利用深度RGB-D传感器提供的数据仍然是一个具有挑战性的问题。

然而,RGB和深度仅从单帧编码的静态信息,跟踪时常常失败的运动对象是复杂的。在这种情况下,深运动特性可以提供高层次的运动信息来区分目标对象(12- - - - - -14]。动态信息可以被深度运动的特性,这将从RGB互补的静态特征提取和深度图像。

我们的动机是设计一个RGB-D对象跟踪基于多通道深度特征融合。本文特别强调探索三个科学问题:如何融合深度运动特性与静态特性提供的RGB图像和深度;如何融合RGB和深度特性充分;如何有效地获取几何线索从深度数据和空间结构信息。总之,本研究的关键技术的贡献三个方面:(我)小说MMDFF模型是专为RGB-D跟踪,包括四个深CNN: motion-specific CNN, RGB -特定的CNN, Depth-specific CNN, CNN RGB-Depth相关。在MMDFF,我们可以融合RGB,深度,有效地通过CNN在多层和运动信息。该方法可以分别提取功能通过使用RGB和深度RGB-specific CNN和Depth-specific CNN和充分利用RGB和深度之间的相关关系形态通过CNN RGB-Depth相关。同时,Motion-specific CNN可以提供一个重要的高级运动跟踪的信息。(2)深度图像编码分为三个渠道:水平差距,重力高度和角度。然后,三个通道图像发送到depth-specific CNN来提取深深度特性。RGB和深度之间的关联度形态可以学到RGB-Depth CNN有关。与只使用深度信息作为一个频道在许多现有RGB-D追踪器,我们可以获得更多的有用的信息跟踪,如几何特征和空间结构信息,通过编码深度图像分成三个渠道。(3)评估我们提出RGB-D跟踪器的性能,我们进行广泛的实验最近两次挑战RGB-D基准数据集:普林斯顿RGB-D跟踪基准(PTB)的大规模数据集(13)和伯明翰大学的RGB-D跟踪基准(BTB) [15]。实验结果表明,我们建议的方法优于先进的RGB-D追踪器。

本文的其余部分组织如下。讨论了相关工作2。部分3描述了概述和我们提出的方法的细节。节4,我们将演示实验结果来评估我们的提议RGB-D追踪。我们结束我们的工作5

2.1。RGB-D对象跟踪

随着RGB-D传感器的出现,极大的兴趣在视觉物体跟踪使用RGB-D数据(15- - - - - -17)来提高跟踪性能由于深度模式可以提供有用的信息补充RGB模式。

RGB-D跟踪方法使用深度扩展kernelised相关性过滤器和阻塞处理提出了在18]。在[19),作者使用Haar-like特性和猪的特性基于RGB和深度提高跟踪的方法。郑et al。20.]介绍了一个对象跟踪基于深度图像的稀疏表示。Hannuna等人提出了一个RGB-D跟踪系统建立在KCF跟踪系统,利用深度信息处理规模变化、遮挡,和形状的变化。

尽管现有RGB-D追踪器已经做出了巨大的贡献促进RGB-D跟踪,其中大部分是使用手工特性和融合RGB和深度信息,忽略了RGB和深度之间的关联度方法。

2.2。深RGB特性

由于特征提取中的优势,CNN已越来越多地应用于RGB追踪器(21,22]。卷积的CNN包含许多层,池层,和完全连接层;的特性在不同的层次有不同的属性。更高的层次可以捕获senmantic特性和较低的层可以捕获的空间特性,和他们都是重要的跟踪问题23,24]。

在[25],歌等人提出了峰值算法,处理相关滤波器作为一个卷积层和应用残余学会捕捉外观变化。C-COT提出了在26),雇佣了一个隐式的插值模型来解决学习问题在连续空间域。朱et al。27)提出了一个跟踪器命名节点,设计一个端到端的框架学习同时卷积特性和执行跟踪过程。

这些追踪器只考虑RGB相貌深特征在当前帧不能受益于从深度图像提取的几何特性和帧间动态信息。因此,重要的是要摆脱这个问题由RGB-D融合深度特性数据和深度运动特性。

2.3。深深度特性

近年来,深深度特性得到了很多的关注对象识别(28,29日),对象检测(30.,31日语义分割[],室内32,33)等。不幸的是,一些现有RGB-D追踪器使用CNN来提取深深度特性来提高跟踪性能。在[34),江泽民等人提出了一个RGB-D跟踪基于交叉模式深度学习,其中Gaussian-Bernoulli深玻耳兹曼机(DBMs)采用RGB和深度图像的提取特征。DBMs的缺点而言,其中最重要的是推理的高计算成本。

近年来,CNN在计算机视觉目睹了巨大的成功。在这种背景下,我们将关注如何使用CNN与深熔深深度特性RGB和运动特性有效RGB-D追踪。

2.4。深刻的运动特性

深运动特征已成功申请行动识别(35)和视频分类(36),但却很少应用于视觉跟踪。大多数现有的跟踪方法提取外观特征,忽略运动信息。在[37],朱镕基等人提出了一个端到端流相关跟踪器,其重点是利用丰富的流信息的连续帧提高特征表示和跟踪精度。Danelljan [38]调查深在RGB追踪运动特性的影响。但是他们并没有考虑到深度信息。

我们所知,深运动特性尚未申请RGB-D跟踪。在这篇文章中,我们将讨论如何融合深度运动特性与RGB相貌特征和几何特征提供了深度图像改善RGB-D跟踪的性能。

3所示。基于MMDFF RGB-D跟踪

3.1。多通道深功能融合(MMDFF)模型

在本节中,一本小说MMDFF模型提出了RGB-D跟踪针对融合深度运动特性与静态外观和几何特性提供了RGB和深度数据。说明了我们的方法的总体架构如图1,我们的端到端MMDFF模型由四个深CNN: motion-specific CNN, RGB-specific CNN, depth-specific CNN, CNN RGB-Depth相关。最后一个完全连接(FC)融合层提出了有效熔深RGB-D特性和深度运动特性;然后送入熔深特性C-COT追踪,最后可以获得并跟踪结果。

节中描述1,CNN已表现出显著优于传统的机器学习方法在一个广泛的计算机视觉任务。它被广泛承认,CNN特性从不同的层中提取在跟踪扮演不同的重要角色。较低层捕捉空间详细功能,有助于准确定位目标对象;同时,更高的层提供语义特征是健壮的闭塞和变形。MMDFF模型中,我们分别采用分层卷积特性提取RGB-specific CNN和depth-specific CNN。更具体地说,两个独立的CNN网络采用:RGB-specific CNN是RGB数据和depth-specific CNN是深度特性。和特性在Conv3-3 Conv5-3两cnn被发送到最高的FC层融合在我们的实验。

相信更多的功能从不同的模式可以帮助准确地描述对象,提高跟踪性能。正如上述,大多数现有的RGB-D追踪器直接连接特性从RGB和深度提取方法,没有充分利用这两个模式之间的相关性。在我们的方法中,RGB和深度之间的关联度形态可以学到RGB-Depth CNN有关。

对人类视觉系统、几何和空间结构信息中扮演一个重要的角色在跟踪对象。为了更明确地从几何和空间结构信息获取深度数据,我们将其编码为三个渠道:水平差距,高度,角度和重力,使用编码方法提出了(39]。然后,三个通道图像发送到depth-specific CNN来提取深深度特性。

光流计算出每一帧图像,然后喂养motion-specific CNN学习深度运动的特性,它可以捕捉高层信息的运动对象。pretrained光学流网络提供的(13作为我们motion-specific CNN, pretrained UCF101数据集,包括5个回旋的层。

迄今为止,我们已获得多通道深度特性来表示对象的丰富信息,包括RGB,水平差距,高度,角度与重力,和运动。接下来,我们试图探索如何把多通道使用有线新闻网。为了解决这个问题,我们进行大量的实验来评估性能使用不同的融合方案,每个实验融合多通道深度特性在不同的层。工作机制的启发,人类大脑中的视觉皮层显示功能应该高度融合,我们测试融合几个相对较高的层,如池5、fc 6和fc 7。我们发现多通道融合深度特性从fc 6和fc 7可以获得更好的性能。

代表特征的地图 模式和 表示空间位置, 在我们的论文中, 当我们从Conv3-3采用特征图谱和Conv5-3 RGB,深度,RGB-depth相关,和运动形态。融合功能图 的加权和为三水平四个形态特征图, 在重 可以计算如下:

3.2。C-COT追踪

多通道融合深度特性是发送到C-COT跟踪器,提出了在(26]。简要回顾C-COT跟踪器将提供以下的这一节中,我们将使用相同的符号(33),为方便起见,可以找到更详细的描述和证明(26]。

C-COT转移多通道融合特性映射到连续的空间域 通过定义插值算子 如下:

卷积算子的定义是

目标函数是

方程(5)可以最小化学习傅里叶域中的过滤器。以下可以通过应用Parseval公式(5)

所需的卷积输出 可以提供以下表达式:

4所示。实验结果

进行的实验是在两个具有挑战性的基准数据集:BTB数据集(17]36视频和肺结核数据集[7)与100个视频测试提出RGB-D追踪使用MATLAB R2016b平台与咖啡工具箱(40)与英特尔电脑(R) (TM)核心i7 - 4712 mq(电子邮件保护)(16 g内存)和泰坦GPU (12.00 GB内存)。

4.1。深的特性比较

深的影响运动功能评估数据集有关肺结核进行不同的实验。表1表明不同深度的比较结果特性融合使用成功率(SR)测量。从表1,我们发现SRs最低时只使用RGB feautures深处。SRs增加融合深度深度特性和RGB-depth相关特性,尤其是当发生阻塞。进一步,性能明显改善,当深运动特性,特别是快速运动时,运动类型是活跃的,和目标尺寸很小。

直观地显示深深度融合的贡献RGB-D跟踪特性和深刻的运动特性,在下面,我们展示部分有关肺结核BTB数据集,数据集上的实验结果,只有使用深RGB特性获得令人满意的性能。跟踪结果只有使用深RGB特性在黄色,蓝色深RGB和深度融合,将深度运动特性添加到RGB,深度是红色的。

在图2athlete_move视频的主要挑战是,目标对象快速从左向右移动。如图3杯是完全闭塞的书。zballpat_no1序列具有挑战性的是由于移动方向的变化(图4)。深运动特性可以提高跟踪性能,因为它们可以利用目标对象的运动模式。

4.2。定量评价

我们现在比较的结果提出了跟踪器有四个最先进的RGB-D追踪有关肺结核BTB数据集和数据集:主要跟踪器(7)(2013年),DS-KC 跟踪器(41)(2016),“绿带运动”跟踪器(34](2017),和崖径跟踪[17)(2018)。我们提供结果的成功率(SR)和area-under-curve (AUC)测量。

5老的比较结果显示不同的追踪器在PTB数据集。结果说明我们的整体SR追踪是87%,当物体快速SR是86%,老时84%的运动类型是活跃的。这些值高于其他追踪很明显,特别是当物体快速移动。

6表明BTB的AUC比较结果数据集。我们追踪的整体AUC是9.30,AUC是9.84时,相机是静止的,AUC是8.27相机移动时。

从数据5- - - - - -6,我们可以看到,我们的跟踪器获得最佳的性能,尤其是当对象是快速移动或摄像机移动。这些结果表明,深运动特性有助于提高跟踪性能。

5。结论

我们研究的问题现有的视觉物体跟踪算法,发现现有的追踪器不能受益于从深度图像提取的几何特性和帧间动态信息融合RGB,深度,和运动信息。我们建议MMDFF模型来解决这些问题。在这个模型中,RGB、深度和运动信息融合在多层通过CNN, RGB和深度之间的相关关系形态利用利用CNN RGB-Depth相关。实验结果表明,深深度特性和深度运动特性提供补充信息RGB数据和融合策略显著促进跟踪性能,尤其是当发生阻塞时,运动速度快,运动类型是活跃的,和目标尺寸很小。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了国家重点研发项目批准号2017 yfb1002803,主要的自然科学基金项目的江苏省高等教育机构在批准号18 kja520002,项目由江苏湖实验室环境遥感技术在批准号jslers - 2018 - 005,江苏省Six-Talent峰项目批准号下2016 xydxxjs - 012,江苏省自然科学基金批准号下在淮安BK20171267 533人才工程项目批准号HAA201738,项目由江苏海外访问学者计划大学杰出青年和中年教师和校长,和第五个问题333年江苏省高层次人才培养项目。