文摘
多对象跟踪在计算机视觉社区是一个具有挑战性的问题。在本文中,我们提出一个长期短期记忆上,进一步研究多目标跟踪算法在基于视频(LSTM)和深的强化学习。首先,检测到多个对象的对象探测器YOLO V2的意思。其次,求解问题的跟踪是一个马尔可夫决策过程(MDP)因为这个设置提供了一个正式的战略模型一个代理,使序列决策。求解跟踪器由一个网络,其中包括CNN LSTM单位紧随其后。每一个追踪者,视为一个代理,是训练利用强化学习。最后,我们进行数据关联使用LSTM之间的每一帧的结果对象探测器和求解结果的追踪器。从实验结果,我们可以看到,我们的跟踪实现更好的性能比其他先进的方法。可以持续跟踪多个目标,即使频繁的遮挡,相似的外表,和规模发生变化。
1。介绍
多重天体在视频跟踪在广泛的应用中扮演着重要的角色,例如,视频监控、机器人导航、智能交通系统、视频分析,等等(1,2]。尽管该领域早期工作以来取得了巨大进展,进一步研究多目标跟踪视觉仍被视为一个具有挑战性的问题是由于频繁的遮挡,外观对象之间的相似性,不同数量的对象,和内环境噪声测量3,4]。
1.1。相关工作
Tracking-by-detection方法(5- - - - - -7)出现作为一个最成功的策略由于目标检测方法的最新进展(8- - - - - -10]。最近的tracking-by-detection算法,进一步研究多目标跟踪瞄准分解为两个阶段:对象检测和数据关联。这些算法应用对象探测器在每一帧,并将不断检测器的结果。因此,进一步研究多目标跟踪方法可以识别这种新兴或消失的视频序列中的对象更容易,和对象的搜索空间假说可以大大降低。
Tracking-by-detection经常分类方法大致分为两类:离线方法和在线方法。离线方法经常使用的检测视频序列的帧在一起建立长期轨迹反对错误的检测和闭塞。一个拥挤或凌乱的场景通常导致一些检测失败,这将减少数据的准确性协会。进一步研究多目标跟踪算法来弥补这些问题,许多使用全局数据协会提出了[11- - - - - -14]。然而,离线方法的性能仍然是有限的,很难应用离线实时应用程序的方法。作为每一帧数据之间的关联检测和追踪器执行以在线的方式,我们可以应用在线实时应用程序的方法。Bae和尹15),进一步研究多目标跟踪方法,提出了一个新颖的在线视觉可以处理多个对象之间的相似性。
数据关联是tracking-by-detection方法的主要问题16]。经典的数据关联方法包括联合概率数据关联滤波(JPDAF)和multihypotheses跟踪(MHT) [17]。JPDAFs考虑所有可能的对象之间的联系做出最好的分配在每个时间步。MHT认为多个可能的关联在几个步骤,但通常它的应用程序可以有限的由于其复杂性。许多最近的提高上,进一步研究多目标跟踪算法集中对象探测器的性能或设计更好的数据协会计划(18- - - - - -20.]。
近年来,在建模顺序数据LSTM吸引了越来越多的关注。应用程序覆盖特征选择(21),机器翻译(22)、动作识别(23),视频字幕(24),和人类的轨迹预测(25]。LSTMs建模顺序数据的主要优点是,他们允许端到端微调并不仅限于固定长度的输入输出。灵感来自应用的成功作品LSTM在计算机视觉领域,我们采用基于LSTM数据关联方法。LSTM包括非线性转换和记忆细胞,使它有效的数据关联。
大多数代表对象,进一步研究多目标跟踪以前的方法使用原始像素和低级手工制作的特性,如面向梯度直方图(猪)26],Harr-like特性[27),和局部二值模式(LBP)28]。尽管他们达到计算效率,他们有很多的限制,因为手工制作的特性无法捕捉到更复杂的对象的特征。最近,深度学习与最先进的结果已获得了高度的关注对象检测等复杂的任务(29日),图像分类(30.,对象识别31日),和对象跟踪(32]。提出了一种深度学习追踪(DLT) (33),它使用一个堆叠去噪autoencoder学会从大量的通用功能辅助图像离线。然而,DLT追踪不能描述深时间不变性的特征,这是重要的视觉对象跟踪。在[34),使用一个两层的深度学习跟踪方法是卷积神经网络(CNN)学习层次从辅助视频序列特征;在视觉跟踪方法中,外观变化和复杂的运动转换考虑的对象。在[35),作者提出了视觉跟踪算法,其中包括一个特定的特征提取器的cnn离线训练集;既可以学习的时空特性cnn联合对图像对两个相邻帧。这些深度学习追踪者经常忽视如何搜索有趣的对象和选择最佳人选作为跟踪结果。
最近令人兴奋的深度学习成果,整合深度学习方法与RL最近非常有前途的结果显示决策问题,即深强化学习(DRL)。深层神经网络能够强化学习算法更有效地执行,因为他们可以提供深度特性表征。DRL算法取得了无与伦比的成功在许多具有挑战性的领域,例如,雅达利游戏(36),玩棋盘游戏(37]。在计算机视觉社区,也有许多尝试应用DRL解决传统的任务,诸如行动识别(38),对象定位(39)、对象跟踪(40),和地区建议(41]。云等人提出了一个端到端的活动对象跟踪算法通过强化学习,同时地址跟踪和相机控制(42]。在[43),作者现在action-decision网络视觉跟踪与强化学习。然而,这些基于深度强化学习的跟踪方法通常专注于一个对象;几乎没有,进一步研究多目标跟踪工作。与前面提到的方法,我们的方法利用如何应用深度强化,进一步研究多目标跟踪问题解决在线学习。
1.2。对成果的总结
我们的动机是设计一个实时多对象跟踪通过LSTM DRL实验室,它可以将外观DRL和学习更有效的协会战略LSTM提高跟踪的性能。本文的主要贡献可以概括如下:(我)我们提出一种新颖的视觉LSTM上,进一步研究多目标跟踪算法和深度强化学习来解决现有方法中存在的问题,这是模范自由并且不需要先验知识。我们所知,我们是第一个结合等概念来解决问题的过程中,进一步研究多目标跟踪的视觉。(2),进一步研究多目标跟踪提出的包括三个模块:一个对象检测模块、求解追踪器,和一个数据关联模块。我们采用YOLO V2意思作为对象探测器,因为它是一个实时检测系统。每个求解跟踪器作为一个代理,它是使用DRL训练。采用LSTM-based架构来解决联合数据关联问题。(3)比较与其他先进的方法,进一步研究多目标追踪我们的定性和定量,我们进行了广泛的公开挑战实验基准数据集。
我们的论文的其余部分的结构如下:部分2回顾了背景。部分3介绍,进一步研究多目标跟踪提出的框架。部分4展示了实验结果和分析。最后,我们得出结论5。
2。背景
2.1。长短期记忆(LSTM)
传统的递归神经网络(RNNs)包含循环连接,使他们一个强大的工具来学习复杂的时序动态,如图1。RNN的发生控制计算公式如下: 在哪里以聪明元素非线性函数,和代表输入向量和输出向量在时间步 ,和 是隐层向量在时间步隐藏的单位 。 , ,和从输入节点连接的权重矩阵隐藏节点,隐藏节点隐藏节点,隐藏节点到输出节点。
(一)RNN的架构
(b) RNN单位
虽然RNNs已经成功地用于序列建模的任务,他们只能模型数据在一个固定大小的窗口。同时,培训传统RNNs困难是由于爆炸和梯度消失的问题。这些问题长期动态限制RNNs学习的能力。提出了LSTM (44)来解决这些问题。LSTM单位使用本文中描述的(45),如图2。
在本节中,我们提供了一个内存单元的LSTM方程。让 是一个输入序列和 代表一个输出序列;一个LSTM网络计算迭代之间的映射 和 使用以下公式: 在哪里 是物流乙状结肠函数,是细胞输入激活向量,描述了输入门,代表忘记门口,输出门。上面的都是同样的大小隐藏的向量 。也就是说,除了一个隐藏的向量 ,LSTM包含一个输入通道 ,忘记门 ,输出门 ,和记忆细胞 。我们可以找到权重矩阵的意义;例如,代表了隐藏输入矩阵和门表示输入输出门矩阵。b我,bf,bo,bc是偏见条款添加到吗我,f,o,c。
2.2。深入强化学习(DRL)
强化学习(RL)通常可以被用来解决序贯决策问题。强化学习的过程如图3。最近,已取得显著进展,结合强化学习和学习特征表征能力的深入学习。深问网络(DQN)和政策梯度是DRL算法的两个受欢迎的方法。DQN是的一种形式 - - - - - -学习与使用神经网络函数逼近,这意味着它试图学习政府行动的价值功能鉴于DQN由神经网络通过最小化temporal-difference错误。以提高性能并保持稳定,各种网络架构是基于DQN算法如决斗DQN [46)和双DQN (47]。
策略梯度方法是一种直接强化学习方法优化参数化政策,利用梯度下降法(48]。策略梯度方法有很多优势相比传统强化学习方法。例如,他们需要更少的参数代表最优的政策比相应的价值函数和它们不遭受困难的问题引起的不确定状态信息。
3所示。提出了进一步研究多目标跟踪算法的视觉
在分段3.1- - - - - -3.3,我们将展示一种短暂的架构,进一步研究多目标跟踪算法首先提出的。我们的方法的细节在以下内容中描述。
3.1。体系结构,进一步研究多目标跟踪算法提出的
我们的方法包括三个主要组件:一个对象检测模块,许多求解追踪器,和数据关联模块,如图所示4。首先,作为显示在图4,我们选择YOLO V2(意思49)作为一个对象探测器,因为它是一个先进的,实时检测系统。YOLO V2意思是应用于每一帧和输出一组检测在时间步 。在每一帧,YOLO V2意思可能输出多种信号检测。获得正确的检测跟踪对象,该intersection-over-union(借据)之间的距离计算地面真理和第一帧的检测。借据的均值之间的距离的短期历史验证检测和当前检测也计算获得正确的检测其他框架。其次,求解跟踪器是由一个网络,其中包括CNN LSTM单位紧随其后。每一个追踪者,视为一个代理,是训练利用强化学习。最后,灵感来自[50),我们采用LSTM-based架构,可以学习解决训练数据的联合数据关联问题。
3.2。求解追踪通过强化学习
我们把物体跟踪的问题作为一个马尔可夫决策过程(MDP)因为这个设置提供了一个正式的战略模型代理一系列决策。在我们的配方,单帧图像被认为是环境中,代理转换一个边界框使用一组动作。MDP包括一组动作 ,一组状态 ,一个状态转换函数 ,和奖励的信号 。我们求解跟踪框架见图5。本节提出了这些组件的细节。
在我们的论文中,一系列的行动由六个动作,可以应用于边界框和一个动作终止搜索过程,如图6。每个操作由7-dimensional编码向量。这些行动被组织在三个子集:水平移动{右,左},垂直移动}{,,和规模变化{扩大,缩小}。
国家的定义是一个元组 ,在哪里是图像补丁(这是指由一个四维向量 )在对象的边界框是一个向量与采取行动的历史。历史向量存储过去10行动,这意味着有70维度,每个动作向量有7维度。在时间步t+ 1, 决定了 和状态转换函数 和 。
代理将获得奖励的信号在培训过程中从环境中。在我们的方法中,奖励给出最后的跟踪事件追踪对象时成功。更具体地说,奖励的信号 在迭代期间MDP时间步。当选择“停止”的行动终止阶段 ,奖励的信号借据的阈值函数如下: 在哪里 代表的重叠比率和地面真理的对象。
我们采用基于策略的强化学习方法,因为他们有更好的学习能力随机的政策和收敛特性。我们的整个网络是参数化的 ,基于策略的方法模型、政策功能 ,和值函数 ;培训这个网络的目的是最大化总体政策跟踪性能的梯度近似。在每个时间步 ,代理的目的是学习策略的功能 。近似的政策功能可以通过一个随机梯度算法提升。有非常有限数量的标签,进一步研究多目标跟踪数据,我们使用合成数据作为补充培训的真实数据。的参数和可以学会根据以下方程: 在哪里 是未来回报的总和时间的步骤, , 是学习速率,熵是一个规范,是调整因素。
我们深CNN VGG-16网络进行,其中包括五池阶段,也就是说,Conv1-2, Conv2-2, Conv3-3 Conv4-3, Conv5-3。逐渐降低空间分辨率时发生层的深度增加,因为所有有回旋的层 内核大小和一个跨步VGG-16 2的模型。例如,当输入图像与大小 ,池的输出特征图5大小 。在我们的模型中,我们使用从Conv3-3特征图谱,Conv4-3, Conv5-3,已经提升到同样大小使用双线性插值。
3.3。数据协会
让 代表所有输出的集合的求解时间步追踪器 , 是指的状态求解th的输出跟踪可同时跟踪对象的数量,在一个时间步。的状态四维向量所代表的对象 。我们定义 从对象检测器的检测的th检测和检测的数量。让 表示数据协会的相似矩阵,求解跟踪器的输出之间的关系和一个检测 ,在哪里 之间的欧几里得距离吗和 。数据协会根据LSTM对象如图6。
数据协会的任务是预测每个对象的分配使用LSTM的时间一步一步的功能。在每个步骤的输入是隐藏的状态 ,细胞状态 ,和相似矩阵 。输出是隐藏状态 ,细胞状态 ,和分配概率向量 。 是一个向量分配概率的对象和所有可用的测量,通过应用softmax层与预测值正常化。 (对象分配给th检测), 。让正确的分配;我们适应负对数似损失为代价函数来衡量misassignment成本:
数据协会需要更多的表示能力,所以它是一个更复杂的任务。隐藏的data-association-module-based LSTM包括两层和512单位。火车需要大约40小时追踪一个CPU上的所有模块。培训可以利用gpu加速显著。
4所示。实验
4.1。定性评价
在本节中,我们比较我们的视觉非常贴切的挑战上,进一步研究多目标跟踪与一些先进的方法基准(51)为了显示我们的算法的性能。合成数据集OVVV [52)和虚拟KITTI (53)作为补充培训的真实数据。在求解追踪,CNN的学习速率设置为0.0001,和完全连接层设置为0.001。DRL实验室网络的学习速率设置为0.0001,调整因素呢设置为0.01, , 。
768年的PETS09-S2L2序列由436帧576像素与沉重的人群密度和照明的变化。行人经过严重的阻塞和规模的变化序列。1920年的ADL-Rundle-3序列由625帧1080像素。它显示了一个拥挤的步行街捕获从一个静止的摄像机。频繁的遮挡,错过了检测,和光照变化发生在多个对象。TUD-Crossing序列从侧面显示了一个穿越公路。它由640年的201帧480像素,包括非线性运动,物体附近,和遮挡。1920年的AVG-Town中心包含450帧1080像素。它显示了一个繁忙的市中心街道的一个提升相机。序列包含了媒介的人群密度、频繁动态遮挡,和规模的变化。
我们比较方法(LSTM_DRL)与其他先进的追踪器包括RNN-LSTM [50],LP_SSVM [54],MDPSubCNN [55],SiameseCNN [56]。数据7,8,9,10证明我们的质量跟踪结果追踪PETS09-S2L2, ADL-Rundle-3, TUD-Crossing, AVG-Town中心。数据11,12,13,14显示其他的样品跟踪结果追踪PETS09-S2L2, ADL-Rundle-3, TUD-Crossing, AVG-Town中心。
(一)
(b)
(c)
(d)
(一)
(b)
(c)
(d)
(一)
(b)
(c)
(d)
(一)
(b)
(c)
(d)
(一)
(b)
(c)
(d)
(一)
(b)
(c)
(d)
(一)
(b)
(c)
(d)
(一)
(b)
(c)
(d)
从这些实验结果,我们可以看到,大部分时间追踪表现良好,尽管频繁的遮挡,对象之间的相似性,规模变化,光照的变化。尽管如此,仍有一些不可避免的跟踪失败的例子如图15。例如,环境的亮度会导致失败的对象检测帧数285 PETS09-S2L2数据集和一些失踪AVG-TownCentre数据集的检测在255帧数。
(一)PETS09-S2L2-LSTM-DRL帧数285
255 (b) AVG-TownCentre-LSTM-DRL帧数
为了说明每个组件的贡献,检测结果和求解跟踪器的跟踪结果图所示16。空间有限,我们只列出ADL-Rundle-3结果。
(a)的检测结果YOLO V2意思在30帧数
(b)的跟踪结果求解追踪30帧数
从结果中,我们可以看到,探测器的对象是错过了,虽然他是求解跟踪器跟踪DRL实验室。
4.2。定量评价
明确非常贴切的性能指标在本节中用于定量评价:多对象跟踪精度(粘土)、多对象跟踪精度(MOTP),假阳性(FP)和身份开关(IDSW)。莫塔评估的准确性由假阴性、假阳性,和身份开关。 在哪里 , , ,和假阴性、假阳性,身份转换,在框架和地面真理吗 。
MOTP平均所有真阳性和相应的地面真值之间的不同对象,计算交点在欧盟地区的边界框。这是计算 在哪里表示对象的边界框重叠其分配对象和地面真理帧匹配的数量 。
表1报告的定量比较结果追踪(LSTM_DRL) 11日与其他先进的追踪器序列数据集非常贴切的挑战。
从表的结果1,我们可以看到,该方法提供了MOTP值最高的和最低的FN PETS09-S2L2数据集值,提供了最高的莫塔值和最低的FN和IDSW ADL-Rundle-3数据集值,提供了最高的莫塔值和最低的FP和FN值TUD-Crossing数据集,并提供MOTP值最高的和最低的IDSW AVG-Town中心值的数据集。该方法获得更好的性能,主要是由于追踪的三个部分:YOLO V2意思是一个先进的对象探测器,数据关联策略基于LSTM可以找到全局最优分配,以及求解追踪者能够找到对象的位置通过强化学习。
我们实现我们的实验,进一步研究多目标跟踪算法提出了基于Windows 10操作系统和使用MATLAB R2016b作为软件平台。电脑的配置英特尔®™核心i7 - 4712 mq和GeForce GTX公司泰坦X GPU, 12.00 GB VRAM。
运行时间非常贴切的挑战上测试的结果数据集如表所示2相比,一些先进的追踪器。我们的方法是一种实时跟踪系统和比RNN-LSTM虽然速度慢,不把外表,我们的方法比其他性能的。
5。结论
上,进一步研究多目标跟踪算法提出了一种视觉LSTM和深度强化学习来克服现有算法的问题:他们有很多限制,因为手工制作的特性不能捕获对象的更复杂的特征,跟踪失败时对象的数量不同,等等。我们采用了对象探测器YOLO V2检测多个对象的意思。求解跟踪器由一个网络,其中包括CNN LSTM单位紧随其后。每一个追踪者,视为一个代理,是训练利用强化学习。我们之间的每一帧进行数据关联使用LSTM pretrained对象探测器和求解追踪器。从实验结果中,我们可以看到,进一步研究多目标跟踪提出的方法提高了算法的鲁棒性和准确性。
的利益冲突
作者宣称没有利益冲突。
作者的贡献
仲裁员江,曹国伟邓小平,Zhi-geng锅的构思和设计实验;Lan-fang Wang和兴太阳进行实验;江和仲裁员写道。
确认
这项工作得到了国家重点研发项目批准号2017 yfb1002803,中国国家自然科学基金批准号下61332017,江苏省六大人才高峰项目批准号下2016 xydxxjs - 012,江苏省自然科学基金批准号下在淮安BK20171267, 533人才工程项目批准号HAA201738,海外项目由江苏大学访问学者项目突出的年轻与中年教师和校长。这项工作也得到了自然科学研究的主要项目的支持中国江苏高等教育机构(18 kja520002),一个项目由江苏湖环境遥感技术实验室(jslers - 2018 - 005),和第五期333江苏省政府的高级人才培养项目(BRA2018333)。