文摘

行人reidentification最近已经成为一个热门话题,达到相当大的关注,因为它可以应用到许多潜在应用的监测系统。然而,高精度行人reidentification刺激研究问题由于视点的变化,颜色,光,和其他原因。这项工作解决了干扰,改善行人reidentification精度提出了两种新颖的算法,行人multilabel学习,研究混合学习指标。首先,与现有的模型,我们构建使用两个子网识别框架,即检测子网和特征提取部分子网,分别获得行人属性和低级功能评分。然后,混合学习指标,结合行人属性和低级特征提出了分数。低级特征和行人属性都是利用,从而提高识别速度。我们的仿真结果在两个数据集,即。,CUHK03 and VIPeR, reveal that the identification rate is improved compared to the existing pedestrian reidentification methods.

1。介绍

近年来,行人reidentification成为一个热点研究课题。它已经达到相当大的关注,因为它可以应用到许多潜在的应用在人机交互和监视任务。行人reidentification算法的目的是搜索和探测目标从一个大的图片。各种摄像头捕获检测目标图像,这些图像在图像或视频序列可以表示目标的人。行人reidentification算法必须在自动视频监控系统的发展。行人reidentification一个特别困难的话题是由于巨大的变化的观点,人类的姿势,光,和其他因素。这些影响因素都有可能使一个人的两个独立的图像看起来完全不同。相反,这些因素也会使一些人的照片看起来非常相似,为识别算法创造了巨大困难。之前的作品(1,2)主要目的是消除干扰的影响,建立一个可靠的行人reidentification算法与坚实的鲁棒性。

现有的行人reidentification算法主要有两种类型,即监督学习和无监督学习。对基于监督学习的方法3,4],提出的工作[1]深卷积神经网络(CNN)用于连续学习功能,和合成匹配指标用于reidentification个人意味深长地增加先进的模型的精度。作者在3]提出不加区别的强化精益战略和多实例multilabel学习方法短期内解决行人reidentification监视系统。至于行人reidentification基于无监督学习算法(5- - - - - -7作者在[]5)提出了一个进步的无监督学习(普尔)方法转移pretrained模型的深度表示看不见的域。在[6),转让的方法同时学到attribute-semantic和identity-discriminative特征空间转移到新领域reidentification任务没有新的标签数据。

第一个重大挑战在设计行人reidentification算法是弱者的能力有效地提取和匹配特性从不同的观点和选择的共同模式。然而,一个图像的特征不一定出现相同的目标图像由于姿势变化引起的观点差异(8,9]。因此,提取,从不同的图像域嵌入和评估功能开发高性能行人reidentification框架的关键。的另一个挑战是如何选择一个好的指标测量中各种特性的相似采样图像,这是最关键的CNN模型的训练过程的一部分。很好的度量可以增加CNN模型在训练的学习效率,从而提高识别性能。

这项工作提高了行人reidentification采用行人multilabel学习和研究混合学习指标。本文的贡献是双重的。首先,两个子网,即检测子网和特征提取部分子网,用于获取行人属性和低级特征的分数。混合学习指标,结合行人属性和低级特性提出了分数来提高性能。实验结果验证该框架的性能。

本文的其余部分是按照以下模式。部分2介绍了行人reidentification以前作品相关。部分3描述该multilabel与强化学习算法学习指标。部分4说明了实验装置和实验结果来验证提出的算法的性能。最后,部分5总结了纸。

本节描述文献从两种不同的观点:行人reidentification使用传统方法和行人识别使用机器学习的方法。

2.1。行人Reidentification

行人reidentification可以看作是识别行人的问题从不同的图像是由不同的摄像头捕捉到的。图1显示了一些示例图像CUHK03行人使用真实的摄像机捕捉到的(9数据集。行人reidentification一般包括两个部分:从输入图像中提取特征和比较提取的特征的指标获得排名列表。从这两个方面,前面的行人reidentification工作主要针对两个因素:开发新的学习指标(10,11和开发新的特性表征12]。这些计划是用来战斗的变化的观点,姿势,和颜色。

2.2。深上优于行人Reidentification

在深入学习算法的复兴,深层神经网络(7,13]在许多领域取得了很大的成功,尤其是计算机视觉任务。cnn可以提取底层特征在学习更抽象的信息,包括详细的纹理和几何图案。基于自建CNN模型,一些深学习方法(1,2,9)已经提出了实现行人reidentification任务并取得了可喜的性能改进相比传统手工制作的功能。

3所示。拟议中的行人Multilabel学习算法

本节介绍提出了行人multilabel学习算法,其中包括一部分检测子网。然后,输入的其他子网进行特征提取和评估两个给定图像的相似性。正如上面提到的,这两个子网接收输入配对图像和以类似的方式处理它们。以下部分描述相关的详细算法。

3.1。概述

行人reidentification问题可以以类似的方式来描述对象识别。传统的reidentification算法需要两个输入图像;每个图像通常涉及到行人的整个身体。识别算法输出给定的图像之间的相似性度量,它显示了这两个图像的概率描述相同或不同的人。

现有的框架(1,2,4,5)通常使用自底向上的图像信号和端到端reidentification学习。这些作品提高行人的性能和准确性reidentification主要通过两个方面。第一个方面是设计学习架构(1,2),从而提高reidentification模型的特征提取能力。第二个方面是开发高效的评价指标(4,5)和准确评估纠正和训练结果之间的距离,从而提高学习能力。

性能的一个关键问题,限制了传统行人reidentification,这些作品无法利用行人的小语义部分包含关键信息的属性,如头发颜色和性别。传统的行人reidentification算法主要强调自下而上的形象指标而忽视小的语义部分,从而失去物理行人属性。此外,一些有地方特色的这些属性。由于视点的变化和其他影响因素,利用这些信息的失败可能成为性能瓶颈。根据前面的语义部分检测工作(14),行人的多个属性可以用来描述和提高整体精度。

灵感来自multilabel CNN模型(15)和部分检测方法(14),我们设计一个行人multilabel学习框架解决细粒度的行人识别属性。图2拟议的框架显示行人reidentification借助multilabel学习。提出了行人multilabel学习的过程进行了如下:(1)首先,输入图像通过检测子网,一部分负责将预定义的身体部位。一个完全连接(FC)层将计算属性得分与分裂的分裂之后身体部分被夷为平地。(2)然后,同样的输入图像通过特征提取子网,隐藏在图像中提取低特性。低级特征相似性计算的FC层类似于属性在步骤1中的得分。(3)属性后最后,分数和低级特征相似性分数,画廊图片将根据这两个指标排名。

3.2。部分部门

据张et al。14),肢体动作和其他因素可能会导致普遍使用通用特性说明方法折磨失调。因此,打击和消除干扰,出现从相机视点的变化成为一个具有挑战性的任务的身体部分部门的任务。以前的工作(15)解决这个问题的办法是将给定的图像划分为15个重叠的区域。几个softmax分类器被用于计算各身体部位的回归,然后获得属性的分数。然而,这种方法有两个缺陷。首先,人体不同部分的位置在不同的图像。地区的手工部门可能不适应所有情况下,从而导致不准确的身体部位。其次,15个重叠的身体部位需要通过多个cnn,这需要大量的计算复杂度,使该方案效率低下。

我们使用另一个身体部分部门计划提高效率以及精度。类似于(14),我们采用探测器的身体部分,命名为图检测子网中的一部分2。部分检测子网集成了先进的语义模型,R-CNN [16),检测每个身体部分区域。检测人体的每一部分是困难的,因为图像的分辨率在现有数据集,如CUHK03 [9),很低。因此,我们让一部分检测子网只有找到这些部分与人类头发和衣服。假设有 部分检测,检测子网部分( )并行输出标签,组成的身体部位和一种性别标签,表示男性或女性。基于R-CNN的损失(16),检测子网部分训练和优化使用以下多任务的损失 : 在哪里 表示信心得分为每个退化边界框 ,这是一部分的输出检测子网。 是身体的真实类边界框部分,而 代表真实的损失类。除此之外, 表示的损失函数退化为每个身体部分边界框。 是真实的结果,而 代表了退化的真实类的边界框。

FC层图2作为分类器的特征向量的身体部分。的连接完全连接层(14),我们使用下面的矩阵向量乘法和非线性激活来计算不同身体部位的结合,实现细粒度的分类: 在哪里 代表的权重矩阵 th身体的部分。的特征向量 th身体的一部分存储在一个向量

3.3。学习标准

与传统的框架,只有比较低级特征提取,提取的属性得分和低级特征相似性得分从两个子网聚合来评估给定图像的相似性。行人reidentification算法将返回一个列表的排名画廊图像探测图像之间的距离和画廊图片。真实画廊图片排名越高,精度越高。

拟议的框架的总损失函数是由两个部分组成的。第一个是将softmax函数,计算所有行人属性的损失。第二部分是低级的成本特性相似。以下方程给出了总损失函数: 在哪里 表示的损失 th属性,而 是功能的总数。 表示参数定义的贡献 th属性。没有显式的声明,的价值 这意味着每个属性的作用相同。 表示给定探针图像和画廊的低级特征图像,分别。

度规 在方程(3)展开如下: 在哪里 总训练样本的数量,而 表示类的数量 th属性。除此之外, 表示成对训练图像样本, 表示 th样本 th属性标签。

拟议的行人reidentification multilabel学习算法仍然保留端到端学习范式以前作品(1,2,15]。因此,训练和推理阶段可以用高并行性,从而创建不影响整个系统的效率。并行方法将使模型运行平稳,加速模型的执行时间。

4所示。实验

在本节中,我们进行详细的实验研究提出了框架的性能。此外,结果比较与其他现有的行人reidentification方法证明我们提出的模型的性能优越。

4.1。数据集

我们利用CUHK03 (9)公开数据集来评估我们的工作和比较结果与其他先进的模型。毒蛇(17)和CUHK03 reidentification数据集是两个常用的人。毒蛇包含632行人图像,使用两个摄像头捕捉到与不同的观点。然而,缺点是毒蛇的图像分辨率相对较低,使其不适合身体的一部分。相比之下,CUHK03行人reidentification数据集大到足以克服深层神经网络的过度拟合。它提供了边界框正确检测到并手动标签。CUHK03由各种行人和被捕的13164张图片和一些监控摄像头,每个身份在哪里发现有两个独立的相机视图。这样设置的平均收益率4.8图像每组的观点。此外,数据集的边界框auto-obtained和手动标记行人边界框。在我们的工作中,我们目前的标签数据集的结果。为了确保良好的检测质量,我们选择CUHK03作为测试数据集。

4.2。实现设置

提出的算法和实现框架使用著名的深度学习库PyTorch [18]。大多数功能层采用从图书馆,这些部分与拟议的结构是靠自己实现的。CNN模型的训练和推理上执行多个NVIDIA泰坦X gpu加速的速度。softmax-based提出的实验是由优化目标函数。我们第一次火车CNN模型minibatch-based随机梯度下降法。光滑的minibatch大小设置为16梯度更新和收敛。我们应用l2正规化和辍学(引用辍学)早些时候与比率为0.5层,以避免过度拟合和加快收敛速度。最初,我们设置了学习速率为0.05,用减少因素,直到我们获得最好的结果。24000年的模型训练迭代,和学习速率两个子网是相同的(0.001)。我们用亚当优化器[19]调整学习速率,加快优化收敛。

4.3。评估协议

我们假设允许一个宽领域的广泛采用单发形态与最先进的模型。对于每个探测图像,我们匹配的矛盾画廊将获得真正的比赛的排名。排名,k识别率描述的匹配等级k。与此同时,我们记录累积值的识别率排名由于累积的特定轨迹匹配特征(CMC)的结果。我们评估性能设置十倍和报道的平均CMC的结果。

4.4。模型训练

在本节中,我们将讨论数据增加,辍学技术和培训策略。

4.1.1。数据增加

尽管所选数据集规模大,积极的配对数据并不反对对。此外,数据集规模相对较小而深层网络模型。因此,数据不平衡,可能会出现过度拟合。使用多个数据扩充策略来弥补不足引起性能下降图像,克服这个限制。仿射变换应用于缓解过度拟合的效果。我们还增加数据集进行随机的翻译。我们样品等量的积极的和消极的对完成数据平衡尽管创建正负固定比例。

10/24/11。辍学

reidentification场景的人,由于相当大的偏差,cross-view变化,遮挡,和姿势变化,预计特定补丁相同的人(尽管在各种视图)可能相互矛盾。我们应用了辍学20.)方法诱导训练模型足够misdetection相似。我们随机选择一些输出的第一个卷积层(提取的特征与滤波器对),他们是零在每个训练迭代和每一个训练样本作为输入。我们计算梯度反向传播的随机的滤波器响应达到一个稳定的培训模式。

4.4.3。培训策略

它是耗时且乏味的训练快速从头R-CNN模型在大规模数据集。我们使用快速pretrained R-CNN模型来避免复杂的模型调优,加快培训过程。pretrained模型大大减少了训练时间,提高识别精度。在实验中,MobileNetV2 [21)选择特征提取子网。MobileNetV2模型使用多个优化方案,实现良好的复杂性和性能之间的权衡。pretraining效应的影响也是演示实验。

4.5。实验结果

我们比较的结果,我们的模型与两人reidentification方法(KISSME [11]和SDALF [22]),两个度量学习方法(物流距离度量学习(LDM) [23)和度量学习排名(rank) (24]),和基于过滤器的方法FPNN [9]。排行第三的排名是一种优化的方法问题,而人reidentification是一个排名的问题。LDM是专为个人和面部识别场景。

CUHK03基准数据集,我们进行了一系列的实验提出了行人和其他先进的模型边界框。图3情节比较CMC CUHK03数据集上各种方法的性能。结果表明,该算法明显优于KISSME [11)模型与辨识率大幅提高10%到18%。至于其他深层神经网络方法,FPNN [9),我们的方法产生一个识别速率提高4%至8%。观察到的性能主要来自行人属性信息的利用率。

初始化以来仪器性能和收敛性的深度学习模型(25- - - - - -27),我们建议初始化与pretrained权重模型。图4礼物CUHK03数据集上的性能比较有或没有一个pretrained子网。从图中,我们可以看到,pretrained模型的算法实现高鉴别率以2%对8%的所有等级值。的获得来自于微调R-CNN模型,帮助培训从一个很好的观点。此外,根据我们的实验,训练过程与pretrained模型收敛速度比,没有pretrained模型,显著降低模型训练的时间成本。

实验结果图5证明用人辍学提出模型的有效性。下面图描述了1级识别利率各套培训minibatches辍学率的验证与范围(0%到20%)。我们的模型的辨识率降低训练minibatches数量的增加没有辍学。这种行为表明过度拟合的问题。收敛速度提高,识别速度高辍学时设置为5%,使其有足够的补丁的misdetection信件和结果在一个良好的泛化能力。然而,它并不辍学时达到一个合理的识别速度设置为较高的值(在本例中20%)。

5。结论

在本文中,我们提出一个新颖的行人reidentification框架基于CNN multilabel学习模型。除此之外,我们也提出一个混合算法借助行人属性和低级特性。低级特征和行人属性是用于提高性能。CUHK03的流行数据集上的实验结果显示,提高了识别速度比现有的算法。

数据可用性

没有数据被用来支持本研究。

的利益冲突

作者声明他们没有利益冲突。

确认

这项工作是由重庆基础科学和研究项目(CSTC2015JCYJBX0133)和国家自然科学基金委(51375519)。