基于支持向量机的人再识别的深度学习

摘要

由于观点，姿势和照明的变化，给定的个体可能在不同的相机视图上显着不同。跟踪在没有重叠领域的相机网络上的个人仍然是一个具有挑战性的问题。以前的作品主要专注于特征表示和单独的度量学习，往往具有次优的解决方案。为了解决这个问题，在这项工作中，我们提出了一种新颖的框架来共同执行特征表示学习和度量学习。与以前的作品不同，我们代表了作为新的调整大小输入的行人图像对，并使用线性支持向量机来替换SoftMax激活功能以进行相似性学习。特别地，该模型中还采用了辍学和数据增强技术，以防止网络过度拟合。两个公开可用的数据集Viper和CuHK01的广泛实验证明了我们所提出的方法的有效性。

1.介绍

随着电脑版本的进步[1- - - - - -4，机器学习[5- - - - - -8]和深神经网络[9，10.]，我们进入一个时代，可以建立一个真实的世界识别系统。人员重新确定（RE-ID）问题旨在在大型公共场所的分布式多摩拉监视系统中识别相机的个人跨越相机[11.］.给定从一个摄像头捕捉到的探测图像，一个人再识别监视系统试图从从另一个摄像头拍摄的候选图像库中识别出这个人。同一个人在横视摄像机中可以被不同的观察到(见图)1）。因此，很难找到一种可靠且不同的功能，并且直接适应跨视图条件的变化和未对准。由于这些挑战问题，人员的研究仍然主要关注人们的外表特征，具有可接受的假设，即人们在整个监测期间不会改变服装。

（a）CUHK01

（b）毒蛇

现有的研究方法主要集中在两个方面。第一个方面是提取具有鲁棒性和鉴别性的特征描述子来识别人。研究表明，颜色信息、纹理描述符和兴趣点是人再识别的三个重要线索;这些特性中的一些是从数据集中学习到的，另一些则是手工设计的。低层次特征，例如生物激发特征(BIF) [12.，颜色直方图和变异[13.- - - - - -17.，局部二进制模式(LBP) [13.，14.，17.，18.]，Gabor功能[14.]和兴趣点（颜色筛选[19.，20.冲浪[21.)来表示非重叠摄像机下不同人的外观特征。其他一些作品也研究了多种视觉特征的组合，包括[13.，14.，16.］.第二个方面是发展度量学习方法来学习鉴别模型。度量学习的想法是设计分类器，使来自同一个人的特征比来自不同个人的特征更接近。常用的度量学习方法，如大边距最近邻(LMNN) [16.]，物流判别度量学习（LDML）[22.]，吻我 [18.]和边缘Fisher分析（MFA）[16.]在解决具有挑战性的问题方面表现良好。这些方法通常提取手工制作功能，随后学习指标。但是，这些方法单独或顺序优化特征提取和度量学习，这可以轻松导致次优溶液。

近年来，随着卷积神经网络(CNN)在目标识别、跟踪等任务中的广泛应用[23.]，分类 [24.]，以及人脸识别[25.]，已被证明具有较强的自动学习能力。但是，美国有线电视新闻网(CNN)在重新确认身份方面进展甚微。本文的灵感来自于[中的人物再识别和面部表情识别的出色表现。26.，27.，我们引入一种深度学习架构，利用联合表示学习和CNN的线性支持向量机顶层来度量比较图像对的相似度。我们随机选择两个行人图像和水平加入他们作为一个新的调整大小的输入图像。联合表示学习方法，指[26.[缩短了暹罗网络中使用的网络的复杂性而不是两个输入分支。我们用L2-SVM替换标准软邮件层，以测量不同摄像机的行人的距离，并估计两个行人的输入是否相同。与VostMax功能相比，用于预测类标签，我们使用线性SVM来测量与决策边界的距离更适合于作为排名比较问题所解决的人员的距离。由于L1-SVM不分辨率，因此在功能优化期间引入L2-SVM，在数值计算中具有更稳定的方式。模型中还用于预制和辍学技术，以防止过度拟合问题并提高人员的性能。本文的主要贡献是双重的：（一世）我们介绍了一个深入学习网络组合联合表示学习，线性SVM增加了CNN网络的鉴别力。（ii）在两个基准数据集上进行了大量的实验，验证了我们的体系结构的有效性，并取得了最好的结果。

现有人的典型工作流程的Reidentification系统如图所示2．它表明，大多数都集中在两个主要组件上：特征表示和度量学习。特征表示的目的是在不同的相机视图中开发同一行人的鉴别和强大的外观。

全局功能分为两类：基于颜色和基于纹理的功能。HSV [28.]和实验室[29.颜色直方图是正常的基于颜色的特征。LBP直方图(30.]和Gabor过滤器[14.用来描述图像的纹理。近年来，在这些传统的颜色和纹理特征的基础上，提出了一些更清晰、更可靠的行人特征表示。Bazzani等人[31.]提出通过局部末端分析使用全局平均颜色直方图和经常性局部模式，以代表一个称为直方图加缩影（HPE）的人。Farenzena等。[28.[提出将两种分离的人体的加权HSV直方图与显着的纹理和稳定的颜色区域相结合，作为着名的对称驱动方法（SDALF）方法。杨等人。[32.]开发了基于颜色命名的语义显著颜色名称的颜色描述符(SCNCD)。局部最大发生(LOMO)特征[33.尺寸不变的局部三元图案（SILTP）直方图用于分析局部特征的水平发生，并最大化旨在描述像素特征的平均信息。然而，手工特征难以实现由照明，闭塞，背景杂波和视图方向变化引起的互感变化的识别力和稳健性之间的平衡。

除了特征表示外，度量学习也被广泛应用于人的再识别。度量学习是为了从具有很强的类间差异和类内相似性的训练图像特征中学习最优相似度。Xiong等[34.]在数据空间采样不足时，提出正则化PCCA (rPCCA)、核LFDA (kLFDA)和边际Fisher分析(MFA)。Chopra等人提出了一种从数据中学习相似性度量的算法[35.］.郑等人。[36.]引入了概率相对距离比较(PRDC)模型，该模型的目的是最大限度地提高一对正确配对的距离比一对错误配对的距离小的概率，并优化相对距离比较。普罗瑟等[37.]重新的人重新识别的问题作为一个排名的问题，并提出了合奏RankSVM模型学习其中潜在的真实比赛中给出排名最高的，而不是任何直接的距离测量的子空间。

最近，深度学习已成为最先进的识别算法之一，特别是CNN在计算机视觉任务中表现出很大的潜力。李等人。[38.]提出一个新的过滤器配对神经网络（FPNN），共同优化特征学习，错位，闭塞，分类，光度变换和几何变换，以学习编码光度变换的滤波器对。不同于FPNN学习两个图像的联合表示，yi等人。[39.]所提出的深度度量学习（DML）模型灵感来自暹罗神经网络，将单独的模块组合在一起，学习统一框架中的颜色特征，纹理功能和度量。Matsukawa和Suzuki [40在步行属性数据集上进行了微调的CNN特征，以弥合想象成分类和人员的差距，并提出了用于分类组合属性的损失功能，以提高CNN特征的判别力量。ahmed等人。[41.[展示了具有交叉输入邻域差异层的深度卷积架构和随后的层，其基于来自每个输入图像的中级特征在两个输入图像之间捕获本地关系，并总结了这些差异。

3.算法

在人的再识别任务中，通常需要测量图库集和探针集之间的相似性。CNN在分类问题上比在比较问题上更有优势。直接使用CNN真人再识别不合适，难以发挥其威力。在本节中，我们将详细描述CNN的架构。下面的小节将详细介绍我们在网络训练中使用的层次和策略。

3.1。联合代表学习

人员重新登记的标准流水线包括从图像中的输入图像和度量学习的特征提取，用于跨图像的这些功能。如上所述，单独或顺序地优化特征表示和度量学习，可以易于导致次优解决方案。与这种普通的学习度量框架不同，我们开发了在我们网络中的输入图像上使用联合表示学习，这类似于Chen等人提出的深度CNN。[26.］.

通过人类评估的动态，它用于评估两个图像，无论它们是否属于同一个人，通过比较其所描绘的外观。例如，图片A，B和C是三个相似但不同的行人图像。将图片C设置为探针图像，A和C之间的鉴别区域是在C中出现的手提包，与B相比，行人戴着衣服，而B磨损裤子。当我们单独比较不同的行人图像时，在独立提取外观功能时，将忽略或隐藏某些值信息。在我们所提出的模型中，共同表示两个输入行人图像并产生判别信息将分别用两个分支输入图像。

３．２．体系结构

我们的深度学习网络(见图3.）由五个卷积层（C1，C2，C3，C4和C5）组成，以提取特征，三个数据采样层（S1，S2和S5）和两个完全连接的层（F6，F7）。一个分支用作网络的输入而不是[中的两个分支27.］.与[26.]，是我们网络的顶层(l8）是线性SVM而不是对不同行人判别的排名层，并且我们还优化了线性SVM中的渐变背交学问题。随机给出了两个行人图像我和J从具有三种颜色通道（RGB）的两个跨视图相机观察，并尺寸（ )，然后水平地把它们连接起来。由于行人图像不是方形的，而且它们都很小，所以两个图像都被调整为在实验中，新的联合图像为大小的平方 ;然后一个随机裁剪作为整个网络的输入呈现，以获取我们专注于的图像中心区域。通过该方法处理，图像的方面几乎保持不变，并且它避免了暹罗网络中包含的大量参数。处理的图像表示为，．

第一个卷积层（C1）与96个不同的过滤器卷积（见表1)的大小每个水平和垂直方向的步幅为4。然后是96个各种各样的特征贴图通过Relu层和分支层（S1），其大小将地图缩减成大小。在每个Relu层之前使用批处理归一化(BN)层，这使得网络使用更高的学习速率，较少关注权值和偏差的初始化。特征图对光照和变化的适应性更强。如果我们使用过滤器和每个过滤器的大小米×米×C，输出包括高度渠道和宽度．卷积操作表示为功能：在哪里和代表这一点输出通道层层和TH输入通道th层;表示之间的卷积核th和特征图。功能是网络的Relu神经元激活功能，表示为．max-pooling操作的表达式为在哪里表示具有索引的池池区域．


姓名	输出的	过滤尺寸	步行

C1	55×55×96	11×11	4
S1	27 × 27 × 96	3×3	2
C2	27×27×256	5×5	1
S2	13 × 13 × 256	3×3	2
C3	13×13×384	3×3	1
C4	13×13×384	3×3	1
C5	13 × 13 × 256	3×3	1
S5	6×6×256	3×3	2

F6	- - - - - -	4096.	- - - - - -
F7	- - - - - -	4096.	- - - - - -
经历了18个	2	- - - - - -	- - - - - -

第二卷积层(C2)以S1的输出作为输入，带有大小滤波器并给出256种不同特征图。第三和第四卷积层(C3和C4)都带有大小过滤器 384种不同的特征图。在C3和C4中具有相同尺寸的过滤器，第五卷积层（C5）提供256个不同特征图。两个子采样层(S2和S5)重复与S1相同的池化选项。第六层和第七层全连接层(F6和F7)连接来自S5层的神经元，减少到4096节点并形成紧凑且鲁棒的功能。完全连接的层表示为而不是多种分类中使用的传统软墨幅层，我们使用L2-SVM目标来学习整个网络的顶层（L8）中的较低级别参数，以找到True匹配的最大余量和假匹配过度训练样本对。

３．３．线性SVM与Softmax

3.3.1。softmax.

SoftMax通常用于网络顶部的深度学习技术。在多字符分类中对案例的逻辑回归概括。类别标签制定为，在哪里K是课程的数量。让做倒数第二层的激活，让成为倒数第二层和软墨时层之间的重量。softmax的输入表示为概率定义为这是预测的类标签将是

3.3.2。线性支持向量

通常使用Softmax作为激活函数，该函数侧重于分类，不太适合用于人再识别的类排名比较问题。因此在本文中，我们提出使用L2-SVM的目标训练CNN来代替softmax层。在线性支持向量机(SVM)中，相应的数据和标签表示为，线性SVM被定义为以下约束优化：等式（7)称为典型的L1-SVM，可微表示称为L2-SVM，具体如下: L2-SVM在优化期间可分辨，并且对违反边缘的点施加更大的损失。等式（9)显示探测集的预测类标签我们在我们的深网络中使用L2-SVM作为客观函数，并从线性SVM层反击梯度以学习网络参数。因此，重量的部分衍生物w是制定倒数第二激活h被给出这样就得到了一个基于L2-SVM联合表示的神经网络，下面将在两个公共数据集上展示它的性能。

3．4．CNN使用的训练策略

退出．在训练过程中，从神经网络中随机丢弃单元及其连接，是一种有效防止过拟合的方法，可以有效地将指数不同的网络结构进行近似组合。dropout技术通常在有监督的训练中进行，网络很可能被迫学习一个平均模型。在本文中，我们在两个完全连接层(F6, F7)中使用dropout，并随机剔除这两个层50%的神经元。

数据增强和数据平衡．数据增强是深度学习中广泛使用的技巧。由于神经网络需要在大量的训练图像上培训以实现满意的性能，因此人员避寒的公共数据集通常包含有限的图像。在训练集中，正对（匹配样品对）通常少于负对（非匹配样本对）。因此，在实验中，在培训深网络时，更好地提高数据增强。在培训集中，我们将输入图像随机裁剪到补丁和水平翻转他们周围设在。这些扩充的数据将作为我们网络的新输入。为了实现数据平衡，我们在训练过程的一开始就在线采样32张图像的每个小批量大小中正负比为1:1的正负比相同数量的正负比对。当整个网络经过初始训练后达到合理的良好配置时，正负比将逐渐达到1:5，以缓解过拟合。

随机梯度下降．我们的模型使用小批量随机梯度下降(SGD)训练，以更快的反向传播和更平滑的收敛。在训练阶段的每次迭代中，一个minibatch的32张图像作为网络的输入。我们使用SGD的动量为0.9，学习率为，重量衰减为0.0005。注意，每10000次迭代，学习率将降低．

Pretraining和微调．本文提出的网络是一个很好的深度网络，因此需要大量标记的图像来训练整个网络。在验证VIPER和CUHK01数据集之前，我们使用CUHK02数据集来学习备用模型。当我们在不同的数据集赛上测试时，我们可以使用小的学习率微调一些顶层预用模型。

4.实验

我们所提出的网络由Theano深度学习框架实施。网络培训在NVIDIA Titan X.我们评估了与最先进的方法相比进行的几个着名人员脱夹数据集的提出方法。结果以累积匹配特性（CMC）曲线示出。累积匹配分数也在表格中显示2- - - - - -9．


方法	毒蛇
方法	前1	前5名	前10名	前20名

elf6.	8.73	18.76	23.75	31.75.
gBiCov	9.87	27.64	36.75	48.96.
hsv_lab_lbp.	12.47	26.95	33.37	44.16
我们	34.15	67.86	80.95	90.63


方法	CUHK01
方法	前1	前5名	前10名	前20名

elf18	5.37	13.45	17.28	23.45
gBiCov	7.25	13.75	18.64	24.26
lomo.	10.80	23.20.	27.35	36.12
我们	50.01	64.75	73.85.	84.96


方法	毒蛇
方法	前1	前5名	前10名	前20名

lmnn.	6.23	19.65	32.63	52.25
ITML	12.4	27.5	39.7	55.2
欧几里得	14.46	28.75	39.14	50.10
RDC.	15.7	32.5	53.9	70.1
吻我	25.78	56.24	70.14	82.92
我们	34.15	67.86	80.95	90.63


方法	CUHK01
方法	前1	前5名	前10名	前20名

欧几里得	10.52	28.07	39.94	55.07
lmnn.	13.45	31.33	42.52	54.11
ITML	16.0	28.5	45.3	60.1.
吻我	29.40	57.67	72.43	86.07
我们	50.01	64.75	73.85.	84.96


方法	毒蛇
方法	前1	前5名	前10名	前20名

L2-NOM	10.89	22.37	32.34	45.19
L1-NOM	12.15	26.01	32.09	34.72
APRDC.	16.14	37.72	50.98	65.95.
ranksvm.	14.00	37.00	51.00	67.00
SSCDL	25.60	54.15	68.10	83.60
eSCD	26.31	46.61	58.86	72.77
PCCA	19.62	51.55	68.23	82.92
rPCCA	21.96.	54.78	70.95	85.29
svmml.	30.07	63.17	77.44	88.08
MFA	32.24	65.99.	79.66	90.64
KLFDA	32.33	65.78	79.72	90.95
我们	34.15	67.86	80.95	90.63


方法	CUHK01
方法	前1	前5名	前10名	前20名

L2-NOM	5.6	16.0	22.9	30.6
SDALF	9.90	22.57	30.33	41.03
L1-NOM	10．8	15.5	37.6	35.6
svmml.	30.23	55.58	67.49	78.92
KLFDA	32.76	59.01	69.63	79.18
MFA	38.09	56.34	64.59	72.62
我们	50.01	64.75	73.85.	84.96


方法	毒蛇
方法	前1	前5名	前10名	前20名

Deep_cnn.	12.5	21.2	26.3	39.7
ImageNet + XQDA	19.7	44.5	58.1	72.9
DML	28.23	59.27	73.45	86.39
我们	34.15	67.86	80.95	90.63


方法	CUHK01
方法	前1	前5名	前10名	前20名

FPNN	27.87	58.20.	73.46	86.31
ImageNet + XQDA	28.5	52.3	63.6	74.9
ffn + xqda.	32.4	55.9	66.5	76.6
我们	50.01	64.75	73.85.	84.96

4．1.数据集和评估协议

数据集．我们在两个公共数据集上评估了我们的方法:VIPeR数据集和CUHK01数据集。深度学习模型在CUHK02数据集上进行预训练。VIPeR数据集是一个相对较小且非常具有挑战性的个人重新识别数据集。它有632对行人，由两个摄像头在室外环境中捕捉到。每一对包含同一个人从不同角度看到的两幅图像，包括Cam A和Cam B。Cam A中的图像角度主要为0 - 90度，Cam B中的图像角度主要为90 - 180度。所有图像归一化为．

CUHK01的数据集比VIPeR的数据集更大，VIPeR包含972人，从校园环境的两个交叉视图中截取3884幅图像。摄像头视图A和摄像头视图B包括同一个人的两张图像，视图A捕获个人的正面或背面视图，而视图B捕获侧面视图。所有图像缩放到像素。CUHK02数据集包含五对视图（P1-P2）。P2-P2的图像用于学习佩带的模型。

评估议定书．在不同数据集的每个实验中，我们将每个数据集随机划分为库集和探针集。画廊集由两种图像对组成：正对和负对对。正对由来自不同相机视图的相同人员创建，负对对由两个独立的人创建。具体而言，对于Viper数据集，我们将拆分为316/316的图库中的个人数量设置为316/316。对于CUHK01数据集，我们使用485个行人进行培训和486进行测试。我们将我们的方法与VIPer和CUHK01数据集的某些最先进的方法进行比较。整个过程重复十次，累积匹配特性（CMC）曲线的平均值用于评估不同方法的性能。

4.2。与特征表示的比较

4.2.1。准备VIPeR数据集实验

在这个实验中，我们使用Cuhk02数据集预先磨削网络模型，并随机将632对图像分为一半，以进行培训和一半进行测试。我们将拟议的方法与以下三个可用和典型的人的重新入住功能进行比较：本地特征（ELF）的集合[42.], gBiCov [12.]，以及在[18.］.在实验中，我们使用ELF6在[42.］.

我们将我们提出的方法与这三种不同的特征进行比较，CMC曲线的结果和最高匹配率如图所示4（a）和表2．从图中4（a），可以看出，我们的方法得到了最好的结果。与三种基线方法相比，我们的方法在排名1时的性能增益超过20%。这种趋势随着排名的增加而增加。如表所示2，我们提出的方法达到了34.15％的Rank-1匹配率，优于8.73％，GBICOV，9.87％，HSV_LAB_LBP具有12.47％。在我们的方法中，通过使用手工特征，在输入图像上直接执行特征学习，避免在特征提取期间缺少关键信息。它确认利用深度卷积神经网络进行学习特征表示和相似性测量是解决人员重新凝聚任务的有效解决方案。

(一)

(b)

（C）

（d）

4.2.2。CUHK01数据集的实验

与VIPER数据集上使用的CUHK02数据集的预磨策略相同，我们选择以下方法作为基准：ELF18 [42.], gBiCov [12.和局部最大发生(LOMO)表示[33.］.ELF18特征与ELF6相同，ELF6是从18个等分水平条纹直方图而不是6个直方图计算出来的。

对比结果如图所示5(一个)和表3.．实验结果表明，该方法在各等级上均优于三种特征表示方法，优于40%以上，再次验证了该方法的有效性。值得注意的是，我们的方法达到了50.01%的秩1匹配率，超过了gBiCov的7.25%的秩1匹配率，比VIPeR更显著的可观的优势。其在CUHK01上性能优越的主要原因是，尽管我们使用了数据增强策略，但VIPeR数据集中的正对较少。它仍然缺乏训练数据来训练一个健壮的网络。与VIPeR相比，CUHK01规模更大，有更多的训练数据可以馈入深度网络，学习数据驱动的优化框架。

(一)

(b)

（C）

（d）

4.3。与度量学习算法的比较

4.3.1。VIPeR数据集实验

我们评估了所提出的算法和几个度量学习算法，包括ITML [43.]，欧几里德[38.]，lmnn [16.]，吻我 [18.]，以及RDC [44.］.累积匹配特性(CMC)曲线的结果如图所示4（b）．可以看出，我们提出的方法优于比较的度量学习算法。为了更清晰地展示量化的比较结果，我们在表中总结了几个顶级的性能比较4．请注意，我们的方法实现了34.15%的排名第一匹配率，超过了KISSME在所有排名中近10%的表现。其性能优越的主要原因是我们提出的框架能够联合表示学习和支持向量机，而不需要两步单独优化。

4.3.2。CUHK01数据集的实验

我们将所提出的方法与已在VIPER数据集上验证的相同方法进行比较。数字5 (b)绘制CMC曲线和表5显示CUHK01上所有方法的排名结果。可以看出，我们的方法优于最先进的方法，秩1识别率为50.01％（通过下一个最佳方法的29.40％）。请注意，此数据集上的第二个最佳方法是Kissme。我们的方法在1,5和10中执行最佳，而Kissme在Rank-20和Rank-25中更好。尽管Kissme在Rank-20和Rank-25上进行了更好的性能，但我们提出的方法仍然很好。

4.4。与其他最先进的算法的比较

4.4.1。VIPeR数据集实验

我们使用以下方法进行比较算法的性能：KLFDA [34.], PCCA [45.], rPCCA [34.]，svmml [46.]，MFA [16.]，SSCDL [47.]，ESCD [29.], RankSVM [37.]，APRDC [48.], L1-norm [49.]和l2-rom。数字4（c）和表6显示CMC曲线和匹配速率与最先进的方法进行比较。很明显，我们的方法在这些算法中提供了最佳结果，该算法达到了34.15％的秩1匹配率，优于32.33％的KLFDA的结果。Viper数据集上的其他更好的执行方法是MFA，其达到了32.24％的秩1匹配率。我们的方法在1,5和10中执行最佳级别，而KLFDA和MFA在第15,20和25级执行较好。实验结果表明，即使我们的模型遭受严重缺乏培训数据，它仍然实现了州-of-最具挑战性Viper数据集的最新性能。

4.4.2。CUHK01数据集的实验

我们将我们的方法与Cuhk01数据集上的几种最先进的方法进行比较，例如klfda [34.]，svmml [46.]，MFA [16.]，sdalf [29.], L1-norm [49.]和l2-rom。如图所示5 (c)和表7，我们的方法在CUHK01数据集而不是VIPER上的所有排名中，我们的方法比KLFDA和MFA更加显着。它表明大型列车数据集将提高CNN网络的学习能力。

在VIPeR和CUHK01数据集上的实验结果表明，我们提出的CNN方法优于这些特征表示和度量学习算法，特别是在提供足够的训练数据时。在我们提出的方法中，特征学习是直接对输入图像进行的。该框架中设计的低层联合输入分支将输入图像逐渐转换为具有更精细特征的高层表示，而不会显著降低特征。线性支持向量机分类器层可以有效地度量人的外表之间表示的相似度。

4.5。与基于cnn的算法比较

在本节中，我们将我们的方法与五种基于深度学习的人再识别算法进行比较:FPNN [38.]，Imagenet + XQDA [40]，ffn + xqda [40]，deep_cnn [50.]和DML [39.］.ImageNet + XQDA算法是Imagenet功能和XQDA度量学习的组合。我们将我们的方法与其进行比较，在VIPER和CUHK01数据集中。FPNN和FFN + XQDA网络模型在大型CUHK数据集上培训，因为其他现有数据集太小而无法培训深网络。因此，我们将我们的方法与在CUHK01上的这两个网络和VIPer数据集上的DML进行比较。值得注意的是，在不同的环境中进行FPNN的CUHK01的列车设置，选择871个行人进行训练和100进行测试。数字4（d）和5 (d)和表8和9结果表明，在所有基于cnn的方法中，我们的方法仍然是性能最好的。在VIPeR和CUHK01数据集上，本方法的rank-1匹配率都比ImageNet + XQDA高出10%以上，远远超过FPNN和Deep_CNN的27.87%和12.5%。

4.6。联合表示学习的优越性

许多以前的人员对人的深度学习的工作共享共同的输入框架，它们分别从两个图像中提取特征。如上所述，联合表示学习更容易避免在独立提取时忽略和隐藏的功能。为了验证我们提出的框架的有效性，我们对毒蛇的数据集和CUHK01数据集的两个分支进行比较。图中的CMC曲线6表明，联合表示学习方法始终如一地超越具有两个分支的方法，从而证明了根据联合代表学习的方法的良好表现。

4.7。线性SVM层的优越性

在本文中，我们介绍了线性SVM来取代传统的Softmax激活功能以测量比较对的相似性。我们还执行实验来评估线性SVM层的贡献。我们采用Softmax层来更换最后一个线性SVM层，其他层保持不变。以这种方式，深网络用于评估两个输入图像是否属于同一个人。实验在CuHK01数据集上进行。结果在图中7结果表明，线性支持向量机层比softmax层更适合于人员再识别问题。

5.结论

在本文中，我们介绍了一种基于人员重新入住的联合表示的有效线性支持向量机网络。所提出的模型引入了L2-SVM来取代传统的Softmax层来处理等级的比较问题。而不是使用暹罗网络来训练一对输入图像，我们使用联合表示学习策略来避免使用两个入口设计新的网络架构。对两个具有挑战性的人的重大实验进行了广泛的实验（VIPER和CUHK01）展示了我们提出的方法的有效性。未来，我们打算在视频序列数据上调整我们的方法，促进重新凝视的效率。

的利益冲突

提交人声明有关本文的出版物没有利益冲突。

致谢

无人机智能控制支持软件系统支持这项工作（授予NO。2015ZX01041101）。

参考文献

F. Shen，C.沉，X.周，Y.杨和H.T.沉，通过汇集原始功能，“模式识别，卷。54，pp。94-103，2014。视图:出版商网站|谷歌学术
F. Shen，C. Shen，A.Van den Horgel和Z. Tang，“在图像分析中近似修整的正方形拟合和应用，”IEEE图像处理汇刊第22卷第2期5, pp. 1836-1847, 2013。视图:出版商网站|谷歌学术|Mathscinet.
Y.瑶，张J.，F沉X.华，徐J.和Z.唐，“开拓网页图片的数据集建设：域健壮的方法，”多媒体上的IEEE交易，卷。19，没有。8，pp.1771-1784,2017。视图:出版商网站|谷歌学术
“一种基于网络监督的图像数据集构建方法”，“基于网络监督的图像数据集构建方法”，“基于网络监督的图像数据集构建方法”，神经古脑，卷。236，pp。23-31,2017。视图:出版商网站|谷歌学术
F.沉，X.周，Y.杨，J.宋，H.T.沉和D. Tao，一般二进制学习的快速优化方法，“IEEE图像处理汇刊，第25卷，第2期12，pp。5610-5621,2016。视图:出版商网站|谷歌学术|Mathscinet.
F. Shen，C. Shen，Q.. Shi，A.Van den Horgel，Z. Tang和H. T. Shen，“非线性歧管上的哈希”，“IEEE图像处理汇刊，第24卷，第2期第6页，1839-1851页，2015。视图:出版商网站|谷歌学术|Mathscinet.
Y. Yao，X.-S.华，F.沉，J. Zhang和Z. Tang，“图像数据集施工的域鲁棒方法”第24届ACM多媒体会议论文集，MM 2016， pp. 212-216, gbr, 2016年10月。视图:出版商网站|谷歌学术
“基于文本元数据的图像数据集自动构建方法”，《中国图象图形学报》，vol . 21, no . 1, no . 2, pp . 369 - 3722016 IEEE多媒体与展览国际会议论文集，ICME 20162016年7月，美国。视图:出版商网站|谷歌学术
D. Cheng，Y.Gong，S. Zhou，J. Wang和N. Zheng，“人的基于多通道部件的CNN重新识别，具有改进的三重损失功能，”计算机视觉和模式识别，pp.1335-1344,2016。视图:谷歌学术
L.仁，J.Lu，J. Feng和J.周，“多模态统一深度学习RGB-D人重新识别”模式识别，第72卷，第446-457页，2017。视图:出版商网站|谷歌学术
S.Gong，M.Cristani，S. Yan和C. C. Loy，“人重新识别”计算机愿景和模式识别的进步，2014年。视图:谷歌学术
B. Ma, Y. Su，和F. Jurie，“基于生物启发特征的人重新识别和面部验证的协方差描述符，”图像及视觉计算，卷。32，不。6-7，pp。379-390,2014。视图:出版商网站|谷歌学术
S. Khamis，C.-h。Kuo，V. K. Singh，V.D。She，以及L. S. Davis，“联合学习属性 - 一致的人重新识别”计算机科学的讲义说明（包括在生物信息学中的人工智能和讲义中的讲座讲义说明），卷。8927，pp.134-146,2015。视图:出版商网站|谷歌学术
W. Li和X. Wang，“局部对齐的功能在视图中转换，”计算机视觉与模式识别，2013，pp.3594-3601，美国，2013年6月。视图:出版商网站|谷歌学术
马斌、苏颖、朱黎，“一种用于人脸识别和识别的新图像表征”，发表于2012年第23届英国机器愿景会议，BMVC 2012年， 2012年9月。视图:出版商网站|谷歌学术
K. Q. Weinberger，J. Blitzer和L. K. Saul，“大型利润最近邻分类的距离度量学习”，神经信息处理系统的进步, 1473 - 1480页。视图:谷歌学术
R. Zhao，W.欧阳和X. Wang，“人们重新识别Parience匹配”计算机工程与应用，2013,33 (6):741 - 741，第2528-2535，Aus，2013年12月。视图:出版商网站|谷歌学术
M. Kostinger，M. Hirzer，P.Wohlhart，P. M. Roth和H. Bischof，“来自等同限制的大规模度量学习”IEEE计算机视觉与模式识别会议论文集(CVPR’12)，PP。2288-2295，IEEE，普罗维登斯，ri，美国，2012年6月。视图:出版商网站|谷歌学术
K.Jüngling，C.Bodensteiner和M. Arens，“人在多相机网络中重新识别”2011 IEEE计算机学会计算机视觉与模式识别研讨会论文集，CVPRW 2011，美国，2011年6月。视图:出版商网站|谷歌学术
W.-S.郑，锣和湘，“联想人群”2009年第20届英国机器愿景会议的载体，BMVC 2009，GBR，2009年9月。视图:出版商网站|谷歌学术
N. Gheissari，T.Sebastian，P.H.H.Tu，J. Rittscher和R. Hartley，“人脚内出现的人重新入住”2006年IEEE计算机愿景和模式识别会议的1966年的课程，CVPR 2006，PP。2006年6月1528-1535。视图:出版商网站|谷歌学术
M. Guillaumin, J. Verbeek, C. Schmid，“是你吗?”人脸识别的度量学习方法”第12届国际计算机愿景会议的诉讼程序（ICCV '09），pp.498-505，京都，日本，2009年10月。视图:出版商网站|谷歌学术
R. Girshick，J.多纳，T.达雷尔，和J.马立克，在“用于精确物体检测和语义分割丰富的功能层次，”第27届计算机愿景和模式识别会议的诉讼程序（CVPR '14），pp.580-587，哥伦布，俄亥俄州，美国，2014年6月。视图:出版商网站|谷歌学术
A. Krizhevsky，I. Sutskever和G. E. Hinton，“与深卷积神经网络的Imagenet分类”第26届神经信息处理系统年会会议的载体（NIPS'12），页1097-1105，太浩湖，内华达州，美国，2012年12月。视图:谷歌学术
Y. Sun，Y. Chen，X. Wang和X. Tang，“通过联合识别验证的深度学习面部表示，”2014年第28届神经信息处理系统年会核查课程，NIPS 2014，pp。1988-1996，可在2014年12月。视图:谷歌学术
S.-Z.陈，C.-c。guo，和J.-H.赖，“通过联合代表学习重新识别人的深度排名”IEEE图像处理汇刊，第25卷，第2期5, pp. 2353-2367, 2016。视图:出版商网站|谷歌学术|Mathscinet.
y唐、深入学习使用支持向量机，cor，2013。
M. Farenzena，L.Bazzani，A. Perina，V.Murino和M. Cristani，“人们通过对称推动当地特征的积累来重新识别”计算机愿景和模式识别的IEEE会议的诉讼程序（CVPR '10），pp.2360-2367，IEEE，旧金山，加利福尼亚州，2010年6月。视图:出版商网站|谷歌学术
赵锐，欧阳伟，王旭东，“基于非监督显著性学习的人再识别”，《中国社会科学》第26届IEEE会议上的计算机愿景和模式识别会议（CVPR '13），第3586-3593页，IEEE，波特兰，俄勒冈，美国，2013年6月。视图:出版商网站|谷歌学术
T. Ojala，M.Pietikäinen和T.Mäenpää，“带有当地二进制模式的多思路灰度和旋转不变纹理分类”图案分析和机器智能的IEEE交易，第24卷，第2期7，pp。971-987，2002。视图:出版商网站|谷歌学术
L. Bazzani，M.Cristani，A. Perina和V.Murino，“多次射击者通过彩色和拓展分析重新鉴定，”模式识别字母，卷。33，不。7，pp。898-903,2012。视图:出版商网站|谷歌学术
Y. Yang，J. Yang，J. Yan，S. Liao，D. Yi和S. Z. Li，“人的突出色彩名称重新识别”计算机科学的讲义说明（包括在生物信息学中的人工智能和讲义中的讲座讲义说明），第8689卷，第8689号1, pp. 536-551, 2014。视图:出版商网站|谷歌学术
“基于局部最大发生表示和度量学习的人再识别”，《计算机科学与技术》计算机愿景和模式识别的IEEE会议的程序，CVPR 2015，PP。2015年6月2197-2206。视图:出版商网站|谷歌学术
F. Xiong，M.Gou，O.营地和M. Sznaier，“使用基于内核的公制学习方法的人重新识别”，计算机科学的讲义说明（包括在生物信息学中的人工智能和讲义中的讲座讲义说明），卷。8695，没有。7，pp。1-16,2014。视图:出版商网站|谷歌学术
S.Chopra，R. Hadsell和Y. Lecun，“学习相似度的公制，应用于面对验证”IEEE计算机学会计算机视觉与模式识别会议论文集(CVPR’05)，PP。539-546，IEEE，华盛顿，直流，美国，2005年6月。视图:出版商网站|谷歌学术
郑文胜，龚诗，向涛，“基于概率相对距离比较的人的再识别”，载计算机愿景和模式识别的IEEE会议的诉讼程序（CVPR '11），第649-656页，2011年6月。视图:出版商网站|谷歌学术
B. Prosser，W.-S.郑，锣和湘，“人重新识别支持向量排名，”2010年第21届英国机器视觉会议论文集，BMVC 2010gbr, 2010年9月。视图:出版商网站|谷歌学术
W.LI，R. Zhao，T. Xiao，X. Wang，Deepreid：Deeper Filter配对神经网络用于人重新识别，“计算机视觉与模式识别，2014，pp。2014年6月152-159。视图:出版商网站|谷歌学术
李士哲，李士哲，李士哲，李士哲，李士哲第22届国际模式识别会议论文集，ICPR 2014，pp.34-39，Swe，2014年8月。视图:出版商网站|谷歌学术
T. Matsukawa和E. Suzuki，“利用CNN从属性组合中学到的特征重新识别人”，发表于2016年第23届国际模式识别大会论文集，PP。坎昆，2016年12月2428-2433。视图:出版商网站|谷歌学术
E. Ahmed，M. Jones和T. K. Marks，“一种改进的人重新识别的深度学习架构”计算机愿景和模式识别的IEEE会议的程序，CVPR 2015，页3908-3916，美国，2015年6月。视图:出版商网站|谷歌学术
D. Gray和H. Tao，“ViewPoint不变的行人识别与本地化功能的集合”计算机Vision-ECCV 2008：第10届欧洲电脑愿会议，Marseille，法国，2008年10月12日至18日，诉讼，第一部分，卷。5302计算机科学讲义，pp。262-275，Springer，柏林，德国，2008年。视图:出版商网站|谷歌学术
J.V.Davis，B. Kulis，P.Jain，S. S. S.和I. S. Dhillon，“信息理论度量学习”第24届机器学习会议的诉讼程序（ICML '07），第209-216页，2007年6月。视图:出版商网站|谷歌学术
W.-S.郑，锣和湘，“通过相对距离比较的重新登封，”图案分析和机器智能的IEEE交易，卷。35，不。3，pp。653-668,2013。视图:出版商网站|谷歌学术
a . Mignon和F. Jurie，“PCCA:一种从稀疏的成对约束的远程学习的新方法”，在IEEE计算机视觉与模式识别会议论文集(CVPR’12)，pp.2666-2672，2012年6月。视图:出版商网站|谷歌学术
李振华，张士生，梁飞，曹磊，“基于学习的局部自适应决策函数的人验证”，硕士论文计算机视觉与模式识别，2013，页3610-3617，美国，2013年6月。视图:出版商网站|谷歌学术
刘学军，宋旻，陶东，陈春春，“半监督耦合字典学习对人再识别的影响”计算机视觉与模式识别，2014，pp.3550-3557，美国，2014年6月。视图:出版商网站|谷歌学术
Liu C.， Gong S.， C. C. Loy, and X. Lin，“人的再识别:什么特征是重要的?”“在计算机Vision-ECCV 2012.讲习班和示威：佛罗伦萨，意大利，2012年10月7日至13日，诉讼，第一部分，卷。7583的计算机科学讲义，pp。391-401，斯普林斯，柏林，德国，2012年。视图:出版商网站|谷歌学术
X. Wang，G. Doretti，T.Sebastian，J. Rittscher和P.Tu，“形状和外观上下文建模”2007年IEEE第11届计算机愿景国际会议的诉讼程序，ICCV，胸罩，2007年10月。视图:出版商网站|谷歌学术
Zhang G.， J. Kato, Y. Wang, and K. Mase，“基于深度卷积神经网络的人再识别”，in chinese第9届电脑视觉理论与应用国际会议的诉讼程序，Visapp 2014，pp.216-223，PRT，2014年1月。视图:谷歌学术