文摘
行人》是一个重要的研究,因为它会影响应用,如智能监控、基于内容的视频检索和人机交互。它可以帮助继电器检测跟踪和犯罪嫌疑人在大型视频监控系统。尽管现有的传统的行人》方法已被广泛应用于解决实际问题,他们有缺陷,如识别精度低,计算效率低下,难以适应特定应用程序。近年来,基于深度学习的行人通过算法已经广泛应用于行人》领域由于他们具有很强的自适应能力和较高的识别精度。深度学习模型为行人提供技术方法》的任务与他们的强大的学习能力。然而,行人也基于深度学习的重要方法有以下问题:首先,现有的深度学习人行》方法缺乏记忆和预测机制,和深度学习方法只提供有限的改善行人通过精度。其次,他们表现出过度拟合问题。最后,现有LSTM初始化参数是有问题的。针对这一点,本文介绍了一个反连接到行人通过检测器,使它更类似于人类的认知过程通过将单个图像转换为一个图像序列;然后,内存图像序列模式reidentifies行人图像。 This approach endows deep learning-based pedestrian re-recognition algorithms with the ability to memorize image sequence patterns and allows them to reidentify pedestrians in images. At the same time, this paper proposes a selective dropout method for shallow learning. Selective dropout uses the classifier obtained through shallow learning to modify the probability that a node weight in the hidden layer is set to 0, thereby eliminating the overfitting phenomenon of the deep learning model. Therefore, this paper also proposes a greedy layer-by-layer pretraining algorithm for initializing LSTM and obtains better generalization performance. Based on the above explanation, this paper proposes a pedestrian re-recognition algorithm based on an optimized LSTM deep learning-sequence memory learning model. Experiments show that the pedestrian re-recognition method proposed in this paper not only has strong self-adaptive ability but also identifies the average accuracy. The proposed method also demonstrates a significant improvement compared with other mainstream methods because it can better memorize and learn the continuous motion of pedestrians and effectively avoid overfitting and parameter initialization in the deep learning model. This proposal provides a technical method and approach for adaptive pedestrian re-recognition algorithms.
1。介绍
近年来,随着社会经济的快速发展和科学技术的不断更新,我们的生活发生了快速的变化,很多社会问题逐渐暴露,其中安全问题是最突出的1]。安全视频监控构成大规模的分布式监控系统,和监控数据的数量爆炸式增长1- - - - - -3]。参与者和领导人的社会,深入研究人类行为的视频是很重要的。同时,行人识别是智能监控的一个重要研究课题,基于内容的视频检索、人机交互和其他应用程序。研究行人》一直在积极推动行业,如交通和公安刑事调查(4- - - - - -6]。行人》可以应用于继电器跟踪和怀疑检测在大型视频监控系统中,是非常重要的在提高视频监控系统的智能和功能(7]。
行人》研究起源于一个摄像机跟踪研究(8]。Gheissar》提出了行人的概念在2006年CVPR和使用颜色和重要的边缘线直方图特性实现行人reidentification [9]。2007年,第一个数据集》致力于研究行人毒蛇发表(10]。此后,行人识别受到研究者越来越多的关注。在ICCV CVPR》等著名国际会议,和AAAI,行人识别每年发表的研究成果,和他们的人数比去年增加了11]。近年来,大量的行人》研究成果已发表在国际知名期刊,如计算机视觉的国际期刊,IEEE模式分析与机器智能和IEEE图像处理(12- - - - - -15]。在这些出版物,Vezzani et al。16)和Bedagkar-Gala et al。17)提供了一个审查的行人在2013年和2014年通过研究进展。为了方便行人》的研究,许多数据集专门设计用于测试行人识别算法的性能也已出版。表1列表等信息发布时间,行数,图片,和一些常用的相机视图的数据集。这些数据集提供了一个统一的平台比较评价行人识别算法的性能。这些数据都是来自实际监控摄像头拍摄的视频。行人通过实验对这些数据集可以更好地模拟cross-camera行人的身份匹配任务在实际监测情况。行人通过的方法可以分为那些基于手工设计特性和基于深度学习技术(18,19]。
下面是一个分析和总结行人通过基于手工设计方法,主要包括行人检测、行人图像特征提取和距离度量。行人通过基于手工设计方法用于特征提取研究和行人图像测距。手动设计特征提取方法通常利用颜色和纹理特征提取。例如,HSV / RGB直方图用于获取图像颜色信息和局部二值模式(LBP) (26可以使用),和伽柏滤波器特性。捕获的图像的纹理信息,面向的直方图的梯度(猪)27),和尺度不变特征变换(SIFT) (28)可以捕获图像的形状信息。在实践中,不同类别的基本特征,如颜色、纹理和形状,通常是连接到获得更多歧视特性表征。然而,连接也导致最终功能表达载体有一个相对较高的维度。此外,代表为行人距离度量图像距离测量在人行》领域包括以下。廖和李29日)提出了一种度量学习模型基于log-logistic损失函数解决加速梯度(APG)和近端为不对称正负样本权重的策略,介绍了semipositive度量矩阵的约束。减少高计算成本一般度量学习方法解决方案,Koestinger et al。30.]提出了保持简单和直观的度量(KISSME)学习方法的度量矩阵有一个有效的封闭解,不需要迭代优化。然而,KISSME敏感的尺寸特征向量表达式。许多研究人员提出了提高KISSME方法的性能31日,32]。廖et al。33]提出了cross-view二次判别分析(XQDA)算法,学习一个度量矩阵,同时学习更有识别力的投影矩阵,以降低特征维度。然而,这些方法仍然遭受识别精度低,计算效率低,和疲软的自适应能力。
因为上述问题在传统的行人》方法,许多学者开始研究行人通过基于深度学习的方法。最早的研究工作在深度学习领域的行人》始于2014年,李et al。34,35]。增加深度上优于工作领域出现了行人》(36- - - - - -42]。一般来说,两种类型的深度学习模型,验证和分类模型,广泛应用于行人》任务。
(1)行人》基于“验证”模式。李等人。35]提出添加一系列patch-matching层patch-based卷积后反应更精确地限制行人图像之间的相似性。艾哈迈德et al。11)学到了“cross-image”表示通过计算样本之间的距离及其附近,提高暹罗结构,提高模型的鲁棒性。吴et al。43)改善深度学习模型的区别的能力通过增加网络结构的层数和减少卷积过滤器的大小在暹罗模型中。Varior et al。44]提出插入控制函数卷积后捕捉有效的小细节层在暹罗模型。刘等人。14)提出将软注意力模型集成到暹罗模型自适应集中在更重要的地方部分。苏et al。45)提出了一个三阶段的学习过程,包括预测属性和损失函数的使用三元组的属性的基础上培养深度学习模型。丁等。46)提出了一种新颖而有效的三联体生成方案和一个基于triplet-based网络结构优化的梯度下降方法改变人类》培训过程。他们获得一个行人特征表示与识别能力更强,这提高了行人识别性能。
(2)行人通过基于“分类”模型。深度学习结构基于验证模型,约束监督信息样本之间的相似性,但没有具体的注释存在对应于一个特定的示例。相比之下,深度学习结构直接基于“分类”模型利用行人的具体注释信息图像,而注释内容可以更充分的利用。郑et al。47,48]提出了一种深度学习结构使用标准的“分类”模型和学到了高度区别的行人身份嵌入在行人子空间,相比传统的功能加上距离度量学习范式。该模型提高了行人识别性能20%以上。苏et al。45]提议使用奇异向量分解策略decorrelate后学会了权重向量中最后一个完全连接层深度学习模型结构和提高学深的区别的能力特征。钟等。49)提出了一种随机消除策略分类模型的基础上,减少过度拟合训练期间的风险和提高了模型的鲁棒性和区别的能力。郑et al。50)提出了一个pedestrian-aligned网络基于深度学习分类模型的结构。在深学习模型训练,实现行人之间的对齐。此外,这种方法提高了表达能力行人。何曼思et al。51验证,三元损失函数达到更好的匹配精度比二进制分类损失函数在多个大型行人通过数据集。随后,学者们提出了各种各样的深度上优于行人通过的方法,取得了不同的效果52- - - - - -55]。
从上面的分析和总结,鉴于其强大的学习能力,深度学习模型提供了一个有效的解决行人》任务。然而,一些问题仍然存在于深上优于行人通过的方法。首先,现有的深学习人行》方法缺乏记忆和预测机制。他们可以增加行人识别的准确性通过添加卷积神经网络层,但这种改进是相当有限的。第二,深度学习行人识别方法有一个过度拟合问题。第三,尽管现有的深度学习行人通过的方法取得了良好的效果在各种任务使用长短期记忆(LSTM),如何初始化LSTM参数的问题不解决,因为在训练中使用的目标函数是凸和涉及很多局部最小值。因此,在深LSTM训练,主要挑战在于有效地初始化LSTM参数。因此,本文介绍了一个反连接到行人通过探测器基于人类的认知过程。使用这种方法,单一的图像转换成一个图像序列,和内存图像序列模式用于行人识别。这种方法允许深记》上优于行人算法图像序列模式,从而获得reidentify行人在行人图像的能力。 This paper proposes a selective dropout method based on shallow learning. This technique uses the classifier obtained by shallow learning to modify the probability that a node’s weight in the hidden layer will be set to 0, thereby eliminating the overfitting phenomenon. Furthermore, this paper proposes a greedy layer-by-layer pretraining algorithm to initialize the LSTM. It trains the model in a layer-by-layer fashion through greedy strategies, using each layer of the unsupervised learning process to preserve the input information. Then, using gradient-based optimization, the entire network undergoes supervised fine tuning based on the final task to achieve better generalizability. Therefore, the parameters learned at this stage are better able to initialize the network in subsequent supervised learning tasks. Based on the above explanation, this paper proposes a pedestrian re-recognition algorithm based on an optimized LSTM deep learning-sequence memory learning model.
部分2描述的深度学习模型LSTM-shallow学习选择性辍学在本文提出。它主要介绍了贪婪策略应用于LSTM培训过程。部分3阐述了顺序记忆学习模式提出了。部分4构造行人通过算法的基础上,优化LSTM深学习顺序记忆学习模式提出了。部分5分析模型提出了使用实例和比较结果与流行的主流人》算法。最后,全文总结和讨论。
2。基于LSTM-Shallow深度学习模型学习选择辍学
上半年,本节将详细说明长期和短期记忆的训练网络通过多层autoencoder并提出一种贪婪的分层技术LSTM训练模型。它可以解决深度学习模型的参数初始化的问题。然后,为了更好地消除或避免过度拟合问题的深度学习模型,本节将介绍下半年肤浅的学习选择辍学方法来解决这个问题。在此基础上,为了更好地利用行人,re-recognized形象记忆和序列的特点。节3》,一个行人模型提出了基于序列学习记忆和嵌入深度学习模型提出了在这一节中。最后,模型用于行人通过各种复杂的场景。具体的框架如图1。
从上面可以知道深度学习的CNN结构复杂和训练是很困难的56,57]。针对这一部分,首先,部分2。1阐述了如何构建一个贪婪的逐层LSTM训练模型来解决深度学习模型的参数初始化的问题。然后,部分2。2阐述了如何使用浅学习选择性辍学方法解决过度拟合问题的深度学习模型。
2.1。LSTM无人管理的培训
使用一个随机初始化方法在训练很容易导致深度学习模型收敛到局部最小值,从而导致较慢的收敛性和较低的性能。无人监督的分层pretraining使用堆叠autoencoder方法能更好地解决这些问题。同时,LSTM autoencoder显示了一个好的学习能力顺序表示。
2.1.1。Autoencoder和多层Autoencoder培训
一个autoencoder编码输入训练x一些表示c(x),可以重建的输入f(c(x)),c(·)代表编码器和f(·)代表了译码器。一般来说,这样的损失函数自动编码器可以被定义为一个cross-extraction错误,这是或者是欧几里得距离 。
堆叠自动编码器可以用来初始化一个很深的多层网络。基本训练步骤如下:(1)第一层是被训练成一个自动编码器重建原始输入的误差降到最低。(2)然后使用autoencoder的输出作为输入到下一层,也作为autoencoder训练。(3)步骤(2)迭代初始化所需的层数。(4)最后一个隐层的输出是输入到新的监管层。(5)深层结构的参数都是细调使用监督或无监督损失函数。
2.1.2。LSTM培训和Autoencoding
(1)LSTM培训。递归神经网络(RNN)在序列学习任务取得了极大的成功。然而,RNNs梯度消失或爆炸问题,导致建模的困难。解决这些问题最有效的方法之一是使用LSTM架构。LSTM网络引入了一个新的结构称为内存单元存储长期依赖。存储单元有三个主要的元素:一个输入,一个忘记门,和一个输出通道。输入门口将输入信息写入内存,忘记门和门的输出确定信息保存在每个决策点或释放内存。LSTM不会显示大的性能差异的变量(56,57]。因此,本文使用描述的常见LSTM [56,57),门,内存单元,和隐层输出计算如下: 在哪里W的重量;b是相应的偏差向量;xt,ht,ct代表输入、输出和内存单元,分别在时间步t;ht−1和ct−1在时间步是输出和记忆单位吗t- 1;我t,ot,ft盖茨是输入、输出和忘记;e代表一个点积运算;和 和 代表非线性激活函数。
(2)LSTM Autoencoder。这包括两个LSTMs,一个用于编码和解码。模型是一系列的输入向量(功能或视频)。编码器LSTM将读取所有输入序列和编码隐藏成固定长度的输出和内存单元。的内存单元和隐藏输出编码器解码器LSTM LSTM然后复制,这是输出的重构解码序列输入序列。解码序列应该是相同的输入序列的原始的或相反的顺序。扭转目标序列应该容易,因为模型只需要获取关联在一个小范围内。因此,本文使用这种结构对序列进行无监督pretraining分类任务。相反,它可以重建原始的序列从输入序列;因此,模型需要保护的总体结构和长期输入序列的相关性。 This paper uses this model to learn the initialization of sequence-to-sequence learning tasks.
2.1.3。贪婪的逐层LSTM培训
使用一个随机初始化的标准梯度下降训练很难深神经网络因为雅可比矩阵的奇异值矩阵的每一层都大于1;层激活和梯度的变化容易导致梯度消失或爆炸问题。本文的输出层我+ 1是表示为z我+ 1和的输出层我是z我。雅可比矩阵相关层我定义如下: 在哪里W我值表示层的重量我和f是激活函数。在实践中,如果根据不同的不正确初始化f(使J∼1),梯度可能表现出不同的振幅在不同的层,从而导致贫穷的状态数(敏感的小错误输入)和训练速度慢。在深LSTM模型中,两个方向的梯度流:同一层之间的LSTM LSTM和不同层。也就是说,在一个LSTM层l雅可比矩阵
此外,LSTM层之间l和LSTM层l+ 1,雅可比矩阵 在哪里Wl和Wl+ 1层的重量吗l和l+ 1,分别和隐藏的原子层吗l+ 1,l分别在时间t。之间的关系和和和不典型,不能表示为显式的函数。因此,本文不能获得适当的随机初始化表达式的重量,以避免消失或梯度爆炸问题。
获得适当的体重深LSTM模型中初始化,本文首先使用LSTM autoencoder学会确保常数梯度重量和激活值流在一个LSTM层。上一层的隐层输出然后使用递归作为输入到下一个LSTM autoencoder,确保整个LSTM恒定渐变流层通过调整权重。最后,监督任务梯度下降学习开始于初始化参数,以避免消失或梯度爆炸问题。因此,该模型比随机初始化模型更好更快地学习。
此外,这种分层技术培训过程影响每个LSTM层使用的前表示记得序列和重建的原始输入表示。提取的信息变得更加抽象从低层到更高的层次;因此,模型保留了最有趣的和紧凑的信息和丢弃不相关的噪声从输入。这一方法可以避免模型参数空间的局部最优解。因此,这个过程可以被视为比随机初始化期间深LSTM网络培训。训练多层LSTM的过程是一个堆积autoencoder类似的培训。具体步骤如下:(1)第一LSTM层是训练作为LSTM autoencoder使用模型图2。输入序列也被用作一个输入LSTM解码。(2)隐藏的原子编码LSTM输入下一个LSTM autoencoder。帮助模型学习的输入序列,LSTM必须解码恢复原始输入序列。(3)步骤(2)中的迭代过程初始化所需数量的额外LSTM层。(4)去年LSTM层隐藏的输出输入监管层。(5)最后,所有这种深层结构的参数调优监督损失函数。
根据上述过程,pretraining框架序列的序列分类和序列学习任务摘要如下。对于序列分类任务,输入信号或特性读到编码器LSTM原始序列,和解码器LSTM需要重建输入按照相反的顺序。更容易重构信号在一个小范围内。序列学习任务,目的是预测目标序列的下一个元素。因此,需要相同的序列解码输出真正的输入序列{WXY}。然而,为了减少依赖的长度之间的输入和输出预测{W′X′Y′},相应地,反相输入序列是一个类似的过程。
2.2。肤浅的学习方法选择辍学
2.2.1。选择辍学
辍学在深度学习技术是一个关键的技术,可以有效地防止网络过度拟合。在每批样本训练,一些隐藏层神经元的权重降低为0,从而增加网络的稀疏。辍学的随机权值设置为0,这是一个体现平均模型的想法。
然而,每个卷积核的值并不是等价的。例如,对象识别、卷积内核描述棱角往往比卷积内核描述飞机更重要。因此,深入学习模型,火车更卷积内核描述描述对象的边缘可能会更有效。因此,随机值设置为0时辍学不是最好的方法;相反,一个内核应该基于自身重量的重要性设置为0。,更重要的是卷积核的概率将零应小于不那么重要的卷积内核。基于这个想法,本节提出了一种基于浅选择性辍学方法学习。它使用分类器通过浅层学习修改的重量的概率隐层的节点将被设置为零。具体算法过程如下。
前提:功能映射和重量一个隐藏层l深层网络的输入 ,概率参数是λ,体重选择辍学后输出。(1)第一个训练是使用标准的辍学生。所有随机权重设置为0在录音过程中对应的位置的节点。(2)特征映射对应于每个隐层的权值设置为0的网络和特征映射对应的重量值不设置为0作为正负样本值,分别。因此,0和不是0设置为积极的和消极的标签样本,和地图发送到支持向量机(SVM)进行训练。(3)第二个训练是进行中,每个节点在每个隐层使用支持向量机来确定该节点的重量应该设置为零。节点划分为积极的样品(其权重值设置为0)被设置为0的概率增加λ次了。(4)在每一层辍学再次执行;然而,每个节点设置为0的概率会有所不同。最后,每一层分配重量后选择辍学。
从网络培训的角度来看,辍学方法允许每一批样本对应于不同的网络结构。不同的网络结构依赖于共享隐层的权重,从而增加网络的多样性。从培训模式的角度来看,每次更新随机模型是宏观上平均模型的想法,增强了模型的鲁棒性。辍学的随机权重的方法不再依赖于隐层节点的交互;因此,它可以防止特殊情况下某些特性是有效的只有当其他特定功能存在。这使辍学适应变化的能力,大大降低了网络过度拟合和增强其普遍性。
2.2.2。深入学习模型指导下浅的学习
现有的深度学习模型通常包括一个或多个卷积层,一个完全连接层顶部,重量有关,和汇聚层。这里使用的特定的深度学习模型是不同的,其结构也不同。本文主要是调整和优化人工指导三个方面,网络结构,参与建立和激活函数和典型的卷积神经网络模型的训练。
(1)选择辍学。具体选择辍学算法是在前一节中详细描述。通过改进的基于svm选择辍学,网络是人为地面向维护原始稀疏,最终改善学习性能,如图3。
感兴趣的区域(RoI)池层深度学习的模型使用一个downsampling层,允许将不同大小的特征图归一化到相同的大小将采样。在一些传统运营商征税多尺度很重要。深度学习的RoI池层需要类似的形式。卷积层转化为4×4×n,2×2×n,l×l×n通过三种不同的downsampling固定大小的特征图谱。nZF模型= 256,n= 512 VGG模型。然后,特征图按照一定的顺序连接端到端形成一个(16 + 4 + 1)×n维特征向量。最后,混合层的输入连接到完全连接层。将采样过程自适应措施的规模和步幅通过控制混合卷积模板。它缩到前面卷积输出确保downsampled子图有一个固定的大小。
(2)随机纠正线性单元。修正的线性单元(ReLU)具有更好的预测能源在其稀疏激活(单方面抑制)特点和兴奋性边界,如以下公式所示:
ReLU不仅保证了非线性特征,还模拟了积极的活化反应的神经;然而,完整的抑制消极的激活可能会导致信息丢失。2015年,Russakovsky等人提出了一个修改的ReLU变体PReLU [58)提高负激活反应。PReLU的负激活反应不再是完全抑制但只有大大减少。PReLU的公式如下: 的参数 在获得培训和一个固定的值是用于测试。PReLU减少过度拟合小规模的激活特性数据,大大提高训练效果。这种技术已经超过人类ImageNet分类数据集。
为了进一步提高随机性,Russakovsky et al。58提出随机ReLU (RReLU) PReLU相当于一个随机的版本。主要的改进是,在培训期间,参数 由均匀分布随机生成,如以下公式所示:
在测试过程中,参数α有一个固定值(l+u)/ 2。经过大量的实验数据分析,一般培训值α∼U(8),测试已经固定α= 5.5。的随机性质RReLU进一步增强了模型过度拟合的阻力。这也是采用的主要原因这摘要激活函数,因为它可以更好的自适应反应,实现行人通过。
3所示。行人通过模型基于序列学习记忆
本节提出了一个行人基于序列记忆学习的重要方法。为了进一步模拟人类记忆和预测机制,这种方法设计了一种基于记忆的学习模型预测序列将行人图像转换成图像序列。同时,序列的顺序和记忆序列学习的模式实现快速而准确的记忆和识别行人的形象。
3.1。序列生成和特征提取
序列生成的目的是将单个行人图像转化为一个序列的图像序列学习。因此,行人图像分为米×N不重叠的网格和网格连接在系列的子图象形成的图像序列长度T。在奇数行,图像序列运行从左到右;还行,图像序列运行从右到左。该串行路径保证子图象之间的相关性和有助于序列学习的信息。
假设行人图像是P,转换后,图像序列表示为 。假设行人图像的大小是128×48像素米和N分别设置为8和3。然后,每个子图象的大小是16×16像素,图像序列的长度是24 。
CNN和人类视觉系统的多层结构。因此,基于序列的记忆学习模式,CNN用于从图像序列中的每个子图象中提取特征,形成一个功能的序列长度T。考虑行人通过的准确性和效率。基于序列记忆学习模式,学习模式提出了部分2选择本文的特征提取。图像序列中的每个子图象的大小是16×16像素。因此,在每个特性映射只有一个元素。然后,在特征序列表示为每个特性x(t)∈R256×1,t= 1,…,T。
3.2。序列顺序交换
序列顺序交换是一个重要的步骤序列中的记忆学习模式基于记忆的预测。它在一定程度上模拟人眼跟踪。序列顺序交换的目的是重新排列特征序列,以便优先序列基于记忆导致学习记忆重要的行人特性模型。同时,序列顺序交换有助于加快的行人识别,因为只有部分功能需要输入序列的序列学习记忆模型输出准确预测标签。
序列顺序交换过程的特征序列 转化为重新排序功能序列 ,在哪里代表了特征向量的提取t届图像序列的子图象。在基于记忆学习模式,交换序列的顺序如下: 在哪里 , ,和是一个交换矩阵约束WTW=我。此外,在每一列的转换矩阵W,只有一个元素设置为1,其余元素设置为0。然后,当且仅当(我)= 1, 。
序列顺序交换过程的示意图如图4。基于交换后的顺序,行人图像可分为三个区域。订单交易后,躯干和手臂特征更加明显。在行人识别中,躯干和手臂特征比那些更重要的头和腿。因此,基于序列的记忆学习模式,躯干和手臂特征优先记忆和识别。此外,基于随机初始化内存学习模型使用。模型训练完成后,虽然交换矩阵并不相同,他们在某种程度上非常相似。
3.3。记忆储存
基于序列记忆学习模式,存储器实现通过使用LSTM模型;也就是说,行人的序列模式是记住了。LSTM模型需要重新排序功能序列 作为输入,产生一个输出序列 。在这个模型中,一个隐层包含8配置内存块;每个内存块都有16个记忆细胞,共享相同的输入和输出。
LSTM模型的前进过程中,所有的神经元隐层和输出层神经元可以在任何时候被激活。本节描述如何计算当所有神经元进入LSTM,t= 1,…。首先,存储单元的输入 ,输入通道激活值 ,和输出门激活值计算: 在哪里 , ,和代表存储单元的重量,输入门的重量,和输出门的重量,分别; , ,和表示存储单元返回的重量,输入门恢复体重,和输出门返回重量,分别;bc,b在,b出表示存储单元的偏移量,输入门抵消,和输出门抵消,分别;和代表了存储单元输出的时候输入长短期记忆模型。记忆细胞的激活函数使用 。输入和输出门激活函数使用s形的函数 。然后,存储单元的中间状态计算如下: 在哪里e表示一个点矩阵之间的乘法操作。扩大(x)复制和扩展向量的每个元素x8倍,确保每个存储单元的输入正确乘以相应的输入门激活值。中间状态的记忆细胞被初始化为零。然后,输出存储单元的计算如下: 的激活函数h被定义为ℎ(x)= 2 / (1 +e−x)−1。最后,输出值长期和短期的内存模型计算使用以下公式: 在哪里ω和b分别表示输出层的重量和抵消。如果z(t)是接近1,输入图像确定为行人图像;如果z(t接近于0),确定输入图像背景图像。
3.4。联合学习
本节提出了一种联合学习法,使基于记忆学习模式同时学习行人序列顺序和内存行人序列模式。为了实现这一目标,目标函数l由以下公式: 在第一项ll的目标函数l是项损失,计算输出序列之间的一个错误吗 和真正的标记 ,和第二项lc的目标函数l是限制任期限制开关矩阵的形式W,使开关矩阵W一个正交矩阵。以最小化目标函数l时间,本节使用反向传播算法训练LSTM和反向传播算法来更新转换矩阵W。
LSTM训练方法使用时间反向传播算法在节中有详细描述2。1。因此,本节描述只如何更新转换矩阵,W。交换矩阵的梯度W对目标函数l根据随机梯度下降算法计算: 在哪里一个代表了重新排序的梯度特征序列的损失l的目标函数l, 。因此,如何计算的关键是更新交换矩阵,t= 1,…,T。为了方便起见,本文定义了以下两项: 在哪里l(t)代表内存模型输出之间的误差z(t)和真正的标签在时间t和D(t)代表内存模型输出之间的累积误差序列{z(1)、…z(T)}和真正的标签从时间t时间T。然后,D(t)可以re-represented按照下列公式:
随后,t=T,计算如下: 在这里,和可以直接根据公式计算9)- (14)。此外,当t= 1,…,T−1,计算如下:
后计算 , 和 可以直接根据公式计算9)(13)。在获得 ,转换矩阵W更新按照下列公式: 在哪里α是学习速率。
然而,上述方法并不能保证每一列中只有一个元素的转换矩阵W是1,其余元素是0。因此,标准化操作上执行转换矩阵W每次转换矩阵W更新,最大开关矩阵的每一列元素W设置为1,其余元素设置为0。
4所示。行人通过算法的基础上,优化LSTM深学习顺序内存模型
基于上述内容,本节设计一个行人通过算法优化LSTM深学习顺序记忆模型。首先,LSTM网络自适应训练方法用于解决参数初始化的问题。然后,浅学习选择性辍学技术用于解决过度拟合问题的深度学习模型训练过程。接下来,一系列记忆学习模式构建。最后,一个行人通过算法基于优化LSTM网络深度学习顺序记忆学习模式提出了实现有效的行人》一般的场景。拟议中的行人通过算法的基本步骤如下:(1)使用优化的深度学习模型提出了部分2256,我们提取特征图谱的行人图像和使用候选区域提取算法来生成从行人图像roi。因为重要目标是一个行人,行人通过算法可以选为候选区域提取算法。(2)当地特性映射对应于感兴趣的区域提取整个地图功能根据每个区域的位置。然后,因为RoI的大小是不一致的,当地的功能是输入映射到RoI池层。(3)256功能映射转换为固定大小的特征序列和输入序列模式识别的序列学习模型。输出值接近1时,RoI是一个行人;当输出值接近于0,RoI的决心是背景。
5。实例分析
5.1。实验评估标准
在这篇文章中,平均准确率和1级匹配率作为性能指标。这两个指标是用来评估的影响行人通过算法。地图指标评价行人搜索的性能模型的方式类似于检测:它反映了从图书馆人检测图像的准确性。(匹配率对行人搜索排序和定位问题。如果重叠率top-predicted边界框与真正的边界框是高于阈值为0.6,它被认为是成功匹配。
5.2。示例1
这个示例使用INRIA行人数据集(59)和加州理工学院的行人数据集(60算法)来验证提出行人通过。此外,证明了该方法的有效性和可行性,该方法与主要流行的重要模型。
5.2.1。实验过程
训练序列的记忆学习模型需要足够的训练样本和适当的训练参数。正样本,1000行人图像选择从INRIA的行人数据集60]和2000年行人图像从毒蛇中选择[10[]和PRID2011数据集61年]。负样本随机取自图像不包含行人。所有样本图像水平翻转和扩展到多个尺度形成训练集。因为样本的大小不均匀,后提取样本的特征映射使用CNN, RoI池层是用于生成256固定大小的特征图谱。在培训期间,学习速率α将0.01和参数λ共同的目标函数设置为0.001。
5.2.2。INRIA的行人数据集
2005年,中间人等人建立了INRIA行人数据集(60),这是一个典型的行人识别数据集。此外,INRIA的人行道的行人的背景图像数据集更为复杂。因此,许多行人识别方法使用这个数据集比较行人检测的影响。INRIA的行人数据集提供的训练集和测试集。包含行人的训练集有614图片,它被用来选择积极的样品,和1218年的图像,没有行人,用于选择负样本。测试集包含了288个不同大小的检验图片,总共588名行人。使用INRIA行人数据集,该方法比较和分析与其他流行的重要方法。实验结果如表所示2。
INRIA的行人数据表2显示平均准确率和1级匹配率。行人通过算法的识别结果的基础上,优化LSTM网络深度学习顺序记忆学习模式提出了优于现有流行的主流人》的方法。这些结果验证该方法的合理性和有效性。
5.2.3。加州理工学院的行人数据集
加州理工学院是一个图像数据库由加州理工学院的创建,它包含两个数据集,Caltech101 Caltech256。INRIA的行人数据集相似,加州理工学院的行人数据集还包括训练集和测试集。训练集与行人、1000张图片和测试集有300个行人识别图像。加州理工学院的行人数据集,我们比较本文方法》与其他流行的主流方法。实验结果如表所示3。
表3表明,在地图上和(指标,本文方法优于其他流行的主流行人通过的方法。在地图方面,该方法得分高出0.8% R-CNN更快。LDCF方法相比,该方法的地图上增加了1.4%,而ACF-Caltech方法相比,其地图上增加了7%。这些结果进一步验证了行人通过本文提出的方法。(结果,行人通过对本文方法比快R-CNN高出1.4%。LDCF方法相比,该方法提高了得分排名前2.5%,和ACF-Caltech方法相比,该方法提高了得分排名前7.4%。这些结果充分表明了该方法的优越性的平均精度和(指标。
5.3。示例2
5.3.1。测试数据集描述
进一步测试和分析性能的行人通过本文提出的方法,这个示例将使用两个更复杂和更有挑战性的公共数据集CUHK-SYSU [71年]和PRW [48进行实验验证和分析。
(1)CUHK-SYSU。这个数据集(71年)是一个大型的行人搜索数据集不同的拍摄场景,包含18184个场景图像。这些场景图像包含96143年共有8432个不同的行人和边界框。每个选中reidentified行人出现在至少两个从不同的角度拍摄的图像。图片在视角上的巨大差异,照明条件下,决议,行人遮挡,和背景。它们反映了实际行人应用场景的多样性。这个实验用训练集和测试集划分方法提供的数据集本身。训练集包含11206张图片,其中5532需要re-recognizing行人图像。测试集包括共有2900名行人,和库图像的总数是6978。
(2)PRW。这个数据集(48)从10个小时的视频中提取了大学校园。数据集包括11816个视频帧由六个摄像头。11816帧手动标记,和43110年的边界框。其中,34344年边界框被分配到932个不同的行人。数据集还提供了一个标准方法培训和测试集的分区。训练集提供了5134帧共有482种不同的行人。测试集包含2057 reidentified行人和6112库图像。
5.3.2。实验过程
摘要边缘盒(68年)方法用于生成一个建议行人次区域分区的边界框提供信息。的参数α(控制采样变异,边界框的翻译,和取样边界框宽度比例)的步长为0.65,和参数β(控制十字路口联盟(借据)阈值的NMS)被设置为0.7。使用这些设置,大约1000年的边界框生成,和前300边界框被选中为后续分区分区。
特征提取过程中使用深度学习模式提出了部分2这篇论文。输入地区在每个时间步,ROI池层是应用于conv4-3卷积地图规范化所有特性映射到相同的大小14×14×1024。通过行人图像,本文提取14×14×1024卷积特性以同样的方式。然后将这些特征图谱输入节中所提出的架构3这篇论文。本研究使用Theano深度学习框架实现提出了深度学习模型。
实验平台配备一个NVIDIA GeForce GTX GPU,英特尔i7 - 5790 CPU和64 GB的内存。本文的深度学习框架需要45和38个小时的培训时间CUHK-SYSU PRW数据集,分别。最初的学习速率是设置为0.001,体重的衰减率更新设置为0.9。此外,本文添加数据通过执行一个随机二维几何变换。该方法的行人识别速度接近实时。图书馆的形象,识别模型提出了大约需要1秒输出最终的识别结果。行人通过的主要计算成本在于每个库图像的排序结果。CUHK-SYSU,库图像的数量设置为200,该方法需要大约15秒来计算所有图书馆的余弦相似性搜索结果图像和分类查询。PRW 6112图书馆图像,它需要大约12分钟对搜索结果进行排序的所有库图像。
5.3.3。这种方法和其他主流方法之间的性能比较
在这里,该方法的性能比较与其他主流行人识别方法的性能。这些方法包括端到端肖等人提出的行人识别框架。71年和郑等人提出的方法。48)和其他主流方法,如表所示4。
(1)CUHK-SYSU数据集上的实验结果。表4显示了行人识别性能的CUHK-SYSU库图像大小设置为200,在CNN表示探测器部分(快R-CNN使用ResNet-50特征提取器(65年])和IDNet代表网络的“行人》”部分OIM框架(67年]。与CNN + IDNet相比,OIM提高性能通过引入联合优化检测和行人通过组件,但它仍然使用的识别策略,包括两个独立的阶段检测和行人》过程中》。相比之下,行人》提出了记忆识别方法,解决了行人的准确定位的问题通过LSTM-shallow深学习模式的学习选择辍学。它解决的问题准确人行》通过引入基于序列记忆学习模式。结果见表4验证行人通过本文提出的方法优于其他主流方法在地图上和(评价指标。
此外,地图实验是由三种方法:OIM, LOMO-XQDA,和提出的方法,在不同库图像库的设置图像大小分别被设置为(100,200,500,1500,3000,6000]。实验结果如图所示5,这表明,随着库图像数量的增加,地图逐渐减少,但本文的方法仍然是优于其他方法。这种方法优于OIM在每个库图像大小设置约4%。
(2)PRW数据集上的实验结果。这些实验也PRW数据集上执行比较此方法的性能与其他主流的方法。比较结果如表所示5。
在比较方法,AlexNet [10)是用作R-CNN探测器的基本网络。VGGNet [72年]和ResNet [73年)比AlexNet层参数和深度。然而,根据相关的讨论(48),AlexNet达到更好的性能比集成不同的识别器可变形模型(DPM)和聚合通道部分功能(acf)。具体结果如表所示5。与OIM的结果相比,我们的方法增加了地图和成绩排名前5.5%和7.0%,分别。此外,所有其他的主流方法使用五个边框为每个库的形象。然而,我们的方法达到更好的性能通过保持只有一个边界框为每个库图像测试期间。
上面的结果也表明,该方法能更好地确定生成的注意力地图在测试集样本PRW CUHK-SYSU数据集。此外,本文提出的方法有效地减少了搜索区域到正确的目标行人区域指导下包含reidentified的原始记忆的人。
5.4。示例3
5.4.1之前。测试数据集描述
为了更有效地分析性能的行人reidentification方法在这篇文章中,这个例子将使用当前最大的行人reidentification数据集市场- 1501 (74年进行实验验证和分析。数据集是由六个摄像头捕捉到的不同视角(5的1280×1080高清摄像机和1720×576 SD相机)。一些例子如图所示6。1501人的数据集包含32668个行人图像,每个出现在至少两个摄像头,可能有多个图像在一个相机。训练集和测试集的市场- 1501数据集。训练集有751人口,其中包括12936图像;测试组有750人,包括19732年的图像。测试集包含一个画廊集和查询集。所有图片的画廊是金刚石探测器检测到的。所有查询的行人检测矩形图像查询中设置手动绘制。
5.4.2。实验过程
这个实验中的所有图片用来训练行人受到数据增强如水平翻转,模糊随机作物,平底锅。训练集和测试集的划分是完全按照标准提出了(74年]。特征提取采用深学习模式提出了部分2这篇论文。对于每个时间步的输入区,ROI池层是应用在其conv4-3卷积地图。它使所有的特性映射到相同大小的规范化14×14×1024。查询行人图像,本文提取它们的大小为14×14×1024卷积特性以同样的方式。这些特征图然后反馈到体系结构提出了部分3这篇论文。本文使用Theano深度学习框架来实现相关的模型。这个实验平台的基本配置如下:NVIDIA GeForce GTX GPU,英特尔i7 - 5790 CPU和内存64 GB的。最初的学习速率是设置为0.001,体重的衰减率更新设置为0.9。
5.4.3。这种方法和其他主流方法之间的性能比较
为了更好地展示该方法的识别能力,该方法与其它主要流行reidentification方法相比,包括行人》提出的算法基于双流式网络Suh et al。75年),人工语义analysis-deep学习行人reidentification Kalayeh提出的算法等。76年),深度学习行人reidentification方法基于局部卷积基线网络提出的太阳et al。77年),和其他主流方法(78年,79年),如表所示6。
从表可以看出6行人》框架提出了(78年)是否有最低的识别影响地图或排名前。这是因为方法不基于行人的特征模型,以及模型使用较少的数据进行训练。它直接导致贫困识别后者。深上优于行人通过算法(79年)优越的方法(78年地图和()。这主要是由于更好的集成行人图像特征的方法建模过程提出了(79年]。地图的准确性的方法获得的(75年- - - - - -77年)在80%以上,(超过90%的准确性。进一步表明,基于深层学习方法可以更好地整合行人的特征图像和训练更适合行人识别模型。
行人reidentification方法本文取得最好的结果在地图和(在所有行人reidentification算法。的地图,本文方法高出1% (76年,77年),2.9%,8.6%,14.5%高于[75年,78年,79年),分别。排名前而言,本文的方法是高于2.3%和3.6% [76年,77年),4.4%,6.2%,16.3%高于[75年,78年,79年),分别。这主要是因为行人通过对介绍了一种优化算法深度学习模型。它解决问题的深度学习模型的参数初始化和过度拟合。因此,它可以充分发挥深度学习的优势和特征模型。同时,行人通过算法在本文介绍了序列记忆学习模式。它可以充分获得内存特性和行人图像的序列特征,进一步探讨行人图像特征。因此,行人识别算法提出了达到最佳的识别性能。
6。结论
目前行人》方法基于深度学习有各种各样的问题,包括缺乏内存和预测机制,无效LSTM参数初始化,和过度拟合问题。基于人类的认知过程,本文模拟人类记忆和预测机制,设计一个记忆学习模式将行人图像转换成图像序列。模型还学习记忆序列和模式实现快速、准确的记忆和识别行人图像。此外,有效执行人行》,一个行人通过模型基于序列记忆学习设计。该模型被应用到候选人提出行人》框架来确定图像序列的模式分别在每个候选区域。此外,本文提出了一种基于浅选择性辍学方法学习使用分类器通过浅学习修改的重量的概率隐层的节点将被设置为0,以消除过度拟合现象的深度学习模型。最后,本文提出了一种贪婪的分层技术pretraining LSTM算法来初始化。将所有这些改进,本文提出了一个行人通过算法基于一个优化LSTM深学习顺序内存模型。
行人的基本思想通过对本文算法如下:首先,它使用深学习模式提出了提取256年从一个行人图像特征图;然后,它使用候选区域提取算法来生成一些行人图像roi。接下来,行人识别算法作为候选区域提取算法。后,根据每个RoI的位置,一个本地特性映射对应的RoI提取整个地图。最后,这些特征图转换为特征序列和输入序列模式识别的序列记忆学习模式。输出值接近1时,RoI是一个行人;当输出值接近于0,RoI被认为是背景。
在这篇文章中,三个实验结果验证了该算法对四个不同的行人,包括培训和测试数据集,然后与其他现有的流行》和检测算法。实验结果表明,该方法不仅能达到更高的平均精度比其他主流方法但也超过了排名前得分明显比其他主流算法。
数据可用性
数据和代码用于支持本研究的结果包括在本文中。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究是由中国国家自然科学基金(61701188)、中国博士后科学基金会(2019号m650512)和山西省自然科学基金(201801 d221171)。