文摘
RGB-IR交叉模式人鉴定(ReID)可以被视为一个摄像机实现检索问题,旨在与行人被可见光和红外摄像机的图像。大部分的现有方法专注于减少通过特性表示学习形态差异。然而,他们忽略了两者之间的巨大的差异在像素空间形式。与这些方法不同,我们利用像素和功能定位网络(PFANet)减少像素空间模态差异调整特征在特征空间。我们的模型包含三个组件,包括特征提取器,发电机和联合鉴别器。和以前的方法一样,发电机和联合鉴别器是用于生成高质量的图像交叉模式;然而,我们取得实质性改进特征提取模块。首先,我们融合批量标准化和全球关注(BNG),可以关注渠道信息而进行信息互动渠道和空间。其次,为了缓解模态特征空间上的差异,我们建议模态缓解模块(嗯)。通过共同培训整个模型,我们的模型不仅能够减轻交叉模式和intramodality变化也学习identity-consistent特性。 Finally, extensive experimental results show that our model outperforms other methods. On the SYSU-MM01 dataset, our model achieves a rank-1 accuracy of和一个地图 。
1。介绍
人里德可以被视为一种cross-camera图像检索问题,其目的是在查询匹配单个行人图像集的一个画廊集是由不同的摄像头捕捉到的。其主要挑战在于组间和组内差异引起的不同的照明,姿势,遮挡,和视图。大多数现有的方法(1- - - - - -5)主要集中在匹配的RGB图像捕捉到可见的相机,可以制定作为一个单一模式下图像匹配问题。然而,这些方法不能应用于拍摄的图像在照明条件差,因为可见相机无法捕捉照片与歧视的特性。然而,在实际应用场景,摄像机应保证全天候运行。
从可见的相机在夜间安全保卫工作的影响有限,相机可以切换红外模式被广泛应用于智能监控系统。在可见的模式和红外模式,RGB图像和红外图像收集,分别属于两种不同的形式。RGB图像有三个通道,但红外图像只有一个频道,所以交叉模式设置的里德问题变得极具挑战性,这本质上是一个横跨海峡的检索问题。首先,红外图像不同的身份很难区分但在可见图像很容易区分。此外,同一个人在不同的形式千差万别。它被称为形态差异。
解决可见红外人里德,几种方法(6- - - - - -10)已经提出,旨在减轻模态差异的调整特性或像素分布。功能定位方法(6,8,10之间的鸿沟)主要集中在RGB和红外图像特征。很难匹配RGB和红外图像在一个共享空间将大交叉模式这两个模式之间的区别。不同于现有的方法,直接匹配RGB和红外图像,我们使用生成对抗网络产生假的红外图像基于真实RGB图像,然后通过功能定位网络匹配生成的图像。生成的假红外图像是用来减少RGB和红外图像之间的形态差异。虽然生成的假红外图像非常类似于真实图像,由于姿势的变化,仍然存在组内差异角度变化和遮挡。
灵感来自上面的讨论中,在本文中,我们提出一个像素和功能定位网络(PFANet),同时减轻交叉模式差异像素空间和intramodality特征空间的变化。如图1,减少模态的区别,我们应用生成器作假的红外图像。缓解intramodality变化,特征提取模块(F)的目的是虚假和真实红外图像编码到一个共享特征空间利用基于身份的分类和三联体的损失。批规范化和全球(BNG)注意添加到特征提取网络(F),使网络学习频道以及可以更重要渠道和空间之间进行交互。此外,减轻空间模态的不同特性,提出了一种模态缓解模块(嗯),它可以显著减轻这两个模式之间的区别。最后,学习identity-consistent识别,鉴别器是利用。它的输入是一个图像特征。
这项工作的主要贡献可以概括如下:(我)我们提出一种生成对抗网络生成交叉模式图像像素空间模态差异减轻。该模型由一个生成器和一个联合鉴别器,通过玩游戏一个不等式性质,我们的模型不仅能够减少交叉模式和intramodality变化也学习identity-consistent特性。(2)我们设计一批标准化和全球(BNG)的关注,包括频道关注和全球关注。频道的关注,我们测量每个通道的重要性,通过应用BN到通道尺寸的比例因子和抑制无关紧要的功能。至于全球关注的模块,它可以减少信息衰减和放大功能的全球维度交互。(3)我们应用模态缓和模块(嗯)减轻模态分布。实例正常化(在)是用来减轻模态差异在一个实例。此外,英吉利海峡的注意力用于指导的学习,可以减轻模态差异,同时保留身份信息。
2。相关的工作
2.1。RGB-IR人里德
里德RGB-IR交叉模式的人可以被视为一个摄像机实现检索问题,旨在匹配行人被可见光和红外摄像机的图像,这是广泛应用于视频监控、公共安全、智能城市。而RGB-RGB single-modality人里德这只处理RGB图像,这项工作的关键挑战是减轻这两个模式之间的巨大差异。应对挑战所引起的形态分布的差异,多种方法交叉模式提出了再次鉴定的人。一些早期的工作集中在解决通道不匹配RGB图像和红外图像,由于RGB图像有三个渠道。相比之下,红外图像只有一个通道。吴et al。10)提出了一种深补零网络和SYSU-MM01里德贡献了一个新的数据集。在[11),双路径网络双向dual-constrained一流的损失被介绍给学习形态对齐功能RGB-IR里德表示。冯et al。12)提出了一个框架,用于解决异构使用modality-specific网络的匹配问题。你们et al。13)提出了一个dual-stream网络特征学习和度量学习两种异构形式转换成一个一致的形式分享一个度量空间。戴et al。6]介绍了交叉模式生成对抗网络(cmGAN)减少分布RGB和红外特性之间的区别。最上面的方法主要集中在通道间的差异减少功能对齐,而忽略了大的像素空间的交叉模式差异。
与这些方法不同,本文提出的模型能够结合特性校准和像素的对齐方式,有效地减少intramodality和交叉模式变化。通过训练模型,该模型能够学习身份一致性特性。
2.2。氮化镓亲自里德
生成敌对的网络(GAN)由发电机和一个鉴别器,利用博弈论的观点,在发电机试图生成一个图像来欺骗鉴别器,和鉴别器试图辨别是否真实或生成图像。通过多个对抗训练,生成对抗网络能够学习深self-supervised的方式表示的数据。氮化镓可以生成高质量的图像,进行图像增强,从文本生成图像,将图像从一个域到另一个(14,15]。GAN最初在2014年提出的16]。之后,研究人员提出各种特定于任务的氮化镓结构,如CycleGAN [14],Pix2Pix [17],StarGAN [15]。有许多行人鉴定领域的作品同样适用GAN提高准确性。李等人。18)提出了一个网络,允许查询过程cross-resolution人里德不同分辨率的图像。王等人。19)设计了一个端到端对齐生成对抗网络(AlignGAN) RGB-IR里德的任务。JSIA-ReID [20.)实现一个两层对齐像素和甘特性在一个统一的框架。
在我们的工作中,我们应用氮化镓生成交叉模式图像减轻在像素空间模态RGB-IR图像数据之间的差异。
2.3。注意机制
在人类的视觉系统是一个重要的特性,允许人们有选择地关注感兴趣的事情为了获取有价值的信息。灵感来自于人类的视觉系统,许多作品都试图使用注意机制来提高cnn的性能。
注意机制使网络专注于感兴趣的领域对人体和更好的提取有用的信息。SENet [21)空间信息集成到通道级功能反应和计算相应的关注与中长期规划两个层次。之后,瓶颈关注模块(BAM) (22)建立独立的空间和通道并行子和嵌入到每一个瓶颈。考虑到地图的任何两个位置之间的关系特性,外地功能(注意23提出了)来捕获它们之间的关系。卷积块关注模块(CBAM) (24)顺序级联频道注意和空间的关注。然而,这些作品忽视了信息的权重调整培训;因此,我们想强调的重要特性,利用方差训练模型的权重,这也能增强大交互和捕获的所有三个维度的重要特征。我们提出新的关注(BNG)来解决上述问题。模态缓解模块(嗯)旨在减轻模态分布,使用通道注意指导的学习实例正常化(在)减轻模态差异,同时保留身份信息。
3所示。该方法
在这一部分中,我们详细介绍该PFANet。我们的网络将在接下来的三个部分,包括(1)RGB-IR图像生成模块,(2)BNG关注模块,和(3)模态降低模块。减少交叉模式变化,我们应用生成对抗网络将RGB图像转换成假的红外图像,具有红外风格在保持原来的身份。
然后,两个模式的特征提取为特征对齐。BNG注意力的目的是使网络关注渠道和空间信息。此外,模态缓解模块(嗯)提出了减轻两个模式之间的差异。的主要输出在测试期间PFAnet里德是人的特性。
3.1。RGB-IR图像生成模块
有一个大交叉模式区别RGB和红外图像,大大增加的困难的任务交叉模式行人鉴定。减少交叉模式变化,我们应用生成对抗网络将RGB图像假的红外图像 ,红外风格在保持原来的身份。生成的假的红外图像可以减轻RGB和红外图像之间的形态差异。该模块由一个发电机产生一个假的红外图像从RGB图像和联合鉴别器歧视是否生成的图像是一个真正的图像或图像。生成器的输入是真正的图片 ,和它的输出是假的红外图像 。鉴频器的输入生成的是假的红外图像 ;如果图像是真实的,它的输出是1,如果图像生成的图像,输出是零。发电机的目标是使生成的图像尽可能接近真实的图像,和鉴频器的目的是区分尽可能多的输入图像是否真实或生成。与普通鉴别器,输入我们的鉴别器是一对红外图像和里德特征图。发电机和鉴别器玩min-max游戏(16),而模态可以假的红外图像尽可能的真实。
生成红外图像的对抗性的损失被定义如下: 在哪里
其中,提取图像的特征吗和提取的图像特征生成的图像吗 。方程(1)用于训练发电机模型;损失函数的约束后,发电机将生成一个更实际的红外图像。方程(3)和(4)用于火车鉴别器,与传统的鉴别器的不同之处在于,输入的图像特征是一对。它有两个优点,首先,假的红外图像更接近真实的红外图像吗通过不等式性质的游戏16),和的分布特性假的红外图像将会更加接近真实图像的特性 。其次,能够保持identity-consistency通过相应的图像吗约束。虽然损失可以确保假的红外图像就像真正的红外图像 ,无法保证生成的假红外图像保留原文的结构和内容RGB图像 。为了处理这个问题,我们引入一个发电机生成红外图像RGB图像和相应的鉴频器 。我们也介绍cycle-consistency损失定义如下:
损失使生成的红外图像与输入一致的真实的RGB图像。我们使用L1范数的L2范数,因为L1范数允许发电机产生更好的图像边缘。具体来说,我们输入真正的RGB图像到发电机产生假的红外图像然后使用发电机生成的RGB图像从假的红外图像。我们做一些类似于红外图像。
现在,发电机的损失可以定义如下: 在哪里周期的重量损失和吗设置为10,(14]。通过使用这种损失在对抗训练,我们可以生成高质量的红外图像。
3.2。BNG关注模块
我们建议BNG注意力是一种有效的和轻量级的注意机制。BNG关注年底可以嵌入任何卷积神经网络,对剩余网络ResNet-50;结束的剩余结构可以嵌入。BNG图所示的结构2。
BNG注意力包括两个子模块,如图2(一);通道注意子模块可以使用重量信息训练模型的突出特征。我们从批处理获得其比例因子归一化(BN [25])所示 在哪里和是小批量的平均值和标准偏差和和可训练的参数被用来适应数据分布。
频道关注的公式可以表示如下: 在哪里每个通道的比例因子,得到权重是吗 。我们测量每个通道的重要性,通过应用BN到通道尺寸的比例因子和抑制无关紧要的功能。因为通道的注意力只集中在渠道信息,没有全球space-channel信息交互;为了解决这个问题,我们设计一个全球关注的模块。它可以减少信息衰减和放大功能的全球维度交互。灵感来自CBAM [24),该频道注意和空间注意依次连接。主要结构如图2(b)。考虑到地图输入功能 ,中间状态和输出定义如下: 在哪里和分别的通道和空间注意地图。表示element-wise乘法。
通道注意子模块使用3 d安排保护信息在三维空间中,然后使用一个两层的MLP层,放大了通道跨维度的空间依赖性。通道注意子模块如图3。
在子模块空间的关注,关注空间信息,两个卷积层用于融合空间信息。卷积核的大小设置为 。自从max-pooling减少信息和负面影响,我们删除max-pooling操作保留更多的功能。相同的减速比采用从频道关注子模块,BAM一样。空间注意子模块没有群卷积图所示4。
3.3。模态缓解模块(嗯)
减轻模态分布模态缓解模块(嗯)设计。对输入图像X,我们表示卷积块的特征提取 并输入到嗯, 代表的高度、宽度和渠道的特征映射 ,分别。实例正常化()用来减轻模态差异在一个单独的实例27]。实例正常化(中)在一个单独的实例计算均值和方差和减少之间的区别这两个数据分布。然而,直接使用在可能有负面影响在里德的任务。由于图像数据的分布有了较大的变化,一些标识信息可能丢失。
为了克服这些缺点,我们使用频道关注指导的学习,旨在缓和模态差异,同时保留身份信息。具体来说,我们输入功能到一个两层的MLP downsample频道然后upsample原数量的渠道和使用激活函数激活特性作为一个面具监督操作: 在哪里是代表标志通道,通道面具,然后呢instance-normalized输入的结果吗 。
类似于SENet [21),生成一个面具的方法与渠道维度可以表示如下: 在哪里 和 可学的参数在两个偏离的完全连接(FC)层,这是紧随其后的是ReLU激活函数和乙状结肠激活功能 。 表示全球平均池的特性。为了平衡性能和减少参数的数量,将采样率设置 。
例如规范化的公式定义如下: 在哪里计算每个维度的均值和吗是计算每个维度的标准差。为了避免除以零,我们添加分母, 的j维度特征地图吗 。
3.4。损失函数
在本节中,我们将介绍我们使用的损失当训练生成器来生成一个假的红外图像 。一方面,应该归类到同一个身份类对应的 ;另一方面,应该满足三联体损失(28)相应的身份约束。我们定义这两个损失和并表示在 在哪里是属于真实身份的预测概率;假的红外图像的真实身份应该一样的原始RGB图像吗 。
虽然生成的图像可以减少交叉模式差异,仍有大量intramodality差异引起的照明,人类的姿势,和视图。我们减少了假的红外图像和真正的红外图像在共享空间通过基于标识的分类和三联体的损失。我们定义这两个损失和并表示在 在哪里代表了概率预测输入属于真实身份,和意味着欧盟集。总之,我们的模块的总体损失所示 和通过方程计算(1)和(2)。 , , ,和通过方程计算(14)和(15),分别。其中, , , , ,和 。
4所示。实验
4.1。数据集和设置
我们评估模型SYSU-MM01 [10]。SYSU-MM01是一个非常受欢迎的RGB-IR里德数据集;它包含行人图像被六个摄像头,包括两个红外摄像机(camera3和camera6),和四个自然光线摄像机(camera1, camera2、camera4 camera5)。对于每一个行人,至少有400名RGB图像和红外图像用不同的姿势和观点。其中,296 id用于培训,99 id用于验证和96 id用于测试。后(29日),有两种测试模式,即。,all-search mode and indoor-search mode. For the all-search mode, all images are used. For the indoor-search mode, only use indoor images from 1st, 2nd, 3rd, and 6th cameras. Both modes employ single-shot and multishot settings, in which 1 or 10 images of a person are randomly selected to form a gallery setting. Both modes use IR images as probe sets and RGB images as gallery sets.
评估协议:我们使用累积匹配特性(CMC)和平均平均精度(地图)作为评价指标。后(29日),结果SYSU-MM01评估使用官方代码基于10个重复的意思是随机分裂的画廊和探针集。
实现细节:我们使用ResNet-50 (30.]pretrained ImageNet CNN骨干,使用其pool5层的输出特性映射 ,和使用平均池获得特征向量 。我们添加BNG-attention ResNet-50每一层的残块,嗯模块在第三和第四层。三联体损失,我们使用FC层映射特性向量V到256 -维嵌入向量。损失分类,分类器的特征向量V作为输入,并包括一个256 -暗完全连接(FC)层,其次是批正常化(25),辍学,RELU作为中间层,和一个FC层身份证号码分对数作为输出层。辍学率被设置为0.5。我们使用PyTorch实现模型,图像增强的数据水平翻转,和批处理大小被设置为72(9人,每个4 RGB图像和红外图像)。学习速率,生成模块的学习速率和鉴别器模块设置为0.0002使用亚当优化器和优化。我们设置分类器和嵌入0.2和CNN SGD 0.02和优化他们的支柱。
4.2。与其他方法的比较
在本节中,我们将我们的方法和几种不同的交叉模式人里德方法包括以下方法:(1)用不同的结构和损失函数,二束(10),一个流(10,补零10],BCTR [13],BDTR [13],D-HSME [26),和DGD + MSR (12)学会modality-invariant特性并使它们在特征空间和(2)cmGAN [6]和JSIA [20.使用生成的对立网络(甘斯)生成交叉模式红外图像;他们减轻模态像素空间的差异。实验结果如表所示1。
在表1,我们可以发现有很多评估协议,即。,所有搜索/ indoor-search和单发/多孔;首先,同样的方法,indoor-search执行比所有搜索,因为图像背景的变化减少室内模式,和匹配是容易。其次,单发的等级分数低于的多重射击,但地图成绩单发高于多孔的。这是因为,在多孔模式中,有十个图片画廊设置,而在单发,只有一个形象。因此,多孔模式下,更容易达到一个图像但很难达到所有图片。这种情况下逆单发模式。
R1、R10和R20表示等级1,Rank-10, Rank-20准确性 。地图上表示的意思是平均精度得分 ,和我们的模型显示了良好的性能。与JSIA相比,我们的模型实现在等级1和在地图上的单发设置所有搜索模式。indoor-search单发设置的模式,我们的模型达到1级精度和一个地图 。室内的多孔设置搜索,我们的模型达到1级精度 ,和一个地图 ,这是高于JSIA和 ,分别。
4.3。烧蚀研究
在本节中,我们设计消融实验测试的有效性BNG模块和嗯模块。我们的烧蚀实验的数据集上执行SYSU-MM01和使用的单发设置所有搜索模式。
影响BNG模块:烧蚀实验的结果为BNG关注如表所示2。与基准模型(B)相比,通过添加BNG注意,1级精度和地图是提高了和 ,证明的有效性BNG关注。
嗯模块的影响:如表所示2嗯,模型(B +嗯)达到1级精度和一个地图 ,这是高于基线(B)和 ,分别。证明我们提出嗯模块具有良好的性能。
4.4。可视化生成的图像
发电机模型的更直观的理解,我们在图显示,学会了假的红外图像5。如图5,第一行是真正的RGB图像,中间是假生成器,生成的红外图像,最后一行是真正的红外图像。我们可以观察到假的红外图像具有相似的内容(例如,姿势和视图)和维护相应的身份真正的RGB图像虽然有红外样式。因此,生成的假红外图像之间的桥梁RGB和红外图像和像素空间可以减少交叉模式差异。
5。结论
在本文中,我们提出了一种新的像素和功能定位网络(PFANet) RGB-IR里德的任务。模型由一个特征提取器,一台发电机,联合鉴别器。BNG注意力和嗯模块设计的特征提取模块。通过这两个模块,该模型不仅减轻形态差异,也注意到和全球信息频道。产生的交叉模式红外图像生成器,可以之间的桥梁RGB和红外图像,减少交叉模式变化。烧蚀实验验证了每个模块的有效性。广泛SYSU-MM01数据集实验说明我们的模型实现了先进的性能。
数据可用性
SYSU-MM01数据用于支持这项研究的结果已经存入“Rgb-infrared交叉模式人鉴定”存储库(http://isee.sysu.edu.cn/project/RGBIRReID.html)。
的利益冲突
作者宣称没有利益冲突。
确认
这部分工作是由中国国家自然科学基金(批准号。51906217,51906217,62176237),联合基金中国浙江省自然科学基金(批准号LZJWZ22E090001),浙江省自然科学基金(批准号下LQ20F020024),杭州AI重大科技创新项目(2022 aizd0061)。