Quadruplet-Based跨通道深处散列

文摘

最近,受益于散列的存储和检索效率和深层神经网络强大的区别的特征提取能力,跨通道深处散列检索吸引了越来越多的关注。保护跨通道的语义相似实例在哈希映射过程中,大多数现有的跨通道深处散列方法通常用成对学习深哈希网络损失或三联体的损失。然而,这些方法可能没有完全探索跨形式的相似关系。为了解决这个问题,在这篇文章中,我们介绍一个成套的损失为跨通道深处散列和提出一个quadruplet-based跨通道深处散列(称为QDCMH)方法。广泛的实验在两个基准跨通道检索数据表明,我们建议的方法达到最先进的性能和展示在跨通道散列成套的效率损失。

1。介绍

随着大数据的时代,互联网上有大量的多媒体数据飙升,比如图像、视频和文本。这些数据通常存在于多样化的形式,例如,可能存在一个文本数据和音频数据描述视频数据或图像数据。由于数据从不同的方法可能有紧凑的语义相关性,跨通道检索(1,2]提出检索语义相似的数据从一个形态在查询数据从一个不同的形态。受益于高效率、低成本,hashing-based跨通道检索(跨通道散列)3- - - - - -6已经引起广泛的关注。跨通道散列的目标是将模态异构数据映射到一个共同的二进制空间和确保语义相似/不同的跨通道数据相似/不同的哈希码。跨通道散列方法通常可以实现性能优越;尽管如此,大多数现有的跨通道敏感哈希散列方法(如跨通道相似(CMSSH) [7)、语义相关性最大化(SCM) (8),semantics-preserving散列(SePH) [9,广义的语义保留哈希(GSPH) [10学习])是基于手工制作的功能,不能有效地捕获异构的不同形式之间的相关性,从而可能导致低劣的性能。

在过去的十年中,深卷积神经网络(11,12)已经成功地使用在许多计算机视觉任务,因此,一些研究者也将其部署在跨通道散列,如跨通道深处散列(DCMH) [13],成对关系指导深哈希(PRDH) [14),self-supervised敌对的散列(SSAH) [15],triplet-based深哈希(TDH) [16]。跨通道散列方法与深层神经网络有效整合学习和散列表示散列函数学习到一个端到端的框架,它可以更有效地获取异构跨通道之间的相关性,从而获得更好的跨通道检索性能。

到目前为止,大多数跨通道深处散列方法利用成对损失(如[13- - - - - -15])或三联体损失(如[16)保持语义相关性在散列表示学习过程。然而,成对的损失和三重态通过散列方法遭受泛化能力薄弱从训练集与测试集(17,18),如图1(一)。相反,成套的损失,提出了利用图像散列检索(17和人reidentification18),在这些作品中,已经证明,通过四症模型可以提高泛化能力。因此,跨通道散列组合成套的损失作为一个自然的解决方案来提高跨通道的性能散列,如图1 (b)。

(一)

(b)

为此,在本文中,我们介绍了成套的损失为跨通道散列和提出一个quadruplet-based跨通道深处散列方法(QDCMH)。具体来说,QDCMH首先定义了一个quadruplet-based跨通道语义保护模块。后来,QDCMH集成了这个模块,散列表示学习,哈希代码生成到一个端到端的框架。最后,两个基准跨通道检索数据集进行实验来验证该方法的性能。我们提出的主要贡献QDCMH包括以下:(我)我们引进成套的损失在跨通道检索并提出一种新颖的跨通道深处散列方法。我们所知,这是第一个工作将成套的损失引入跨通道散列检索。(2)我们进行广泛的实验基准跨通道检索数据集来调查我们的提议QDCMH的性能。

本文的其余部分组织如下。部分2阐述我们的提议quadruplet-based跨通道深处散列方法。部分3礼物QDCMH的学习算法。部分4实验结果和相应的分析。部分5总结我们的工作。

2。该方法

在本节中,我们详细提出quadruplet-based跨通道深处散列(QDCMH)方法有以下部分:符号,quadruplet-based跨通道语义保护模块,功能学习网络和哈希函数的学习。图2介绍了我们提出的流程图QDCMH,配合quadruplet-based跨通道语义保护模块,散列表示学习,和哈希码生成到一个端到端的框架。在我们建议的QDCMH方法中,我们假设每个实例有两个模式,即。,an image modality and a text modality, but they can be easily applied to multimodalities.

(一)

(b)

图2

流程图的quadruplet-based跨通道深处散列(QDCMH)方法。QDCMH包括三个步骤:(1)quadruplet-based跨通道语义保护模块,(2)一个古典卷积神经网络用于学习image-modality特性和TxtNet SSAH [15]采用学习text-modality特性,和(3)联运成套的损失是用来有效地捕获相关的语义信息在学习过程特性和量化的损失是用来减少信息损失在哈希码生成程序。(一)成套的 ,利用图像实例检索三个文本实例: , ,和。和至少有一个共同的标签,而和 , 和 ,和和三个两两实例和每个成对的两个实例没有共同的标签。(b)成套的 ,利用文本实例检索三个图像实例: , ,和。和至少有一个共同的标签,而和 , 和 ,和和三个两两实例和每个成对的两个实例没有共同的标签。

2.1。符号

假设训练数据组成图像文字对,即。,the original image features 和原文功能。除此之外,有一个标签向量与每一对图像文字和标签向量矩阵对所有培训实例构成标签。和相应的原始尺寸的图像特征和文本特征,分别和类类别的总数。如果图像文字对连接到th类别,然后 ,否则。成套的表示,从图像形态是一个查询实例, 三个检索实例的文本形态,在哪里和至少有一个共同的类别,而和 , 和 ,和和三个两两实例和每个成对的两个实例没有共同的标签。

与已知的成套的 ,我们提出的目标QDCMH是学习相应的哈希码 ,在哪里实例的哈希码吗 ,分别。学习上面的哈希码,我们首先学习散列表示从四胞胎之一深层神经网络, 和散列表示的实例吗和 ,分别。和散列表示学习函数图像形态和文本形态,分别。和是深层神经网络的参数提取图像形态特征和文本形态,分别。其次,我们可以利用以下符号函数大约散列表示映射到相应的哈希码,即, 和。同样,我们可以学到成套的哈希码。为了方便起见,我们表示所有训练图像文字对的哈希码,所有训练图像的散列表示实例,和散列表示的训练文本实例 , ,和 ,分别在哪里哈希码的长度是:

2.2。Quadruplet-Based跨通道语义保护模块

在跨通道散列检索给定图像实例和一个文本实例 ,保持语义是棘手的相对论在散列码学习过程模式穿越巨大的语义鸿沟。为了解决这个问题,DCMH [13)定义成对损失相似/不同的图像文字对映射到相似/不同的哈希码。TDH [16)利用三联体丧失学习类似的哈希码类似的跨通道实例和为语义无关紧要的跨通道实例生成不同的哈希码。成对的损失和三重态损失都可以保存在原始实例空间相关性;然而,成对的损失——和三联体通过散列方法常常遭受较弱的泛化能力从训练集与测试集(17,18]。为了解决这个问题,在这一节中,语义保留quadruplet-based跨通道模块提出了提高泛化能力和更好的保护跨通道的语义相关性散列。

对于一个成套的 ,我们应该保持语义相关性不变散列表示学习期间,也就是说,应该是类似于 , 应该是不同的和 ,和应该是不同的。因此,我们可以定义以下成套的损失跨通道散列: 在哪里是一个查询实例的图像形态, , ,和三个检索实例的文本形态和和语义相似。而和 , 和 ,和和三个两两的实例,每个成对的两个实例具有不同的语义。方程(2)表示,类似的跨通道成对的散列表示实例的距离应该小于不同的成对的实例(从通道间和intramodalities)与积极的保证金。这可以确保类似的跨通道实例相似而不同情况下具有不同的哈希散列表示表示。通过这成套的损失,跨通道语义相关性可以保存在散列表示学习阶段。

同样,成套的 ,我们可以有以下跨通道成套的损失: 在哪里是一个查询实例的文本形态, , ,和从图像形态,是三个检索实例 , , ,和散列表示实例吗 , , ,和 ,分别为,和是两个积极的利润。方程(3)不同方程(2)查询实例的形态和检索实例的形态是逆。

2.3。学习和散列表示散列码学习

为每个成套的训练集,很容易学习他们的散列表示,充分保护的语义相似度高于quadruplet-based跨通道语义相关性保护模块,我们有以下学习损耗散列表示: 在哪里是利用图像检索文本的四胞胎,是四胞胎的数量,利用文本检索图像,然后呢是一个hyperparameter平衡两个部分。

此外,学习质量的哈希码,我们从学习生成哈希码散列表示的符号函数方程(1),最后哈希码矩阵生成所有训练图像文字对如下:

作为和是实值特性,减少信息损失的和来在方程(5),需要力量和尽可能接近 ;因此,我们引入量化损失如下:

将散列表示损失和量化损失在一起,整个损失函数如下: 在哪里是hyperparameter平衡损失和散列表示量化损失。

2.4。特征提取的网络

在QDCMH,特征提取包括两个深层神经网络:一个经典的卷积神经网络用于提取图像的特点和多尺度融合模型是利用学习从文本功能。具体来说,对于图像形态,我们部署AlexNet [11]在ImageNet pretrained [19数据集。然后调整最后一层使用一种新的完全由散列连接层隐藏的节点。因此,学习已经嵌入深度特性 - - - - - -维汉明空间。用于文本形态,TxtNet SSAH [15使用),包括一个三层前馈神经网络和多尺度(MS)融合模型。

3所示。学习算法的QDCMH

QDCMH,我们利用交流学习策略参数深层神经网络的图像形态和参数深层神经网络的文本形态和哈希码矩阵所有训练图像文字对。当我们学习之一 , ,和 ,我们保持其他两个固定。具体算法QDCMH中描述算法1。

	输入:
训练数据集: 。算法的最大数量的时代。Mini-batch大小。
	输出:
参数 , 的深层神经网络,和相应的哈希码矩阵。
(1)	生成四胞胎(名为 )从训练集,生成四胞胎(名为 )从训练集。
(2)初始化深层神经网络参数 , ,整个训练图像散列表示 ,整个训练文本散列表示 ,哈希码矩阵 ,和时代的数字。
(3)重复
(4)为做
(5)随机样本图像构建一个mini-batch图像。
(6)为每一个实例mini-batch,计算向前传播。
(7)更新。
(8)计算的导数在方程(7)。
(9)更新网络参数利用反向传播。
(10)结束了
(11)为做
(12)随机样本文本从构建一个mini-batch文本。
为每个实例(13)mini-batch,计算向前传播。
(14)更新。
(15)计算的导数在方程(7)。
(16)更新网络参数通过使用反向传播。
(17)结束了
(18)更新使用方程(5)。
(19)直到马克思时代数量。

3.1。更新与和固定

当和保持固定,我们利用随机梯度下降法和反向传播优化神经网络参数。

3.2。更新与和固定

当我们修复的值和 ,我们使用随机梯度下降法和反向传播学习深层神经网络参数。

3.3。更新与和固定

当深层神经网络的参数和保持不变,哈希码矩阵可以优化方程(5)。

4所示。实验

4.1。数据集

调查QDCMH的性能,我们进行实验两个基准跨通道检索数据集:MIRFLICKR-25K [20.)和微软COCO2014 (21),表中列出的数据集的简要描述1。


数据集	使用	火车	查询	检索	标签尺寸	标签

MIRFLICKR-25K	20015年	10000年	2000年	18015年	1386年	24
MS-COCO2014	122218年	10000年	5000年	117218年	2026年	80年

4.2。评价指标

在我们的实验中,我们利用意味着平均精度(地图) - - - - - -精密曲线(上曲线),precision-recall曲线曲线(PR)作为评价指标;这些评价指标的详细描述,请参考[22,23]。

4.3。基线和实现细节

我们比较建议QDCMH方法有八个最先进的跨通道散列方法,包括四个手工制作的,即。,跨通道相似敏感哈希(CMSSH)方法(7),semantics-preserving散列(SePH) [9)方法,语义相关性最大化(SCM)方法(8,广义的语义保留哈希(GSPH)方法(10)和四个深的特点,即。,deep cross-modal hashing (DCMH) method [13],成对关系指导深哈希(PRDH)方法(14),self-supervised敌对的散列(SSAH)方法(15],triplet-based深哈希(TDH)方法(16]。最基本的方法是仔细根据作者提供的代码实现。一些基线方法实现我们的建议和描述原始文件。

所有的实验都使用开源的深度学习框架执行pytorch和NVIDIA GTX泰坦XP GPU服务器上运行。在我们的实验中,我们设置 , ,和学习速率是初始化并逐步下降到500年时代。对于那些手工制作的基于功能的基线,每张图片的两个数据集是由一袋的话(弓)直方图或特征向量有512维度。整个实验中,我们使用表示使用一个查询返回的文本和图像表示使用查询文本时返回一个形象。

4.4。绩效评估和讨论

首先,我们调查QDCMH hyperparameters不同的性能和。为了这个目标,我们实验MIRFLICKR-25K散列码的长度并记录相应的地图在不同的值和 ,如图3。我们发现时可以获得高绩效和。

(一)

(b)

其次,验证QDCMH的性能,我们进行实验比较QDCMH基线方法而言,地图数据集MIRFLICKR-25K MS-COCO2014。表2介绍了每种方法的映射为不同的散列码长度,即。16、32和64。DSePH代表的SePH方法由CNN-F原始图像的特征提取。从表2下面,我们可以看到。(1)提出的地图QDCMH高于大多数基线的地图方法在大多数情况下,这表明QDCMH的优越性。我们也可以观察到SSAH优于比我们提出QDCMH在大多数情况下,这部分是由于SSAH考虑了self-supervised学习和生成对抗网络在散列表示学习过程。(2)地图QDCMH总是高于TDH的地图,这表明,成套的损失可以保留语义相关性比三联体损失跨通道散列检索。(3)地图DSePH总是高于SePH的地图,这表明深层神经网络的强大学习能力特性。(4)我们建议QDCMH可以实现更好的性能比MIRFlickr-25K MS-COCO 2014数据集的数据集,这部分是由于2014年MS-COCO实例数据集属于80个类别而MIRFlickr-25K数据集属于24类的实例,这使得产生的四胞胎MS-COCO 2014数据集有更好的泛化能力比四胞胎MIRFlickr-25K产生的数据集。


任务	方法		MIRFlickr-25K			MS-COCO
任务	方法		16位	32位	64位	16位	32位	64位

我T	手工制作的方法	CMSSH [7]	0.5600	0.5709	0.5836	0.5439	0.5450	0.5410
		SePH [9]	0.6740	0.6813	0.6803	0.4295	0.4353	0.4726
		SCM (8]	0.6354	0.6407	0.6556	0.4252	0.4344	0.4574
		GSPH [10]	0.6068	0.6191	0.6230	0.4427	0.4733	0.4840
	深的方法	DCMH [13]	0.7316	0.7343	0.7446	0.5228	0.5438	0.5419
		PRDH [14]	0.6952	0.7072	0.7108	0.5238	0.5521	0.5572
		SSAH [15]	0.7745	0.7882	0.7990	0.5127	0.5256	0.5067
		TDH [16]	0.7423	0.7478	0.7512	0.5164	0.5222	0.5276
		DSePH [9]	0.7128	0.7285	0.7422	0.4621	0.4958	0.5112
		QDCMH	0.7635	0.7688	0.7713	0.5286	0.5313	0.5371

T我	手工制作的方法	CMSSH [7]	0.5726	0.5776	0.5753	0.3793	0.3876	0.3899
		SePH [9]	0.7139	0.7258	0.7294	0.4348	0.4606	0.5195
		SCM (8]	0.6340	0.6458	0.6541	0.4118	0.4183	0.4345
		GSPH [10]	0.6282	0.6458	0.6503	0.5435	0.6039	0.6461
	深的方法	DCMH [13]	0.7607	0.7737	0.7805	0.4883	0.4942	0.5145
		PRDH [14]	0.7626	0.7718	0.7755	0.5122	0.5190	0.5404
		SSAH [15]	0.7860	0.7974	0.7910	0.4832	0.4831	0.4922
		TDH [16]	0.7516	0.7577	0.7634	0.5198	0.5332	0.5399
		DSePH [9]	0.7422	0.7578	0.7760	0.4616	0.4882	0.5305
		QDCMH	0.7762	0.7725	0.7859	0.5245	0.5398	0.5487

第三,进一步研究QDCMH的性能,我们绘制precision-recall曲线和顶部 - - - - - -精密QDCMH曲线和基线数据集MIRFLICKR-25K方法与散列码长度64,微软COCO2014,分别提出了在数字4和5。从这个图中,我们可以看到precision-recall曲线和顶部 - - - - - -精密曲线是几乎一致的映射表2。

(一)

(b)

(c)

(d)

(一)

(b)

(c)

(d)

5。结论

在这篇文章中,我们介绍一个成套的损失在跨通道深处散列完全保留原有的语义相关性跨通道四实例,提出一个基于成套的跨通道深处散列方法(QDCMH)。QDCMH集成quadruplet-based跨通道语义相关性保护模块,学习哈希表示,哈希代码生成到一个端到端的框架。实验在两个基准跨通道检索数据证明我们提出QDCMH的效率。

数据可用性

实验数据集和相关设置中可以找到https://github.com/SWU-CS-MediaLab/MLSPH。实验代码用于支持这项研究的结果将被存入github库出版后本文或可以提供的xitaozou@sanxiau.edu.cn。

的利益冲突

作者宣称没有利益冲突。

引用

赵y彭、黄x和y,“跨媒体检索的概述:概念、方法、基准,和挑战,”IEEE电路和系统视频技术,28卷,不。9日,第2385 - 2372页,2017年。视图:出版商的网站|谷歌学术搜索
s . k . Wang问:阴,w . Wang, l·王,“全面调查跨通道检索”多媒体,2016,https://arxiv.org/abs/1607.06215。视图:谷歌学术搜索
c·邓·e·杨,t·刘,道,“二束深与职业专用监管中心图片搜索哈希,“IEEE神经网络和学习系统没有,卷。31日。6,2189 - 2201年,2019页。视图:出版商的网站|谷歌学术搜索
w·c·邓·e·杨,t . Liu Liu和d .道,“无监督semantic-preserving敌对的散列图片搜索,”IEEE在图像处理事务ID 2903661条,卷。28日,2019年。视图:出版商的网站|谷歌学术搜索
李c, e·杨,c·邓,w·刘,j·李·d·道,“共享预测跨通道深度量化,”IEEE神经网络和学习系统卷,29号11日,第5303 - 5292页,2018年。视图:出版商的网站|谷歌学术搜索
e·杨,t·刘邓,道,“汉明空间搜索对抗的例子,”IEEE控制论,50卷,不。4、1473 - 1484年,2018页。视图:出版商的网站|谷歌学术搜索
m·m·布罗斯特a . m .布罗斯特f·米歇尔和n . Paragios“数据融合通过交叉模式度量学习使用similarity-sensitive哈希,”2010年IEEE计算机学会学报计算机视觉与模式识别会议,页3594 - 3601年,旧金山,美国,2010年6月。视图:出版商的网站|谷歌学术搜索
张和W.-J。李,“大规模监督与语义相关性最大化,多通道散列”《28日AAAI会议上人工智能,28卷,不。1,页2177 - 2183,魁北克市,魁北克,加拿大,2014年7月。视图:谷歌学术搜索
林z, g .叮,m . Hu和j·王,“cross-view检索Semantics-preserving哈希,”学报2015年IEEE计算机视觉与模式识别会议(CVPR),页3864 - 3872,波士顿,MA,美国,2015年6月。视图:出版商的网站|谷歌学术搜索
d . Mandal k·n·乔杜里,s . Biswas“广义语义保留哈希n-label跨通道检索”学报2017年IEEE计算机视觉与模式识别会议(CVPR)火奴鲁鲁,页4076 - 4084年,美国,2017年7月,你好。视图:出版商的网站|谷歌学术搜索
a . Krizhevsky i Sutskever, g·e·辛顿“Imagenet分类与深卷积神经网络,”ACM的通信,60卷,不。6,1097 - 1105年,2012页。视图:出版商的网站|谷歌学术搜索
k . x张,他任美国,j .太阳,“深残余学习图像识别,”学报2016年IEEE计算机视觉与模式识别会议(CVPR)拉斯维加斯,页770 - 778年,NV,美国,2016年6月。视图:出版商的网站|谷歌学术搜索
徐瑞秋江和W.-J。李,“深cross-mmodal哈希,”学报2017年IEEE计算机视觉与模式识别会议(CVPR)火奴鲁鲁,页3232 - 3240年,美国,2017年7月,你好。视图:出版商的网站|谷歌学术搜索
e .杨c·邓w·刘,刘x, d .道和x高,“成对关系指导深散列跨通道检索”美国31日AAAI会议在2017年人工智能美国,旧金山,CA, 2017年2月。视图:谷歌学术搜索
c, c·邓:李,w . Liu x高,d .道,“Self-supervised敌对的哈希网络跨通道检索”学报2018年IEEE / CVF计算机视觉与模式识别会议,页4242 - 4251,盐湖城犹他,美国,2018年6月。视图:出版商的网站|谷歌学术搜索
刘邓,z, x, x高,d .道,“Triplet-based深散列跨通道网络检索”IEEE图像处理,27卷,不。8,3893 - 3903年,2018页。视图:出版商的网站|谷歌学术搜索
l . j .朱z . Chen赵,s .吴”对图像检索Quadruplet-based深哈希,”Neurocomputing卷,366年,第169 - 161页,2019年。视图:出版商的网站|谷歌学术搜索
w·陈,陈x, j·张,k .黄”超越三联体损失:深rre-identification成套的网络人,”计算机视觉和模式识别2017年,页403 - 412,https://arxiv.org/abs/1704.01719。视图:谷歌学术搜索
j .邓w .咚,r . Socher et al .,“大规模的分层图像数据库,”学报2009年IEEE计算机视觉与模式识别会议,页248 - 255,迈阿密,佛罗里达,美国,2009年6月。视图:出版商的网站|谷歌学术搜索
m . j . Huiskes和m . s .卢米尔flickr检索评价”学报第一ACM国际会议上多媒体信息检索,页39-43,纽约,纽约,美国,2008年10月。视图:出版商的网站|谷歌学术搜索
T.-Y。林,m . Maire s Belongie et al .,“微软可可:常见的上下文中的对象,”计算机视觉的欧洲会议大会2014年苏黎世,页740 - 755年,瑞士,2014年9月。视图:出版商的网站|谷歌学术搜索
x, x邹,e . m .,他和吴,“Self-constraining和引起散列bit-scalable跨通道网络检索,“Neurocomputing卷,400年,第271 - 255页,2020年。视图:出版商的网站|谷歌学术搜索
邹x, x, e . m .,他和吴,“多标记基于语义保留深跨通道哈希”图像信号处理通信,卷93,不。9篇文章ID 116131 2021。视图:出版商的网站|谷歌学术搜索

计算智能和神经科学