文摘

跨通道异构多媒体数据哈希编码成紧凑的二进制代码在不同的形式实现快速和灵活的检索。由于其较低的存储成本和检索效率高,它已经收到了广泛的关注。监督深哈希显著提高搜索性能,通常会产生更精确的结果,但需要大量的人工注释的数据。相比之下,非监督深哈希是很难获得令人满意的性能由于缺乏可靠的监管信息。为了解决这个问题,启发知识蒸馏,我们提出一种新颖的无监督知识蒸馏跨通道基于语义一致性哈希方法(SAKDH),它可以重建相似矩阵使用隐藏pretrained无监督教师模型的关联信息,以及重建相似矩阵可用于指导监督学生模型。具体来说,首先,老师模型采用语义一致性哈希的方法,可以构造一个模态融合相似性矩阵。其次,老师的监督下蒸馏模型信息,学生模型可以产生更多的歧视哈希码。实验结果在两个广泛的基准数据集(MIRFLICKR-25K和NUS-WIDE)表明,几个具有代表性的无监督跨通道散列方法相比,意味着平均精度(MAP)的方法取得了明显改善。它充分体现了大规模跨通道数据检索有效性。

1。介绍

目前,移动互联网和社交网络的迅速发展,智能终端,视频监控,等,被广泛使用,所以大量的多媒体数据(图像、文本、视频、音频等)每天生成。因此,跨通道检索(1- - - - - -5和应用受到了人们的广泛关注。跨通道检索的目标是寻找语义相关的实例从不同的方法,例如,使用文本实例作为查询点找到图像具有相同的语义。为了满足快速检索的检索要求速度和小的存储空间在现实世界中,哈希方法使用二进制哈希代码来表示原始数据,和时间复杂度可以达到常数或次线性近似最近邻搜索的应用程序中。它广泛用于跨通道检索。

跨通道散列(1,5- - - - - -8)是最流行的一种检索方法,即大规模高维跨通道数据映射到一个共同的二进制哈希的空间。通过压缩成一个短的二进制代码,每个实例跨通道的散列方法大大提高了检索速度和存储效率。根据是否利用监督信息,跨通道散列可以分为两种方法:无监督和监督方法。监督方法”(3,6,9]手动标签需要昂贵的劳动力成本和计算,和语义标签可以进一步用来了解更多一致的语义相关的跨通道数据的哈希码,通常产生更精确的结果。无监督的方法(7,10,11)大大降低计算成本和更容易部署到实际的场景,同时达到降低性能。

近年来,由于性能优良的深层神经网络在许多经典场景(12,13),它可以用作非线性哈希函数实现端到端特征表示和哈希编码,所以跨通道深处散列吸引了越来越多的关注,获得了很大的发展。较浅的方法使用手动提取特性学习哈希码,跨通道深处散列方法(2,5,14,15)直接学习汉明函数从原始数据的映射空间,这是更有效的找到潜在的原始数据和哈希代码之间的关系。

虽然无监督跨通道散列优势在减少的负担人工注释的数据和更广泛应用在真实的场景中,其准确性往往不尽如人意,尤其是与监督方法相比。最主要的原因是缺乏成对相似性的知识训练数据对。无监督模式的输出通常包含一些不准确的语义信息。因此,我们专注于改善的准确性无监督学习方法,而在现实世界中更广泛的应用。

在本文中,我们提出一种新颖的无监督跨通道基于语义一致性哈希方法使用知识蒸馏(SAKDH),解决了缺乏监督的问题信息通过蒸馏数据对可靠的语义相似度。具体地说,我们的方法包括两个模块:教师模块是一个无人管理的模块,学生模块是一个监督模块;老师模块得到的蒸馏数据,然后使用它来监督学生的培训模块。

利用知识蒸馏的想法,我们使用老师和学生模型结合这两种方法的优点(监督和非监督)。在监管方法,最重要的信息是每一对跨通道数据之间的相似性。培训后,无监督教师模型可以输出每个实例的特征向量,和类似的信息可以通过计算它们的特征向量之间的距离。简而言之,本文的主要贡献如下:(1)我们迁移知识蒸馏而言不啻场景,提出了一个新颖的无监督跨通道深处散列方法,它可以重建相似矩阵使用隐藏pretrained无监督教师模型的关联信息,以及重建相似矩阵可用于指导监督学生模型。这是一个新颖的方法,使用无监督方法来指导监督而言不啻。(2)语义一致性哈希的方法采用老师模型,可提高歧视哈希代码的能力。学生模型采用成对的共同损失和三重态;这些损失函数不仅适用于联运,但内部。这可以使原来的语义相关的实例,其散列码也保留语义相关性。(3)实验结果在两个广泛的基准数据集(MIRFLICKR-25K和NUS-WIDE)表明,几个具有代表性的无监督跨通道散列方法相比,意味着平均精度(MAP)的方法取得了明显改善。它充分体现了大规模跨通道数据检索有效性。

跨通道检索方法可分为两类:非监督方法和监督方法。监督而言不啻方法(9,16- - - - - -20.)通常使用的标签信息输入的图像文字对最大化他们的语义相似性在汉明空间和使用一些方法使不同形式学习统一的哈希码,这是有效的跨通道检索,一直得到广泛的研究。因为深层神经网络性能优良的非线性表示学习,许多监督跨通道深处散列方法(15,21)取得了出色的表现,跨通道检索任务。这些监督方法可以获得相关信息从图像和文本的语义标签,从而实现更好的性能。然而,获得大量的标签往往是昂贵和复杂,使得监督方法不切实际的在实际的应用程序。与监督方法相比,无监督跨通道的方法(10,22,23)不依赖于语义标记在培训过程中,使其更容易部署到实际的场景。然而,更难学,和相关研究相对不足。

2.1。无人监督的浅跨通道哈希

无监督跨通道散列方法可分为浅方法和深度的方法。CVH [7)是一个代表早期浅的无监督方法,使用cross-view学习浅哈希函数散列。IMH [11]使用光谱哈希变换异构数据跨通道到汉明空间统一学习。CMFH [24)学习统一散列码合作跨通道数据的分解特性矩阵。CCQ [25]共同发现相关性最大的映射变换不同的形式同构潜在空间和学习复合量化器将同构潜在特性转换成紧凑的二进制代码。LSSH [26)使用稀疏编码捕捉形象和获得的突出结构通过矩阵分解文本的基础概念,探索隐藏在数据的语义信息。这些方法不能有效地捕获不同的模态数据的复杂非线性映射到汉明的空间,这么多的无监督跨通道的方法引入深层神经网络学习的哈希码构造一个非线性映射数据的哈希码。

2.2。无监督跨通道深处散列

随着深度学习的发展,跨通道深处散列方法近年来成为主流(10,22,23,27- - - - - -30.]。DBRC [31日)提出了深之间的二进制重建跨通道中保持一致性哈希和模式。UDCMH [28]共同优化特征学习和二值化的过程和学习一个统一的二进制代码。DJSRH [29日]构造联合语义相似度矩阵基于邻居信息的不同方法,提出了深联合重建语义散列跨通道检索。JDSH [27)完全保留了跨通道之间的语义联系实例通过构造joint-modal相似矩阵和相似性决定,基于分布的加权方法。UKD [30.)使用无监督方法指导监督方法所生成的输出,利用师生优化传播知识。UGACH [22和排序32)培养网络在一个敌对的学习方式,通过跨通道的对手。MGAH [33]UGACH扩展到多通道检索中五个形式,但这些敌对的方法有困难等问题在训练和高时间复杂度。

虽然无监督跨通道散列优势在减少的负担人工注释的数据和更广泛应用在真实的场景中,其准确性往往不尽如人意,尤其是与监督方法相比。最主要的原因是缺乏成对相似性的知识训练数据对。无监督模式的输出通常包含一些不准确的语义信息。因此,我们专注于改善的准确性无监督学习方法,已广泛应用于真实世界的场景。灵感来自知识蒸馏的想法,我们使用的输出无监督模型指导监督模型。也就是说,我们使用蒸馏的知识援助模式训练。

3所示。该方法

知识蒸馏可以使用更复杂的模型(老师),培训指导轻模型(学生)训练,以减少大小的模型和计算资源,在试图维持原来的大型模型的准确性。我们建议SAKDH方法,概括为一句话,是培养学生网络和软标签的输出老师网络。在这项工作中,我们使用的输出无监督方法指导监督跨通道散列方法。图1显示该SAKDH框架。

3.1。柔软的相似性

不啻的关键是识别哪些图像/文本对语义相关和无关的语义,使模型能够学会拉相关的特性对靠近公共空间。一个常见的方法是定义一个相似矩阵 , 表明,这些图像/文本对正样本对,反之亦然。这种方式被称为硬相似。如果 , 是[0,1]之间的真正价值;这就是我们所说的软相似。在我们的蒸馏模型,输出是柔软的相似性。我们可以用图中的例子2了解软相似性和硬相似的想法。除了积极的标签,消极的标签也携带大量信息;例如,一些负面标签的相应的概率远远大于其他人。在传统的培训流程(硬相似),所有负面的标签是0。换句话说,SAKDH的训练方法使每个样本给学生带来更多的信息网络比传统的训练方法。

3.2。问题定义

让我们先从一些本文中使用的符号。假设我们有n这可以表示为实例 ,和每个实例可以用一对图像文字描述 我们使用 , ,代表从ImageNet_T或TextNet_T,提取的特征向量 , ,表示图像或文本形态特征空间的维数。此外, , ,表示生成的哈希码的图像或文本形态、位置c表示代码长度。

3.3。无监督知识蒸馏

在无监督老师的模型中,我们分享的想法DSAH [34]。为了充分利用图像文字对,我们设计了一个无人管理的深层语义一致性损失函数,包括相似的语义一致性流失和对角线语义一致性的损失。可以使特征之间的相似性与哈希码之间的相似性在同一时间。

无监督跨通道散列方法,实例的注释是不可用的。从深层神经网络提取的特征包含丰富的语义信息,所以我们可以使用特性来构造相似矩阵没有注释。本文描述你的邻居关系汉明空间,我们计算成对余弦相似度矩阵和定义 图像形态, 文本形态, 之间的交叉模式的图像文字图像形态和文本形态。 同样的, , 我们也测量对样本的特征向量的相似度空间和定义 图像形态, 文本形态, 之间的交叉模式的图像文字图像形态和文本形态。我们使用训练有素的特性( )构建图像模态, 同样的,

3.3.1。相似的语义一致性

因为差异在跨通道的特性分布情况下,对应于二进制哈希代码的语义描述经常偏离的语义描述功能,导致一些偏差在搜索结果中。然而,最初的邻里关系对应不同的形式被保留为哈希码的相似性信息或功能。虽然相似信息计算在不同的模式,我们需要测量它在公共空间。因此,跨通道检索的核心是解决不同模式之间的相似信息的测量和校准。

为了解决这个问题,我们建议不同形式的相似性信息一致。我们计算相似度矩阵使用余弦相似性函数cos ()。首先,为了使相似信息的散列码intramodality相似信息的语义功能,损失函数定义如下: 在哪里 是一种交换参数来改善我们的相似度比对的灵活性。其次,为了进一步使相似性信息,我们从intramodality不仅使语义信息,但也从通道间对齐。我们使实例特征的相似性与哈希码不同模式之间的相似之处: 在哪里 代表之间的相似性 实例,通过加权求和 : 在哪里 , , 是权衡参数,用于调整不同形式的相似关系。最后,我们合并通道间的相似性对齐损失和intramodality:

3.3.2。对角线语义一致性

密切关注跨通道相似性矩阵,我们发现矩阵的对角元素 计算之间的图像文字对散列码,所以任何对角矩阵的成员应该等于1。为了减少对角元素的量化误差,增加相同的哈希码标签之间的相似性,我们可以定义以下公式:

此外,图像文字对一个矩阵的对角元素相同的对称元素。例如,对称的元素 ,这两个组织的label-pairs由第一图像文字的标签和标签的第二图像文字。因此,我们可以通过最小化对称统一非对角元素损失:

最后,斜对齐是制定损失

我们结合相似对齐损失和斜对齐损失老师模块得到最后的无监督老师损失模型,如下所示: 在哪里 是相似性对齐和对角线排列损失损失,分别。

3.4。监督学生模型

无监督教师模型的训练后,我们得到软相似矩阵 为了保持语义相关性的不同模式,两个情态动词的学习过程(图片和文字)监督的相似性矩阵 首先,一个好的散列码应该有区别的能力内部保留语义信息。恰恰相反,有效的哈希码每个模式可以提高cross-mode检索的性能。因此,我们的目标函数包括两种类型:intramodality相似保存(intramodality三连音的损失)和联运相似保存(联运成对和三重态损失)。

灵感来自DTSH [5),我们使用三联体标签作为监督信息描述的相对语义关系三个数据构建三联体网络和挖掘更多的语义信息,提高检索的准确性。在三联体抽样,是不可行的样本所有三元组由于内存大小和计算资源约束。要解决这个问题,我们使用mini-batch三合抽样的方法。图像模式构建的三联体形式如下: ;文本实例 图像语义无关吗 , 是相反的。同样,文本形态三联体形式 为了更好地保留在汉明训练样本空间的语义相似度,增强学习哈希码的辨别力,目标函数分为两个部分:(1)的内部模式三联体损失和(2)联运三联体的损失。

3.4.1。内部三联体损失

为了进一步使生成的哈希代码更准确,不仅有必要保留模式的语义相似度,而且我每个模态的基本语义信息提高辨别力的哈希码,从而改善跨通道检索的检索性能。因此,我们引入了内部三联体作为目标函数的一部分损失。内部模式三联体损失图像模态可以获得如下: 在哪里 同样,内部三联体损失在文本模式可以获得如下: 在哪里 通过添加方程(9)和(10),内部三联体损失可以得到如下:

3.4.2。联运三联体损失

为了达到有效的跨通道散列检索,我们添加联运三联体损失目的损失函数有效地捕获异构相关交叉。因此,联运三联体损失图像文本如下: 在哪里 同样,联运三联体损失从文本图像如下: 在哪里 通过添加方程(12)和(13),联运三联体的损失可以得到如下:

显然,配方的优化(14)可以减少锚样本之间的汉明距离和积极的样本,同时增加锚之间的汉明距离样本和负样本,以便保留尽可能多的高阶语义信息的样本。通过添加联运三联体损失和内部三联体的损失,总三联体损失可以得到如下:

3.4.3。联运成对损失

哈希码不同形式可以有效地保持语义相似度。这是一个很自然的选择使用联运成对损失跨通道检索。成对的标签表示为的联运可能性 在哪里 ;从TextNet_S哈希码的文本形式输出 因此,联运成对表示为损失

优化公式(17)可以减少之间的汉明距离两个类似的实例有不同的形式,扩大之间的汉明距离两个不同的实例。因此,不同的模式实例之间的语义相似度可以被保留下来。总体目标函数写成如下: 在哪里 正则化条件和吗 是权衡参数。

3.5。模型和实现细节

对于无监督老师模型,提出了(28- - - - - -30.),我们使用VGG19 [35)网络为骨干网络来提取图像特征,最后分类层fc8取而代之的是一个散列层。特别是,我们从fc7层中提取4096 -维的向量ReLU激活后原始图像特征。同时,文本形态,我们使用弓嵌入文本功能。TextNet_T包含两个完全连接层和生成连续的特性。

另一方面,监督学生模型,受SSAH [15),我们使用网络结构的一部分,保留图像网络和文本网络,但丢弃其区别的模块。模型由两个深层神经网络,用于图像形态和文本形态,分别。ImageNet_S批量大小和TextNet_S固定在128年。两个网络的特征空间的维数是4096,和散列空间的维数相同的散列码的长度。我们在图分析hyperparameters敏感性报道3。此外,实验中使用的深度学习框架TensorFlow V1.15,和深度学习英伟达GTX 1070 ti GPU加速卡。

4所示。实验

我们进行了充分的实验在两个受欢迎的基准数据集NUS-WIDE [36]和MIRFLICKR-25K [37为了证明它的性能。

4.1。数据集

MIRFLICKR-25K包含25015张图片,每一个都有一个相应的文本描述,所以每个实例样本是一对图像文字。在这个数据集有24类,每个实例样本被至少一个标签。我们使用了20015个样本,其中2000被用作查询集,其余的用于检索。我们一个4096维的特征向量提取pretrained 19-layer VGGNet代表每个图像和代表每个文本样本作为1386 -维弓向量。

NUS-WIDE数据集是一个相对较大的数据集,269498张图片和81标签。每个图像对应一些文本描述。我们保留了十大最常见的概念,所以我们以186577对text-image结束。我们保留1%(1865)的数据作为查询数据库和检索集。每个图像是由4096维的特征向量,并且每个文本是由1000 -维弓向量。在我们的实验中,两个跨通道的具体实现细节数据如表所示1

4.2。评价指标

为了验证我们方法的可行性,我们使用两个评估标准来评估该方法:意味着平均精度(MAP)和最高K精密曲线。地图是最常用的指标之一,共同评估搜索准确性和排名。——顶部K精密代表不同数量的检索实例下的精度。在实验中,我们使用两个检索任务跨通道检索:image-query-text(通过图像检索文本查询)和text-query-image(检索图像通过文本查询)。

4.3。实验结果

我们选了一些代表性的比较来验证方法的有效性提出SAKDH方法。总共有8无人监督的散列方法,包括四个浅跨通道散列方法和四个跨通道深处散列方法。CVH [7],IMH [11],CMFH [24],LSSH [26]浅的方法,而DBRC [31日],UDCMH [28],DJSRH [29日],JDSH [27)深度的方法。公平,比较法适用相同的设置在原来的工作。

4.3.1。结果MIRFLICKR

2显示的结果MAP@50 MIRFLICKR,包括两个cross-mode检索任务与四个不同长度的散列码。——顶部K精密曲线如图3(一个)3 (b)。从表中可以看出,所有比较方法相比,SAKDH总是最好的。特别是,CMFH最好的无监督浅方法相比,我们的方法提高了超过23.3%和19.5%不同的散列码长度在MIRFLICKR两个检索任务。前最好的模型(JDSH)相比,我们的方法仍然得到最好的结果;我们实现改进的2.2%,2.3%,1.1%,1.3%,image-to-text检索任务不同的位,分别。我们策划-K精密曲线的方法。我们发现SAKDH保持最佳性能在image-to-text任务和text-to-image任务。这表明,我们的方法提高精度通过语义一致性和知识蒸馏。

4.3.2。结果NUS-WIDE

3列出了MAP@50 NUS-WIDE所有方法的结果。我们进一步策划——顶部K精密曲线在图3 (c)3 (d)。NUS-WIDE是一个困难和具有挑战性的数据集。与MIRFLICKR相比,它有更多的样本和更复杂的内容,我们的方法仍然领先,但比MIRFLICKR以较小的优势。与JDSH相比,我们的方法仍然领先。重要的是要注意,只有SAKDH可以提取和保留不同实例的相似性,导致比其他方法更好的性能。此外,SAKDH可以进一步提高性能通过蒸馏数据对学习更准确的相似关系。从图3,我们的方法的准确性仍相对稳定,与其他方法不同,当检索点的数量很大,精度明显降低。

上面的这两个数据集上实验结果验证SAKDH的优越性和表明,我们的方法可以证实其有效性为跨通道检索和桥梁形态差距比其他比较的方法。

4.4。烧蚀研究

为了进一步证明SAKDH的每个部分的有效性,我们设计了一些变异评价不同模块的影响,证明SAKDH的优越性。列出了三个变量如下:(1)SAKDH-1是变体没有斜对齐模块。(2)SAKDH-2是变体对齐模块没有相似之处。(3)SAKDH-3没有学生模块的变体。

我们把MIRFLICKR-25K数据集作为一个例子来显示每个模块的结果,如表所示4。可以看出,每个模块在SAKDH中扮演一定的角色。特别是SAKDH-1的结果表明,斜对齐模块可以减少错误和偏差造成的不对称I2T的相似矩阵和T2I之间。SAKDH-2的结果显示相似的重要性对齐模块,可以对齐哈希码从不同的形式和特点。此外,SAKDH-3表明学生模块的性能将大大提高地图的结果,所以学生模块是一个非常重要的组件。

4.5。参数的敏感性

在深入学习,调整hyperparameters系统上可能有一个非常重要的影响。在本节中,我们评估几个权衡参数对结果的影响。在MIRFLICKR MAP@50的结果作为一个例子,数字4(一)- - - - - -4 (c)显示precision@top——的结果K。的参数 可以大大提高我们的相似性比对的灵活性。我们调整了参数 和得到最好的结果 与此同时,我们也观察到的影响参数 , , 对性能。这三个参数以不同的方式调整邻里关系的重要性。我们旨在hyperparameters , , 并尝试用重的程度从0到1的参数。最后,设置 , , MIRFLICKR和设置 , , NUS-WIDE。

5。结论

这项工作提出了一种新颖的无监督语义基于知识的跨通道一致性哈希方法蒸馏(SAKDH),可以学习一种蒸馏信心相似的信号。蒸馏的方法指导监督方法从无监督方法获得的信息。老师的监督下蒸馏信息模型、学生模型可以生成更多的歧视哈希码。与几种典型的无监督跨通道检索方法相比,SAKDH达到更好的检索性能两个广泛使用的跨通道的数据集。

数据可用性

支持本文来自之前报道的数据集和数据集的研究,已被引用。处理数据是可用的。MIRFlickr可以访问http://press.liacs.nl/mirflickr/,NUS-WIDEhttps://lms.comp.nus.edu.sg/wp-content/uploads/2019/research/uswide/NUS-WIDE.html

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作是支持的部分基础研究基金为中央大学和东华大学研究生创新基金(没有。cusf - dh - d - 2020092),中国重庆市教育委员会科技项目(KJQN201900520)和陕西省科学技术厅基金会金桥(2019 - 901)。