高效图像检索的深度二值表示

摘要

随着快速增长的数字图像中的每一天上传的，高效的基于内容的图像检索就变得很重要。散列方法，它表示二进制码，并使用判断相似度汉明距离图像的装置，被广泛用于其优点在接受存储和搜索速度。对于图像A良好二进制表示法是图像检索的决定因素。在本文中，我们提出了有效的图像检索新的深散列方法。我们提出了一种算法来计算目标散列码，其指示的不同内容的图像之间的关系。然后目标散列码被馈送到深网络进行训练。深网，DBR和DBR-V3的两个变体，都提出了图像数据库的不同大小和规模。训练结束后，我们深深的网络可以产生的散列码与不同内容的图像大的汉明距离。在标准的图像检索基准测试实验表明，我们的方法优于其他国家的最先进的方法，包括无监督，监督，和深哈希方法。

1.介绍

随着存储技术的飞速发展，每秒钟就有数百万张图片被上传和存储在互联网上。对于一个查询图像，如何高效地从大型数据库中定位一定数量的内容相似的图像是一个巨大的挑战。速度和准确性需要仔细平衡。这种任务就是基于内容的图像检索(CBIR) [1- - - - - -4，一种通过自动提取颜色、纹理和形状等特征来检索图像的技术。还有一些cir的应用，如基于手绘草图的图像检索[5]其查询图像是抽象和含糊不清的草图。在CBIR中，派生功能不容易存储。从百万甚至数十亿图像搜索是非常耗时的。

图像的二值表示是一种新兴的处理CBIR任务存储和搜索速度的方法。此方法称为散列方法，工作分为三个步骤。首先，使用哈希函数将数据库图像(图库图像)映射为二进制代码并存储在存储设备上;典型的长度是48位。然后计算查询图像的二进制码与存储二进制码之间的汉明距离。汉明距离查询图像最小的图像表示相似的内容，应该被检索。建议的哈希方法的一些例子见[6- - - - - -11.］.

散列方法的关键部分是它用于推导散列码的功能。所有散列方法的过程包括特征提取;功能质量直接影响检索精度。最近，卷积神经网络（CNN）在高度取决于特征提取，如图像分类，已经证明了其在任务中的显着性能[12.]、自然语言处理[13.]，以及视频分析[14.］.基于CNN的方法优于这些区域中的先前领导者，这表明CNN可以学习代表图像的语义信息的鲁棒特征。一个非常自然的想法是利用深度学习来学习紧凑的二进制哈希代码。以下语义哈希[15.]使用CNN的深度散列方法显示了基于内容的图像检索的高性能。

在本文中，我们提出了一种新的有监督的深度散列方法，用于学习压缩散列码来执行基于内容的图像检索；我们称之为深度二进制表示（DBR）。本文是这项工作的扩展版本[16.］.我们的方法是一个有三个主要步骤的端到端学习框架。第一步是从点向标签信息生成最优目标哈希码。第二步是通过精心设计的深度网络的训练过程，同时学习图像特征和哈希函数。第三步是通过哈希函数将图像像素映射到紧凑的二进制码，并进行图像检索。与其他深度哈希方法相比，我们的方法有以下优点。

我们深厚的哈希网络进行训练，与计算出的目标散列码。目标散列码是最佳的，不同的标记物之间的汉明距离被最大化。方法，如[17.]从深网络中层派生哈希代码。我们的方法从输出层产生哈希代码。这种方法更直接并显示出更好的性能。

我们的训练过程是点式的;一个训练样本由一个图像和一个目标哈希码组成。与成对相比[18.]及三联法[19.，20.当训练过程需要两幅或三幅图像作为一个训练样本时，训练时间大大缩短。我们的训练过程是线性时间算法，而不是上面提到的指数时间算法。

我们的方法在小型图像数据集（如CIFAR-10）和相对大型的数据集（如ImageNet）上都达到了最先进的性能。对于大型图像数据集，我们进一步提出了一种基于inception-v3网络的体系结构[21.];我们叫它DBR-v3。DBR-v3在ImageNet数据集的图像检索方面实现了最先进的性能。当我们将DBR-v3应用到CIFAR-10时，可以实现15%的性能改进。

2.哈希方法概述

散列方法包括与数据无关的方法[22.]和依赖数据的方法[10.，23.- - - - - -26.］.第一类方法早有提出。最具代表性的是位置敏感哈希(LSH) [22.以及它的变体。哈希函数与训练数据无关。相反，他们做随机投影，将图像映射到特征空间。第二类从训练数据中学习哈希函数。由于额外的信息，数据依赖的方法比数据独立的方法表现更好。

数据相关方法可以进一步分为无监督的方法和监督方法。无监督的方法包括光谱散列（SH）[23.]迭代量化（ITQ）[26.］.这些方法从未标记的训练集学习哈希函数。为了更好地处理复杂的图像数据库，提出了有监督的方法从训练图像的标签信息中学习更好的哈希函数。例如，带核的监督哈希(KSH) [24.]需要有限的监督信息并实现高质量的散列。最小损失散列（MLH）[25.]该方法基于具有潜在变量和铰链式损失函数的结构化预测。二进制重建嵌入（BRE）[10.]开发了一种基于显式最小化原始距离和汉明距离之间的重构误差的哈希函数学习算法。非对称内积二进制编码[27.]是基于非对称散列函数的特殊散列方法。AIBC学习查询图像和数据集图像的两个不同的散列函数。它可以被应用到无监督数据集和监督的数据集。

上面提到的散孔方法使用的手工制作功能，这不足以足够强大，以便更复杂的语义相似性。此外，特征提取过程与哈希函数学习无关。最近，提出了一种称为深度散列方法的CNN散列方法来发布这些问题。CNN可以通过手工制作的功能了解更多代表性功能。此外，与以前的方法相比，大多数深度散列方法同时执行特征学习和哈希函数学习，并显示出很大的改进。已经提出了几种深度散列方法，并证明基于内容的图像检索具有更好的准确性。例如，CNNH [18.]提出了一种两阶段的深度哈希方法。它基于学习到的近似哈希码同时学习特征和哈希函数。深度成对监督哈希（DPSH）[28.]执行基于成对标签的学习。文献[29.]将哈希学习作为正则化相似学习的问题，同时通过三重样本学习哈希函数和图像特征。本文提出的方法优于上述方法。

3.该方法

我们的方法旨在找到一个哈希函数来解决基于内容的图像检索任务。鉴于训练图像属于分类，是原始RGB值的形式。标签信息被指出，．我们的目标是学习一个函数将输入图像映射到紧凑的二进制代码和 ,在那里表示哈希长度。哈希函数满足以下条件：

（1）和在汉明空间是相似的吗．

（2）和在遥远的汉明空间是什么时候．

数字1展示了我们系统的整个流程图和图2显示所提出的网络。提出了一个目标哈希码生成组件，以基于代码长度和类别号码生成用于培训的最佳哈希码。我们的框架包含一个CNN模型作为主要组件。通常，上一层CNN是软MAX分类层。我们用哈希层替换它节点。由于CNN模型的输出层已更改，因此我们需要新的输出信息来替换标签。哈希函数在训练模型串联起来修订函数。最后，我们使用训练有素的哈希函数来执行基于内容的图像检索。

图2

我们向CNN网络提出建议。上面部分是DBR网络，下面部分是基于inception-v3网络的DBR-v3网络。首先，根据哈希长度生成目标哈希码集和图像类别编号．再深的网络进行训练与原始图像和目标的散列码。最后，图像检索与散列函数，其为具有串联的训练的网络处理函数。

3．1.目标哈希码生成

3.1.1。正常情况下

目标哈希代码是数学上最佳的代码集码字;每个码字之间的汉明距离最大。我们使用目标哈希码和原始图像作为训练样本来训练整个网络。我们希望得到一个网络，它接受原始图像作为输入，并能将其映射到接近目标哈希码的二进制码。训练后的网络，用作哈希函数，生成满足目标的二进制代码。学习不同标签的图像之间的关系不是我们的目的。相反，我们的目的是教会网络如何将图像映射到二进制代码。这就是我们计算目标哈希码并将其提供给网络的原因，而不是让网络从原始标签中学习。这是我们的方法与其他方法的主要区别。此外，目标哈希代码生成组件使我们的学习成为逐点方式。我们不需要像[18.]，训练速度更快。我们的目标哈希代码的函数类似于自适应二进制量化（ABQ）中的原型代码[30.］.区别在于，在ABQ中，任何数据点的二进制代码都是由其最近的原型来表示的。哈希函数的输出二进制代码位于原型代码集中。在我们的方法中，目标哈希码仅用于训练。哈希函数可以产生不在目标哈希码集中的二进制码。

为了拟合目标哈希码长度，我们将原始CNN分类模型的最后一层替换为一个全连接层，称为哈希层节点。如何为图像生成目标哈希码不同的标签是这一部分的主要重点。下面是详细的问题描述和主要算法。

由于训练图像在类别，我们的目标是找到一个二进制码组与码字。任意两个码字之间的最小汉明距离应尽可能大。在更具体的方式，给定的二进制代码长度和码字号码，我们想找到一个代码集，，其最小汉明距离最大。这个优化问题可以首先分成更小的作业:给定代码长度和最小的汉明距离，查找大于的代码集码字。在那之后，重复这个过程更大直到找不到代码集。最后一个可以解决的为最大最小汉明距离。整个过程在算法中描述1. 请注意，这个优化问题是一个复杂的问题，没有固定的结果。不同的和，代码集的规模可能不是一定数量[31.]. 我们已经证明，在我们的实验案例中，我们的算法至少能够找到第二个最优解。考虑12类数据集的24位代码集，最好的解决方案是其最小汉明距离为13位的代码集。我们的算法将找到一个最小汉明距离为12位的算法。

输入:二进制代码长度，数量的类别
输出：代码集，满足
（1) codeset.add (0)
（2）对于（）做
（3）国旗= 0
（4）对于做
（5）如果汉明然后
（6）标志= 1
（7）打破
（8）如果标志== 0. 然后
（9）codeset.add (我）
（10）返回代码集
重复：使用以下方法执行算法，…直到代码集的长度大于．
选择最大的代码集中的码字，这将是目标哈希代码集。

例如，给定代码长度对于具有分类，用我们的算法，最低汉明距离生成一个代码集有16个码字。我们进一步尝试并且它导致一组具有4个码字，这不符合我们的需要。然后，我们随机选择从以前的一组10码字和目标散列码被构造为表1所示。


标签	十进制码	目标散列码

0	504	000111111000
1	1611	011001001011.
2	1652	011001110100
3.	1932	011110001100.
4	1971	011110110011
5	2709	101010010101.
6	2730	101010101010
7	2898	101101010010
8	2925	101101101101
9	3294	110011011110

3.1.2。语义不平衡状况

在某些情况下，不同的标签之间的语义关系不是均匀分布的。例如，在一个数据集的图像样本被分成3个不同的类别和它们的标签是．属于标签的图像和不同类别，但颇为相似。然而，标签的图片真的很远吗和．当我们输入一只猫作为查询图像时，我们希望在检索汽车之前先检索狗。目标哈希码需要重新设计;每个标签之间均匀分布的汉明距离是不合理的。在本例中，我们需要一个目标散列代码集之间的海明距离很小和．在这个例如，目标哈希代码集是一个合理的，因为猫和狗之间的汉明距离是2，其他是3。

为了生成这样的目标哈希码集，我们需要进一步的信息，称为语义关系矩阵．是一个矩阵。每个元素在里面显示标签之间的语义关系和标签．所以始终等于和．负数意味着更接近平均值，例如猫和狗。正数意味着比其他标签更多的异常关系。零值意味着两个标签和大多数值之间的正常关系应该为零。为了的例子,将是A. 矩阵。和为−1，其他均为0。为了生成这种语义不均匀的目标哈希码，我们需要对算法进行轻微的修改1．整个过程以算法显示2．唯一的区别在线．在比较生成的代码和已经生成的代码之间的汉明距离时，需要添加相应的在语义关系矩阵中定义的这两种代码．在算法2，表示中的值当前比较的代码。例如，如果我们正在生成第五个代码，并将其与当前代码集中的第一个代码进行比较，的价值．

输入:二进制代码长度，数量的类别，语义关系矩阵．意思是
相应的价值目前正在比较的两个代码。
输出：代码集，满足
（1) codeset.add (0)
（2）对于（做
（3）国旗= 0
（4）对于做
（5）如果汉明然后
（6）标志= 1
（7）打破
（8）如果标志== 0.然后
（9）codeset.add (我）
（10）返回代码集
重复：使用以下方法执行算法直到代码集长度大于．
选择最大的代码集中的码字，这将是目标哈希代码集。

例如，给定代码长度对于具有类别，语义关系矩阵定义如下。标签，，它们的汉明距离应该更近，所以呢．标签，，它们的汉明距离应该更大，所以呢．所有其他值都是零。目标哈希代码构造为Table2所示。前三个代码的汉明距离是4后三个代码的汉明距离是8。其他代码的最小汉明距离都是6。该代码集满足了不同标签之间的语义关系。据我们所知，没有数据集包含不同标签之间的数字定义语义关系。我们在这里声明我们的算法，以给出一个解决这种语义不均匀的标签情况的解决方案。


标签	十进制码	目标散列码

0	0	000000000000
1	15.	000000001111
2	51.	000000110011
3.	252	000011111100
4	853.	001101010101
5	874.	001101101010
6	1430	010110010110
7	1449	010110101001
8	2714	101010011010
9	3174	110001100110

3.2. 学习散列函数

使用标签信息和目标哈希代码集，我们可以构造新的训练集和训练样本;训练图像的原始RGB值和目标哈希码用于什么：

在准备好训练样本后，我们建立一个深度网络来学习将图像映射到哈希码。对于大小为左右的小图像数据集像素，我们基于相对较浅的卷积神经网络呈现DBR网络。对于具有图像大小的大图像数据集，我们构建了基于Inception-V3的DBR-V3的网络[21.］.

3.2.1之上。小图像的深度网络

对于小图像深度网络，我们称之为深度二进制表示(deep binary representation, DBR)。我们以CIFAR-10培训为例。我们在CIFAR-10中采用了一种广泛使用的简单的CNN模型，以实现快速检索。CNN通过卷积层和全连接层的连接，具有强大的学习图像特征的能力。如图所示2，我们使用32,32,64,44 卷积层的卷积核。 max池和Dropout被添加在第2和第4卷积层之后。下面的卷积层是两个完全连接的层，有512个节点和一个第一次之后就退学了。所有这些层都通过ReLU函数激活，以增加非线性。哈希层是一个完全连接的层节点，这取决于目标散列码的长度。对于较大，通过训练网络可以从输入图像中学习更多的特征，从而获得更好的性能。每个节点隐含输入图像的一个隐藏特征。s型函数范围为而在大多数情况下，都在于．它非常适合将输出索引到二进制代码。

目标哈希码包含了从图像中学习特征所需的所有信息，因此不需要专门设计损失函数;简单均方误差(MSE)损失函数效果很好。对于训练优化器，我们选择Adadelta [32.，因为它在速度和收敛点上有很好的平衡。在不对CNN模型进行大量修改的情况下，我们提出的模型可以在数百个训练周期内快速学习鲁棒哈希函数。

3.2.2。大图像的深度网络

对于大小相对较大的输入图像，如像素或类似大小，我们称之为DBR-v3方法。我们基于inception-v3建立了我们的深度网络[21.]. Inception net-v3是一个非常深的卷积神经网络，从Inception v1演化而来，有20多层[33.］.该网络在单帧评估中达到了21.2%的top-1和5.6%的top-5错误，每个推断的计算成本为50亿乘加，使用的参数小于2500万个。我们采用ImageNet预训练的inception-v3模型作为我们的基本模型，进行修改和训练。

我们对inception-v3做了一些修改，使其适合我们的散列函数。在最后一个全局池层之后，我们添加了一个完全连接的层，其中1024个节点通过ReLU函数激活。该层之后是散列层，一个完全连接的层，具有节点。新添加的层的权重随机初始化，其他层的权重为初始inception-v3的预训练权重。培训分两步进行。首先，我们对整个网络进行多个时代的培训。在顶层得到很好的训练后，我们冻结底层，并在几个时期内微调前2个初始阶段块。损失函数和训练优化器也是MSE和ADADDelta[32.］.

该网络接受输入图像像素。对于小图像数据集，我们用采样算法，使图像适合网络。这可以使进一步的性能提升相比原来的浅网部分3.2.1之上．这种性能的提高来自两个方面，预先训练的权重和更深层次的网络。

３．３．图像检索

在培训之后，我们将所有组件组合在一起以执行图像检索。我们训练有素的网络接受输入图像在原始像素，并给出一个输出．转换输出二进制散列码，我们重新定义了功能：最后，我们得到了我们的哈希函数：在哪里是我们提出的模型的输出。

在图像检索方面，我们将训练图像作为图像数据库，测试图像作为查询图像。图像检索过程搜索top数据库中最相似的图像。图像检索分为三个步骤。

第1步。地图培训图像到哈希代码．

第2步。对于每个查询图像，先算然后检索利用汉明距离的秩图像；较小的汉明距离较高。

第3步。比较检索图像和查询图像的相似性。然后根据结果对MAP中的性能进行评价。

4.实验

在这一部分中，我们陈述了我们的实验设置和结果。我们计算了不同数据集上图像检索的MAP（平均精度），并将其列在表中3.．我们在MNIST和CIFAR-10上应用我们的DBR方法，并在ImageNet上应用DBR-V3方法。此外，我们在CIFAR-10中覆盖图像，并将DBR-V3应用于它。对于每种方法，我们列出了每个网络成本训练的时间和计算一个图像的哈希码。运行时间列于表中6．我们选择不计算检索一个图像的时间。原因是一旦确定了哈希长度，根据哈希码检索图像的时间对于所有哈希方法是相同的。重要的是将一个图像映射到哈希代码的时间。请注意，有些结果是缺失的，因为它们不在相应的论文中，这些方法不是完全开源的。


方法	MNIST(地图)				CIFAR-10（MAP）				ImageNet（MAP）
方法	12位	24位	32位	48位	12位	24位	32位	48位	16位	32位	48位	64位

DBR-v3	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.826	0.837	0.842	0.847	0.733	0.761	0.768	0.769
DBR	0.980	0.984	0.984	0.990	0.612	0.648	0.658	0.680	- - - - - -	- - - - - -	- - - - - -	- - - - - -
Hashnet.	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.442	0.606	0.663	0.684
DHN	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.555	0.594	0.603	0.621	0.311	0.472	0.542	0.573
DNNH	- - - - - -	- - - - - -	- - - - - -	- - - - - -	0.552	0.566	0.558	0.581	0.290	0.461	0.530.	0.565
CNNH +	0.969	0.975	0.971	0.975	0.465	0.521	0.521	0.532	- - - - - -	- - - - - -	- - - - - -	- - - - - -
CNNH	0.957	0.963	0.956	0.960	0.439	0.511	0.509	0.522	0.281	0.450.	0.525	0.554
KSH	0.872	0.891	0.897	0.900	0.303	0.337	0.346	0.356	0.160	0.298	0.342	0.394
ITQ-CCA	0.659	0.694	0.714	0.726	0.264	0.282	0.288	0.295	0.266	0.436	0.548	0.576
MLH	0.472	0.666	0.652	0.654	0.182	0.195	0.207	0.211	- - - - - -	- - - - - -	- - - - - -	- - - - - -
的信徒	0.515	0.593	0.613	0.634	0.159	0.181	0.193	0.196	0.063	0.253	0.330	0.358
上海	0.265	0.267	0.259	0.250	0.131	0.135	0.133	0.130	0.207	0.328	0.395	0.419
ITQ.	0.388	0.436	0.422	0.429	0.162	0.169	0.172	0.175	0.326	0.462	0.517	0.552
激光冲徊化	0.187	0.209	0.235	0.243	0.121	0.126	0.120	0.120	0.101	0.235	0.312	0.360

4.1. 关于MNIST的结果

MNIST数据集[34.由70000人组成灰度图像属于0到9的10类手写阿拉伯数字。

对于MNIST，我们使用32个大小为3的卷积核3对于两个卷积层中的每一个。 max池和Dropout被添加在第2个卷积层之后。接下来的卷积层是两个完全连接的层，有128个节点和一个第一个完全连接层后退出。最后一层是哈希层，节点数随哈希长度可调。模型训练采用均方误差损失函数的Adadelta优化器。

我们提出的方法与最先进的散列方法（包括数据独立方法LSH）进行了比较[22.]，两种无监督方法[23.]和ITQ [26.，四监督方法KSH [24.], MLH [25.,正好10.]，及ITQ-CCA [26.基于]和CNN深散列方法CNNH [18.]及其变体CNNH+ [18.］.

我们遵循[18.并从相同的资源中得出结果。我们随机选择每个类100张图片，总共1000张图片作为测试查询图片。对于无监督方法，我们使用所有剩余的图像作为训练集。对于有监督的方法，包括CNNH、CNNH+和我们的方法，我们选择5000张图像(每个类500张图像)作为训练集。在GTX1060 6gb图形处理器上进行100个纪元的训练，整个训练过程大约持续120秒。将一个MNIST图像映射到它的哈希码大约需要花费80美元。

为了评估检索性能，我们使用平均精度（MAP）。对于每个查询图像，我们计算检索图像的平均精度。MAP是这些平均精度的平均值。请注意，对于每个查询图像，高级检索图像的正确性更重要。我们测试的MAP结果如表所示3.；DBR列是我们的方法。结果表明，该方法在灰度图像检索方面优于其他方法。

4．2．结果CIFAR-10

CIFAR-10[35.]的数据集由60000 属于10类的图像包括飞机，汽车和鸟类。CiFar-10实现的图层信息在部分中说明3.2．

除了我们在Section中比较的方法4.1，我们将我们的方法与另外两种基于CNN的深度哈希方法DHN [36.]及DNNH [20.］.我们也遵循他们的实验配置。我们随机选择每个类100张图片作为查询集。对于无监督方法，我们使用所有剩余的图像作为训练集。对于有监督的方法，随机选取5000幅图像(每类500幅)作为训练集。在GTX1060 6gb图形处理器上进行300次的训练，整个训练过程耗时约600秒。将一张CIFAR-10图像映射到它的哈希码大约需要花费160美元。如果两个图像具有相同的标签，则认为它们是相似的。图中显示了两个查询图像的前12张检索图像3.作为插图。

此外，我们将CIFAR-10中的样本图像放大到并应用DBR-v3网络。我们对整个网络进行50个epoch的训练，对20个epoch进行微调。总的训练时间是在GTX1060 6 GB图形处理单元上。对于DBR-V3，它需要花费大约3毫秒，以将一个CIFAR-10图像映射到其哈希码。

地图结果在表格中3.；我们的方法的结果显示在列DBR和DBR-v3。我们可以看出，我们的方法优于其他方法，包括无监督方法、监督方法和具有特征学习的深度方法。DBR-v3比DBR有很大的优势。这是因为这个网络更深，而且使用ImageNet进行了预先训练。但是，训练时间和哈希码计算时间损失很大。

我们还在语义上不均匀的情况下进行实验。对于CiFar-10数据集中的十大类，我们假设汽车和卡车是语义上类似的。我们设置了价值以及语义关系矩阵中所有其他值．当查询图像是一辆汽车时，我们可以观察到，与汽车以外的类别相比，卡车将以更高的排名被检索。与此同时，Table4表明整体地图结果保持在同一级别。该实验表明，我们的目标哈希码可以在不同类别之间具有相同的语义关系。


方法	CIFAR-10（MAP）
方法	16位	24位	32位	48位

DBR偶数	0.612	0.648	0.658	0.680
DBR-uneven	0.608	0.647	0.658	0.683

跟随[28.]，并与DSCH、DRSCH等不同实验设置的深度哈希方法进行比较[29.], DSRH [19.]，及DPSH[28.];结果直接从[28.］.具体来说，我们使用10000张测试图像作为查询集，50000张图像作为训练集。在GTX1060 6gb图形处理单元上进行300个纪元的总训练时间为1.5小时。MAP值是根据返回的前50000个邻居计算出来的，如表所示5. 我们可以发现，我们的方法仍然领先于MAP结果。


方法	CIFAR-10（MAP）
方法	16位	24位	32位	48位

DBR	0.822	0.821	0.833	0.862
DPSH	0.763	0.781	0.795	0.807
DRSCH	0.615	0.622	0.629	0.631
DSCH.	0.609	0.613	0.617	0.620
DSRH	0.608	0.611	0.617	0.618


数据集	方法	时代	培训时间	哈希时间

MNIST	DBR	100.	120 s	80美国
CIFAR10	DBR	300	600年代	160年美国
CIFAR10	DBR-v3	50 + 20	2870年代	3个女士
ImageNet	DBR-v3	50 + 20	18 h	3个女士

4.3。结果在ImageNet

ImageNet是一个图像数据库，在训练集中有超过120万图像，验证集中超过50,000张图像。每个图像都在1000类中的一个。图像尺寸有变化，并且常见尺寸为数百个像素。Imagenet目前是各种任务的最大图像数据库。在想象中的实验表明，处理大规模高清图像的能力。

网络细节，包括损失函数和培训优化，在本节中说明3.2.2．为了进行公平的比较，我们遵循[37.］.我们随机选择100个类别;将训练集中所有这些类别的图像作为训练图像。验证集中这些类别的所有图像都用作查询图像。我们对整个网络进行50个纪元的训练，并对前2个起始块和哈希层进行20个纪元的微调。在GTX1060 6gb图形处理单元上的总训练时间约为18小时。将一个ImageNet图像映射到它的哈希码大约需要3毫秒。

我们提出的方法与包括HashNet在内的最先进的哈希方法进行了比较[37.和本节中提到的大多数方法4.1．数据直接从[37.]和测试集是相同的。

为了评估检索性能，我们使用平均精度（MAP），结果如表所示3.．结果表明，我们的方法与其他方法具有很大的优势。这表明我们的DBR-V3方法可以解决高清图像的大规模图像检索。

结论

本文提出了一种基于内容的图像检索的端到端哈希学习网络。我们为每个标签设计了最优的目标哈希码，以提供不同标签之间的关系。由于不同标签之间的目标哈希码具有最大的汉明距离，深度网络可以将不同类别的图像映射到距离显著的哈希码。对于类似的图像，网络倾向于产生完全相同的哈希码。深度网络是基于卷积神经网络的。我们设计了两种变体的方法:DBR用于小型图像：这个网络训练快速，它快速计算;强大的群集在线培训甚至可能。基于Inception-V3网的DBR-V3：它来自Incepion Net的强大学习能力，在高清图像检索方面表现非常良好。最后，我们对标准图像检索基准进行实验。结果表明，我们的方法优于以前的作品。

的利益冲突

作者声明本文的发表不存在利益冲突。

致谢

这项工作得到了国家自然科学基金（61671296、61521062和U1611461）和国家重点研究开发计划（BZ0300013）的支持。

参考文献

J. Eakins和G. Margaret，“基于内容的图像检索”，1999。查看在：谷歌学术搜索
A. W. M. Smeulders，M.担心，S.Santini，A.Gupta和R. Jain，在初期结束时基于内容的图像检索，“关于模式分析和机器智能的IEEE交易，卷。22，没有。12，PP。1349-1380,2000。查看在：出版商网站|谷歌学术搜索
Y.刘，D.张，G. Lu和W.-Y。MA，“具有高级语义的基于内容的图像检索调查”，“模式识别，卷。40，不。1，pp。262-282,2007。查看在：出版商网站|谷歌学术搜索
王德华，“基于内容的图像检索的深度学习:一种综合的研究”，出版于2014年ACM多媒体会议论文集，MM 2014，页157-166，美国，2014年11月。查看在：出版商网站|谷歌学术搜索
L. Liu，S. Fumin，S. Yuming，L. Xianglong和S. Ling，深草图散列：快速徒手基于草图的图像检索, 2017,https://arxiv.org/abs/1703.05605．
A.托拉尔瓦，R.宏泰和Y.魏斯，“小码和大型图像数据库进行识别，”在IEEE计算机愿景和模式识别会议的诉讼程序（CVPR '08），第1-8页，2008。查看在：出版商网站|谷歌学术搜索
N. Mohammad和M. D. Blei，“压缩二进制代码的最小损失哈希”第28届机器学习国际会议论文集(ICML-11)，pp.353-360，2011。查看在：谷歌学术搜索
B. Kulis和K. Grauman，“塞尼利的地方敏感散列用于可扩展图像搜索”第十二届国际计算机视觉会议(ICCV’09)论文集，页2130-2137，日本京都，2009年10月。查看在：出版商网站|谷歌学术搜索
Y. Gong和S. Lazebnik，“比较依赖数据和独立数据的嵌入用于互联网图像的分类和排名”，刊于2011年计算机愿景和模式识别大会上的载体，CVPR 2011年，第2633-2640页，美国，2011年6月。查看在：出版商网站|谷歌学术搜索
B. Kulis和T. Darrell，“使用二进制重建嵌入式学习哈希，”n，第一〇四二年至1050年。查看在：谷歌学术搜索
J. Wang，S. Kumar和S.-f.Chang，“可扩展图像检索的半监督散列”IEEE计算机学会计算机视觉与模式识别会议论文集(CVPR’10)，第3424-3431，IEEE，旧金山，加利福尼亚州，美国，2010年6月。查看在：出版商网站|谷歌学术搜索
D. Ciregan, U. Meier和J. Schmidhuber，“用于图像分类的多列深度神经网络”IEEE计算机视觉与模式识别会议论文集(CVPR’12)，第3642-3649页，2012年6月。查看在：出版商网站|谷歌学术搜索
R. Collobert和J.韦斯顿，“自然语言处理的统一架构：具有多任务学习深层神经网络”，在第25届国际机器学习会议论文集，第160-167页，ACM, 2008年7月。查看在：谷歌学术搜索
A. Karpathy，G.Toderici，S. Shetty，T.Leung，R. Sukthankar和F.-f.李，“带卷积神经网络的大规模视频分类”第27届IEEE计算机视觉与模式识别会议论文集，(CVPR’14)，第1725至1732年，哥伦布，OH，USA，2014年6月。查看在：出版商网站|谷歌学术搜索
R. Salakhutdinov和G. Hinton，“语义哈希”，国际大约推理杂志，第50卷，第5期。7, pp. 969-978, 2009。查看在：出版商网站|谷歌学术搜索
十,。卢，L。宋，R。谢,X。杨和W。Zhang，“高效图像检索的深度哈希学习”，发表于IEEE国际多媒体会议和博览会研讨会（ICMEW）会议记录，PP。2017年7月香港579-584。查看在：出版商网站|谷歌学术搜索
林k, H.-F。杨,黄永发。萧,c。陈，“用于快速图像检索的二进制哈希码的深度学习”计算机工程与应用，2015，第27-35页，美国，2015年6月。查看在：出版商网站|谷歌学术搜索
夏瑞霞，潘颖，“基于图像表示学习的图像检索的监督哈希算法”，AAAI人工智能会议， pp. 2156-2162, 2014。查看在：谷歌学术搜索
赵飞，王磊，谭涛，“基于深度语义排序的多标签图像检索”计算机视觉与模式识别，2015,35 (5):514 - 514，pp。2015年6月1556-1564。查看在：出版商网站|谷歌学术搜索
刘玉林，“基于深度神经网络的特征学习与哈希编码”，《计算机科学与技术》IEEE计算机视觉与模式识别会议论文集，CVPR， pp. 3270-3278, 2015年6月。查看在：出版商网站|谷歌学术搜索
C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens，和Z. Wojna，“重新思考计算机视觉的初始架构”，在2016年IEEE计算机愿景和模式识别大会上的会议记录，CVPR 2016，pp。2016年7月2818-2826。查看在：谷歌学术搜索
M.达塔尔，N. Immorlica，P.达克，和V. S. Mirrokni，“局部性敏感散列方案基于P-稳定分布，”在计算几何的第20届年度研讨会论文集（SCG '04），第253-262号，ACM，2004年6月。查看在：谷歌学术搜索
Y. Weiss, A. Torralba，和R. Fergus，《谱散列法》第22届神经信息处理系统会议的会议记录（NIPS '08），第1753-1760页，加拿大温哥华，2008年12月。查看在：谷歌学术搜索
W.刘，J.Wang，R. Ji，Y.-G。江和苏。张，“与核心散列，”IEEE计算机视觉与模式识别会议论文集(CVPR’12)，页2074-2081，国际扶轮，美国，2012年6月。查看在：出版商网站|谷歌学术搜索
M. Norouzi和D. J. Fleet，“紧凑二进制代码的最小损失哈希”，发表于机器学习，ICML 2011年第28届国际会议论文集，页353-360，美国，2011年7月。查看在：谷歌学术搜索
Y.宫，S. Lazebnik，A戈多，和F Perronnin，“迭代量化：一个削足适履的方式来学习大型图像检索二进制码”关于模式分析和机器智能的IEEE交易，卷。35，不。12，pp。2916-2929,2013。查看在：出版商网站|谷歌学术搜索
F.沉，Y. Y. Yang，L. Liu，W. Liu，D. Tao和H.T. Shen，“图像搜索的不对称二进制编码”IEEE多媒体汇刊第19卷第2期第9页。2022-2032,2017。查看在：出版商网站|谷歌学术搜索
L.吴钧，W.盛和K.望成，基于特征学习的双标签深度监督哈希, 2015,https://arxiv.org/abs/1511.03855.．
张锐，林林，张锐，左伟，“基于正则化相似度学习的位可扩展深度哈希算法用于图像检索和人脸识别，”IEEE图像处理汇刊，第24卷，第2期12, pp. 4766-4779, 2015。查看在：出版商网站|谷歌学术搜索|MathSciNet
刘旭东，李志强，邓超，陶德华，“基于最近邻搜索的分布式自适应二进制量化算法”，IEEE图像处理汇刊，卷。26，不。11，pp。5324-5336,2017。查看在：出版商网站|谷歌学术搜索
M. Plotkin，“具有指定最小距离的二进制代码”信息论汇刊，第6卷，第4期，第445-450页，1960年。查看在：出版商网站|谷歌学术搜索
D. M. Zeiler， " Adadelta:一种自适应学习率方法"，https://arxiv.org/abs/1212.5701．查看在：谷歌学术搜索
C. Szegedy, W. Liu, Y. Jia et al， " Going deep with convolutions， " inIEEE计算机视觉与模式识别会议论文集(CVPR’15)，第1-9页，美国马萨诸塞州波士顿，2015年6月。查看在：出版商网站|谷歌学术搜索
Y. LeCun, C. Cortes和C. J. C. Burges，手写数字的Mnist数据库, 1994年。
A. Krizhevsky, N. Vinod，和H. Geoffrey，《cifar10数据集》，2014。查看在：谷歌学术搜索
H.朱，M. Long，J. Wang和Y.Cao，“深度散列网络，有效相似性检索”2016年第30届AAAI人工智能会议记录，第2415-2421页，美国，2016年2月。查看在：谷歌学术搜索
C张杰，L。明生，W。建敏和S。P于,，Hashnet:深度学习到哈希的延续, 2017,https://arxiv.org/abs/1702.00758．

多媒体进步

摘要