旅游从研究图像检索已经吸引了越来越多的关注。主要监督深哈希方法大大提高了检索性能,以手工特征为输入和高维二进制特征向量映射到减少feature-searching复杂性。然而,他们的表现取决于监管标签,但很少把时间和歧视的信息可以在旅游形象。本文提出了一种改进的深度学习哈希增强旅游图像检索的哈希码。共同决定了图像表示和哈希函数与深层神经网络,同时提高了旅游形象的区别的能力哈希码与精制随行的语义关系。此外,我们调整了CNN实现全程培训哈希映射,得到的两个样本之间的语义距离计算二进制代码。各种实验数据证明该方法相比的优越性最先进的浅和深散列技术。
与廉价的传感器的兴起,移动终端,和社交网络,研究旅游形象是取得良好进展,导致图像检索在社交网络的爆炸式增长。这一趋势对开发可扩展的索引方法的巨大挑战,支持检索相关的图片这样大规模的旅游形象。然而,当前旅游图像检索主要依靠手工标记在传感器类型,旅游景点,地理位置。例如,筛选[ 由于查询速度快、低存储成本、上优于散列被吸引的研究兴趣和应用于应用程序(如大型对象检索( 尽管哈希方法取得了显著的性能,他们仍然受到以下两个问题: 现有的方法学习二进制哈希码与手工特征表示,不能准确地捕获图像固有的语义相似性 本文认为大规模检索multilabel旅游图像数据,其中包括语义散列和category-aware散列。我们提出一个架构的卷积网络为哈希学习设计,性能大大优越于大型旅游图片通过端到端的学习区别的二进制代码。总的来说,本文的主要贡献如下: 对于二进制哈希的优化,我们提出一个离散哈希优化策略基于哈希码没有放松学习的内部关系量化信息的损失。
本节简要讨论两个主题:(1)旅游图像检索模型和(2)散列检索模型。 众多旅游提出了基于里程碑式的数据集的图像检索方法。他们经常使用视觉描述符来描述图像。关键是如何提高表达能力的视觉描述符。例如,郝et al。 此外,复杂网络理论已被用于我的旅游流模式( 最近的例子中,深度学习在旅游方面取得了重大进展图像检索包括定位城市( 上优于散列检索方法可分为无监督方法和监督方法。无监督学习具有催化效果在恢复兴趣散列检索,但纯粹的监督学习的成功黯然失色。研究人员介绍了非监督学习过程,只有使用图像样本的信息而不需要哈希的监督信息。这类引人注目的例子包括当地敏感哈希(激光冲徊化) 新的机器学习的发展使用深层神经网络实现哈希的自动学习功能。夏et al。 后,赖昌星et al。 最近,跨通道散列方法提供了洞察捕捉各种模式之间的内在关系(
在本节中,我们提出我们的方法的细节。我们首先定义中使用的符号。然后,我们介绍我们深特性学习过程,深哈希模型训练过程,和哈希码学习过程。最后,我们提出一个哈希解决哈希码优化解决方案和功能和分析他们的收敛性和复杂性。 对于一个数据集组成的旅游形象<我talic>
n 我们的目标是学习的哈希码<我nl我ne-formula>
从地理位置的角度语义,旅游图片和相应的标签是高度相关的。这些标记包含明确的语义,是潜在的图像语义互补。因此,它承诺利用精制辅助社会标签的语义丰富形象的哈希码。为此,我们引入一个语义相关矩阵 我们提出一个架构的卷积网络为哈希学习设计,如图 大多数现有的散列方法采用手工哈希函数学习的特性。然而,这些方法可能实现有限的性能,因为手工功能可能不是最佳兼容哈希函数的学习过程。我们提出深卷积子网模块,它可以执行同步特征学习和散列学习在同一个框架。使用子网学习图像特征可以描述图像的准确。培训后,输入图像处理通过网络获得丰富的语义描述符和优秀的表达能力和鲁棒性。 旅游形象的标签有两个属性:稀疏低秩和错误。在这种情况下,我们使用VGG-16子网和转移模型参数训练的地方- 365数据集网络初始参数。自现场识别任务有一些相似之处与旅游景点识别任务,将设置从网络训练的地方- 365子网可以显著提高模型的性能。网络的混凝土结构如表所示 大多数现有的研究使用度量学习训练积极和消极样本对确保二进制代码相似性关系( 旅游形象和相应的标签是相互呈正相关。此外,这些标记包含明确的语义,这是互补的图像语义。因此,它承诺利用精制辅助社会标签的语义丰富形象的哈希码。为此,我们的目标是最小化二进制哈希码的区别和精制的语义向量映射社会标签。 本文揭示了内在低秩矩阵分解的图像标记关系矩阵的低秩和稀疏的组件。低秩矩阵然后考虑语义增强作为语义来源增强学习哈希码的区别的能力。因此,我们使用block-coded结构而不是一个完全连接层来实现一个散列层block-coded层组成的,每个子群的活跃层,concat层。 考虑一个数据集组成的旅游形象<我talic>
n 我们提出一种改进的三联体损失函数来优化网络有效地保留语义相似性的图像成二进制的哈希码。 让<我talic>
x 因为欧氏距离更稳定的训练过程和函数的意义更符合实际的定义( 设计损失函数的基本规则是保持相似,也就是说,减少之间的差距的近似最近邻搜索结果计算哈希码和理想从输入空间获得搜索结果。一种广泛使用的解决方案是选择样本对之间的距离<我nl我ne-formula>
快速收敛,这是敏感的选择三胞胎。在这里,我们使用大mini-batches,只计算中最难的正负样本minibatch而不是选择最难的三胞胎在所有训练数据。此外,这些函数都是可微的几乎无处不在,这意味着它们可以用于模型由随机梯度下降训练。另一方面,实现细节让批20 - 30模范更有效率。 此外,通过最小化方程( 当网络训练完成后,给定的形象会得到一个<我talic>
K 如果图像的特征向量<我nl我ne-formula>
总结了该方法的主要步骤的算法
输入:<我nl我ne-formula>
输出:哈希函数<我talic>
h
在本节中,我们两个旅游形象进行大量实验数据集来评估该方法的效率和有效性。实验和结果的细节将在以下小节中描述。
对于每一个旅游景点,我们爬500 - 600图像和删除无关紧要或低质量的照片。最终数据集包含25890 60旅游景点的图片,包括建筑,河流,森林,高山,和其他类型的利益,所有不同光线下拍摄,季节,和角度。我们将数据集分为训练集,测试集和验证集的比例8:1:1。在评价中,属于同一旅游景点的图片是相似的。相反,它们被认为是不同的。典型的图像如图
我们第一次评估有效性通过比较每种方法的性能在不同长度的散列码,可以得到令人信服的结果。首先,我们评估方面的性能地图,计算所有样本返回与汉明距离排序。映射的值如表所示 图 TOP-K精度率反映了第K的比例从正确的查询结果返回的结果,用户可以直观地感知的检索结果。因此,TOP-K精确率是一个重要的指标来评估检索算法的实际应用程序的性能。图 精度与变量数量的样本曲线。散列码的长度是32位(一个)、64位(b)、128位(c)和256位(d)。 图 回忆与变量数量的样本曲线。散列码32位(a), 64位(b)、128位(c)和256位(d)。 60集,前6的结果4查询图像是由不同的哈希方法返回的检索。第一列的图片查询,我们使用128位的哈希代码检索。红线是不相似的图像查询形象。 虽然这篇文章的主要目的是探索任务检索方法对图像检索的影响在旅游景点,体现出过程的普遍性,我们也在公众形象数据集进行实验。考虑到图像Cifar-10数据集的大小是32×32岁,我们做空生成的哈希代码长度为12位,24位,32位,48位。因此,散列码长度也符合Flickr30数据集。 表 的价值在公共数据集映射为不同的方法。 来验证我们的方法在一般情况下,我们在cross-datasets进行实验。其目的是利用两个或两个以上的数据集用不同的类标记训练和评估单个模型。例如,我们用不同的数据集训练该模型:分别Flickr30数据集和Cifar-10数据集。训练模型的性能测试通过一个不同的数据集,60。 实验结果如表所示 地图cross-datasets评价的价值。 除了有效性分析,我们也比较该方法与其他方法,深度,没有深层的计算时间成本。所有的实验都是在相同的平台上进行与英特尔i7 8700 k CPU, NVIDIA GTX 2080和64 g内存。表 比较平均计算时间(每个图像)的不同的方法。
方法 Cifar-10 Flickr30
12位 24位 32位 48位 12位 24位 32位 48位
ITQ 0.264 0.282 0.288 0.295 0.577 0.580 0.581 0.580
激光冲徊化 0.183 0.164 0.161 0.162 0.557 0.564 0.562 0.569
PCAH 0.157 0.164 0.162 0.170 0.588 0.596 0.604 0.601
上海 0.183 0.164 0.161 0.161 0.561 0.562 0.563 0.562
近年来 0.303 0.337 0.346 0.356 0.678 0.697 0.689 0.685
CNNH 0.439 0.511 0.509 0.522 0.667 0.688 0.654 0.626
DLBHC 0.553 0.580 0.578 0.557 0.692 0.710 0.703 0.707
DNNH 0.571 0.588 0.589 0.595 0.739 0.752 0.753 0.755
我们的 0.613 0.648 0.654 0.663 0.828 0.837 0.835 0.840
方法 Cifar-10 Flickr30
12位 24位 32位 48位 12位 24位 32位 48位
ITQ 0.027 0.032 0.035 0.034 0.040 0.051 0.066 0.070
激光冲徊化 0.028 0.034 0.041 0.042 0.051 0.064 0.077 0.089
PCAH 0.038 0.045 0.060 0.071 0.057 0.069 0.072 0.078
上海 0.019 0.024 0.027 0.033 0.017 0.018 0.019 0.022
近年来 0.058 0.070 0.073 0.078 0.069 0.092 0.104 0.109
CNNH 0.087 0.092 0.089 0.090 0.095 0.105 0.101 0.104
DLBHC 0.095 0.101 0.112 0.115 0.102 0.107 0.105 0.119
DNNH 0.089 0.105 0.104 0.107 0.107 0.105 0.112 0.116
我们的 0.105 0.113 0.112 0.115 0.134 0.142 0.147 0.145
方法 60(女士) Cifar-10(女士) Flickr30(女士)
ITQ 7.95 5.42 4.10
SDH 8.05 5.51 4.15
CNNH 6.85 4.62 3.51
DLBHC 6.95 4.65 3.53
DNNH 6.72 4.63 3.47
我们的 6.52 4.45 3.40
在本文中,我们提出了一个深哈希方法和可伸缩的组间大规模的旅游景点。端到端深构造哈希网络的训练后,网络利用三联体损失函数保证散列码的特征相似。提高性能和效率的函数优化和散列码的描述能力,改善网络和三线态损失函数。根据结果,我们报告的定量评价方法扩展散列的长度。在社会图像数据集实验结果验证该方法的优越性。然而,轻松的从网络获得二进制代码可能会导致功能丧失的阈值的过程。在未来的工作中,我们将改善激活功能来处理这些问题。
使用的数据来支持本研究的发现可以从相应的作者。
作者宣称没有利益冲突。
支持的工作是由中国国家自然科学基金(41971365)和重庆的基础科学和前沿技术研究项目(cstc2019jcyj-msxmX0131)。