科学的规划

PDF
科学的规划/2021/文章
特殊的问题

多模式大数据科学编程

查看此特刊

研究文章|开放获取

体积 2021 |物品ID 9937061 | https://doi.org/10.1155/2021/9937061

冯江帆,孙文正 旅游图像检索的改进深度哈希扩展块",科学的规划 卷。2021 物品ID9937061 14 页面 2021 https://doi.org/10.1155/2021/9937061

旅游图像检索的改进深度哈希扩展块

学术编辑器:Boxiang董
收到了 2021年3月17日
修改后的 2021年6月16日
接受 05年7月2021年
发表 2021年7月14日

摘要

旅游图像检索越来越受到研究者的关注。监督深度哈希方法以手工特征为输入,映射高维二值特征向量,降低了特征搜索的复杂度,极大地提高了检索性能。然而,他们的表现依赖于监督标签,但很少有标签的时间和区别性信息是可在旅游图像。本文提出了一种改进的深度哈希算法来学习用于旅游图像检索的增强哈希码。利用深度神经网络联合确定图像表示和哈希函数,同时利用伴随关系的精细化语义,提高旅游图像哈希码的识别能力。此外,我们调整了CNN来实现端到端的训练哈希映射,计算得到的二进制代码的两个样本之间的语义距离。在各种数据集上的实验表明,与目前最先进的浅哈希和深哈希技术相比,该方法具有优越性。

1.介绍

随着廉价传感器、移动终端和社交网络的兴起,旅游图像的研究取得了良好的进展,导致了社交网络中图像检索的爆炸式增长。这种趋势给开发可扩展的索引方法带来了巨大的挑战,以支持检索如此庞大的旅游图像的相关图像。而目前的旅游图像检索主要依赖于传感器类型、旅游景点、地理位置等方面的人工标记。例如,SIFT [1]使用局部描述符对感兴趣的图像区域进行编码,例如HOG [2]和BOW [3.].因此,它高度依赖于标签的可用性和质量。

基于学习的哈希算法由于其查询速度快、存储成本低的优点,引起了广泛的研究兴趣,并应用于大规模对象检索等领域[4,图像分类[5,以及检测[3.].最近,使用哈希方法的深度学习显示出了很好的性能[67].由于二进制哈希码在计算汉明距离方面的高效率和存储空间的优势,在大规模图像检索中非常高效。卷积神经网络哈希算法[8将深度神经网络引入到哈希编码中来学习图像表示和哈希码。网络中的网络哈希(NINH) [9]提出了一个三重排列损失,以捕捉图像的相对相似性。图像表示学习和哈希编码可以在一个分阶段的框架内相互受益。深度语义散列[10学习的哈希函数生成的最终哈希码保持情感级的相似性。还提出了其他哈希方法[11- - - - - -13].

虽然哈希方法取得了显著的性能,但仍然存在以下两个问题:(1)现有的方法使用手工的特征表示来学习二进制哈希码,不能准确地捕捉图像的内在语义相似性(2)在大多数现有的图像哈希方法中,语义相似性是在图像级定义的,每幅图像都由一段哈希代码表示

本文研究了多标签旅游图像数据的大规模检索,包括语义哈希和类别感知哈希。我们提出了一种用于哈希学习的深度卷积网络架构,该架构通过端到端识别短二进制码的学习,在大规模旅游图像上具有显著的性能优势。总体而言,本文的主要贡献如下:(1)对于二进制哈希优化,我们提出了一种基于内部关系的离散哈希优化策略,用于学习哈希码而不放松量化信息损失。(2)我们提出了一种改进的分码层,代替全连接层学习二进制哈希码,以减少检索任务中的高冗余和参数。此外,我们使用改进的三重损失函数来保证特征与二进制编码特征的相似度,从而提高算法在训练时的效率。(3)在应用方面,采用深度哈希方法进行大规模旅游图像检索。为此,本文阐述了大型旅游图像检索深度网络的设计和训练方法。

本节将简要回顾两个主题:(1)旅游图像检索模型和(2)哈希检索模型。

2.1.旅游图像检索模型

已有许多基于地标数据集的旅游图像检索方法。他们经常使用视觉描述符来描述图像。关键是如何提高视觉描述符的表达能力。例如,Hao等人[14和Xiao等[15]采用多维模型对空间属性进行排序,利用三维视觉短语对地标图像进行描述,但这些方法存在建模时间长、检索成本高等缺点。近年来,为了降低检索成本,许多研究者开始致力于二值图像的研究构成高维视觉词汇的标志性特征[16]提出了一种位置判别词汇编码(LDVC)方案,该方案在统一的框架内实现了不足码率查询传输、判别地标描述和可扩展描述符交付。段等[17]结合图像、GPS、众包热点Wi-Fi等多种信息,提取具有位置判别性的紧凑图像描述符。Zhou et al. [18]采用可扩展级联哈希(SCH)方法实现地标哈希检索。Zhu等[19]采用了基于规范视图的离散多模态哈希方案(Cv-Dmh),通过新的三阶段学习过程学习二进制代码。Jing等[20.研究了入境旅游的时空动态格局。Cui等[21]提出了一种可扩展的深度哈希算法(SCADH)来学习用于社会图像检索的增强哈希码。

此外,复杂网络理论已被用于挖掘旅游流模式[22].这些方法都是基于图像的特征提取,然后使用哈希算法进行迭代计算。然而,没有一个方法是端到端的方法来学习哈希函数。此外,大多数方法仍然使用手工特征提取图像特征,具有较弱的泛化和迁移能力。

最近,深度学习在旅游图像检索方面取得了重大进展的例子包括城市定位[23]及游客照片分类[24].此外,也有很多研究通过修改CNN模型的分类器部分来分析游客的城市形象[25或考虑当地特色[26].然而,这些研究仅限于反映该地区独特的景观或区域特征。

2.2.散列检索模型

基于学习的哈希检索方法可分为无监督方法和有监督方法。无监督学习在恢复人们对哈希检索的兴趣方面具有催化作用,但它已经被纯监督学习的成功所掩盖。研究人员引入了无监督学习程序,只使用图像样本上的信息,而不需要监督信息进行哈希。这个类别中值得注意的例子包括局部敏感哈希(LSH) [27]、迭代量化(ITQ) [28,直接图哈希(DGH) [29,可扩展图哈希(SGH) [30.]和谱散列(SH) [31].哈希检索的无监督训练被认为是一个“预训练”阶段,其作用是发现输入域中对结构建模的良好特征。此外,有监督方法同时使用特征信息和标签来学习哈希编码,包括最小损失哈希[32,基于核的监督哈希(KSH) [33,基于排名的监督哈希(RSH) [34],列生成哈希(CGH) [35].

利用深度神经网络的机器学习的新进展使哈希函数的自动学习成为可能。夏等[36]使用相似矩阵和最小化损失函数进行深度哈希,以发现近似哈希码。尽管它极大地提高了检索性能,但仍然不是一种精确的端到端方法。赵等人[37]提出了一种用于标签排序的深度哈希算法。由于图像检索的目标是根据图像之间的相关性返回图像,因此对该方法进行了优化,得到了最终的评价指标。Lin等[38]提出了一种获取哈希值的简单方法。他们在CNN网络中添加了一个固定长度的隐藏层,这个隐藏层受激活功能的限制。对CNN网络进行微调后,直接提取隐层值。隐藏层的节点数就是哈希码的长度。虽然该方法获得的特征值包含图像的高级语义,但该过程没有考虑汉明空间特征的相关性。因此,不能保证汉明空间中元素的检索效果。

后来,Lai等人[9]提出了一种基于三元组的训练方法。训练目标函数,使汉明空间中相似图像的距离比不同图像的距离更近。近年来,人们提出了一些利用未标记数据提高检索精度的半监督深度哈希模型。Yan等人[39]提出了同时学习嵌入和特征以及哈希码的BGDH方法。张鹏[40]开发了一种深度哈希方法SSDH,该方法在保持底层数据结构和语义相似性的同时学习哈希函数。这两种方法都使用图来建模未标记的训练样本,这在计算上非常昂贵,而且占用大量内存,特别是在大规模数据集上。Shi et al. [41]使用GAN和判别模型对未标记数据和标记数据进行学习,以增强训练数据集,但这可能不适合于语义表示。Tu等人开发了RDUH [42,它通过研究不同的输入数据结构来减少噪声点。

最近,跨模态哈希方法为捕获各种模态之间的内在关系提供了洞见[43]和基于量化的跨模态相似性[44]此外,邓等人[45表示训练数据的语义相似度可以在无监督的情况下执行二进制哈希码。然而,自然图像可以有显著的类内和小的类间变化。因此,需要学习具有特定类表示中心的哈希码[46].为了进一步弥合固有的模态鸿沟,多任务一致性保护对抗性哈希(CPAH)[47]提出了充分挖掘不同模态之间语义一致性和相关性的方法,以实现高效的跨模态检索。

3.建议的方法

在本节中,我们将详细介绍我们所提出的方法。我们首先定义本文中使用的符号。然后介绍了我们的深度特征学习过程、深度哈希模型训练过程和哈希码学习过程。最后,我们提出了一种哈希码和函数的哈希优化解,并分析了它们的收敛性和复杂性。

3.1. 符号和问题定义

为旅游图像数据集组成n图片 l用户提供的语义标记,每个图像由 图像和标签之间的关系可以表示为l维binary-valued向量 图像矩阵表示为 表示观测到的图像-标签关系矩阵。

我们的目标是学习一组哈希码 在哪里 二进制码的长度是和吗 为哈希函数。二进制码应保证原始数据空间的相似性。一般是哈希函数 满足以下几点:(1) 什么时候在汉明空间更近 (2) 在遥远的汉明空间是什么时候

从地理位置语义的角度看,旅游形象与伴随标签具有高度的相关性。这些标签包含与潜在图像语义互补的显式语义。因此,利用精炼的辅助社会标签来丰富图像哈希码的语义是有前景的。为此,我们引入了语义关联矩阵W直接关联哈希码和精致的社会标签。动态语义可以直接转移到哈希码。我们的目标是最小化二进制哈希码和精炼标签映射语义向量之间的差异。

我们提出了一种用于哈希学习的深度卷积网络架构,如图所示1.详细地,我们建立了一个端到端的学习框架,利用哈希映射进行旅游景点图像检索。方法分为三个部分。第一个是具有多个卷积和池化层的子网络,用于学习识别图像特征,在Place-2数据集上进行预训练[48].第二层是哈希层,由块编码层和激活函数组成。三是改进的三重损耗函数,将其作为优化网络的目标函数。将训练过程分为多个小批量进行迭代学习。每一小批使用多个属于不同类别的图像作为输入。

3.2.特征学习和深度卷积子网模块

现有的哈希方法大多采用手工特性进行哈希函数学习。然而,这些方法可能实现有限的性能,因为手工制作的特性可能与哈希函数学习过程不是最佳的兼容。我们提出了我们的深度卷积子网络模块,它可以在同一个框架下同时进行特征学习和哈希学习。子网络用于学习能够准确描述图像的图像特征。经过训练后,通过网络对输入图像进行处理,获得丰富的语义描述符,具有良好的表现力和鲁棒性。

旅游图片的标签有两个特点:低等级和错误稀疏性。在这种情况下,我们使用VGG-16作为子网络,将在Place-365数据集上训练的模型参数作为初始参数传输到网络。由于场景识别任务与旅游景点识别任务有一定的相似性,将场景从Place-365训练的网络转移到子网络可以显著提高模型的性能。网络的具体结构见表1,它包含5个大的卷积层、5个池化层和2个完全连接层。每个大卷积层之后进行2 × 2最大池化2步,具体网络配置如表所示1


类型 过滤器尺寸/大步 输出的大小

Conv1-1 3×3/1 224 × 224 × 64
Conv1-2 3×3/1 224 × 224 × 64
最大池1 2×2/2 112 × 112 × 64
Conv2-1 3×3/1 112 × 112 × 128
Conv2-1 3×3/1 112 × 112 × 128
最大池2 2×2/2 56 × 56 × 128
Conv3-1 3×3/1 56 × 56 × 256
Conv3-2 3×3/1 56 × 56 × 256
Conv3-3 3×3/1 56 × 56 × 256
马克斯普尔3 2×2/2 28 × 28 × 256
Conv4-1 3×3/1 28 × 28 × 512
Conv4-2 3×3/1 28 × 28 × 512
Conv4-3 3×3/1 28 × 28 × 512
马克斯普尔4 2×2/2 14 × 14 × 512
Conv5-1 3×3/1 14 × 14 × 512
Conv5-2 3×3/1 14 × 14 × 512
Conv5-3 3×3/1 14 × 14 × 512
最大池5 2×2/2 7 × 7 × 512
Fc6 - - - - - - 4096
Fc7 - - - - - - 4096

3.3.散列码学习

现有的研究大多使用度量学习来训练正、负样本对,以确保二进制码相似关系[49- - - - - -52].然而,在不丢失大量有用信息的情况下,将地理特征表示为单个二进制代码是具有挑战性的。因此,不需要在全球范围内进行评估,而只需要在用户地理信息需求的细分区域之间进行评估。例如,通过将每个块作为一个图像特征处理,可以将一幅旅游图像表示为多个二值向量。

游客形象与伴随标签之间存在正相关关系。此外,这些标签包含了显式语义,这是对潜在图像语义的补充。因此,利用精炼的辅助社会标签来丰富图像哈希码的语义是有前景的。为此,我们的目标是最小化二进制哈希码和精炼社会标签映射语义向量之间的差异。

通过将图像标签关系矩阵分解为低秩和稀疏分量,揭示了图像标签关系矩阵固有的低秩矩阵,并将低秩矩阵作为语义源进行语义增强,以增强所学习哈希码的识别能力。因此,我们采用了块编码结构,而不是完全相同的结构连接层,以实现由块编码层、每个子块的活动层和concat层组成的哈希层。

考虑一个旅游图像数据集由n图片 我们划分了全连通层的特征 块。 表示用于构造块编码结构的二进制哈希码的长度。的subfeatures 均可从j-第th片层作为全连接层的输入, 各全连通层的输出为一维,其表达式为: 在哪里 的权矩阵是 -第Th子块,每个子块的输出为活动层的输入,选择s形函数作为激活函数,记为: 在哪里 将特征值转换为特征向量,得到二元向量的松弛。为了提高性能,我们不直接将图像映射为的二进制值 相反,我们使用激活函数来限制特征值 然后利用阈值将松弛二进制量化为二进制码。

3.4.三重态损耗和优化

我们提出了一个改进的三重损失函数来优化网络,以有效地将图像的语义相似性保留到二进制哈希码中。

x为图像,所提出的深度架构的输入是样本图像的三联体,即{ }. 在哪里年代表示图像的相似同一性;这种三重损耗函数的优化是为了缩小样品之间的距离 并将样本之间的距离推远 我们使用 表示它们之间的欧氏距离,表示从样本中得到的松弛二进制码。由于欧氏距离可以近似表示它们的汉明距离,因此优化目标为 这样,目标函数可以定义为

因为欧几里得距离在训练过程中更稳定,函数的含义更符合实际定义[42,我们用欧几里得距离 来测量汉明空间中的距离,而不是欧氏距离的平方 在经典的三重态损失函数中使用。优化的目的是区分相似样本和不同样本的至少边缘,从而将语义上等价的图像映射到汉明空间的相邻位置。这样,从CNN提取的图像的语义特征就可以保存在哈希码中。

损失函数设计的基本原则是保持相似顺序,即最小化由哈希码计算得到的近似最近邻搜索结果与输入空间得到的理想搜索结果之间的差距。一个广泛使用的解决方案是选择样本对之间的距离 是否大于两者之间的距离 minibatch。在本工作中,我们选择了最难的正、负样本对来计算损失。函数定义如下: 在哪里P表示批处理中的类别,K表示类别中图像的数量, 意味着 画中 类,σ为边界参数。

为了快速收敛,它对三联体的选择非常敏感。在这里,我们使用大的小批量,只计算小批量中最硬的正样本和负样本,而不是选择所有训练数据中最硬的三胞胎。此外,这些函数几乎处处可微,这意味着它们可以用于随机梯度下降训练的模型。另一方面,实现细节使得20-30个示例的批量更高效。

此外,通过最小化方程(4),手动裕度参数σ是为了加强硬正负对之间的差额。因此,我们通过初始值为0.2的训练过程对参数进行优化,实现细节使得样本的margin参数0.1 ~ 0.8更加高效。如何自动确定保证金,并纳入特定类别或特定样本的保证金仍然具有挑战性。

3.5.生成散列码

当网络训练完成时,给定的图像将得到aK位哈希代码。我们定义 作为每个组件的符号函数。

如果图像的特征向量 从网络归并层中提取 然后是这个图像的哈希码 可以被描述为 我们可以计算数据库中的所有图像来建立一个二进制索引库。在检索过程中,我们可以使用哈希码在汉明空间中进行最近邻检索,这是非常有效的,因为汉明距离可以通过XOR计算。

算法中总结了该方法的主要步骤1

输入: 训练图像矩阵
,哈希码长度
j,子层数
W,权矩阵
输出:深度哈希函数hx
(1) 利用预训练的VGG-16子网络初始化深度模型
(2)  使现代化W在培训过程中根据损失函数;
(3)
(4) 对于iter = 1到j
(5) 计算
(6) 计算
(7) 将松弛二进制量化为二进制代码
(8) 返回
(9) 结束了
(10) 结束了

4.实验

在本节中,我们对两个旅游图像数据集进行了大量的实验,以评估所提出的方法的效率和有效性。实验的细节和结果将在下面的章节中描述。

4.1.数据集和实验设置
4.1.1.数据集

(1)数据集60.大多数公共地标,如Oxford5K和Paris6K,呈现的是适合分类框架的无关图像。然而,表示同一场景的视图的图像是需要的。因此,我们基于中国60个热门旅游景点的关键词,从Flickr和百度Images中随机抽取数据集China-60。图像的可变性来自于不同的观察尺度、角度、光照条件和图像杂波。因此,我们提供3-5个标签来描述图像内容,如名称、地点等。本研究的主要目的是旅游图像检索,因此我们开发了一个具有吸引力的中文图像数据集,以验证该方法在图像检索任务上的性能。

对于每个旅游景点,我们抓取500到600张图片,并删除无关或低质量的照片。最终的数据集包含了60个旅游景点的25,890张图片,包括建筑、河流、森林、山脉和其他类型的兴趣,都是在不同的光线、季节和角度下拍摄的。我们以8:1:1的比例将数据集划分为训练集、测试集和验证集。在评价中,属于同一旅游景点的图像被认为是相似的。相反,他们被认为是不同的。典型图像如图所示2

(2)公共数据集.为了便于比较和分析,我们还在不同的数据集上进行了实验。Cifar-10包含6万张图片,分为10类,每类1000张图片。所有照片的分辨率都是32 × 32。我们还按照8:1:1的比例将其划分为训练集、验证集和测试集。Flickr30k包含31783张图片,主要集中在人和动物上。我们随机选取1000幅户外图像作为测试集,30783幅其他图像作为训练集。

4.1.2。基线和评价指标

(1)基线.为了说明提出的方法的好处,我们将其与各种方法进行比较,包括现有的传统散列方法LSH [27],SH[31], PCAH [53, pca-itq, pca-rr [28], CBR-rand, CBR-opt [54],及DSH [55].我们还将它与深度哈希方法进行了比较,如DLBHC [38]及DNNH [9].最后,经过微调,从预先训练的VGG网络中提取特征作为映射函数的输入,而不是手工提取特征。

(2) 评价指标.采用四个评价指标对不同方法的性能进行评价:(1)精度在N样本曲线,其中精度为返回图像中正确样本的比例,(2)在N(3)查准率-查全率(P-R)曲线,即查准率随查全率变化的曲线;(4)平均平均查准率(MAP),即P-R曲线周围的区域。

4.2.中国的结果与讨论60

我们首先通过比较不同哈希码长度下每个方法的性能来评估其有效性,可以得到令人信服的结果。首先,我们用MAP来评估性能,MAP通过对所有返回的样本进行汉明距离排序来计算。MAP值如表所示2,其中DNNH、DLBHC和建议的方法是深度哈希方法,而其他方法是传统哈希方法。如表所示2,该方法的结果优于其他方法,且大多数实践的MAP值与哈希码长度呈正相关。实验表明,传统的哈希方法与二值特征的大小往往是高度相关的。


方法 60
32位 64位 128位 256位

CBE-rand 0.329 0.473 0.618 0.681
CBE-opt 0.338 0.496 0.628 0.694
ITQ 0.681 0.794 0.804 0.813
激光冲徊化 0.314 0.483 0.597 0.691
PCAH 0.515 0.614 0.415 0.278
上海 0.102 0.234 0.302 0.293
PCA-RR 0.517 0.652 0.694 0.728
近年来 0.238 0.283 0.397 0.465
DLBHC 0.814 0.841 0.856 0.849
DNNH 0.839 0.864 0.860 0.862
我们的 0.895 0.907 0.912 0.903

数字3.给出了Cifar-10数据集上不同方法的精度-召回(P-R)曲线。我们在四个不同长度的哈希码上绘制了P-R曲线。从图中可以看出,当查全率较低时,我们的方法在全长度哈希码下始终能保持最高的准确率和较小的曲线斜率。这意味着我们的策略具有更好的检索性能。我们也可以在图中发现深度哈希算法与传统算法的差距。大多数传统的散列算法在短哈希码上都有一个凹曲线,这表明它们在短哈希码上的性能很差。然而,随着哈希码长度的增加,传统哈希算法的部分P-R曲线变成了凸曲线,这意味着常规哈希效果算法的检索往往需要扩展哈希码。这和我们之前说的一致。另一方面,在不同哈希码长度下,深度哈希算法的曲线弧度略有变化,显示了深度哈希算法的稳定性和优越性。

TOP-K正确率反映的是前K个查询结果返回正确结果的比例,用户在检索结果中可以直观地感知到这一点。因此,TOP-K准确率是评价检索算法实际应用性能的重要指标。数字4显示了TOP-K检索结果在最近邻检索中的精度。同样,该图显示了32位(a)、64位(b)、128位(c)和256位(d)哈希码长度的精度曲线。曲线的横坐标为返样个数,纵坐标为精密度。从图中可以看出,我们的方法在所有情况下的检索精度都是最好的,当返回的样本较少时,检索精度可以达到最高的值。这反映了通常可以优先返回正确的样本,使我们的方法充分满足了对未知景点图像的图像识别和检索的要求。

数字5显示了召回率与返回样本之间的TOP-K关系曲线。横坐标为返回样本数量,纵坐标为样本召回率。返回的示例中的正确示例说明数据库中所有正确示例的正确示例。这是检索系统的开发人员和管理员所关心的基本评估标准。此外,它还反映了算法在数据库中的检索成功程度。如图所示,我们的方法在所有编码长度下都达到了最好的TOP-K召回率。数字6在中国-60数据集上展示了一些查询示例。对于每个查询,每个方法使用128位散列代码返回前6个查询结果,红色表示返回的结果不正确。

4.3.泛化到其他图像数据源

虽然本文的主要目的是探索检索方法对旅游景点图像检索任务的影响,但为了证明该过程的普遍性,我们还对公共图像数据集进行了实验。考虑到Cifar-10数据集映像的大小是32 × 32,我们将生成的哈希代码长度缩短为12位、24位、32位和48位。因此,哈希代码长度也与Flickr30数据集一致。

表格3.显示了两个数据集上的MAP值结果,其中CNNH、DNNH、DLBHC和提出的方法是深度散列方法,而其他方法是非深度散列方法。从结果可以看出,我们的方法比非深度散列算法有显著优势。大多数非深度方法的MAP值随着在最佳情况下,与最佳非深度哈希方法相比,深度哈希算法仍具有显著的优越性。对于深度哈希方法,我们的处理精度提高了4%-8%,这表明本文提出的哈希代码生成策略可以有效地提高ret里瓦尔效应。


方法 Cifar-10 Flickr30
12位 24位 32位 48位 12位 24位 32位 48位

ITQ 0.264 0.282 0.288 0.295 0.577 0.580 0.581 0.580
激光冲徊化 0.183 0.164 0.161 0.162 0.557 0.564 0.562 0.569
PCAH 0.157 0.164 0.162 0.170 0.588 0.596 0.604 0.601
上海 0.183 0.164 0.161 0.161 0.561 0.562 0.563 0.562
近年来 0.303 0.337 0.346 0.356 0.678 0.697 0.689 0.685
CNNH 0.439 0.511 0.509 0.522 0.667 0.688 0.654 0.626
DLBHC 0.553 0.580 0.578 0.557 0.692 0.710 0.703 0.707
DNNH 0.571 0.588 0.589 0.595 0.739 0.752 0.753 0.755
我们的 0.613 0.648 0.654 0.663 0.828 0.837 0.835 0.840

4.4。泛化到Cross-Datasets

为了验证我们的方法,我们在交叉数据集上进行了实验。其目的是利用两个或多个标记有不同类的数据集来训练和评估单个模型。例如,我们用不同的数据集训练模型:分别是Flickr30数据集和Cifar-10数据集。采用不同的数据集China-60对训练模型的性能进行了测试。

实验结果如表所示4,总体精度评分较低,说明交叉数据集评价对检索任务更具挑战性。结果表明,该方法在跨数据集旅游图像检索任务中取得了较好的性能,证明了该方法的有效性。


方法 Cifar-10 Flickr30
12位 24位 32位 48位 12位 24位 32位 48位

ITQ 0.027 0.032 0.035 0.034 0.040 0.051 0.066 0.070
激光冲徊化 0.028 0.034 0.041 0.042 0.051 0.064 0.077 0.089
PCAH 0.038 0.045 0.060 0.071 0.057 0.069 0.072 0.078
上海 0.019 0.024 0.027 0.033 0.017 0.018 0.019 0.022
近年来 0.058 0.070 0.073 0.078 0.069 0.092 0.104 0.109
CNNH 0.087 0.092 0.089 0.090 0.095 0.105 0.101 0.104
DLBHC 0.095 0.101 0.112 0.115 0.102 0.107 0.105 0.119
DNNH 0.089 0.105 0.104 0.107 0.107 0.105 0.112 0.116
我们的 0.105 0.113 0.112 0.115 0.134 0.142 0.147 0.145

4.5.时间成本分析

在进行有效性分析的同时,我们还将该方法与其他方法进行了深度和非深度的计算时间开销的比较。所有实验都是在Intel i7 8700K CPU、NVIDIA GTX 2080和64G RAM的同一个平台上进行的。表格5显示了不同方法的平均计算时间。该方法与其他方法具有可比性。


方法 60(女士) Cifar-10(女士) Flickr30(女士)

ITQ 7.95 5.42 4.10
SDH 8.05 5.51 4.15
CNNH 6.85 4.62 3.51
DLBHC 6.95 4.65 3.53
DNNH 6.72 4.63 3.47
我们的 6.52 4.45 3.40

5.结论

针对大型旅游景点,提出了一种具有可扩展块间的深度哈希方法。对构建的深度哈希网络进行端到端训练后,利用三重损失函数保证哈希码的特征相似度。为了提高函数优化的性能和效率以及哈希码的描述能力,我们改进了网络和三重损失函数。在此基础上,我们报告了该方法对哈希长度的量化评价。在社会图像数据集上的实验结果验证了该方法的优越性。但是,在阈值过程中,从网络获得的松弛二进制码可能会导致特征丢失。在今后的工作中,我们将改进激活函数来解决这些问题。

数据可用性

用于支持本研究结果的数据可根据要求从相应作者处获得。

的利益冲突

作者声明没有利益冲突。

致谢

国家自然科学基金项目(no . 41971365);重庆市基础与前沿技术研究计划项目(no . cstc2019jcyj-msxmX0131)。关键词:岩石力学,数值模拟,数值模拟

参考文献

  1. K. Yan Ke和R. Sukthankar,“PCA-SIFT:局部图像描述符的更有特色的表示”,计算机视觉与模式识别,2004。CVPR 2004视图:出版商的网站|谷歌学者
  2. N. Dalal和B. Triggs,“面向人类检测的梯度直方图”计算机视觉与模式识别(CVPR’05),第1卷,第886-893页,加州,美国,2005年6月。视图:出版商的网站|谷歌学者
  3. 杨志强、蒋耀光、豪普特曼和Ngo,“场景分类中视觉词汇表征袋的评估”,年第九届美国计算机学会SIGMM多媒体信息检索国际研讨会论文集,页197-206,奥格斯堡,巴伐利亚,德国,2007年9月。视图:出版商的网站|谷歌学者
  4. 王杰,张涛,宋杰,N. Sebe,沈海涛,“哈希学习综述”,模式分析与机器智能学报,第40卷,第5期。4,第769-790页,2018。视图:出版商的网站|谷歌学者
  5. J. Sanchez和F. Perronnin,“用于大规模图像分类的高维特征压缩”,发表于第24届IEEE计算机视觉与模式识别会议论文集, pp. 1665-1672, CO ., USA, June 2011。视图:出版商的网站|谷歌学者
  6. A.Krizhevsky,I.Sutskever和G.E.Hinton,“具有深度卷积神经网络的图像网络分类,”神经信息处理系统研究进展,第25卷,第2期2, pp. 1097-1105, 2012。视图:出版商的网站|谷歌学者
  7. K. Simonyan和A. Zisserman,“用于大规模图像识别的非常深度卷积网络”,2014,https://arxiv.org/abs/1409.1556视图:谷歌学者
  8. 夏瑞霞,潘颖,“基于图像表示学习的图像检索的监督哈希算法”,全国人工智能会议论文集,第3卷,2156-2162页。视图:谷歌学者
  9. H.Lai,Y.Pan和S.Yan,“使用深度神经网络的同时特征学习和哈希编码”,在2015 IEEE计算机视觉与模式识别(CVPR)会议论文集, pp. 3270-3278,波士顿,马萨诸塞州,美国,2015年6月。视图:出版商的网站|谷歌学者
  10. 周国强,曾俊华,刘耀华,邹福华,“社交网络中文本检索的深层情感散列,”下一代计算机系统,第86卷,第362-371页,2018。视图:出版商的网站|谷歌学者
  11. 邓超,陈振中,刘旭东,“基于三组的深度哈希网络的跨模态检索,”IEEE图像处理汇刊第27卷第2期8, pp. 3893-3903, 2018。视图:出版商的网站|谷歌学者
  12. “深度离散监督哈希算法”,“深度离散监督哈希算法”,IEEE图像处理汇刊,第27卷,第12期,第5996-60092018页。视图:出版商的网站|谷歌学者
  13. X.哲,S. Chen, H. Yan,“深度类明智哈希:通过类明智损失保持语义的哈希,”神经网络与学习系统第31卷第1期5, pp. 1681-1695, 2020。视图:出版商的网站|谷歌学者
  14. Q.Hao,R.Cai,Z.Li,L.Zhang和F.Wu,“用于地标识别的三维视觉短语”,年2012年IEEE计算机视觉与模式识别会议论文集,第3594-3601页,国际扶轮,美国,2012年6月。视图:出版商的网站|谷歌学者
  15. “基于改进的三维图像分类方法”,国家自然科学基金面上项目,主持。IEEE多媒体汇刊第14卷第2期4, pp. 1246-1258, 2012。视图:出版商的网站|谷歌学者
  16. 段丽颖,季锐,陈建军,“移动地标搜索的位置识别词汇编码”,国际计算机视觉杂志,第96卷,第2期3, pp. 290 - 314,2012。视图:出版商的网站|谷歌学者
  17. 段丽颖,陈建军,纪瑞琪,黄涛,高伟,“基于低比特率移动路标搜索的简洁视觉描述符学习”,人工智能杂志,第34卷,第2期,第67页,2013年。视图:出版商的网站|谷歌学者
  18. 周伟,杨敏,李华,王旭东,林颖,田青,“面向无码本的移动图像搜索的可扩展级联哈希算法”,IEEE多媒体汇刊,第16卷,第5期。3, pp. 601-611, 2014。视图:出版商的网站|谷歌学者
  19. 朱林,黄志强,刘旭东,孙建军,“基于正则视图的离散多模态哈希算法,”IEEE多媒体汇刊第19卷第2期9, pp. 2066-2079, 2017。视图:出版商的网站|谷歌学者
  20. 董敏,杜敏,朱勇,“基于地理标签照片的入境游客时空动态研究——以北京为例”,中国地理科学(英文版),IEEE访问,第8卷,第28735条,2020年。视图:出版商的网站|谷歌学者
  21. 崔慧,朱林,李俊华,杨勇,聂林,“基于可扩展深度哈希的大规模社会图像检索,”IEEE图像处理汇刊, vol. 29, pp. 1271-1284, 2020。视图:出版商的网站|谷歌学者
  22. 牟北,袁蓉,杨涛,张辉,唐建军,“城市入境旅游流的时空变化研究——以上海为例”,中国地理科学(英文版),旅游管理, 2020年,第76卷。视图:出版商的网站|谷歌学者
  23. a . a . Chugunova,“大城市旅游形象建设中的软实力数字能力(以圣彼得堡为例)”2020年IEEE数字社会通信战略研讨会论文集,页7-13,圣彼得堡,俄罗斯,2020年4月。视图:出版商的网站|谷歌学者
  24. N. D. Payntar, W. L. Hsiao, R. A. Covey,和K. Grauman,“从秘鲁库斯科考古遗址的地理标记照片中学习游客运动和摄影模式”,旅游管理,第82卷,第104165条,2020年。视图:谷歌学者
  25. 沈亚平,“卷积神经网络在街道图像分类中的应用:以伦敦为例”,发表于地理知识发现中的人工智能与深度学习,第5-9页,加利福尼亚州雷东多海滩,美国,2017年11月。视图:谷歌学者
  26. Y. Kang, N. Cho, J. Yoon, S. Park, J. Kim,“利用地理标记照片探索游客城市形象的深度学习模型的迁移学习”,国际地理信息杂志,第10卷,第3期,第137页,2021年。视图:出版商的网站|谷歌学者
  27. M.Datar,N.Immorlica,P.Indyk和V.S.Mirrokni,“基于P-稳定分布的位置敏感散列方案”,年第二十届计算几何年会论文集,页253-262,ACM,纽约,美国,2004年6月。视图:出版商的网站|谷歌学者
  28. Y. Gong, S. Lazebnik, a . Gordo,和F. Perronnin,“迭代量化:用于大规模图像检索的二进制代码学习的procrustean方法”,模式分析与机器智能学报第35期12, pp. 2916-2929, 2013。视图:出版商的网站|谷歌学者
  29. “离散图哈希”,中国科学(d辑),“离散图哈希”,神经信息处理系统研究进展, vol. 4, pp. 3419-3427, 2014。视图:谷歌学者
  30. 李文俊,“基于特征变换的可扩展图哈希”,《计算机科学》第24届国际人工智能会议论文集,第2248-2254页,阿根廷布宜诺斯艾利斯,2015年7月。视图:谷歌学者
  31. Y.Weiss,A.Torralba和R.Fergus,“光谱散列”,在神经信息处理系统进展会议录,第二十二届神经信息处理系统年会,第1753-1760页,加拿大不列颠哥伦比亚省温哥华,2008年12月。视图:谷歌学者
  32. M. Norouzi和D. M. Blei,“紧凑二进制代码的最小损失哈希”,发表于第28届国际机器学习会议论文集(ICML-11),第353-360页,美国华盛顿贝尔维尤,2011年6月。视图:谷歌学者
  33. 刘伟,王军,纪仁,姜永刚,常思福,“有监督的核散列算法”2012年IEEE计算机视觉与模式识别会议论文集, pp. 2074-2081, MI, USA, June 2012。视图:谷歌学者
  34. 王军,刘伟,孙爱贤,蒋永刚,“基于列表监督的哈希码学习”2013 IEEE计算机视觉国际会议论文集,第3032-3039页,IEEE,悉尼,新南威尔士,澳大利亚,2013年12月。视图:谷歌学者
  35. 李旭东,林国栋,沈c, A. Hengel, A. Dick,“基于列生成的哈希函数学习”第30届国际机器学习会议论文集,第142-150页,亚特兰大,佐治亚州,美国,2013年6月。视图:谷歌学者
  36. 夏瑞霞,潘颖等,“基于图像表示学习的图像检索的监督哈希算法”,出版AAAI人工智能会议论文集,第2156-2162页,加拿大Qubec, 2014年7月。视图:谷歌学者
  37. “基于深度语义排序的多标签图像检索方法”,《中国图象图形学报》2015 IEEE计算机视觉与模式识别(CVPR)会议论文集, pp. 1556-1564, MA, USA, June 2015。视图:出版商的网站|谷歌学者
  38. Lin K., Yang H., xiao J., Chen C., " Deep learning of binary hash code for fast image retrieval, " in chinese, 20052015 IEEE计算机视觉与模式识别研讨会(CVPRW)论文集, pp. 27-35, MA, USA, 2015年6月。视图:出版商的网站|谷歌学者
  39. Yan,L.Zhang和W.-J.Li,“具有二部图的半监督深度散列”,在第26届国际人工智能联合会议论文集,第3238-3244页,AAAI出版社,Palo Alto, CA, USA, 2017年8月。视图:出版商的网站|谷歌学者
  40. 张军,彭亚鹏,“面向大规模图像检索的半监督深度哈希算法”,IEEE视频技术电路和系统汇刊,第29卷,第2期1, pp. 212-225, 2019。视图:出版商的网站|谷歌学者
  41. 石伟,龚元,陈斌,黑星,“半监督深度哈希算法”,神经网络与学习系统,第1-14页,2021。视图:出版商的网站|谷歌学者
  42. 涂荣昌,毛学林,魏伟,“基于流形的局部语义相似结构重构的深度无监督哈希算法”国际人工智能联合会议论文集,第3466-3472页,日本横滨,2020年7月。视图:出版商的网站|谷歌学者
  43. 杨恩,邓超,刘伟,刘旭东,陶东,高旭东,“基于双参数关系的深度哈希算法”AAAI人工智能会议论文集,第1618-1625页,加利福尼亚州,美国,2017年2月。视图:谷歌学者
  44. 杨e,邓超,李超,刘伟,李军,陶东,“共享预测跨模态深度量化”,神经网络与学习系统,第29卷,第2期11, pp. 5292-5303, 2018。视图:出版商的网站|谷歌学者
  45. 邓c,杨恩,刘涛,李俊杰,刘伟,陶德华,“图像搜索的无监督语义保持对抗哈希算法”,IEEE图像处理汇刊,第28卷,第8期,第4032-40442019页。视图:出版商的网站|谷歌学者
  46. c . YangE。Yang和T. Liu,“两流深度哈希与特定类中心的监督图像搜索,”神经网络与学习系统第31卷第1期6, pp. 2189-2201, 2020。视图:出版商的网站|谷歌学者
  47. “基于多任务保持一致性的对抗式哈希算法”,“基于多任务保持一致性的对抗式哈希算法”,IEEE图像处理汇刊, vol. 29, pp. 3626-3637, 2020。视图:出版商的网站|谷歌学者
  48. B. Zhou, a . Lapedriza, a . Khosla, a . Oliva, and a . Torralba,《场所:用于场景识别的1000万图像数据库》,模式分析与机器智能学报,第40卷,第5期。6,第1452-1464页,2018。视图:出版商的网站|谷歌学者
  49. 王锐,“基于深度监督哈希算法的图像检索”,《计算机科学与技术》2016 IEEE计算机视觉与模式识别大会论文集,第2064-2072页,HI,美国,2016年7月。视图:出版商的网站|谷歌学者
  50. 朱慧,龙敏,王军,曹勇,“基于深度哈希网络的高效相似度检索”,《计算机科学与技术》AAAI人工智能会议论文集,第2415-2421页,AZ,美国,2016年2月。视图:谷歌学者
  51. Lin J., Li Z., Tang J.,“可扩展人脸图像检索的鉴别深度哈希算法”国际人工智能联合会议记录,澳大利亚墨尔本,2017年8月。视图:出版商的网站|谷歌学者
  52. 翟颖,郭旭东,陆颖,李海霞,“再身份识别的分类缺失辩护”,载2019 IEEE/CVF计算机视觉和模式识别研讨会(CVPRW)论文集,第1526-1535页,CA, USA, 2019年6月。视图:出版商的网站|谷歌学者
  53. J. Wang, S. Kumar,和S. Chang,“半监督哈希用于可伸缩图像检索”,发表于2010 IEEE计算机学会计算机视觉与模式识别会议论文集,第3424-3431页,加利福尼亚州,美国,2010年6月。视图:出版商的网站|谷歌学者
  54. F. Yu, S. Kumar, Y. Gong和S. F. Chang,“循环二进制嵌入”,在第31届国际机器学习会议论文集,第32卷,第2期2、pp. 946-954,北京,2014年6月。视图:谷歌学者
  55. 靳志刚,李超,林毅夫,蔡德,“密度敏感哈希”,IEEE控制论汇刊,第44卷,第5期。8, pp. 1362-1371, 2014。视图:出版商的网站|谷歌学者

版权所有©2021冯江帆,孙文正。这是一篇发布在知识共享署名许可协议,允许在任何媒介上不受限制地使用、传播和复制,但必须正确引用原作。


更多相关文章

PDF 下载引用 引用
下载其他格式更多的
订购印刷品订单
的观点65
下载108
引用

相关文章

年度文章奖:2020年杰出研究贡献,由我们的主编评选。阅读获奖文章