我gydF4y2Ba 多媒体的发展gydF4y2Ba 1687 - 5699gydF4y2Ba 1687 - 5680gydF4y2Ba Hindawi出版公司gydF4y2Ba 786427年gydF4y2Ba 10.1155 / 2011/786427gydF4y2Ba 786427年gydF4y2Ba 研究文章gydF4y2Ba 代表图像的意义关联值与给定词汇考虑语义包容关系gydF4y2Ba 戴gydF4y2Ba 应gydF4y2Ba 1gydF4y2Ba TsapatsoulisgydF4y2Ba 尼古拉。gydF4y2Ba 1gydF4y2Ba 软件和信息科学的教师gydF4y2Ba 岩手县Prefectual大学gydF4y2Ba Sugo 152 - 52gydF4y2Ba 岩手县,020 - 0193 TakizawagydF4y2Ba 日本gydF4y2Ba iwate-u.ac.jpgydF4y2Ba 2011年gydF4y2Ba 28gydF4y2Ba 07年gydF4y2Ba 2011年gydF4y2Ba 2011年gydF4y2Ba 28gydF4y2Ba 01gydF4y2Ba 2011年gydF4y2Ba 11gydF4y2Ba 05年gydF4y2Ba 2011年gydF4y2Ba 30.gydF4y2Ba 05年gydF4y2Ba 2011年gydF4y2Ba 2011年gydF4y2Ba 版权©2011应戴。gydF4y2Ba 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。gydF4y2Ba

代表意义的图像的方法提出了基于关联值与词汇。为此,语义包容关系模型(STRM)反映生成定义词汇之间的容忍程度,和语义相关的两个因素(SR)和视觉相似性(VS)参与生成关联值。此外,该算法使用基于像素的计算关联值双向联想记忆(BAMs)结合STRM,容易实现,描述了。个人multilexicons-based检索的实验结果显示我们提出的方法的有效性和效率找到预期的图像和提高检索精度,因为合并SR和代表意义的图像。gydF4y2Ba

1。介绍gydF4y2Ba

在数码影像技术的进步、网络和数据存储,越来越多的人互相沟通和表达自己通过分享图片、视频、和其他形式的媒体。然而,很难充分利用图像/视频带来的语义信息,因为关于图像在许多领域概念的本质是不精确的,以及寻找相似的图像/视频的解释也是模棱两可的和主观的人类感知的水平。因此,有一些技术,专注于注释大众分类法(del . icio . us, Flickr)的图像。但是,故意引起的特殊注释大众分类法有风险,以减少系统的性能信息检索工具。在谢et al。gydF4y2Ba 1gydF4y2Ba),通过检查不同的词汇选择和输入探测器的影响,达到这样一个结论,更多不必要的概念会损害性能。gydF4y2Ba

因此,许多研究致力于图像/视频自动注释或演示基于图像的语义信息。为了避免损害和限制文本注释的图像,有相当大的兴趣,高效的数据库访问由感性和其他自动提取图像的属性。然而,大多数当前检索系统仅依赖于低层图像特征,如颜色和质地,而人类用户考虑的概念(gydF4y2Ba 2gydF4y2Ba- - - - - -gydF4y2Ba 5gydF4y2Ba]。通常相关性反馈是唯一试图关闭用户和系统之间的语义鸿沟。gydF4y2Ba

最近,有很多研究减少用户之间的语义鸿沟,检索系统与不同的抽象级别受雇于人类和机器。在Rogowitz [gydF4y2Ba 6gydF4y2Ba),观察者如何判断图像相似性进行了分析得出结论,人类的观察人士非常系统的图像相似性判断,语义之后,颜色和结构特点。这一结论后,在Mojsilovićet al。gydF4y2Ba 7gydF4y2Ba),颜色特征的提取和解释这些特性提出了基于五个图像相似度标准。然而,结果表明,颜色不能作为一个单一的测量来捕获图像的语义。沃格尔和Schiele [gydF4y2Ba 8gydF4y2Ba),提出了一个概念叫“vocabulary-supported图像检索”,允许系统用户查询转化为内部查询。然而,用户查询“找到图像与10 - 30%的天空”并不是一个自然的方式呈现图像的语义。在Mojsilovic et al。gydF4y2Ba 9gydF4y2Ba),semantic-friendly查询语言搜索提出了不同的图像集合。然而,沃格尔和席勒的影子一样gydF4y2Ba 8gydF4y2Ba等),查询语言(自然和对比> < 800)不容易利用建模的类别。在[gydF4y2Ba 10gydF4y2Ba),该系统的目的是将一个图像到一个类别来帮助用户更有效地导航检索结果。然而,类的定义是一个混合的语义,语法,和统计方法,这似乎不是真正的语义类别。戴和Cai (gydF4y2Ba 11gydF4y2Ba),图像检索系统的方案,随后Rogowitz描述的人类知觉相似性标准(gydF4y2Ba 6gydF4y2Ba),提出了。然而,图像的语义分类是手工制造的。在[gydF4y2Ba 12gydF4y2Ba- - - - - -gydF4y2Ba 14gydF4y2Ba),基于语义的图像自动分类方法使用概率方法或子空间的发现提出了。然而,只有二进制类(室内外、manmade-natural sunset-nonsunset)处理。在沈et al。gydF4y2Ba 15gydF4y2Ba),一个框架来处理提出了重叠类的分类问题,并应用于multiscene分类的问题。然而,扩展到其他概念的分类没有描述。在戴gydF4y2Ba 16gydF4y2Ba),语义容忍性图像表示和分类的方法,提出了,作为示范,每张图片关于自然和人造的语义域是由分配图像7大类基于贝叶斯分类器。显然,它是不够的7类来体现整个图像的语义。在Carneiro et al。gydF4y2Ba 17gydF4y2Ba),350年视觉概念学习的最小错误概率检索框架下,每个图像注释最大概率的概念。然而,检索精度约为30%,该方法不能真正解决人类和机器之间的语义鸿沟问题,因为事实上,它只是等同于分类基于水平较低视力的功能。另一方面,为gydF4y2Ba 17gydF4y2Ba]和[gydF4y2Ba 16gydF4y2Ba],选择训练图像集的生成概率模型的新概念和再生概率模型的新概念不是很容易在实践中,如果他们被要求添加。在谢gydF4y2Ba 1gydF4y2Ba),统计检验结果表明,概念检测性能比基线如果定义词汇的数量(240)的范围。然而,这些定义词汇只是视觉词汇,高阶的概念依赖还不考虑multiconcept学习。在李,王gydF4y2Ba 18gydF4y2Ba),2 d MHMMs利用随机过程来实现系统的自动语言索引的照片。对未来的工作,本文表明,除了分配到一个图像,重量可以给这句话同时显示适当的相信程度描述。然而,如何生成的值权重,仍然是一个悬而未决的问题。gydF4y2Ba

因为大多数图像/视频语义解释和人民法官有多个类似的图像有不同的标准,在本文中,一种方法基于关联值代表图像的含义的词汇。至于这种方法,图像或关键帧的含义(后来被称为图像)所描述的关联值和定义的词汇在不同的领域,而这些词汇之间的宽容程度体现了语义包容关系模型(STRM)。此外,根据实验结果中描述Rogowitz [gydF4y2Ba 6gydF4y2Ba],人们通过语义相关性来判断图像相似度(SR),视觉相似性(VS)后,老的因素整合的因素和在上面产生关联的值。此外,如何计算关联值和定义词汇的双向联想记忆(BAMs)。的基础上生成的关联值,根据multilexicons查询检索图像的方案提出了不仅在单一领域的情况下,还在交叉领域。老的的影响因素和对检索图像的准确性进行了分析,并建议的方法找到个人的效用的预期的图像了。结果表明,结合SR和VS在生成关联值提高了图像检索的准确性。此外,40通常定义词汇,82%的目标图像检索通过multilexicons查询词典1.4和2.2平均查询时间要求5科目。gydF4y2Ba

2。语义包容关系模型gydF4y2Ba

“一张图片胜过千言万语。“实际上,一个图像的含义是多样化的和模糊的。为了系统地描述图像的一般含义,我们提出一个语义包容关系模型(STRM)反映了词汇之间的容忍程度。的形式STRM如图gydF4y2Ba 1gydF4y2Ba。gydF4y2Ba

STRM形式。gydF4y2Ba

图像的意义所描述的许多领域。然而,似乎更好的定义核心域描述图像的语义。在视图的描述新闻应该包括组件5 w1h(,,,什么,,如何),我们定义以下领域为核心领域。他们是自然与人造域代表概念从本质到人造关于“什么”;人类和非人类从肖像域代表概念,小脸上nonface关于“谁”;时间域表示的时间信息“当”;空间域代表位置信息关于“地方”;作用域提供做关于“方法”;关于“如何印象域反映的印象。“当然,其他新域名可以添加补充域。gydF4y2Ba

对于某一领域gydF4y2Ba dgydF4y2Ba kgydF4y2Ba 一些词汇、概念进行描述。词典gydF4y2Ba 我gydF4y2Ba 关于gydF4y2Ba dgydF4y2Ba kgydF4y2Ba 表示为gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba 。词汇的数量gydF4y2Ba dgydF4y2Ba kgydF4y2Ba 表示为gydF4y2Ba 米gydF4y2Ba kgydF4y2Ba 。类似的领域,我们定义一个特定域一般词汇。考虑,话说有较高的观测频率计数在一个非常大的文本语料库视为一般词汇。例如,这些词汇(景观,树,花,海滩,湖,山,日落,建筑,建筑部分,服装,家具,厨房用品,工具、蔬菜、车辆)可以作为普通词汇选择关于自然和人造的域。3词汇(肖像,脸,nonface)选为核心词汇对于人类和非人类的领域。然而,很明显,一些定义词汇的含义是相互容忍,比如家具和厨房用品。我们定义这些重叠的两个词汇的含义与intratolerance相同的域,表示gydF4y2Ba (gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba cgydF4y2Ba kgydF4y2Ba jgydF4y2Ba )gydF4y2Ba ,重叠的两个词汇在不同域intertolerance,表示gydF4y2Ba (gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba cgydF4y2Ba lgydF4y2Ba jgydF4y2Ba )gydF4y2Ba (gydF4y2Ba kgydF4y2Ba ≠gydF4y2Ba lgydF4y2Ba )。的速度gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba 重叠的gydF4y2Ba cgydF4y2Ba lgydF4y2Ba jgydF4y2Ba 被定义为的宽容程度gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba 来gydF4y2Ba cgydF4y2Ba lgydF4y2Ba jgydF4y2Ba ,表示gydF4y2Ba tgydF4y2Ba dgydF4y2Ba (gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba cgydF4y2Ba lgydF4y2Ba jgydF4y2Ba )gydF4y2Ba 。它是假定gydF4y2Ba tgydF4y2Ba dgydF4y2Ba (gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba cgydF4y2Ba lgydF4y2Ba jgydF4y2Ba )gydF4y2Ba 是由同现算不算gydF4y2Ba cgydF4y2Ba ugydF4y2Ba (gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba cgydF4y2Ba lgydF4y2Ba jgydF4y2Ba )gydF4y2Ba 的gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba 与gydF4y2Ba cgydF4y2Ba lgydF4y2Ba jgydF4y2Ba 在非常大的文本语料库,虽然按照给的次数gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba 与gydF4y2Ba cgydF4y2Ba lgydF4y2Ba jgydF4y2Ba 2克出现在大型语料库包含超过一万亿总令牌。特别是,我们可以使用谷歌(goog . o:行情)提供的文本语料库数据。gydF4y2Ba 19gydF4y2Ba)获得这样的共存。让gydF4y2Ba cgydF4y2Ba ugydF4y2Ba 马克斯gydF4y2Ba 给所有同现数有关的最大价值定义词汇,gydF4y2Ba tgydF4y2Ba dgydF4y2Ba (gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba cgydF4y2Ba lgydF4y2Ba jgydF4y2Ba )gydF4y2Ba 计算(gydF4y2Ba 1gydF4y2Ba),让宽容程度的值的范围内(1,0):gydF4y2Ba tgydF4y2Ba dgydF4y2Ba (gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba cgydF4y2Ba lgydF4y2Ba jgydF4y2Ba )gydF4y2Ba =gydF4y2Ba cgydF4y2Ba ugydF4y2Ba (gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba cgydF4y2Ba lgydF4y2Ba jgydF4y2Ba )gydF4y2Ba cgydF4y2Ba ugydF4y2Ba 马克斯gydF4y2Ba ⁡gydF4y2Ba 。gydF4y2Ba

因此,STRM关于表达的词汇是一个矩阵gydF4y2Ba TgydF4y2Ba RgydF4y2Ba kgydF4y2Ba lgydF4y2Ba 。当gydF4y2Ba kgydF4y2Ba =gydF4y2Ba lgydF4y2Ba ,gydF4y2Ba TgydF4y2Ba RgydF4y2Ba kgydF4y2Ba kgydF4y2Ba 表达了intratolerance有关领域词汇的关系模型gydF4y2Ba k。gydF4y2Ba否则,gydF4y2Ba TgydF4y2Ba RgydF4y2Ba kgydF4y2Ba lgydF4y2Ba 表达了intertolerance有关领域词汇的关系模型gydF4y2Ba kgydF4y2Ba和gydF4y2Ba lgydF4y2Ba条目的行gydF4y2Ba 我gydF4y2Ba、列gydF4y2Ba jgydF4y2Ba矩阵的值是容忍程度的词汇gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba 来gydF4y2Ba cgydF4y2Ba lgydF4y2Ba jgydF4y2Ba :gydF4y2Ba TgydF4y2Ba RgydF4y2Ba kgydF4y2Ba lgydF4y2Ba =gydF4y2Ba (gydF4y2Ba tgydF4y2Ba rgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba kgydF4y2Ba lgydF4y2Ba )gydF4y2Ba =gydF4y2Ba (gydF4y2Ba tgydF4y2Ba dgydF4y2Ba (gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba cgydF4y2Ba lgydF4y2Ba jgydF4y2Ba )gydF4y2Ba :gydF4y2Ba 我gydF4y2Ba ∈gydF4y2Ba (gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 米gydF4y2Ba kgydF4y2Ba ]gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba ∈gydF4y2Ba (gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 米gydF4y2Ba lgydF4y2Ba ]gydF4y2Ba ]gydF4y2Ba 。gydF4y2Ba

添加一个新词汇gydF4y2Ba tgydF4y2Ba在域gydF4y2Ba kgydF4y2Ba,它首先必须注册。然而,要面向矩阵中的条目gydF4y2Ba TgydF4y2Ba RgydF4y2Ba kgydF4y2Ba lgydF4y2Ba 通过确定的值吗gydF4y2Ba (gydF4y2Ba tgydF4y2Ba dgydF4y2Ba (gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba cgydF4y2Ba lgydF4y2Ba tgydF4y2Ba )gydF4y2Ba :gydF4y2Ba 我gydF4y2Ba ∈gydF4y2Ba (gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 米gydF4y2Ba kgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ]gydF4y2Ba ;gydF4y2Ba tgydF4y2Ba =gydF4y2Ba 米gydF4y2Ba kgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ;gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba lgydF4y2Ba ∈gydF4y2Ba (gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba KgydF4y2Ba ]gydF4y2Ba )gydF4y2Ba ,gydF4y2Ba (gydF4y2Ba tgydF4y2Ba dgydF4y2Ba (gydF4y2Ba cgydF4y2Ba kgydF4y2Ba tgydF4y2Ba ,gydF4y2Ba cgydF4y2Ba lgydF4y2Ba 我gydF4y2Ba )gydF4y2Ba :gydF4y2Ba 我gydF4y2Ba ∈gydF4y2Ba (gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 米gydF4y2Ba kgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ]gydF4y2Ba ;gydF4y2Ba tgydF4y2Ba =gydF4y2Ba 米gydF4y2Ba kgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ;gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba lgydF4y2Ba ∈gydF4y2Ba (gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba KgydF4y2Ba ]gydF4y2Ba )gydF4y2Ba 。这意味着所有旧条目不需要重新在调整过程中,只有新条目gydF4y2Ba tgydF4y2Bath行和gydF4y2Ba tgydF4y2Ba域的th列gydF4y2Ba kgydF4y2Ba值的宽容程度的新词汇gydF4y2Ba tgydF4y2Ba关于旧的词汇,必须确定。因此,调整矩阵的条目gydF4y2Ba TgydF4y2Ba RgydF4y2Ba kgydF4y2Ba lgydF4y2Ba 通过添加新词汇不会引起的导致昂贵的计算。gydF4y2Ba

3所示。代表图像的含义gydF4y2Ba 3.1。关联值与给定的词汇gydF4y2Ba

因为大多数图像有多个和模糊语义解释和判断的人的标准图像具有相似的含义很多种,每幅图的含义是由一个向量表示gydF4y2Ba 即时通讯gydF4y2Ba ggydF4y2Ba ngydF4y2Ba =gydF4y2Ba (gydF4y2Ba 一个gydF4y2Ba 1gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba kgydF4y2Ba ngydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba KgydF4y2Ba ngydF4y2Ba ]gydF4y2Ba 关联值和给定的词汇,而gydF4y2Ba 一个gydF4y2Ba kgydF4y2Ba ngydF4y2Ba =gydF4y2Ba (gydF4y2Ba 一个gydF4y2Ba kgydF4y2Ba 1gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 米gydF4y2Ba kgydF4y2Ba ngydF4y2Ba ]gydF4y2Ba 关联值的,这是一个subvector词典关于域gydF4y2Ba kgydF4y2Ba。gydF4y2Ba 米gydF4y2Ba kgydF4y2Ba 关于域表示的数量给定词汇gydF4y2Ba kgydF4y2Ba,gydF4y2Ba 一个gydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba 意味着图像的关联程度gydF4y2Ba ngydF4y2Ba的词典gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba 。gydF4y2Ba

基于描述的实验(gydF4y2Ba 6gydF4y2Ba),我们看到,人们通过语义相关性来判断图像相似度(SR),后视觉相似性(VS)。特别,除了图像语义上或视觉上相似,有图像语义宽容,但视觉上不相似,如建筑和建筑部分。还有图片中类似的形状,而不是语义宽容,如瓜和球。因此,词汇的关联值的图像受到两个事实:SR和与老的一个映像gydF4y2Ba ngydF4y2Ba对词汇gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba 表示为gydF4y2Ba 年代gydF4y2Ba rgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba ,VS的价值来标示gydF4y2Ba vgydF4y2Ba 年代gydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba 。gydF4y2Ba 年代gydF4y2Ba rgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba 体现了图像的程度的意义gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba vgydF4y2Ba 年代gydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba 反映了图像看起来像的程度gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba 。因此,的价值gydF4y2Ba 一个gydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba 由加权和生成的gydF4y2Ba 年代gydF4y2Ba rgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba 和gydF4y2Ba 一个gydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba ,这是表达的gydF4y2Ba 一个gydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba =gydF4y2Ba wgydF4y2Ba 年代gydF4y2Ba 年代gydF4y2Ba rgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba +gydF4y2Ba wgydF4y2Ba vgydF4y2Ba vgydF4y2Ba 年代gydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba wgydF4y2Ba 年代gydF4y2Ba 生成SR的重量gydF4y2Ba 一个gydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba wgydF4y2Ba vgydF4y2Ba 是VS的重量。gydF4y2Ba

因此,如果有gydF4y2Ba KgydF4y2Ba域,gydF4y2Ba 米gydF4y2Ba kgydF4y2Ba 词汇,每幅图的含义是由一个向量表示gydF4y2Ba 即时通讯gydF4y2Ba ggydF4y2Ba ngydF4y2Ba =gydF4y2Ba (gydF4y2Ba 一个gydF4y2Ba 1gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba kgydF4y2Ba ngydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba KgydF4y2Ba ngydF4y2Ba ]gydF4y2Ba ,gydF4y2Ba 而gydF4y2Ba 一个gydF4y2Ba kgydF4y2Ba ngydF4y2Ba =gydF4y2Ba (gydF4y2Ba 一个gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 1gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 米gydF4y2Ba kgydF4y2Ba ngydF4y2Ba ]gydF4y2Ba 。gydF4y2Ba

3.2。计算关联值gydF4y2Ba

完全指定关联的值在这个计算建模框架(gydF4y2Ba 3gydF4y2Ba),有必要得到的值gydF4y2Ba 年代gydF4y2Ba rgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba 和的值gydF4y2Ba vgydF4y2Ba 年代gydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba 。为此,需要从图像中提取足够的特性,以及词汇的探测器gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba 需要设计。事实上,不同的探测器基于不同特性执行同样的意思是infAP(平均的平均精度)(gydF4y2Ba 1gydF4y2Ba]。因此,考虑到容易实现,基于像素的双向联想记忆(BAMs) (gydF4y2Ba 20.gydF4y2Ba)作为词汇的检测器生成的值gydF4y2Ba 年代gydF4y2Ba rgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba 和gydF4y2Ba vgydF4y2Ba 年代gydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba 在这篇文章中,这些生成的性能值代表图像的意义进行了分析。gydF4y2Ba

BAM是一个两层网络结构,特定的输入表示映射到特定的输出表示,但两层之间的连接是bi定向。这是一个系统,“同事”两种模式gydF4y2Ba (gydF4y2Ba XgydF4y2Ba ,gydF4y2Ba YgydF4y2Ba )gydF4y2Ba 这样,当一个人遇到另一个可以回忆道。通常情况下,gydF4y2Ba XgydF4y2Ba 和gydF4y2Ba YgydF4y2Ba 向量的长度吗gydF4y2Ba 米gydF4y2Ba和gydF4y2Ba ngydF4y2Ba,分别。BAM的结构利用在我们的案例中是如图gydF4y2Ba 2gydF4y2Ba。gydF4y2Ba

BAM的结构。gydF4y2Ba

该模式gydF4y2Ba XgydF4y2Ba 是一个矢量,条目的学习图像对应像素点的值;该模式gydF4y2Ba YgydF4y2Ba 是一个向量关于词典代表学习模式的代码吗gydF4y2Ba XgydF4y2Ba 。一般来说,一个域gydF4y2Ba k,gydF4y2Ba的词典gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba 编码是gydF4y2Ba YgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba (gydF4y2Ba 0gydF4y2Ba ⋯gydF4y2Ba 0gydF4y2Ba 1gydF4y2Ba 我gydF4y2Ba 0gydF4y2Ba ⋯gydF4y2Ba 0gydF4y2Ba ]gydF4y2Ba 米gydF4y2Ba kgydF4y2Ba 。模式gydF4y2Ba XgydF4y2Ba 和模式gydF4y2Ba YgydF4y2Ba 结合模式对建筑相关的连接权矩阵。的权重矩阵同时存储几个模式对计算有关gydF4y2Ba WgydF4y2Ba =gydF4y2Ba αgydF4y2Ba ∑gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba KgydF4y2Ba XgydF4y2Ba kgydF4y2Ba TgydF4y2Ba 。gydF4y2Ba

与不断更新的输出gydF4y2Ba XgydF4y2Ba层和gydF4y2Ba YgydF4y2Ba层的输入图像gydF4y2Ba ngydF4y2Ba,网络最终将收敛于一个能量局部最小值。然后,输出值的单位gydF4y2Ba YgydF4y2Ba 层体现回忆程度的输入图像gydF4y2Ba ngydF4y2Ba学图像模式。我们单位的输出gydF4y2Ba YgydF4y2Ba层,即回忆值,表示为gydF4y2Ba ygydF4y2Ba ngydF4y2Ba =gydF4y2Ba (gydF4y2Ba rgydF4y2Ba 1gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba …gydF4y2Ba rgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba …gydF4y2Ba rgydF4y2Ba 米gydF4y2Ba kgydF4y2Ba ngydF4y2Ba ]gydF4y2Ba 。gydF4y2Ba

在这里,它假设输入图像gydF4y2Ba ngydF4y2Ba完全属于gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba 如果gydF4y2Ba rgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 马克斯gydF4y2Ba {gydF4y2Ba rgydF4y2Ba 米gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba 米gydF4y2Ba ∈gydF4y2Ba (gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 米gydF4y2Ba kgydF4y2Ba ]gydF4y2Ba }gydF4y2Ba &gydF4y2Ba rgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba >gydF4y2Ba TgydF4y2Ba rgydF4y2Ba (gydF4y2Ba TgydF4y2Ba rgydF4y2Ba 是一个回忆阈值)。因此,gydF4y2Ba 年代gydF4y2Ba rgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba 在这种情况下设置为1。然而,很明显,gydF4y2Ba 年代gydF4y2Ba rgydF4y2Ba kgydF4y2Ba jgydF4y2Ba ngydF4y2Ba 不会是0,如果gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba 是相关的gydF4y2Ba cgydF4y2Ba kgydF4y2Ba jgydF4y2Ba 。的价值gydF4y2Ba 年代gydF4y2Ba rgydF4y2Ba kgydF4y2Ba jgydF4y2Ba ngydF4y2Ba 是公差关系的影响gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba 与gydF4y2Ba cgydF4y2Ba kgydF4y2Ba jgydF4y2Ba 。因此,的价值gydF4y2Ba 年代gydF4y2Ba rgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba 决定按照下列规则(gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba jgydF4y2Ba ∈gydF4y2Ba (gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 米gydF4y2Ba kgydF4y2Ba ]gydF4y2Ba ):gydF4y2Ba 如果gydF4y2Ba 即时通讯gydF4y2Ba ggydF4y2Ba ngydF4y2Ba ∈gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba 年代gydF4y2Ba rgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 如果gydF4y2Ba 即时通讯gydF4y2Ba ggydF4y2Ba ngydF4y2Ba ∈gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba 年代gydF4y2Ba rgydF4y2Ba kgydF4y2Ba jgydF4y2Ba ngydF4y2Ba =gydF4y2Ba tgydF4y2Ba rgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba kgydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 如果gydF4y2Ba 即时通讯gydF4y2Ba ggydF4y2Ba ngydF4y2Ba ∉gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba (gydF4y2Ba ∀gydF4y2Ba 我gydF4y2Ba )gydF4y2Ba ,gydF4y2Ba 年代gydF4y2Ba rgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba (gydF4y2Ba ∀gydF4y2Ba 我gydF4y2Ba )gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba

另一方面,基于像素的BAM的价值gydF4y2Ba rgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba 特别是反映了视觉输入图像的相似度gydF4y2Ba ngydF4y2Ba学习模式的图像gydF4y2Ba 我gydF4y2Ba代表词汇的概念gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba 和gydF4y2Ba vgydF4y2Ba 年代gydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba 是由gydF4y2Ba vgydF4y2Ba 年代gydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba =gydF4y2Ba rgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba 。gydF4y2Ba

作为一个整体,(gydF4y2Ba 2gydF4y2Ba)图像的生成关联值与给定词汇转换gydF4y2Ba 一个gydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba =gydF4y2Ba {gydF4y2Ba wgydF4y2Ba 年代gydF4y2Ba +gydF4y2Ba wgydF4y2Ba vgydF4y2Ba rgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba 如果gydF4y2Ba 即时通讯gydF4y2Ba ggydF4y2Ba ngydF4y2Ba ∈gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba wgydF4y2Ba 年代gydF4y2Ba tgydF4y2Ba rgydF4y2Ba jgydF4y2Ba 我gydF4y2Ba kgydF4y2Ba kgydF4y2Ba +gydF4y2Ba wgydF4y2Ba vgydF4y2Ba rgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba 如果gydF4y2Ba 即时通讯gydF4y2Ba ggydF4y2Ba ngydF4y2Ba ∈gydF4y2Ba cgydF4y2Ba kgydF4y2Ba jgydF4y2Ba ,gydF4y2Ba jgydF4y2Ba ≠gydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba wgydF4y2Ba vgydF4y2Ba rgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba ,gydF4y2Ba 如果gydF4y2Ba 即时通讯gydF4y2Ba ggydF4y2Ba ngydF4y2Ba ∉gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba (gydF4y2Ba ∀gydF4y2Ba 我gydF4y2Ba )gydF4y2Ba ,gydF4y2Ba

一些学习模式的图像,它代表的特定词汇的意义关于自然和人造的域图所示gydF4y2Ba 3gydF4y2Ba。规则选择这样的图像,图像的视觉特征代表一个词汇完全体现词汇的一般特征。对一些概念,多个模式明显不同的图像视觉是一个词汇的学习。例如,四个模式图像学词汇树。他们设置的分辨率gydF4y2Ba 96年gydF4y2Ba ×gydF4y2Ba 64年gydF4y2Ba 。gydF4y2Ba所以,BAM召回模式对的相对能力gydF4y2Ba 96年gydF4y2Ba ×gydF4y2Ba 64年gydF4y2Ba ×gydF4y2Ba 0.1998gydF4y2Ba =gydF4y2Ba 1227年gydF4y2Ba 双(gydF4y2Ba 20.gydF4y2Ba]。另一方面,根据声明(gydF4y2Ba 1gydF4y2Ba),大约40到240词汇需要定义为完全检测由图像的概念,构建了基于像素的容量BAM是相当足够的计算能力召回的值gydF4y2Ba rgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba ,用于生成关联值与给定词汇(gydF4y2Ba 9gydF4y2Ba),如果给定域的词汇的数量(240)的范围。gydF4y2Ba

一些学习模式图像。gydF4y2Ba

景观gydF4y2Ba

建筑gydF4y2Ba

餐厅gydF4y2Ba

室内gydF4y2Ba

树gydF4y2Ba

树gydF4y2Ba

树gydF4y2Ba

树gydF4y2Ba

3.3。方案检索图像gydF4y2Ba

该方案基于关联值的向量的图像检索图像与给定的词汇被认为是这样的。gydF4y2Ba

3.3.1。检索关于单一域gydF4y2Ba

如果词汇对于其他领域同当前紧密相关,考虑这些词汇之间的关系将提高检索的性能。因此,检索方案基于给定的词汇表达gydF4y2Ba 如果gydF4y2Ba gydF4y2Ba gydF4y2Ba tgydF4y2Ba rgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba kgydF4y2Ba lgydF4y2Ba >gydF4y2Ba TgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba kgydF4y2Ba lgydF4y2Ba (gydF4y2Ba ∀gydF4y2Ba kgydF4y2Ba ,gydF4y2Ba lgydF4y2Ba ∈gydF4y2Ba (gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba KgydF4y2Ba ]gydF4y2Ba ,gydF4y2Ba kgydF4y2Ba ≠gydF4y2Ba lgydF4y2Ba )gydF4y2Ba 即时通讯gydF4y2Ba GgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba {gydF4y2Ba 即时通讯gydF4y2Ba ggydF4y2Ba ngydF4y2Ba ∈gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba }gydF4y2Ba =gydF4y2Ba {gydF4y2Ba 即时通讯gydF4y2Ba ggydF4y2Ba ngydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba ≥gydF4y2Ba σgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba &gydF4y2Ba 一个gydF4y2Ba lgydF4y2Ba jgydF4y2Ba ngydF4y2Ba ≥gydF4y2Ba σgydF4y2Ba lgydF4y2Ba jgydF4y2Ba }gydF4y2Ba 其他的gydF4y2Ba IMGgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba {gydF4y2Ba 即时通讯gydF4y2Ba ggydF4y2Ba ngydF4y2Ba ∈gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba }gydF4y2Ba =gydF4y2Ba {gydF4y2Ba 即时通讯gydF4y2Ba ggydF4y2Ba ngydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba ≥gydF4y2Ba σgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba }gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba TgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba kgydF4y2Ba lgydF4y2Ba 称为公差值阈值之间的宽容程度两个词汇gydF4y2Ba 我gydF4y2Ba和gydF4y2Ba jgydF4y2Ba关于域gydF4y2Ba kgydF4y2Ba和gydF4y2Ba lgydF4y2Ba。gydF4y2Ba σgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba 或gydF4y2Ba σgydF4y2Ba lgydF4y2Ba jgydF4y2Ba 被称为检索值,提取图像的阈值属于词汇吗gydF4y2Ba 我gydF4y2Ba关于gydF4y2Ba k,gydF4y2Ba或词典gydF4y2Ba jgydF4y2Ba关于gydF4y2Ba lgydF4y2Ba分别。gydF4y2Ba

此外,如果一个查询不能显式描述的词汇,用户可以指定多个相关词典查询。让查询被表示为gydF4y2Ba 问gydF4y2Ba 米gydF4y2Ba :gydF4y2Ba 如果gydF4y2Ba 问gydF4y2Ba 米gydF4y2Ba ∈gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba 问gydF4y2Ba 米gydF4y2Ba ∈gydF4y2Ba cgydF4y2Ba kgydF4y2Ba jgydF4y2Ba ,gydF4y2Ba 即时通讯gydF4y2Ba GgydF4y2Ba 问gydF4y2Ba 米gydF4y2Ba =gydF4y2Ba (gydF4y2Ba {gydF4y2Ba 即时通讯gydF4y2Ba ggydF4y2Ba ngydF4y2Ba ∈gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba }gydF4y2Ba ⋂gydF4y2Ba {gydF4y2Ba 即时通讯gydF4y2Ba ggydF4y2Ba ngydF4y2Ba ∈gydF4y2Ba cgydF4y2Ba kgydF4y2Ba jgydF4y2Ba }gydF4y2Ba )gydF4y2Ba 。gydF4y2Ba

3.3.2。检索关于实现gydF4y2Ba

显然,对于实现图像检索是提取图像的交点与不同领域的不同词汇。因此,检索图像的方案进行词汇的含义gydF4y2Ba 我gydF4y2Ba关于域gydF4y2Ba kgydF4y2Ba和词典gydF4y2Ba jgydF4y2Ba关于域gydF4y2Ba lgydF4y2Ba 是由gydF4y2Ba 如果gydF4y2Ba tgydF4y2Ba rgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba kgydF4y2Ba lgydF4y2Ba ≠gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba tgydF4y2Ba rgydF4y2Ba jgydF4y2Ba 我gydF4y2Ba lgydF4y2Ba kgydF4y2Ba ≠gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 即时通讯gydF4y2Ba GgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba lgydF4y2Ba jgydF4y2Ba =gydF4y2Ba {gydF4y2Ba 即时通讯gydF4y2Ba ggydF4y2Ba ngydF4y2Ba ,gydF4y2Ba 即时通讯gydF4y2Ba ggydF4y2Ba ngydF4y2Ba ∈gydF4y2Ba cgydF4y2Ba kgydF4y2Ba 我gydF4y2Ba }gydF4y2Ba ⋂gydF4y2Ba {gydF4y2Ba 即时通讯gydF4y2Ba ggydF4y2Ba ngydF4y2Ba ,gydF4y2Ba 即时通讯gydF4y2Ba ggydF4y2Ba ngydF4y2Ba 我gydF4y2Ba ∈gydF4y2Ba cgydF4y2Ba lgydF4y2Ba jgydF4y2Ba }gydF4y2Ba 。gydF4y2Ba 面对一些图像检索查询的家具图所示gydF4y2Ba 4gydF4y2Ba。gydF4y2Ba

图像检索通过家具的脸。gydF4y2Ba

3.4。实现gydF4y2Ba

一起实施,三个域对应的40词汇一般词汇定义。他们是列在表中gydF4y2Ba 1gydF4y2Ba。这些词汇选择根据观察到这些词汇出现的频率计数的大型文本语料库[gydF4y2Ba 19gydF4y2Ba高)。分别对每个域,基于像素BAM是由其特定的词汇gydF4y2Ba YgydF4y2Ba模式和相应的图像作为代表gydF4y2Ba XgydF4y2Ba双模式。使用(gydF4y2Ba 9gydF4y2Ba),用这些词汇关联值计算和存储作为检索的索引。用户选择一个或多个词汇代表他们想表达的语义检索他们的预期的图像或视频的关键帧。gydF4y2Ba

域和词汇定义。gydF4y2Ba

域gydF4y2Ba 词汇gydF4y2Ba
自然/人造的gydF4y2Ba 地面、景观、花、树、光、建筑,日落,餐厅,texture_brick, texture_wood, texture_paper, texture_cloth, food_materials,食物,购物中心,海滩,snow_viewing, mountain_lake, flower_arrangement,内部,街道,瀑布,山,游泳池,后卫,船,董事会,火箭,brriage、工厂gydF4y2Ba

面对/ nonfacegydF4y2Ba 肖像,脸,non_facegydF4y2Ba

印象gydF4y2Ba 活跃,冷静,冷静,软,硬,灰色,清晰gydF4y2Ba

图gydF4y2Ba 5gydF4y2Ba是一个系统界面的截图。在顶部,下拉菜单供用户选择相关领域和词汇体现图像的含义将搜索。使用滑动输入关联阈值对于一个给定的词典检索。这将是容易操作,因为用户可以设置向左或向右滑动的位置选择和调整,如果检索图像的数量是太少或太多。中间的空间显示了输入查询按钮可编辑的添加、删除和重置。列出检索图像的缩略图或关键帧在底部,而用户可以很容易找到他们的预期的图像或视频。gydF4y2Ba

系统接口。gydF4y2Ba

4所示。实验和分析gydF4y2Ba

400张图片随机选择从个人专辑和Sozaijiten形象书1gydF4y2Ba 21gydF4y2Ba就是去Traxx]和1220年关键帧提取视频1(这家gydF4y2Ba 22gydF4y2Ba准备测试系统性能。然而,图片相关的动作,比如体育运动,足球,和露营,不包括因为行动领域相关的这些词汇不是为实现定义。gydF4y2Ba

4.1。Per-Lexicon检索精度gydF4y2Ba

per-lexicon检索精度定义为以下表达式(#代表“的”)gydF4y2Ba 精度gydF4y2Ba =gydF4y2Ba #gydF4y2Ba 真正的gydF4y2Ba 积极的gydF4y2Ba #gydF4y2Ba 前gydF4y2Ba 排名gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba #gydF4y2Ba一流表示一流图像的数量根据他们的关联值和一定的词汇。#真阳性表示积极的图像数量相关的词汇中一流的图像。gydF4y2Ba

数据gydF4y2Ba 6(一)gydF4y2Ba,gydF4y2Ba 6 (b)gydF4y2Ba,gydF4y2Ba 6 (c)gydF4y2Ba显示有关词汇的准确性影响建筑,家具,和景观不同权重的SR和VS,而一流的图像的数量是不同的(120)的范围。gydF4y2Ba

精度不同权重的SR和VS。gydF4y2Ba

建筑gydF4y2Ba

家具gydF4y2Ba

景观gydF4y2Ba

的情况下gydF4y2Ba wgydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba wgydF4y2Ba vgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 表明VS仅仅是考虑的因素生成图像的关联值定义的词汇;的情况下gydF4y2Ba wgydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba wgydF4y2Ba vgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 表明SR只是考虑的因素;的情况下gydF4y2Ba wgydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba 0.25gydF4y2Ba ,gydF4y2Ba wgydF4y2Ba vgydF4y2Ba =gydF4y2Ba 0.75gydF4y2Ba 表明这两个老和VS用于计算关联值。从数据gydF4y2Ba 6(一)gydF4y2Ba,gydF4y2Ba 6 (b)gydF4y2Ba,gydF4y2Ba 6 (c)gydF4y2Ba,可以看出虽然精度是不同的不同的词汇的情况gydF4y2Ba wgydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba 0.25gydF4y2Ba ,gydF4y2Ba wgydF4y2Ba vgydF4y2Ba =gydF4y2Ba 0.75gydF4y2Ba ,的情况下考虑SR和VS与词汇生成相关的值,有最好的检索性能作为一个整体。通常最高的准确性在上述三个案例,和精度的不同趋势改变一流图像的数量比其他的更温和的病例。在的情况下gydF4y2Ba wgydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba wgydF4y2Ba vgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,也就是只对正在考虑的情况下,检索精度下降的性能作为一个整体。然而,的情况gydF4y2Ba wgydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba wgydF4y2Ba vgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,只有SR正在考虑的情况下,显然检索精度的性能变坏(一流的数量的原因不去120,图片有非零的数量关联值与查询词典不达到120)。从结果中,我们可以看到,改善了检索精度的性能,如果老的因素和VS都考虑在生成关联值和定义的词汇。另一方面,只有一个因素的情况下对被认为是不影响检索的准确性。SR然而,只有一个因素是处理生成关联值和定义的词汇并不是一个好方法代表图像的意义。gydF4y2Ba

另一方面,表gydF4y2Ba 2gydF4y2Ba显示的准确性最高36图像检索关于一些词汇而实现的gydF4y2Ba wgydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba wgydF4y2Ba vgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba wgydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba 0.25gydF4y2Ba ,gydF4y2Ba wgydF4y2Ba vgydF4y2Ba =gydF4y2Ba 0.75gydF4y2Ba ,或gydF4y2Ba wgydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba 1.0gydF4y2Ba ,gydF4y2Ba wgydF4y2Ba vgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba

图像检索的准确性。gydF4y2Ba

WgydF4y2Ba年代gydF4y2Ba 景观gydF4y2Ba 建筑gydF4y2Ba 家具gydF4y2Ba 花gydF4y2Ba 树gydF4y2Ba 日落gydF4y2Ba 餐厅gydF4y2Ba 食物gydF4y2Ba 雪gydF4y2Ba 海滩gydF4y2Ba 山gydF4y2Ba 街gydF4y2Ba 的脸gydF4y2Ba
0gydF4y2Ba 0.86gydF4y2Ba 0.9gydF4y2Ba 0.66gydF4y2Ba 0.64gydF4y2Ba 0.72gydF4y2Ba 0.53gydF4y2Ba 0.72gydF4y2Ba 0.58gydF4y2Ba 0.78gydF4y2Ba 0.83gydF4y2Ba 0.81gydF4y2Ba 0.66gydF4y2Ba 0.81gydF4y2Ba
0.25gydF4y2Ba 0.95gydF4y2Ba 0.9gydF4y2Ba 0.75gydF4y2Ba 0.78gydF4y2Ba 0.83gydF4y2Ba 0.66gydF4y2Ba 0.86gydF4y2Ba 0.66gydF4y2Ba 0.83gydF4y2Ba 0.92gydF4y2Ba 0.89gydF4y2Ba 0.72gydF4y2Ba 0.89gydF4y2Ba
1.0gydF4y2Ba 0.88gydF4y2Ba 0.53gydF4y2Ba 0.58gydF4y2Ba 0.58gydF4y2Ba 0.61gydF4y2Ba 0.5gydF4y2Ba 0.64gydF4y2Ba 0.56gydF4y2Ba 0.72gydF4y2Ba 0.75gydF4y2Ba 0.75gydF4y2Ba 0.69gydF4y2Ba 0.78gydF4y2Ba

从表gydF4y2Ba 2gydF4y2Ba,我们可以看到,尽管不同词汇的准确性是多种多样,很明显,精度最高的词汇gydF4y2Ba wgydF4y2Ba 年代gydF4y2Ba =gydF4y2Ba 0.25gydF4y2Ba ,gydF4y2Ba wgydF4y2Ba vgydF4y2Ba =gydF4y2Ba 0.75gydF4y2Ba 。即考虑SR和VS的方法生成关联值代表图像的含义是有效,提高图像的检索精度。gydF4y2Ba

另一方面,除了使用BAM生成的值SR和VS的图片,还有其他方法在文献中用于这个目的,特别是统计建模方法提出了(gydF4y2Ba 18gydF4y2Ba]。然而,本文的重点是验证考虑语义包容关系代表图像的含义将提高图像检索的性能,同时还没有在文献中提出,而不是验证使用BAM比使用其他方法在图像检索。所以很容易实现的BAM是利用,和其他方法的性能比较文学是没有完成。gydF4y2Ba

4.2。Multilexicons查询检索的有效性gydF4y2Ba

五个学生作为受试者参加实验,每个实验者被要求随机目标测试集的一些图像检索。对于实验,实验者指定域和词汇根据目标图像的含义和调查这张图片是否通过查询检索等领域/词汇。检索词汇的关联阈值(称为事后检索值)可以在查询过程中调整。整个测试过程显示在下面。gydF4y2Ba 问gydF4y2Ba TgydF4y2Ba 我gydF4y2Ba 表示的查询次数获取目标图像gydF4y2Ba 我gydF4y2Ba。gydF4y2Ba

对于一个目标图像gydF4y2Ba 我gydF4y2Ba,选择一个词汇形式给定的域/词汇,大部分是被认为代表图像的含义,并设置为这个词汇检索值。gydF4y2Ba

检索和调查的目标图像或图像是否相似检索的目标在语义和视觉形象。如果没有对应的图像在前24列图像,gydF4y2Ba

捡起一个新的词汇从给定的域/词汇添加到查询条件,设置为这个词汇检索值,将步骤(2),如果列图像的数量大于24。来,让gydF4y2Ba 问gydF4y2Ba TgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 问gydF4y2Ba TgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba

删除最新添加的词典,将步骤(2)中,如果列图像的数量小于24。来,让gydF4y2Ba 问gydF4y2Ba TgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 问gydF4y2Ba TgydF4y2Ba 我gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba 。gydF4y2Ba

结束了检索过程中,如果发现目标图像顶部24图像或列出gydF4y2Ba 问gydF4y2Ba TgydF4y2Ba 我gydF4y2Ba 达到5。实验者记录状态是否找到目标图像(成功的检索(SRL)),查询的数量词汇检索这一目标图像(gydF4y2Ba 一个gydF4y2Ba 问gydF4y2Ba CgydF4y2Ba 我gydF4y2Ba ),gydF4y2Ba 问gydF4y2Ba TgydF4y2Ba 我gydF4y2Ba 。gydF4y2Ba

在这个测试中,每个实验者要求目标30图像检索和研究这些图片是否可以检测到在上面的检索过程。gydF4y2Ba

三个测量了从上面的过程。他们的平均价值在图像检索过程中利用词典每个实验者(CatUsage),平均查询时间获取目标图像每个实验者(AvgQuery)和目标图像的检出率实验者(检测),这是表现在以下几点:gydF4y2Ba CatUsagegydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 米gydF4y2Ba 一个gydF4y2Ba 问gydF4y2Ba CgydF4y2Ba 我gydF4y2Ba 量gydF4y2Ba 的gydF4y2Ba 生存研究实验室gydF4y2Ba ,gydF4y2Ba AvgQuerygydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 米gydF4y2Ba 问gydF4y2Ba TgydF4y2Ba 我gydF4y2Ba 米gydF4y2Ba ,gydF4y2Ba 检测gydF4y2Ba =gydF4y2Ba 量gydF4y2Ba 的gydF4y2Ba 生存研究实验室gydF4y2Ba 米gydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba 米gydF4y2Ba表示目标图像的数量。在这里,gydF4y2Ba 米gydF4y2Ba =gydF4y2Ba 30.gydF4y2Ba 。如果i图像未被检测到,gydF4y2Ba 一个gydF4y2Ba 问gydF4y2Ba CgydF4y2Ba 我gydF4y2Ba 被指定为0。gydF4y2Ba

CatUsage体现了利用频率计数的词典查询过程。CatUsage已经较低的价值,更一般的定义的词汇。AvgQuery体现了平均查询时间找到目标图像检索。值越小意味着图像可以更容易地搜索。检测图像目标体现了发现的成功率。价值越高意味着检索性能好。gydF4y2Ba

图gydF4y2Ba 7gydF4y2Ba显示的值CatUsage关于5实验。平均值为1.41,标准差为0.126。从结果中,我们发现利用词汇的平均数量是小于2查询过程中寻找目标图像,而利用词汇量的偏差很小。这意味着上述给定词汇是有效的和有效的检索图像与一般意义。gydF4y2Ba

CatUsage五实验者。gydF4y2Ba

图gydF4y2Ba 8gydF4y2Ba显示检索目标图像的平均查询时间五个实验。不同的值的范围(1.5,3),平均值是2.23。这些值显示,几乎可以找到目标图像通过查询词典两次或三次。查询的时候并不是非常大,它可以满足用户的检索请求。它还表明定义的词汇是有效的和有效的检索图像与一般意义。gydF4y2Ba

AvgQuery五实验者。gydF4y2Ba

图gydF4y2Ba 9gydF4y2Ba显示了目标图像的检出率5实验图像检索实验。值从63%变化到97%,其平均值为82%,这意味着超过80%的目标图像成功地检索与查询不到5次平均而言,虽然个人的主观行为和标准检索检索结果有所影响。gydF4y2Ba

5实验检测。gydF4y2Ba

作为一个整体,上述实验结果表明,该方法的代表图片的含义,关联值与给定词汇检索与通用性,能够吸收的影响个人的标准注释图像的含义。该方法是有效的和有效的检索图像与一般意义。gydF4y2Ba

5。结论gydF4y2Ba

在本文中,为了系统地描述图像的意义,语义包容关系模型(STRM)反映了词汇之间的宽容程度提出了关于不同领域和指定用观察到的频率计数2克的大型文本语料库。考虑语义相关性的影响(SR)和视觉相似性(VS)解释图像的意义,图像所代表的关联值与给定词汇,尽管这种联想SR值的影响因素和VS .此外,关联值计算通过使用基于像素双向联想记忆(BAMs)和合并STRM,简单的实现与方法等(gydF4y2Ba 17gydF4y2Ba基于贝叶斯统计模型。使用关联值,检索图像的方案提出了词汇。最后,涉及的影响因素的SR和VS生成关联值测试,并检验了该方法的有效性通过目标图像检索查询5个科目。检索图像的精度分析表明,考虑的因素的SR和VS生成关联值提高了图像检索的准确性。另一方面,82%的目标图像通过multilexicons查询检索与查询词典1.4和2.2乘以平均5科目。gydF4y2Ba

对未来的工作、学习模式的影响图像的选择代表特定词汇的含义需要对检索性能进行分析。另一方面,如何规范给定的词汇的数量根据实际图像的背景下构建BAM设置需要探索。此外,图像的像素值被用作学习模式gydF4y2Ba XgydF4y2BaBAM层。然而,其他类型的学习模式的影响,如特征向量的颜色,形状,和纹理图像检索的准确性需要分析。gydF4y2Ba

另一方面,虽然实验结果对于用户的可用性gydF4y2Ba 4.2gydF4y2Ba有些显示该方法的效率和有效性,查询图像的系统接口可能引起的不便用户决定从给定的词汇概念当他们的数量增加。因此,如何设计更方便接口检索图像基于本文建议的机制还需要考虑将来。gydF4y2Ba

确认gydF4y2Ba

这项工作是由jsp KAKENHI科研补助金,19500175,岩手县词头大学的研究资金。作者要感谢冯Shaozi李教授和郭的合作系统实现和实验。gydF4y2Ba

谢gydF4y2Ba lgydF4y2Ba 杨ydF4y2Ba R。gydF4y2Ba 杨gydF4y2Ba J。gydF4y2Ba Multi-concept与大规模多媒体词汇学习gydF4y2Ba 《IEEE国际会议上图像处理(ICIP ' 08)gydF4y2Ba 2008年10月gydF4y2Ba 2148年gydF4y2Ba 2151年gydF4y2Ba 2 - s2.0 - 69949115074gydF4y2Ba 10.1109 / ICIP.2008.4712213gydF4y2Ba GeversgydF4y2Ba T。gydF4y2Ba 颜色定比梯度图像分割和纹理对象的相似性gydF4y2Ba 我gydF4y2Ba 《IEEE计算机学会学报计算机视觉与模式识别会议(CVPR ' 01)gydF4y2Ba 2001年12月gydF4y2Ba 美国夏威夷gydF4y2Ba 8gydF4y2Ba 25gydF4y2Ba 2 - s2.0 - 0035683370gydF4y2Ba 马gydF4y2Ba w . Y。gydF4y2Ba 张gydF4y2Ba h·J。gydF4y2Ba 基于内容的图像索引和检索gydF4y2Ba 多媒体计算手册gydF4y2Ba 1999年gydF4y2Ba 纽约,纽约,美国gydF4y2Ba CRC的新闻gydF4y2Ba 鲁伊gydF4y2Ba Y。gydF4y2Ba 黄gydF4y2Ba T。gydF4y2Ba 优化学习的图像检索gydF4y2Ba 《IEEE计算机视觉与模式识别会议(CVPR ' 00)gydF4y2Ba 2000年6月gydF4y2Ba 236年gydF4y2Ba 243年gydF4y2Ba 2 - s2.0 - 0033698733gydF4y2Ba 周gydF4y2Ba x。gydF4y2Ba 黄gydF4y2Ba t·S。gydF4y2Ba 小样本学习期间使用BiasMap多媒体检索gydF4y2Ba 《IEEE计算机学会学报计算机视觉与模式识别会议(CVPR ' 01)gydF4y2Ba 2001年12月gydF4y2Ba 乌尔班纳,生病,美国gydF4y2Ba I11gydF4y2Ba I17gydF4y2Ba 2 - s2.0 - 0035680168gydF4y2Ba RogowitzgydF4y2Ba b E。gydF4y2Ba 感性形象相似实验gydF4y2Ba 3299年gydF4y2Ba 人类的视觉和电子成像三世gydF4y2Ba 1998年1月gydF4y2Ba 美国加州圣何塞gydF4y2Ba 学报学报gydF4y2Ba MojsilovićgydF4y2Ba 一个。gydF4y2Ba 胡gydF4y2Ba J。gydF4y2Ba SoljaningydF4y2Ba E。gydF4y2Ba 提取感知重要的颜色和相似性度量的图像匹配,检索和分析gydF4y2Ba IEEE图像处理gydF4y2Ba 2002年gydF4y2Ba 11gydF4y2Ba 11gydF4y2Ba 1238年gydF4y2Ba 1248年gydF4y2Ba 2 - s2.0 - 0036870576gydF4y2Ba 10.1109 / TIP.2002.804260gydF4y2Ba 沃格尔gydF4y2Ba J。gydF4y2Ba SchielegydF4y2Ba B。gydF4y2Ba vocabulary-supported图像检索的性能预测gydF4y2Ba 《IEEE国际会议上图像处理(ICIP ' 01)gydF4y2Ba 2001年10月gydF4y2Ba MojsilovićgydF4y2Ba 一个。gydF4y2Ba 戈麦斯gydF4y2Ba J。gydF4y2Ba RogowitzgydF4y2Ba B。gydF4y2Ba Semantic-friendly索引和这位基于目标的提取图像的语义线索gydF4y2Ba 国际计算机视觉杂志》上gydF4y2Ba 2004年gydF4y2Ba 56gydF4y2Ba 1 - 2gydF4y2Ba 79年gydF4y2Ba 107年gydF4y2Ba 2 - s2.0 - 1042300803gydF4y2Ba 10.1023 / B: VISI.0000004833.39906.33gydF4y2Ba WardhanigydF4y2Ba 一个。gydF4y2Ba 汤姆森gydF4y2Ba T。gydF4y2Ba 基于内容的图像检索使用category-based索引gydF4y2Ba 《IEEE国际会议多媒体和世博会(ICME ' 04)gydF4y2Ba 2004年6月gydF4y2Ba 台北,台湾gydF4y2Ba 783年gydF4y2Ba 786年gydF4y2Ba 2 - s2.0 - 11244292348gydF4y2Ba 戴gydF4y2Ba Y。gydF4y2Ba 蔡gydF4y2Ba D。gydF4y2Ba 想象数字集合检索web使用紧凑的感知特性gydF4y2Ba 学报IEEE /每各月ACM国际会议网络智能(WI 05)gydF4y2Ba 2005年9月gydF4y2Ba 572年gydF4y2Ba 576年gydF4y2Ba 2 - s2.0 - 33748857002gydF4y2Ba 10.1109 / WI.2005.72gydF4y2Ba BoutellgydF4y2Ba M。gydF4y2Ba 罗gydF4y2Ba J。gydF4y2Ba 除了像素:利用相机照片分类的元数据gydF4y2Ba 模式识别gydF4y2Ba 2005年gydF4y2Ba 38gydF4y2Ba 6gydF4y2Ba 935年gydF4y2Ba 946年gydF4y2Ba 2 - s2.0 - 14644422552gydF4y2Ba 10.1016 / j.patcog.2004.11.013gydF4y2Ba 布拉德肖gydF4y2Ba B。gydF4y2Ba 基于语义的图像检索:概率方法gydF4y2Ba 第八届ACM国际会议多媒体学报》上gydF4y2Ba 2000年11月gydF4y2Ba 纽约,纽约,美国gydF4y2Ba 167年gydF4y2Ba 176年gydF4y2Ba 2 - s2.0 - 0034443655gydF4y2Ba 余gydF4y2Ba J。gydF4y2Ba 田gydF4y2Ba Q。gydF4y2Ba 对合理使用图像检索的语义信息子空间探索gydF4y2Ba 《IEEE国际会议多媒体和世博会(ICME 06年)gydF4y2Ba 2006年7月gydF4y2Ba 加拿大多伦多gydF4y2Ba 293年gydF4y2Ba 296年gydF4y2Ba 2 - s2.0 - 34247565686gydF4y2Ba 10.1109 / ICME.2006.262456gydF4y2Ba 沈gydF4y2Ba X。gydF4y2Ba BoutellgydF4y2Ba M。gydF4y2Ba 罗gydF4y2Ba J。gydF4y2Ba 布朗gydF4y2Ba C。gydF4y2Ba 多标记机器学习及其应用语义场景分类gydF4y2Ba 存储和检索方法和多媒体应用程序gydF4y2Ba 2004年1月gydF4y2Ba 学报学报gydF4y2Ba 戴gydF4y2Ba Y。gydF4y2Ba 基于类的图像表示Kansei检索考虑语义包容关系gydF4y2Ba 日本杂志协会模糊理论和智能信息gydF4y2Ba 2009年gydF4y2Ba 21gydF4y2Ba 2gydF4y2Ba 184年gydF4y2Ba 193年gydF4y2Ba CarneirogydF4y2Ba G。gydF4y2Ba 陈gydF4y2Ba 答:B。gydF4y2Ba 莫雷诺gydF4y2Ba p . J。gydF4y2Ba VasconcelosgydF4y2Ba N。gydF4y2Ba 监督学习的语义类图像注释和检索gydF4y2Ba IEEE模式分析与机器智能gydF4y2Ba 2007年gydF4y2Ba 29日gydF4y2Ba 3gydF4y2Ba 394年gydF4y2Ba 410年gydF4y2Ba 2 - s2.0 - 33847419773gydF4y2Ba 10.1109 / TPAMI.2007.61gydF4y2Ba 李gydF4y2Ba J。gydF4y2Ba jiali@stat.psu.edugydF4y2Ba 王gydF4y2Ba j . Z。gydF4y2Ba jwang@ist.psu.edugydF4y2Ba 自动语言索引图片的统计建模方法gydF4y2Ba 25gydF4y2Ba 诉讼的IEEE模式认识和机器智能gydF4y2Ba 2003年9月gydF4y2Ba 9gydF4y2Ba 1075年gydF4y2Ba 1088年gydF4y2Ba 10.1109 / TPAMI.2003.1227984gydF4y2Ba 托尔斯滕gydF4y2Ba B。gydF4y2Ba 弗朗茨gydF4y2Ba 一个。gydF4y2Ba 网络1 t 5克。语言数据协会gydF4y2Ba 2006年gydF4y2Ba http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2009T13gydF4y2Ba KoskogydF4y2Ba B。gydF4y2Ba 双向联想记忆gydF4y2Ba IEEE系统,人与控制论gydF4y2Ba 1988年gydF4y2Ba 18gydF4y2Ba 1gydF4y2Ba 49gydF4y2Ba 60gydF4y2Ba 2 - s2.0 - 0023861743gydF4y2Ba 10.1109/21.87054gydF4y2Ba Sozaijiten形象书1gydF4y2Ba Datacraft有限公司gydF4y2Ba 就是去Traxx视频1这家gydF4y2Ba 电影和视频库gydF4y2Ba 数字汁gydF4y2Ba