支持图片搜索标签云:初步方法

文摘

中搜索算法和技术数据集合地址一个具有挑战性的任务,因为他们之间的桥梁的方式用户表达自己的利益,通过自然语言表达式或关键字,代表数据和索引的方式。当数据包括图像的集合,任务变得困难,主要有两个原因。从一边用户表达了他需要通过一个媒介(文本),他将获得的结果通过另一种媒体(一些图像)。从另一个角度来看,它可以让用户难以理解检索的结果;这就是为什么一个特定的形象是结果集的一部分。在这种情况下,一些技术分析的查询结果,给用户一些见解需要检索的内容。在本文中,我们建议解决这个问题通过耦合图像结果集的标签云词描述它。介绍了构建标签云的一些技术和两个应用场景进行了讨论。

1。介绍

Twitter周围的数字令人印象深刻:官方统计数据(https://about.twitter.com/company2014年8月)状态,每天5亿消息被发送到2.71亿年每月活跃用户。微博现在认为是一个重要的媒介通过政府和企业的直接通信。因此,Twitter是一个大的和权威的信息存储库:能够获得任何见解是至关重要的。

在这个领域,我们不是在零步。找到包含相关信息的微博,发现趋势,分析影响/用户和消息的影响仍然是热,开放,和具有挑战性的研究课题,虽然有效和高效的解决方案开发和实施商业工具。应用程序、平台和设备上执行分析微博现在商业化,采用实际的业务场景。这些工具是大数据分析的结果通过应用程序(BDA)技术来tweet。在这个领域,学术和企业研究社区共同把一个大的努力发现未知的技术发展的相关性,从海量数据中隐藏的模式。

这些软件应用程序通常面向文本的分析和元数据构成一个tweet。然而,微博也可以包括图片可以表达有趣的信息的用户。技术和工具的分析与微博相关的图片更先进和一些研究工作仍然是必要的。如果我们考虑,例如,最常用的三个应用程序搜索图片发表在推特上,也就是说,搜索引擎可以在官方网站,TwiPho (http://twipho.net/)和Topsy (http://topsy.com/),用户可以制定查询通过一个简单的用户界面,允许他们通过关键字来表达他们的利益。返回一个列表的工具的图像根据一些相关的关键字查询算法。然而,要理解为什么一个图像被包含在一个特定查询的结果列表用户通常是一个谜。让我们假设,例如,Twitter用户查询界面寻找图像对摩德纳和预期结果意大利照片关于这个城市。用户不容易理解为什么一些高级图像检索和显示在图1连接到摩德纳的城市。我们可以证明醋的瓶子和法拉利的汽车由于摩德纳是他们的城市,结果,但摩德纳和海滩的连接(在第一行的最后形象)是很难证明的,因为摩德纳不是靠近大海。缺乏有效的技术分析的图像在Twitter是一个巨大的差距,因为它已经估计36%左右推包括图像。

因此,我们认为,为用户提供一些技术分析的图像检索用户查询是必要的。非正式的雅虎用户研究报道,在1),表明增加相关建议与具体的解释将会显著增加的相关性的建议,提高用户参与度。根据这些研究,我们认为用户有很大的好处,如果他们能够两图像结果集有理由对用户查询的相关性。在本文中,我们讨论生成标签云的抽象问题描述结果集和我们提出的技术生成标签云的单词总结和解释了图像检索查询。标签云是一个可视化表示的文本数据与图像关联的重要性每个标签显示字体大小和颜色。标签云的使用总结用户查询的结果研究了文献中即使不是经常采用的图片搜索,我们设计一个两步的过程(1)tokenizing-the这一步的目标是把图像展示了一些具有代表性的字眼(2)标签云generation-this步骤提供了一个有效的标签云通过使用单词的第一步。

在某些情况下,第一步可以微不足道:文字与图像提供的手动用户发布的图像。这是Flickr的情况下,其中一个最常用网站托管和分享图片和视频,这允许用户包括一些标记为每个共享图像和提供了一个系统搜索图像与一些特定的用户提供的标签。当您执行这种类型的搜索在Flickr (https://www.flickr.com/photos/tags),返回给用户的图像显示以及一些其他标签,它代表的元素“相关”标签搜索。即使一个标签云,这种信息不提供任何见解的图像也包含在结果集。Twitter允许用户标记信息和这些话(或者,在他们的缺席的情况下,一些代表单词的消息可以通过一些NLP技巧)中提取可用于作为一个标签云发生器输入系统。

第二步需要解决两个主要问题:技术的发展选择哪些词来可视化的标记云(通常是一个标签云是由大约40个单词和工会的标签与图像属于一个结果集可以有一个较高的基数)和形状的定义(例如,大小、字体和颜色)分配到每个单词。我们声称的过程生成标签云是由于应用的三个基本操作:(a)的选择;我们需要的功能可以减少数量的标签与一个结果集;(b)排名;也就是说,我们需要技术能够顺序标记对一些指标;和(c)分区,即分组标记的技术。我们设想这些操作“抽象程序”:很明显有几个可能的实现为每个操作,每一个解决一个具体的目标。例如,排名可以考虑出版时间或频率的标签排序。

在这篇文章中,我们介绍一种新颖的基于系统支持搜索的图片发表一些文本信息。两个特定的用例实现的系统已经将显示:MediaPresenter,创建多媒体演示系统,图像搜索引擎Twitter。我们的目标是提供一个工具来分析图像结果集:因为这个原因我们的建议可以被设想为一个附加的图片搜索引擎。为了简单起见,我们只考虑图像有一些描述性的标签。这将由我们的系统生成标签云。然而,NLP技术提取最具代表性的一条微博可以用于这一目的。我们的想法,这扩展了我们之前的建议(2),是模型标签作为一个网络,两个标签在哪里联系如果它们与相同的图像,并为用户提供特定的基本操作的实现。我们的系统将允许用户选择并组合这些操作及其具体的实现来生成一个标签云(或一组标签云)代表利益的图像。参照前面的示例,用户可以应用一个配分函数与图像相关的标签的摩德纳和发现图像与三个主要议题:汽车、醋,和纪念碑。此外,他可以应用排名功能,创建一个标签云的元素是有序的基础上,它们的频率。

剩下的论文结构如下。下面的小节将介绍一些相关的工作。部分3描述了模型的提议和部分4介绍了系统的功能架构和两个用例中应用程序已经实现了。最后,部分5介绍了一些结论和未来的工作。

的问题选择一个有限数量的标签代表一个结果集的研究文献中,在3)模型和一些指标生成标签云的标签。标签云生成根据拟议的技术实现的一部分CourseRank [4):一个社会工具来访问官方大学信息和统计信息。

其他有趣的方法包括PubCloud [5),一个使用标签云的项目总结PubMed生物医学文献数据库的查询结果。标签云是产生词汇提取的论文摘要查询结果。字体大小的云计算中的词使用频率方面,获得了和可视化的标记标签有频率高于10%的最佳频率:分数和可视化计算非常简单对其他方法,比如我们的技术。在[6)三种不同的方法来确定词云代使用从网络搜索结果:全文,查询偏见和锚文本建立云。他们定义一个特定的模型评分条款和贪婪算法来选择最好的标签:初步结果是通过使用2009 TREC网络跟踪文档组评估。此外,雷克斯系统[1]有点相关的动机研究。本文提供的需要解释关键字高亮显示查询结果。我们认为标签云可以提供这些信息。最后,关于关键词搜索标签,该技术需要一些灵感从我们以前的工作在关系数据库关键词搜索,提出了两个原型(7,8]。

3所示。该模型

在本节中,我们描述了数据表示模型支持通过原始操作标签云的生成。我们考虑一组图像和标签的集合与它相关联的。在我们的模型中,标签与图像表示成一个图,其中节点的标签和标签的边缘存在cooccurring相同的形象。灵感来自[3),我们建议和模型一些措施应用到我们的图模型的生成有效的标签云。我们的目标是提供一个技术,基于选择、排名,和分区操作,生成和评估标签云,总结图像搜索引擎的检索结果。我们不感兴趣这些结果是如何生成或排名的搜索应用程序:我们的工作是独立计算的结果集。这样我们的建议适用于任何图片搜索系统。此外,在本节中,我们想描述一个通用模型和可以执行的操作,利用它。系统的实际实现基于该模型,采用只有一个子集的建议措施。

让我们假设一个查询是的一个子集:这是一个合理的假设,因为通常情况下,从一个查询图像搜索引擎返回的图像集合和标签的集合与至少一个图像。我们表示协会的一组标签标记的图像,属于。

定义1(协会组下)。一组定义了协会查询的作为。

为了提供一个灵活的模型生成标签云,我们考虑得分函数的一般定义:

一个简单的评分函数图像的频率。使用它,等于所有图片有相同的分数,在那里的基数。我们调用这个函数频率函数。其他得分函数可以利用为了给一些图片而不是其他更重要,例如,分配一个更高的分数的基础上图像的时间戳:照片是最近越多,它是相关的,而老照片也可以不被认为是低于某一阈值。其他得分函数可以考虑:空间距离(对用户的位置)和结果的“社会层面”(衡量,例如,在Twitter上转发的数量)。

给定一个得分函数,我们希望的空间标记图的标记在哪里每个顶点代表顶点和一个标签;是两个标记之间的边缘,与cooccurs在一个图像;和分别是,权重的设置的顶点和边的权重的设置。一个节点被定义的重量如下:

直观地说,如果,一个节点的重量代表图像的一部分属于和标记。然后,我们定义的重量一对标签,然后使用它来定义边缘的重量:

再一次,如果,然后代表两个标签的共存和,正常的图片总数。的可以直接用作体重吗两个标记之间的边缘;另外,它允许计算其他措施利用边的权重。事实上,计算骰子,Jaccard和余弦系数变得简单:

形式上,一个标签云是的一个子集,在我们的模型中作为子图表示图的标记下一个查询总结了查询结果,旨在帮助用户在导航。为了定量评价一个标签云的美好我们定义以下两个措施:的覆盖率和重叠。

3.1。评价

覆盖率一个标签云是一个衡量图像的一部分属于与标记相关的: 在哪里和分别的重量内边缘和内部节点的重量一组顶点吗: 一个标签云的覆盖取决于图像的数量与标签属于相关联和他们的分数。如果和,那么的报道代表图像的具体分数与至少一个标签。

我们考虑的另一个衡量评估一个标签云是重叠的的,可以被视为一种测量的冗余,也就是说,有多少图片标签有关也与另一个标签: 一般来说,一个理想的标签云应该有一个低重叠和高覆盖率。下面我们定义和讨论一些指标有用执行的选择和排名为了建立。

3.2。排名和选择

执行排序和选择的节点属于的图像标记,我们需要确定网络中一个节点的重要性。如果可以测量的重要性,选择和排名的节点可以根据执行它。

我们可以考虑高的节点连接数(也考虑这些连接的重量)是重要的。捕捉这一想法是衡量中心的程度可以最大程度的正常化在网络或程度。

另一个可能的方法是计算图中节点的PageRank,依赖的想法,如果一个重要的节点连接到另一个节点,后者也应该是重要的。

所有这些措施缺乏一个方面:他们倾向于考虑所有节点属于一个独特的集群,必须总结。这是一个相当不自然的假设很少适合实际情况。事实上,通常可以将结果在不同的集群由于内在模棱两可的标签。因此,除了允许分区和一个排名的任务,我们需要更进一步:分区。

3.3。分区

许多算法可以用来分区图(9]。这个任务的目标是最小化不同集群之间的重叠,同时最大化的协会的力量在一个集群成员。给出一个量化指标,根据前面的符号,我们组聚类系数定义为在哪里边的权值之和,集群内部一个外部的链接节点。

同样,我们的模型可以利用社区检测算法,特别是[10),提出了一种技术来自动确定最优数量的社区,以及生成层次或重叠的。

4所示。该系统

我们的应用程序被设计为两个独立的组件,工作耦合:一个搜索引擎检索图像和相关标签和云发生器分析结果所提供的第一个工具来生成一个视图的形式总结内容的标签云。相互独立的组件:标签云的生成不依赖于技术采用检索图像,但它只考虑了图像检索和标签,亦然,图像搜索不是标签云生成过程的影响。此外,使用图像和相关标签并不是一个限制,因为有应用程序在实际工作场景管理和检索图像和相关词汇。

图2显示搜索的功能体系结构和标签云发生器组件。在我们的初步原型中,搜索器组件实际返回图像的基础上相关的描述。如图,第一个操作执行的组件集合相关的图片和描述。这一步的目标是生成标记的代表图片从它们的描述。组件实现一个简单的信息检索技术,特别是基于向量空间(11排名),检索和图像描述的基础上对用户的关键字查询。

第二部分的输入用户关键字查询的结果计算搜索者,目标是生成它的表示形式的标签云。提出的技术模型结果集作为一个图,节点相关的标签,标签边缘之间存在相同的形象。此外,图中的节点加权的基础上,它们的频率。从这张图表示结果的一个标签云是由应用程序生成的三个基本操作的选择(减少标签的数量),排名(发现最重要的并相应地可视化),和分区(集群标签以某种方式相关)。有许多可能的实现这些操作,这是基于并试图最大化不同的措施。在下面,我们将提出一些建议,因为他们已经在我们的原型实现。此外,我们认为这是一个责任的用户选择操作应用(只有一个操作或一个系列的,订单的执行和具体实现。

第一次提出了实现我们的想法和测试在MediaPresenter,通过加入协作开发工具之间的摩德纳大学DBGroup Reggio Emilia和成瘾创建媒体实验室,一个意大利中小企业。活动的一部分,由艾米利亚-罗马涅意大利地区,在LISEA实验室(http://spring.bologna.enea.it/lisealab/)。节中描述4所示。1生成的标签云,在这个项目中得到的结果是一个选择过程,通过使用一个措施。节4所示。2中,我们将展示我们的想法实现MediaPresenter可以扩展来处理图像的检索Twitter。

4.1。MediaPresenter

MediaPresenter是一个在线的跨平台应用程序,提供了大量的服务共享和数字档案管理。MediaPresenter的主要目标是生产多媒体演示,这可以通过结合多媒体库称为MediaBank可用资源。我们尝试我们的想法支持图片搜索的标签云MediaPresenter通过实现一个服务支持用户从MediaBank检索有趣的内容存储库。MediaPresenter提供的其他服务,包括由多个用户并发访问数据与不同角色、进口多种类型的数字资源的可能性(3 d表示,视频,图片,等等)和导出在各种格式(swf, pptx, png, pdf),和一个关键字的搜索引擎检索从MediaBank数字内容。生成演示的过程包括四个步骤,即选择、组装、转换和演示。

选择步骤。在这一步中,中包含的多媒体资源MediaBank检索使用基于向量空间的一种信息检索技术。存储库中的每个多媒体资源是通过一个独特的识别代码(通常是文件的名称),一系列相关的元数据指定内容和描述这样的元素的属性。元数据构成的搜索空间红外技术寻找用户提供的关键字作为输入。

装配步骤。在这个步骤中,用户组装的最后呈现从单一资源检索前一步骤。用户还可以组合不同类型的元素根据他们的角色。例如,一个用户可以是一个slide-maker,因此他可以组装的幻灯片;与此同时presentation-maker只能组装完整的演示。

转换步骤。一旦用户不停的重复前面的步骤,创建完整的演示,转换步骤允许他按不同格式保存最终产品,根据用户的需求。

演示的步骤。MediaPresenter客户开发Flex应用程序运行在浏览器;因此报告可能显示在任何设备上有一个浏览器和一个互联网连接。然而,演讲可以发表在不同的格式,因此它可以通过其他应用程序。

以下4.4.1。MediaPresenter标签云

MediaPresenter的主要目标是支持用户发布多媒体演示。为了达到这个目标,该系统为用户提供了所有可用的信息可以简要概括为演讲的话题,打开幻灯片,或一系列幻灯片和数字资源已经使用在过去或现有的数字内容企业。在创建过程中,典型的用户执行操作的搜索资源存储在MediaBank使用名称、尺寸、类型和创建日期作为搜索条件。从这些搜索结果往往不能令人满意,主要是由于缺乏用户数据库结构的知识和经验。此外,数据库搜索结果往往认为是数据库元组,而非技术人员认为在实体方面,不是元组。为了克服这个问题,我们设计了一个特定的搜索方法,允许用户执行一个关键词搜索在MediaBank数据库使用术语,可以找到在不同领域(名称、标题、描述等)和多个关系,向用户隐藏的数据结构。为了使这种方法更加有效,系统允许用户把单词每个数字资源:这些标签,可以手动指定的用户选择正确的一组预定义的建议或在运行时创建新标签前新生。通过添加元数据组织资源的行动被称为“标记”,它是流行在网上在这些年来12]。使用标签来标注资源不仅允许系统指定关键词搜索存储资产,还要创建标签云,并考虑云中的每个词作为一个超链接,可以用来改进搜索结果,动态地指导用户隐藏内容之间的关系,最终导致偶然发现的有趣的结果。

图3显示了MediaPresenter接口用于关键字搜索支持的标签云。在这种情况下,用户正在寻找所有包含术语“人的多媒体资源。”左边的用户可以选择首选的资源,和底部的标签云图像的支持用户在浏览所有相关资源。

4.1.2。关键字搜索MediaBank和标签云的一代

在本节中,这个过程采用MediaPresenter关键词搜索和标签云代了。让我们表示的MediaBank数据库,搜索过程和应用的th关系存储在。每个包含一组关系的列。我们考虑随着th的列关系。通过我们表示一个通用的元组。鉴于和和之间的主-外键关系和,我们认为的元组图形数据库,我们考虑每个元组的节点鉴于两个元组和其中,优势存在。可以建模为一组吗搜索的实体。在我们的案例中对应的数字资产集可以返回的搜索方法,提供,因此,一种返回实体的表示单位。对于每个实体我们考虑随着th描述实体的属性。既可以看到一个一对一的映射到数据库中的一个特定的列(例如,资源名称)也作为一个多对一的映射,因此分组数信息在一个搜索实体属性(例如,指定的标签设置为数字资产可以被认为是一个属性的资产实体)。特别是,我们考虑每个特定搜索实体的标识符。一个实体的ID,因此,是一个映射关系的主键,在那里被称为主要实体关系。在我们的环境中,我们认识到作为主要实体关系表DAM_object,它提供了所有的数字资源id。另一方面,我们称所有其他加入直接或间接的关系并提供额外的信息二级实体关系。我们确定了标签,presentation_serie_template,serie_slide表作为次要的实体关系。表1描述了数据库关系我们考虑关键字搜索。

(一)DAM_object


Asset_ID	Asset_name	Folder_name	Asset_file_name

DA001	asset_001	产品	box_front.jpg
DA639	opening_3	包	B03240.jpg
DA640	opening_4	包	ustraws.jpg

(b)标签


Tag_ID	术语

T45	黄色的
T10	箱机
套T55型	产品
T2	伞
T19	无菌
T31	汁
T50	广场
T87	操作符

(c)serie_slide


Slide_ID	标题	源

S33	概述	< mx: Application >…
S101	特殊的盒子	< mx: Application >…
S6	结论	< mx: Application >…
S869	更新	< mx: Application >…

(d)presentation_serie_template


Object_ID	的名字	描述

P50	新箱机	在这个演示…
P13	关于MediaPresenter	MediaPresenter是…

总结,我们开发的关键字搜索引擎返回ID存储在数字资源确认DAM_object主要的关系。每个资源包含属性直接相关的主要关系(名称、文件名、文件夹名称)也属于次要关系属性分组信息。每个实体获得信息的幻灯片(s)它属于,由于加入的serie_slide关系。此外,信息表示(系列、模板)添加加入的关系serie_slide与presentation_serie_template。最后的关系标记提供了信息的集合资产标签以及相关信息标签的集合表示包含资产实体(系列、模板)。

我们的搜索函数的输入是一个查询,我们假设是由一定数量的关键字。我们假设给定一个关键词和一个搜索实体确定的ID存储在元组的主要关系和包含如果下列语句之一:(a)的一个属性的值包含;(b)包含一个元组存储在关系包含一个属性值等于,连接元组元组的路径图来的存在。给定一个查询,用生成的实体的集合,它包含一组相关的搜索实体至少一个关键字包含在。

在这个应用程序中,我们提出了选择操作生成的云标签与多媒体相关的资源。为此,让我们考虑一下所有的标签。这些标签是文本标签(单词)分配给资源;因此每个资源与一组标记有关,用吗。我们表示标签的集合中包含的实体;同样的我们认为与标记相关的组对象。覆盖率度量中引入后(3)我们实现了一个标签选择算法最大化的实体所覆盖的标签结果作为输出。此外,由于上下文的用户创建标签组,每个组都有一个标签识别一般的主题,我们可以考虑给一定的搜索结果,组的总和”标签本身就是一个标签云总结所有结果的话题。为了总结产生的标签云标签和标签产生的一组,我们使用颜色来识别每个标记它属于集团和索引显示所有组织相关搜索。以这种方式用户可以执行一个细化的结果使用两个不同的粒度级别:一般的主题,选择感兴趣的组指数,和一个更详细的使用的标签云。

4.2。在Twitter搜索图像

Twitter提供了第二个用例的应用我们的想法支持搜索图像通过标签云。在这种情况下我们的工作仍然是初步:目前我们已经开发出一种软件原型,我们现在在使用我们的技术评估用户体验。

Twitter已经提供了一个搜索引擎;尽管如此,正如简介中观察到,在某些情况下,它是不清楚用户关键字查询相关的图像。我们声称一个标签云可以支持用户在这个过程中,通过提供一些见解图像结果集的内容。这些知识而且可以用于提炼关键字查询,通过添加条件更好的反映用户的目的意义和提高质量的结果。我们的想法是实现我们的技术作为插件应用程序分析结果通过Twitter搜索引擎。参照功能架构图2,第一个组件已经通过Twitter和实现我们的努力集中在第二部分。有两个主要的问题,已经解决了该系统的发展:(1)“候选标签”的定义推和(2)的开发GUI管理的用户交互和一些实现三个基本操作在此上下文中使用。

关于第一点,这个问题是定义的标签与图像相关联。Twitter用户可以定义特定的标记,称为“标签”;然而在我们的经验中只有这个元数据的使用是限制因为它不是用户所采用。在我们的测试数据集(通过一个随机选择的文章发布在Twitter上),只有23%的微博有一个关联的图像也有一些标签。出于这个原因,我们的选择是考虑标签所有单词tweet的一部分,删除后停止的话,一个阻止的过程。通过这种方式,标签与每个图像相关联的数量增加。如果需要(我们的实验事实并非如此),以减少产生的噪声无关紧要的话,可以考虑减少标签的数量,在图一代,只有超过指定阈值时出现。

图4显示了GUI支持用户标签云的一代。界面分为两个部分。在主要部分图像检索的Twitter搜索引擎,用户关键字查询制定作为一个答案通过顶部的输入文本框,显示以及它们的标签云。简单的仪表板允许用户选择操作,实现他们的执行顺序和它们生成的云。在正确的GUI的一部分,系统显示发生了什么,在图像检索和标签云,与一些自动计算改进用户的查询。建议的新关键词直接派生过程生成标签云,在最好的结果(根据选择的度量用户)可以添加到原始的。在这种情况下,应用程序显示了三个细化,但可以由用户指定。通过这种方式,我们设计一个迭代的过程,用户可以手动优化查询或被支持的应用程序在发现他正在寻找什么。

可能有一些指标的实现,可用于选择、排名,和分区操作。表2显示了一些指标,我们利用Twitter开发技术处理图像。特别是,技术分析的基础上可以利用时间和空间距离的所有操作的实现版本。通过使用基于这些措施的技术,我们可以选择,排名和组标签的基础上他们的空间/时间接近。根据这些措施,例如,我们可以将优先分配给最近的标签。基于频率的技术可用于选择和排序标签。例如,我们可以利用覆盖程度(即。,的amount of images which are associated with a subset of the tags [3])和重叠程度(见部分3)选择更好的总结了图像的标签被插入标签云。由于标签被建模为一个图,我们可以利用指标已开发领域的链接分析的所有操作。节3,中心度和网页排名已经提出了分析图表表示。技术可以利用基于这些价值观的选择,排名,分区的标签。最后,基于语义技术可以用来识别标签相似,或代表多/少比其他的通用概念。


指标	选择	排名	分区

空间/时间接近	X	X	X
频率	X	X
链接分析	X	X	X
语义分析	X		X

4.2.1。准备激励的例子

作为一个激励的例子,我们地址关键字查询“摩德纳”系统,我们展示相关的标签云的结果可以利用生成该操作选择,排名和分区。首先系统检索所有相关的图像标记“摩德纳”和收集与他们相关联的所有标签。

从标签的列表,系统计算共存和相似性度量和构建的图像标记。最后,选择操作执行试图最小化重叠的标签而选择那些高学位中心。表3显示选中的标签。这些标签都是排名,其重要性的基础上,测量的PageRank。视觉表达重要性的概念通过标签的字体大小显示给用户。为了更好地总结标签云的内容,标签的集合分区利用社区检测算法。这允许工具管理查询的内在模糊性,因为检索到的图像是不同的主题。在我们的示例中,社区检测算法确定了四个主要主题:食物,摩德纳的足球队,法拉利汽车,摩德纳市和其历史中心(见表4)。


选择标签

农业、汽车、汽车、种族、食品、意大利、城市,意大利,足球,比赛,ModenaFC, healthy_food,香,穹顶,Historic_Center,马拉内罗,团队,葡萄,人,大学的地方,醋,体育,Sassuolo,意大利面,餐馆,酒厂,葡萄酒,法拉利,Ghirlandina,广场,火腿,体育场,景观,Enzo_Ferrari,博物馆,农村,世界


分区	标签

城市	意大利,城市,意大利,穹顶,Historic_Center人,大学Sassuolo, Ghirlandina,广场,景观,乡村,世界的地方

车	车辆、汽车、种族、马拉内罗,法拉利,博物馆,Enzo_Ferrari

足球	足球比赛,ModenaFC,团队,体育场,运动

食物	农业、healthy_food香、葡萄、醋、意大利面、餐馆、酒厂、酒、火腿、食物

搜索任务的分析凸显了这个激励的例子表明,选择的组合,排名,和分区程序提供我们的建议能支持用户在有效和高效的关键词搜索Twitter图片。

我们所知,我们的方法和提供的程序支持,它可以提供在搜索过程中没有任何其他的工具。一个定性的比较我们的建议和一些可用的商业关键词搜索系统对图像显示在表中5。特别是,我们制定相同的关键字查询(“摩德纳”)的工具:Topsy (http://topsy.com/),TwiPho (http://twipho.net/),Spezify (http://www.spezify.com/),Picsearch (http://www.picsearch.co.uk/),Flickr (https://www.flickr.com/photos/tags)和oSkope (http://www.oskope.com/)。结果所提供的工具和图所示5分析并与那些通过我们的建议根据四个方面:图像检索(即质量。,we evaluated if the images provided as a result can be easily associated in some way with the subject of the query), quality of the tags retrieved (i.e., we evaluated if some tags are provided as a result and if they can be easily associated in some way with the images and the subject of the query), relationships between tags and images (i.e., we evaluated if images and tags retrieved are in some way related), tag explorations (i.e., we evaluated if and in which way the system supports search for related tags). For each perspective and each system, a rating (1—strongest, 3—weakest) is provided if the feature is implemented.


网站	图片	标签	Tags-images	标签expl。

Topsy	2	厦门市。	厦门市。	厦门市。
TwiPho	1	厦门市。	厦门市。	厦门市。
Picsearch	2	1	2	2
Flickr	2	1	1	3
Spezify	3	2	2	厦门市。
oSkope	1	厦门市。	厦门市。	厦门市。
我们的建议	2	1	1	1

Topsy oSkope和TwiPho工具只面向图像检索:他们不提供任何标签或理由答案返回给用户。报告的评估表5代表图像的准确性通过相关性分析的结果集。在我们的实验中,TwiPho比Topsy oSkope表现得更好。Picsearch、Flickr和Spezify将标签与图像。在我们的实验中,Spezify无法获取准确的结果的图像和标记。此外,标签提出低(即相关查询。,的system generated the tags “Modena,” “stamp,” “Ferrari,” “stati,” and “1852.” Among these tags, only Modena and Ferrari are related to the query). Flickr and Picsearch are the tools which performed better in our experiments; nevertheless, in both the tools, searching for tags produces new queries which are only poorly related to the initial user’s request.

5。结论和未来的工作

在本文中,我们提出了我们的方法的耦合结果集标签云。我们认为通过标签云可以传达的知识非常有用的向用户提供一个更好的洞察结果集的相关性。这些知识非常有用当用户正在寻找图片,那里通常有一个不匹配的用户制定查询(通过短信)和结果(图片)。在这种情况下,找到一个连接查询,回答可以是困难的。我们已经介绍了我们的初步想法和,我们展示了如何在两个系统中实现这些想法。下一步我们研究的主要是两个:(1)开发新技术实现选择,排名,和分区操作标签云的生成和(2)来评估用户体验在使用我们的方法中,特别指的是Twitter的场景。

利益冲突

作者宣称没有利益冲突有关的出版。

引用

l .方公元Sarma, c . Yu和p . Bohannon“雷克斯:解释对实体之间的关系,”美国养老,5卷,不。3、241 - 252年,2011页。视图:出版商的网站|谷歌学术搜索
s . Bergamaschi f·法拉利、m . Interlandi和m . Vincini”Mediapresenter, web多媒体内容管理平台”Sistemi Evoluti /基本di Dati-SEBD 2011, 19意大利先进的数据库系统研讨会上,Maratea,意大利,2011年6月26 - 29日g·麦加和s·格列柯,Eds。,437年,页2011。视图:谷歌学术搜索
p . Venetis、g . Koutrika和h . Garcia-Molina”标签云的选择标记,”学报》第四届ACM国际会议网络搜索和数据挖掘(WSDM的11)2011年2月,页835 - 844。视图:出版商的网站|谷歌学术搜索
b . Bercovitz f . Kaliszan g . Koutrika et al .,“通过courserank社交网站的研究,”SIGMOD记录,38卷,不。4,29-34,2009页。视图:出版商的网站|谷歌学术搜索
b .杨绍明。关铭郭,t . Hentrich b . m .好,m·d·威尔金森”总结的网络搜索结果,标签云”学报万维网(WWW ' 07)会议,第1204 - 1203页,2007年。视图:谷歌学术搜索
r . Kaptein和j·坎普斯”的多个搜索结果,云”多学科信息检索卷,6653在计算机科学的课堂讲稿施普林格,页78 - 93年,柏林,德国,2011年。视图:出版商的网站|谷歌学术搜索
s . Bergamaschi e . Domnori f . Guerra m·奥尔西尼·r·t·总理和y Velegrakis”Keymantic:语义关键字搜索在数据集成系统中,“美国养老,3卷,不。2,页1637 - 1640,2010,http://www.comp.nus.edu.sg/∼vldb2010 /程序/文件/文件/ D31.pdf。视图:谷歌学术搜索
s . Bergamaschi f . Guerra m . Interlandi r . t .总理和y Velegrakis,“追求:再保险lational数据基于语义关键词搜索系统和机器学习技术,”《VLDB》第六卷,没有。12日,第1225 - 1222页,2013年。视图:谷歌学术搜索
走,“社区检测图”,物理的报告,卷486,不。3 - 5,75 - 174年,2010页。视图:出版商的网站|谷歌学术搜索|MathSciNet
y y。安、j.p. Bagrow和莱曼,“链接揭示多尺度复杂网络社区,”自然,卷466,不。7307年,第764 - 761页,2010年。视图:谷歌学术搜索
w·b·克罗夫特·d·麦茨勒,t . Strohman在实践中搜索Engines-Information检索2009年,培生教育,。
s . a .高德与b . a .胡伯曼“协同标记系统的结构,”http://arxiv.org/abs/cs/0508082。视图:谷歌学术搜索

多媒体的发展