研究文章|开放获取
塞浦路斯Vrochidis, Ioannis Kompatsiaris, Ioannis佩特雷, ”<年代p一个nclass="adjust-article-svg-size">利用隐式的用户反馈来提高互动视频检索年代p一个n>”,多媒体的发展我>, 卷。2011年, 文章的ID310762年, 18 页面, 2011年。 https://doi.org/10.1155/2011/310762
利用隐式的用户反馈来提高互动视频检索
塞浦路斯Vrochidis<一个class="sc-htpNat bUhGXt link" href="mailto:" aria-label="Mail Option">
1年代up><年代p一个n>海勒斯研究和技术中心信息和远程信息处理研究所,6日荷航Charilaou-Thermi路,57001年的希腊塞萨洛尼基年代p一个n>
2年代up><年代p一个n>伦敦大学玛丽女王,英里路,英国伦敦E1 4 ns年代p一个n>
文摘
本文描述了一种方法来利用隐式的用户反馈收集在互动视频检索任务。我们提出一个框架,视频是第一个索引根据时间,文本和视觉特性,然后隐式使用基于用户反馈分析实现方法。生成的图像编码视频片段之间的语义关系基于过去的用户交互和随后用于生成的建议。此外,我们结合的视觉特性和隐式反馈信息通过训练支持向量机分类器的例子来自上述图以优化查询的视觉搜索示例。拟议的框架是评估进行真实用户实验。的结果表明,显著改善精度和召回报告后,利用隐式的用户反馈,同时提出了一种改进的排名在大多数视觉评估查询的例子。
<年代p一个nclass="end-abs">1。介绍
近年来,数字技术的快速发展使得计算机的日益增长的存储和处理能力,以及快速的建立和先进的通信网络。考虑到同样的低成本图像和视频捕捉设备和互联网在当今社区的深层渗透,大量的视听内容已成为全球可用和可访问。这些内容的可用性和用户需要搜索到多媒体的需求集合的地方开发先进的多媒体搜索引擎;因此,视频检索的研究仍然是最具挑战性的任务之一。尽管最近在这个领域重大进展,进一步进步在几个视频检索领域需要提高当前的视频搜索引擎的性能。突破仍需要更具体地说,主要的研究领域的语义和互动搜索可能使用多通道分析和检索算法,以及相关反馈(<一个href="#B1">1一个>]。
最先进的视频检索系统整合,结合一些先进技术包括文本检索和基于内容的视觉搜索,为了支持用户定位视频剪辑,满足他们的要求。这些方法所面临的主要挑战之一是生成有效的表征和描述的视频源。最初的一步这个方向是视频分割和索引分成更小的视频截图(<一个href="#B1">1一个>]。基于视听信息,可以提取低层次特征(<一个href="#B2">2一个>每一个镜头的);然而,由于众所周知的语义鸿沟问题,很难将它们与人类可以理解的概念。组合和融合的异构信息(如视觉、文本和运动)被认为是解决这个问题的第一步和有前景的结果呈现在图像和视频检索领域(<一个href="#B3">3一个>- - - - - -<一个href="#B6">6一个>]。然而,进展表示和索引的多媒体内容还没有设法克服语义鸿沟。
另一种方法是利用语义桥梁提供的隐式和显式反馈用户(<一个href="#B7">7一个>的一个视频搜索引擎。在交互式视频检索任务,多个搜索会话,用户提交的查询、浏览视频信息,甚至提供明确的反馈结果。相关性反馈(RF)在信息检索机制被设计为互补的方法来进一步提高系统的性能要求显式反馈用户(即。识别正面和负面的例子),指导的机器学习技术。尽管图像和视频检索有前景的结果(<一个href="#B8">8一个>- - - - - -<一个href="#B10">10一个>),用户RF-based功能不是很受欢迎,因为他们的主要缺点是用户通常不愿意提供明确的信息(<一个href="#B11">11一个>,<一个href="#B12">12一个>]。这也反映在流行的web搜索引擎(如Google, YouTube等),提供用户界面,不请求或搜索会话期间需要显式的用户反馈。出于这一事实,我们建议利用隐式的用户反馈在搜索过程中,为了获得新的知识内容和涉及的多媒体项目之间建立语义关系。此信息可以利用生成的建议,以及改善现有的基于内容的检索方法的性能。
在这项工作中,我们认为隐式的用户反馈任何行动或导航行为的用户在互动视频检索任务,包括鼠标移动和点击和键盘输入和按键。使用隐式技术的主要优势是,他们不需要任何显式的用户反馈。虽然隐式信息一般被认为是比显式(不准确<一个href="#B13">13一个>),大量的隐式数据(例如,在web搜索引擎日志文件)可以聚集在没有额外的努力给用户。最近在交互式视频搜索方法试图利用过去的用户交互执行检索(<一个href="#B7">7一个>)或补充现有的基于内容的搜索模式(<一个href="#B14">14一个>]。在这种背景下,我们提出一个视频检索框架,支持视频分析,以及隐含的用户反馈记录和处理。然后,我们根据过去的用户交互和提供建议我们提供混合视觉搜索模式相结合(即不同类地提取信息。隐含的反馈和视觉功能)采用机器学习的方法。
视频处理与应用程序实现文本、音频、图像和视频分析,包括视频镜头分割、关键帧提取和生成视觉功能,以及自动语音识别(ASR)和转换为文本。另一方面,我们利用隐式的用户反馈,为了启动语义视频片段之间的关系。这是由引入隐式视频搜索感兴趣的指标,然后通过构建语义关联图,它是利用生成的建议在以下两个步骤。第一,一个动作图描述生成用户导航模式采用一种新颖的方法,定义了搜索子(即。,部分会话的用户搜索一个特定的主题)基于查询分类。然后,一组行动图转化为一个加权图通过聚合操作图和分配权重量化的隐式的用户操作兴趣指标。为了提供建议,我们使用一个基于距离的算法来排名图节点。可视化查询的例子,这个图是利用以类似的方式来定义正面和负面的例子。后者与一组视觉合并相似和不同的例子基于视觉特性,为了构建一个训练集,用于训练支持向量机(SVM)分类器,reranks视觉搜索的结果。
这个框架实现了一个交互式视频搜索引擎,支持基本检索功能包括文本、视觉和时间搜索。搜索引擎使用的评价方法进行实际用户实验3个阶段:首先,一个基线系统仅支持视频分析检索选项使用用户,和他们的行为被记录;然后,不同的用户正在寻找话题比基线的使用稍微不同的增强版本的搜索引擎,也利用用户隐式反馈,为了评估建议;最后,在第三阶段中,不同的用户被雇来评估reranking的视觉效果。
详细论述了和整合的工作<一个href="#B15">15一个>,<一个href="#B16">16一个>到一个坚实的框架,而延长评估通过额外的实验和对比上述文章中介绍的技术。研究小说的贡献的工作中总结提出的基于查询的图表分析的方法分类和子的定义,以及方法结合视觉特性与隐式的用户反馈。作者所知,这是第一个尝试把过去的用户交互模式和视觉特性。
本文结构如下:部分<一个href="#sec2">2一个>介绍了相关工作,在部分<一个href="#sec3">3一个>,我们介绍了支持向量机用于reranking结果可视化查询的例子。视频索引和检索框架提出了部分<一个href="#sec4">4一个>,而部分<一个href="#sec5">5一个>处理视频内容分析。部分<一个href="#sec6">6一个>描述用户隐式操作基于图的处理方法,和部分<一个href="#sec7">7一个>提出的方法结合视觉特性与图结构的隐式的用户反馈。部分<一个href="#sec8">8一个>展示了实现搜索引擎和用户交互模式,并给出了实验结果和评价在部分<一个href="#sec9">9一个>。最后,部分<一个href="#sec10">10一个>总结了纸。
2。相关工作
在一般情况下检索任务,隐式的用户反馈可以分为两大类:用户查询行为和物理反应。第一类包括用户与搜索引擎的交互的模式,作为一系列鼠标移动和点击,选择,关键的中风,和键盘输入,而第二个包括物理用户无意识行为眼球运动(例如,<一个href="#B17">17一个>)、心率和大脑神经元的反应,可以聚集与脑电图(例如,<一个href="#B18">18一个>])。一方面,第一类的反馈可以很容易地聚集即使在网络搜索会话,而生理反应可以借助特殊的记录可穿戴设备或其他传感器(如相机)捕获和分析用户行为。在这项工作中,我们将重点放在利用用户反馈,属于第一类。
隐式反馈方法基于用户与搜索引擎的交互的上下文中有效文本检索,他们大多是用于查询扩展和用户分析,以检索、过滤和推荐感兴趣的项目(<一个href="#B19">19一个>]。介绍了“隐性利益指标”(<一个href="#B20">20.一个>)作为一个特定的用户操作的定义可以被视为有意义的隐含的反馈。在[<一个href="#B21">21一个>),作者进行了一个比较显式和隐式反馈系统得出结论,这两个系统之间没有显著差异,取代前者与后者可能是可行的。
在另一个有趣的工作<一个href="#B11">11一个>),作者试图自动优化搜索引擎的检索质量使用点击数据。该方法利用点击数据(利用搜索引擎的查询日志)进行训练。支持向量机(SVM)方法,本文提出一种方法学习检索功能。更具体地说,点击数据翻译成排名用户首选项,然后用于火车检索功能。在这种情况下,支持向量机实现特别设计为了训练这样的排名,反映相关的用户首选项(即。,一种选择是比另一个)。
在[<一个href="#B12">12一个>),提出检测(即“查询链”。,一个年代equence of queries) and then learn a retrieval function using SVMs. The authors demonstrate a simple method for automatically detecting query chains in query and clickthrough logs. These data are used to infer preference judgments regarding the relative relevance of documents both within individual query results and between documents returned by different queries within the same query chain. The method used to generate the preference judgments is validated using a controlled user study. A ranking SVM is adapted to learn a ranked retrieval function from the preference judgments. The results demonstrate significant improvements in the ranking given by a normal search engine.
隐式反馈技术尚未充分探讨了在多媒体领域(<一个href="#B22">22一个>]。在文本检索,通常隐含的信息,可以考虑是用户选择(即。,theu年代erclicks on an interesting link or textual description to view the complete document), while in video retrieval, we have multiple interactions between the user and the system, which could be utilized to provide meaningful feedback. The main idea to exploit the user feedback during video retrieval interactive sessions is to extend the idea of “query chains” [<一个href="#B12">12一个>),建立一个图表描述一系列用户操作。这样一个图转换为加权图通过聚合相同的节点之间的联系,和权重的基础上,介绍了不同的行为考虑在内。近期作品(<一个href="#B7">7一个>,<一个href="#B23">23一个>)使用上述技术来处理用户点击。
在[<一个href="#B7">7一个>),提出使用基于社区的反馈开采前的用户交互的视频检索系统,基于欧卡皮鹿BM25检索模型支持文本查询来帮助用户在他们的搜索任务。这种反馈是为新用户提供建议的基础的视频检索系统。这是由代表所有用户交互与加权图。然后,这个隐式信息聚合来自多个会话和用户为一个代表,从而促进过去的隐式信息的分析和利用。在[<一个href="#B23">23一个>),作者评估4种不同的算法,可以应用在这样加权图提供建议。然而,这些工作只考虑文本查询,而基本的视频检索选项视觉和基于时间的搜索将被忽略。此外,融合或结合隐式反馈数据与基于内容的方法不是未遂。
在另一个工作(<一个href="#B14">14一个>),提出了一种视频检索系统,采用相关反馈和多通道融合不同来源(文本、视觉和点击数据),为了为用户产生推荐。在这种方法中,文本、视觉和听觉数据的视频镜头分别处理并与所选择的视频文件。然后,这些结果融合。进一步调整融合权重进行援助的点击数据,这表示用户的兴趣特定文档基于他/她的时间观看了视频拍摄。融合的方法和隐式反馈内容分析信息似乎是非常有趣的和有前途的;然而,在这个特定的工作,不是很深的隐式信息利用,查询操作的顺序是不考虑,在语义上互连后续查询和照片。该方法相比,这项工作利用隐式的用户反馈来调整权重,以融合结果从不同的搜索模式(例如,文本和视觉),而不是提供建议或改善的结果(即特定检索模块。在这种情况下,视觉搜索)。
3所示。支持向量机
支持向量机是一套监督学习方法,分析数据和识别模式和用来解决分类和回归问题。当一组训练正面和负面的例子,一个支持向量机训练算法构建一个模型,该模型预测的类别属于一个新的例子。实现这个目标,一个支持向量机结构超平面或一组超平面高或无限维空间。一般来说,人们认为最好的是通过分离超平面的最大距离最近的训练点的任何类。
在这项工作中,支持向量机用于reranking初始查询结果的视觉,视觉和隐式反馈信息的总和。我们使用一个支持向量机实现,实现了替代结构制定传统二进制分类的支持向量机优化问题描述的错误率(<一个href="#B24">24一个>]。对于一个给定的训练集<年代vg height="14.6875" id="M1" style="vertical-align:-3.20526pt;width:122.225px;" version="1.1" viewbox="0 0 122.225 14.6875" width="122.225" xmlns="http://www.w3.org/2000/svg">
选择这个特定的支持向量机实现的主要原因在这个方法是非常快的性能表明,这是重要的执行的排名优化实时查询过程中使用一个充分大的训练集。
4所示。视频检索框架
整个视频索引和检索框架提出了这种方法如图<一个href="//www.newsama.com/journals/am/2011/310762/fig1/" target="_blank">1一个>。底部部分,视频进行分析,包括视频镜头分割,文本分析的音频和视觉信息提取的关键帧的处理。顶部框架的一部分,隐式的用户反馈是获取日志文件和分析为了启动部分的视听内容之间的语义关系。建议一代组件能够提供建议利用隐式的用户反馈处理结果。此外,隐含的反馈和视频分析的输出组合在一个单独的组件,采用支持向量机分类器的训练,在顺序重新排列结果可视化查询的例子。处理隐式信息和视频基于内容分析的脱机,而视觉的结合和隐式信息实现动态(即。实时提交一个新的查询时)。在接下来的部分,这些部分将详细描述。
|
||||||||||||||||||||||||||||
图<一个href="//www.newsama.com/journals/am/2011/310762/fig5/" target="_blank">5一个>说明了加权图,加工图的行动图后产生<一个href="//www.newsama.com/journals/am/2011/310762/fig4/" target="_blank">4一个>根据上述方法。
6.4。代的建议
在[<一个href="#B23">23一个>),几个推荐算法,提出了基于这样一个加权图。然而,在大多数的情况下,表现最好的算法是根据搜索主题。在这里,我们使用一个简单的算法,提升者建议基于加权图上的距离。后者计算两个节点之间的最短路径。两个不同的节点之间的距离的计算在这个图是用迪杰斯特拉算法的应用程序(<一个href="#B34">34一个>),计算两个节点之间的路径短。尽管弗洛伊德的算法(<一个href="#B35">35一个>)通常是更快的计算根据图论最短的距离,它更适合更密集的图形。在我们的示例中,生成的加权图被认为是相当稀少的,可以更有效地借助邻接列表代替邻接矩阵。因此,该方法被认为是可伸缩的,因为它可以处理巨大的和非常稀疏图,当许多用户和大型数据集。
随着计算距离是基于隐含的信息,但它揭示了语义关系,我们命名为“隐式语义距离”。因此,基于短路径的方法,我们可以计算每个查询的隐式语义距离<年代vg height="12.925" id="M61" style="vertical-align:-1.90608pt;width:12.325px;" version="1.1" viewbox="0 0 12.325 12.925" width="12.325" xmlns="http://www.w3.org/2000/svg">
加权图的另一个重要的功能是,它可以用来显示新的搜索词建议通过计算输入关键词词的距离与其他关键词加权图。类似地,它还可以生成相关术语查询通过视觉的例子展示给用户的关键词发现近距离的查询加权图中枪。
7所示。结合视觉和隐式反馈信息
这部分的目的是重新排列查询的初步结果可视化例子利用加权图。虽然结果基于视觉描述符通常是相当满意的,在许多情况下,视觉搜索无法获取结果相同语义的混淆的类似的颜色或纹理语义无关的描述。作为讨论的部分<一个href="#sec5.3">5。3一个>,视觉搜索中执行以下两个步骤:(i)通过提交查询描述符的r - tree结构和(2)排名返回计算结果可视化描述符之间的距离。这个想法是为了调整适当的排序函数的帮助下语义相关的照片为了强调更多的具体的视觉特性,可以为每个查询的重要性。预计训练一个分类器与语义正面和负面的例子从用户隐式反馈可以充分优化排序功能。更具体地说,我们训练一个分类器对于每个视觉示例查询采用作为训练集视觉相似和不同的例子,以及所产生的积极的和消极的样本隐含的反馈信息,以重新排列最初的视觉效果。在图<一个href="//www.newsama.com/journals/am/2011/310762/fig6/" target="_blank">6一个>的整体算法给出了建议的方法。
|
|||||||||||||||||||||||||
9.3。建议的评估
在第二阶段,我们招募了4种不同的用户,寻找了以下4个主题:2个相关(但不相同)的第一部分和2无关紧要。在本例中,每个用户搜索所有的4个主题。<年代p一个nclass="list">(1)年代p一个n><年代p一个nclass="list-content">发现的一个或更多的人与一个或多个马。年代p一个n>年代p一个n>(2)年代p一个n><年代p一个nclass="list-content">找到的照片(即地图。,类似于主题(E))。年代p一个n>年代p一个n>(3)年代p一个n><年代p一个nclass="list-content">发现的一个或更多的人与一个或更多的书。年代p一个n>年代p一个n>(4)年代p一个n><年代p一个nclass="list-content">找到照片的食物或饮料(即表。,类似于主题(A))。年代p一个n>年代p一个n>
在这些搜索会话,用户使用LELANTUS的基线版本。然后,另一个4用户执行一个搜索同样的主题(1)- (4)。这些用户能够使用不仅系统的基本检索选项,但也(即推荐功能。增强版)。每个会话的时间是10分钟过去两个实验阶段。
性能方面的精度和召回的第二和第三阶段试验报告在表<一个href="//www.newsama.com/journals/am/2011/310762/tab3/" target="_blank">3一个>和数据所示<一个href="//www.newsama.com/journals/am/2011/310762/fig16/" target="_blank">16一个>和<一个href="//www.newsama.com/journals/am/2011/310762/fig17/" target="_blank">17一个>分别计算这些指标对注释的结果为每个主题。
|
||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||
|
|||||||||||||||