国际期刊的数字多媒体广播

在这一页上

文摘介绍评价结论确认引用版权相关文章

特殊的问题

视频分析、抽象和检索:技术和应用程序

把这个特殊的问题

研究文章|开放获取

体积2010年| 文章的ID856761年| https://doi.org/10.1155/2010/856761

内容管理在后期制作的一个视频浏览工具

沃纳水斗 ,¹ 沃尔夫冈•韦斯,¹ 哥特Kienast,¹ Georg Thallinger,¹ 和沃纳哈斯¹

学术编辑器: Jungong汉

收到了 2009年8月31日

修改后的 2009年11月24日

接受 2009年12月17日

发表 2010年3月22日

文摘

我们提出一个交互式视频浏览工具支持内容管理和选择在后期制作。该方法是基于多媒体内容的抽象的流程模型。基于这个过程模型和桌面软件框架和基于web的客户机应用程序。评价,我们应用两种TRECVID风格查明事实的方法(检索和问答任务)和一个用户调查评估的视频浏览工具。我们分析的结果不同的方法之间的相关性,是否可以独立评估不同方面的调查显示,如果一个学习效应可以测量不同的方法,我们也比较全功能的桌面和有限的基于web的用户界面。结果表明,检索任务更好的与用户体验相关调查显示。一般用户体验调查,而措施虽然可用性的不同方面不能独立进行分析。

1。介绍

产生越来越多的多媒体数据,有越来越多的需求,更有效的方式支持多媒体数据的探索和导航。查看完整的多媒体项目为了找到相关部门甚至是禁止为相对较小的内容集由于所需的用户查看和时间需要传输的数据量。经典的搜索和检索方法需要足够的元数据索引的内容和可行性方面制定一个查询可用的元数据。人工注释内容的收益率在语义上有意义的元数据,可以有效地搜索由人类用户,但在注释成本高。自动元数据提取方法在很多情况下无法完全捕捉的语义内容,这使得元数据难以查询。

多媒体内容抽象方法是互补的搜索和检索方法,因为它们允许探索一个未知的内容,不需要预先指定一个查询。这是有关在这种情况下,只有少数内容集元数据是可用的,而用户不知道会发生什么在内容设置,所以,她不能制定一个查询。为了让用户处理大型内容集,必须提出一种促进其理解,并允许快速判断的相关性的内容集合。媒体内容抽象方法(i)将支持用户快速获得一组已知或未知的内容的概述,(ii)组织内容相似的任何功能或一组特性,和(3)选择代表内容内容集的子集,可以用于可视化。

这个词视频摘要定义在[1]”一个静态或动态图像序列呈现的内容视频的方式各自的目标群体正在迅速提供简洁的信息内容,同时保留了原始的基本信息”。的作者(2)使用术语视频抽象表示所有方法为代表的提取和表示帧和视频丢弃的一代。在本文中,我们使用术语内容抽象指所有段的方法,旨在提供浓缩表示单个媒体项目或项目的集合,或相关显著,独立的目的,背景,形式,创建方法和表示的抽象风格。尽管所有这些方面的差异,现有的方法创建多媒体内容抽象分享很多类似的步骤,允许定义一个共同的过程模型。基于过程模型的定义为多媒体内容抽象,我们的目标是在定义一个软件框架支持视频浏览。

内容管理的应用场景是电影和电视制作的后期制作阶段。在后期制作的环境中,用户通常处理大量的视听材料,如新拍摄的场景,档案材料和计算机生成的序列。很大一部分的材料是未经编辑,经常很冗余,例如,包含几个需要相同的场景被许多不同的相机。通常只有几元数据注释可用(例如,生产,相机,这日期)。目标是支持用户在导航和组织这些视听集合,所以不能用物质可以被丢弃,收益率降低的物质从一个场景或位置可供选择的后期制作步骤。

媒体制作和分布式工作流越来越灵活,涉及许多贡献者位于不同的站点。这对视听资产管理提出了新的挑战,尽可能高效的访问内容需要远程,因为人可以咨询当寻找内容没有达到。基于前一个桌面应用程序浏览视听内容(3我们提出一个Web应用程序,它提供了相同的功能,但是允许远程访问内容存储库。

这项工作是以下的贡献。我们提出多媒体内容抽象的过程模型和实现视频浏览基于该模型的框架。该框架可以很容易地扩展为支持浏览任何低收入,中期或高级特性。我们提出一个桌面和一个基于web的用户界面框架。我们评估用户接口使用不同的评价方法和比较结果之间的两个用户界面和不同的评价方法。

本文的其余部分组织如下。部分2多媒体内容抽象的讨论方面,提出了一种通用流程模型。节3我们提出一个实现这个过程的互动视频浏览桌面和基于web的用户界面5。桌面和网络视频浏览工具的评价及其结果讨论部分6,部分7总结了纸。

2。多媒体内容的抽象

2.1。方面的问题

多媒体内容抽象包括不同的方法总结、冷凝和浏览多媒体内容。有许多方面歧视这些方法提出了文学。在下面我们将讨论其中的一些,关注那些影响我们的软件框架的设计视频浏览。我们不要试图提供一个完整的调查相关工作,为一个全面的概述和比较的视频看到例如抽象方法(2]。

内容抽象可以手工完成,自动或半自动生成(例如,使用用户输入定义相关内容部分的例子(4])。当创建抽象是它的一个基本方面目的,可以客观地总结内容传达的所有原始消息或故意的偏见查看器(例如,当创建一个电影预告片,cf。5])。在我们的案例中包含的信息量最大化的目的是抽象的。

有些相关的目的是上下文的抽象,这可能是未定义的和独立的初始输入的用户(例如,当用户开始浏览),它可以由用户输入,也可以是预定义的,例如,当抽象用于表示搜索结果和用户的查询是已知的(6]。领域知识也有助于上下文的定义,因为它有助于定义内容部分的相关性。大多数视频抽象方法体育广播利用这方面的知识(例如,目标场景有关足球比赛)。影视后期制作的上下文是由当前用户正在生产。然而,尽管这种情况下可能是定义在脚本和故事板,它不是形式化的方式直接由内容管理工具可用。

许多方面相关内容的媒体类型提取。的维的内容可能是一个单一的媒体项目(例如,一个视频)或物品的集合(一套内容可视化的一个例子是在(7])。在后一种情况下所有项目可能是相同的或不同的类型(例如,混合收集的静止图像和视频)。媒体类型也决定内容集定义订单。例如,一个视频或音频流有一个内在的时间顺序,通常保存在抽象。在我们的例子中给出的维度是相关的内容在一定生产,这通常是30倍或更多的时间最后的内容。

是最重要的一个方面内容结构。在[8]作者歧视脚本(如电影)不用剧本的内容(如体育视频、监控录像、家庭视频)。当然,两者之间的界限很模糊。结构的另一个维度编辑与未经审查的内容。虽然有些内容并不打算编辑(例如,监控录像),存在冲脚本和不用剧本的内容。编辑脚本内容的抽象算法可以尝试发现和使用的结构内容(如对话框(5]),而不用剧本的内容(特别是也未经编辑)需要使用其他方法(例如,9])。内容结构不仅存在于单一媒体项目的水平,但也的水平multiitem抽象的集合。在某些情况下,收集“宏观结构”,比如一组根据产生的冲一个脚本。遇到的内容在我们的用例通常是未经编辑,但根据生产可以结构化或非结构化。

有一个大的多种方法演讲摘要。可以是交互式的,也可以是非交互式的,顺序或分层,可以使用不同的媒体类型和可视化。典型的表示方式是静态可视化代表帧(使用不同的可视化等故事板或者漫画风格10]),层次静态或navigatable代表的可视化框架(例如,11])和视频控制(12]。一个方面相关的演示是抽象系统是分布式的。网络浏览视频内容已经被认为是在早期作品视频检索(例如,13])。然而,大多数的工作处理浏览抽象单一视频项目的集合视频内容很少是在Web上访问。在[14]提出搜索和浏览接口开放的视频档案。因为Web应用程序的灵活性和交互性已相当有限,这些方法大多局限于静态或动画关键帧。最近才成为可能提供许多视频浏览桌面应用程序中可用的功能也在网上。

统一的框架提出了多媒体内容抽象,主要集成内容抽象和检索(例如,8,15]),但他们通常限于某些类型的媒体(例如,只有视频),只有脚本或不用剧本的内容,或者只支持某些表示形式(如丢弃(16])。

2.2。流程模型

在[3),我们提出了一个多媒体内容的抽象过程,支持创建内容抽象独立的章节中讨论的许多方面2.1,媒体类型、上下文表示(交互式和非交互的)和可视化、扩展的通用五步过程视频浏览和四个步骤clustering-based方法中描述(2]。在下面,我们简要回顾过程的定义,相关视频浏览用例。

设计
第一阶段处理内容的概念化抽象,使基本决定它的目的和形式。如果工作是手动完成的,这需要一个创造性的用户干预。如果是自动完成,这些决定可能已经由应用程序的开发人员,他们是天生的或依赖于应用程序的状态和上下文。后期制作的互动视频浏览,许多抽象的设计决策在开发应用程序时。用户只有控制一些表达方面。

聚类
在这一阶段,相似之处内容被发现和段内的一些相关的功能被分组。如果选择之前执行,所选内容部分的子集作为输入,否则集群上执行整个内容。内容抽象,聚类是一个关键的一步,因为它是至关重要的减少冗余。集群一步互动视频浏览工具是特定于用户选择聚类的特性,和每个聚类步骤使用一个特性。不停的重复内容聚类和选择步骤。

选择
这一步选择有关部门或组段根据一组定义的标准。如果这些标准已经指定的用户或已知的应用程序上下文,选择步骤之前执行聚类(如体育集锦提取)。在其他情况下,选择步骤执行聚类后,选择相关的集群而不是段。在很多自动内容抽象过程的选择标准是一个聚类的结果,例如,离群值等相关内容被发现不寻常的事件被包括在抽象的(例如,当总结监控录像)。选择互动视频浏览的内容有两个方面:决定哪种内容保留或放弃是由用户的交互。代表的选择内容可视化的子集依赖自动内容分析(例如,关键帧提取)和功能的具体算法。

演讲
为了可视化和/或auralize选中的组内容片段,创建新媒体项目(例如,马赛克的镜头(17),情节的数据空间,时间线)或代表段使用(例如,一组代表帧视频片段,短片)。内容的媒体项目代表团体段组织根据演讲的布局,形成一个新的多媒体文档。表示在我们的互动视频的浏览工具是一个光表表示选定的关键帧。关键帧可以保持原来的订单或命令的功能价值。

消费
如果非交互式内容抽象的结果(例如,视频浏览,电影预告片),查看文档的消费只步骤包括(也可能是导航使用播放器控件)。在互动的情况下,比如在视频浏览,用户选择一个子集的内容片段,也许也进一步的参数变化,从而改变选择的输入和集群。重新运行创建过程的结果是一个更新的报告,更好的适合用户的需求和利益。

的基本工作流浏览工具,如图1,如下:用户从完整的内容集。通过选择一个可用的特性内容将集群根据这个特性。根据当前内容集的大小,部分的一小部分(主要是百分之几甚至更少)被选中代表一个集群。用户可以决定选择一个子集的集群似乎是相关和丢弃,或对当前内容重复集群组使用另一个特点。在第一种情况下,减少内容集是下一次迭代的聚类步骤的输入。用户可以在任何时候选择相关项目并把它们拖到结果列表。

3所示。实现的抽象过程互动视频浏览

从用户的角度来看,内容浏览和搜索和检索的基本区别是有限需要知道如何制定一个查询和什么期望从内容集。因此,内容浏览工具必须支持用户在构建查询一步一步,试图通过增加新的限制和减少限制的内容设置应用链时建立到目前为止(参看发展中信息需求的实指模型(18])。

3.1。过程

的三个核心步骤抽象过程,也就是说,选择,聚类和演讲,可以被映射到组件在软件框架以直接的方式。这是第一个(更困难设计)和最后一个(消费一步,因为他们更依赖于特定的应用程序。除了上述过程的概念阶段的技术需要预处理阶段在软件实现的抽象过程。这一步吸入材料到系统,执行所需的内容分析和注释和准备数据结构(例如,指数)后选择和集群所需的操作。预处理阶段直接影响设计步骤的过程,随着决策确定所需的特性和注释,因此内容分析的操作必须执行。在交互式视频浏览的情况下,选择和聚类迭代执行的步骤。在演讲步骤代表媒体项目的选择或创建一个可视化的部分取决于特征也与集群和选择方法。其余的演示步骤,以及消费的步骤中,用户界面组件的实现。

3.2。组件

本节描述的表现功能的软件组件的框架。框架定义了所有这些组件的接口。功能特定的组件实现为插件,允许方便地添加新特性或改变某种功能的实现。图2显示了框架的组件。

存储元数据的元数据存储库是一个横向组件和链接数据在整个过程的所有步骤。索引服务吸入内容描述和构建额外的高效的索引结构。史书,连同它的插件,实现了选择和聚类步骤过程的不同特性。

内容分析工具执行实际的特征提取和生产MPEG-7描述所进口的索引服务以及提取的特征描述的部分4。用户界面组件实现演讲一步的过程详细描述部分5。

3.2.1之上。元数据存储库

元数据存储库是一个基本的基础设施组件管理媒体项目视频浏览应用程序的控制。自动创建的精华和派生精华内容分析(例如例如代表帧)存储在文件系统中。完整的元数据描述作为MPEG-7文档存储在文件系统。此外,更有效地搜索索引结构保存所需的元数据项集群和选择。他们被关在一个关系数据库。我们目前使用SQLite (http://www.sqlite.org),但如果有必要,一个更强大的数据库系统可以集成。

3.2.2。索引服务

内容的索引服务负责摄取到抽象系统中。它本身不执行内容分析,如遗留的元数据或手工注释可能可用。索引服务的输入是MPEG-7符合详细描述视听资料(19]。服务新MPEG-7手表目录描述或触发web服务调用。索引服务过程的元数据描述和填充索引数据结构。服务的核心实现执行feature-independent任务如注册新内容,同时为其他任务调用插件。

功能特定的索引是由一组索引插件。插件从MPEG-7文档中提取相关信息的特性和创建必要的数据库和/或索引结构条目。一个插件还将在数据库中创建额外的表或索引结构(即如果他们尚未那里。,如果没有被使用的插件功能之前)。这个框架的灵活性增加,新索引插件可以很容易地注册与索引服务,将进一步用于所有传入的文件。为了加快聚类在史书中,索引器还对某些功能的插件创建和更新等附加信息表共同相似的文件描述符的索引。

3.2.3。史书

史书是组件处理集群、过滤和代表媒体的选择项。它访问的数据结构创建并由索引服务和有一个通用的接口到表示层,以允许使用不同的可视化和交互模式。史书的核心实现的功能主要是代理的,就像在索引服务feature-specific任务委托给一组插件。史书的状态被定义为当前数据集和其集群结构。它还保持集群的历史和选择操作进行到目前为止,以及它们的参数。这允许在交互式应用程序实现撤销和重做功能,以及存储用户的浏览路径以提高集群和选择算法。

每个插件提供了以下功能特性:聚类算法和选择算法选择当前数据的一个子集,选择/创建代表媒体项目的数据集。该框架定义了所有三种类型的算法接口。后者的两个,简单feature-independent默认提供的实现框架,但一个插件可以覆盖它们。可以提供多个插件的功能,例如,尝试不同的聚类算法。

3.2.4。表示组件

有两种表示组件的实现:一个桌面应用程序和Web应用程序。在桌面应用程序中,用户界面(部分中描述5)是直接与史书。图3说明了Web应用程序的体系结构。史书库提供的功能作为Web服务基于Web的版本使用gSoap (http://gsoap2.sourceforge.net)。网络视频浏览工具是一个Java Web应用程序构建Google Web Toolkit (http://code.google.com/webtoolkit/)和部署在Apache Tomcat servlet容器(http://tomcat.apache.org)。确保高可伸缩性,我们使用默认处理每个请求的servlet容器的功能在一个单独的线程可以运行在一个处理器的核心。Web服务客户端实现XML Web服务的Java API (jax - ws) (https://jax-ws.dev.java.net)。在Web服务集群信息检索和数据集。关键帧图像和视频直接从媒体库中加载。对需求的视频直播Red5 (http://red5.org)Flash服务器到客户端。

4所示。特征提取

特征提取是由一个内容分析框架使用一个数据流图方法(20.]。执行特征提取之前摄取的索引服务和产生一元数据描述视频符合MPEG-7详细视听资料(19]。

第一个镜头边界检测和代表帧提取。这一步的结果作为先决条件下面讨论的其他特性的提取和可视化。随着镜头边界的自然限制发生视觉特征(如相机运动,对象出现),它们是一个重要的先决条件进一步视觉特征提取算法。对于每一个镜头,一个被选中代表帧的数量。代表帧位置的选择是基于视觉的活动材料,也就是说,更多的对象和/或相机运动,两个代表帧之间的时间间隔越短的位置。

基于结构下面描述的特征提取。这是集群的特性在浏览工具。每个部分还描述了使用的聚类算法的特性。

内容分析工具支持分发内容分析任务在不同核心或机器为了增加系统的吞吐量。下面列出的功能,总需要大约6倍长于实时处理。

4.1。摄像机运动

使用相机的运动作为浏览功能是双重的:它通常是用于指导用户的关注和表达相关性的某些部分,例如,缩放物体或人是一个指标的相关性,在野外运动,锅表示游戏的方向。其次,它是一个重要的选择标准编辑过程中,视觉语法对摄像机的运动序列约束相结合。提取算法(详细描述21)是基于特征跟踪,这是一个运动空间的详细描述和运行时性能之间的妥协。然后集群特征轨迹相似的运动模型和集群代表全球运动被选中。摄像机运动描述sub-shot水平。创建一个新相机运动段,当摄像机运动模式的重大变化(比如,一个锅停止,变焦开始除了倾斜)。对于每一个部分,运动存在的类型和数量大致量化的运动。

我们实现了两种聚类算法对摄像机运动。第一个创建一个固定数量的集群,为每个类型的相机运动(锅,锅,倾斜,倾斜下来,放大,缩小,静态)。摄像机运动段被指定到一个集群,如果存在这种类型的相机运动部分,例如,如果一个部分包含一个锅,一个放大,它被分配给集群。第二个聚类方法试图更好的模型的实际数据。使用数量的每种类型的运动,每个相机运动段所描述的一个向量的三维特征空间。特征向量然后集群使用均值漂移算法(22]。算法决定了集群的数量和分配每个相机运动段其中之一。根据数据,集群包含单摄像机运动或组合和集群创建的文本标签(例如,“温和的锅和强大的变焦”)。

4.2。视觉活动

视觉活动是一个动态的衡量一个场景。连同相机运动信息,这是一个衡量当地运动的一个场景,因此可以用来区分安静的场景那些对象运动。在这个应用程序中我们只测量视觉变化的振幅。然后振幅值的列表中值过滤对短期扭曲和健壮的分成均匀的部分。这些sub-shot段是描述其平均活动的价值。聚类是使用来执行的则算法。

4.3。音频音量

音频音量例如可以用来区分照片没有任何声音,平静的无生命的物体,采访一个常数音量级别和响亮的户外照片在城市的街道。没有基于内容的音频分割可用的系统,我们使用固定长度的段30秒。音频提取体积样品的列表为每个这些片段通过计算的平均体积0.5秒时间窗口。然后值列表过滤对短期扭曲和健壮的分成均匀的部分。这些sub-segments由其平均体积值描述。聚类是使用来执行的则算法。

4.4。脸上出现

脸的发生是视频内容的显著特征,因为它允许推断场景中人类的存在。脸的大小也是一个提示作用的人,也就是说,一个大脸表明这个人是关注的中心。我们的萃取器是基于OpenCV的人脸检测算法(http://opencvlibrary.sourceforge.net)。为了使描述更加可靠和消除误报,主要是发生一个或几个框架,我们只接受稳定的脸出现在较长时间(我们使用的时间窗第二次检查)。作为一个结果,我们得到一个连续分割成sub-shot段有或没有脸。没有必要为一个特定的聚类算法,如只有两组段(脸和nonface)。

4.5。全球颜色相似

全球颜色相似性允许组照片,描述视觉相似的内容,例如,一些需要相同的场景或不同的拍摄在同一位置(如果前景对象不太占主导地位)。描述颜色属性的镜头,MPEG-7 ColorLayout描述符(23从每个代表帧中提取。ColorLayout描述符的优势也考虑图像的空间颜色分布。为了减少颜色描述符处理,类似的描述符提取代表帧相同的被淘汰。然后成对相似性所有剩余的描述符的内容设定计算和存储在一个矩阵。相似矩阵作为输入用于使用单键层次聚类算法(24]。生成树的截断值确定所需数量的集群。

4.6。重复的需要

通常在电影和视频制作大量的原材料是开枪,只有一小部分这材料是用于最后的编辑内容。拍摄的原因,同一场景的材料通常是取自不同的相机位置和几种不同的需要为每个记录,部分是因为错误的演员或技术故障,部分是为了尝试不同的艺术选择。执行操作的每一个需要是相似的,但不是相同的,例如,有遗漏和插入,或对象和演员的位置和轨迹略有不同。确定他们属于同一场景的需要和分组可以显著提高工作的效率。

我们使用的方法提出了(25)来识别重复相同的场景。该算法利用最长公共子序列的一种变体(lcs)测量样本序列的视觉活动和定期样品的颜色和纹理特征关键帧识别需要相同的场景。MPEG-7文档中描述的检测结果。

4.7。多个视图

最近生产的多视点视频内容越来越重要,主要由立体电影。3 d电视也是一个新兴应用领域。对多视点内容片段之间的关系视图存储在元数据描述。此外,需要提取的关键帧同步从所有视图。如果有必要,剪辑从不同的视图可以自动暂时保持一致,使用方法为重复检测[25用不同的参数化。

组件实现的大部分支持多视图内容索引服务。除了插件来处理多视图添加了特定的元数据索引服务和史书。索引服务添加信息的关系流到数据库。Stream-specific元数据可以由相同的索引服务插件处理单一视图的内容,而一个新的插件开发处理cross-stream元数据。

5。用户界面

桌面的用户界面(图4)和基于网络的(图5)版本的视频浏览工具被设计成尽可能相似。见这些数字,中央浏览工具组件的用户界面是一个表(5)光。光表显示当前内容设置和集群结构使用的数量代表帧的每个集群。集群是由彩色可视化领域的图像。通过点击图像表视图,一个视频播放器(一个Flash视频播放器的基于web的版本)打开和戏剧的段视频所代表的形象。工作流在浏览工具如下:用户首先选择一个数据集()。通过选择一个可用的特性()内容将集群根据这个特性(如相机运动,视觉活动,面孔,或全球颜色相似)。根据当前内容集的大小,部分的一小部分(主要是百分之几甚至更少)被选中代表一个集群。用户可以决定选择一个子集的集群似乎是相关和丢弃他人(对当前内容),或者重复集群设置使用另一个特性()。在第一种情况下,减少内容集是下一次迭代的聚类步骤的输入。集群的选择和关键帧的大小调整不同的可视化在桌面和基于web的版本。集群段可以通过原始时间顺序或命令的功能价值。

应用程序窗口的左侧历史(),结果列表(显示)。历史窗口自动记录所有集群和由用户选择操作。通过点击一个条目的历史,用户可以设置史书的状态(即。,内容设置)回到这一点。用户可以选择放弃后续步骤和使用其他集群/选择操作,或者桌面版本分支浏览路径和探索的内容使用替代集群功能。结果列表()可用于记住视频片段和提取的视频片段视频编辑,例如,当编辑决策列表(EDL)。用户可以拖动相关关键帧到结果列表,因此添加相应的部分内容。图像的大小可以动态地改变光表视图(),这样用户可以选择之间的详细级别,可见图像的数量没有滚动。

在桌面应用程序中,显示了时间的一个关键帧的时间线暂时相邻关键帧显示当用户移动鼠标在一个框架。图6显示在视图示例集群等重复场景的需要。

多视图的内容,浏览工具允许集群的内容把它源于或一个场景从多个视图。相同的特性也可用上下文相似性搜索的结果中显示工具。图7显示了一个示例集群的多视点内容的相机拍摄,使用同步提取关键帧的观点。

6。评价

评估视频浏览工具,仍然是一个悬而未决的问题,不同的评价方法提出了文学。在[26),我们回顾了文献中的方法和比较不同的评价方法。这里我们应用这些方法的不同桌面和基于web的版本的视频浏览工具,比较他们的结果对我们的视频浏览工具。

6.1。研究问题

考虑到没有建立多媒体浏览我们选择的评价方法应用两TRECVID [27)风格的方法以及考虑到用户体验调查,想比较他们的结果。的检索任务需要包含一个定义良好的视频剪辑在影视后期制作(出于场景),问答任务更加面向目标的,它使所需的视频剪辑更模糊的描述。我们设计了相应的检索和问答对任务目标相同的内容集。的调查询问用户的体验,当完成任务的两种类型。检索和问答任务以及问卷可用http://semedia.joanneum.at/。

特别是,我们要回答下列问题。

(我)做不同的用户组实现不同的结果?(2)之间有相关性的结果检索和问答任务和用户任务后的评估问题的调查?我们想知道不同的方法得到的结果是否相似或互补的结果。(3)独立调查的任务后问题可以回答吗?调查旨在提供一个更全面的用户体验。因此我们感兴趣的问题询问是否独立工具可以治疗的不同方面。(iv)有学习效果吗?明显是在任务的结果,用户获得更好的结果时使用该工具,并对应于用户体验调查中表达?(v)做用户实现精度更高的分数,当选择一段之前观看视频?(vi)有区别的成果当使用的桌面和基于web的版本浏览工具?

实验先回答五个问题进行桌面版的浏览工具,最后一个问题是评估与Web版本的浏览工具。

6.2。材料和过程

这项调查是独立使用的数据集。用于检索和问答任务使用两个数据集。TRECVID BBC冲2006数据集使用的2006年TRECVID冲开发任务,包括25小时冲的旅行纪录片(法国)。SEMEDIA数据集是一个收集的数据的一部分,英国广播公司(http://www.bbc.co.uk)和CCMA (http://www.ccma.cat)的上下文中SEMEDIA项目(http://www.semedia.org),由大约10小时的新闻编辑,完成新闻,体育和脱口秀节目(英文和加泰罗尼亚语)。

有轻微差异评价步骤的桌面应用程序和基于web的应用程序。因此,我们请参考随后桌面评价和网络评价描述的差异。

6.2.1。检索任务

每个检索任务由一行描述剧情简介的视频片段。任务是使用浏览工具来定位所有片段匹配给定的文本描述。结果的结果列表浏览工具收集和保存的最后任务。结果列表然后匹配地面实况片段之前创建的列表。已经创建了地面真理从两个注释器基于注释的协议。

TRECVID BBC的检索任务冲2006数据集一样的评价TRECVID 2006冲开发任务描述28),结果因此可以相比。

6.2.2。问答任务

问答任务只在桌面应用程序的评估完成。每个问题回答的任务是一个多项选择问题有六个语句的一个或多个是真实的。问题是一个场景的描述,其中每个选项的声明是关于现场。选择的问题,这样他们分享相关的视频片段的集合与对应的检索任务。

例如,检索任务5发现部分显示一个足球运动员踢进一球。相应的问题是

问题 :足球运动员踢进一球

(一)穿绿色衬衫,(b)所以从一个点球,(c)所示的结束(d)显示欢呼的副业,(e)穿着白衬衫,(f)从目标背后的摄像头显示。

6.2.3。调查

调查问卷包括三个:预先测试问卷完成一次为每个单独的用户参加培训后评估使用的浏览工具。完成任务后问卷调查期间每个用户的每个任务完成后的实验。表列出了任务后问卷调查的问题1。完成测试后问卷调查一次每个参与者在完成最后一个任务。问卷主要是基于一个用于TRECVID 2004互动搜索任务(29日]。一些问题,过于具体检索系统已经丢弃,两个问题特定的视频浏览已经添加到测试后问卷调查。

6.2.4。过程

评估会议开始浏览工具的介绍和评价过程的一个解释。然后用户有10分钟的时间越来越习惯于使用浏览工具。在开始工作之前的任务用户完成预先测试调查的一部分。

一个评估过程由一系列4检索任务或一系列的答疑工作。的参与者平均分为4组不同任务的任务类型和数据集,以避免产生影响的结果。评估的基于web的版本只使用检索任务。包括一个任务的工作时间是10分钟的时间来完成每个任务的任务后问卷调查。用户可以问工作人员技术支持在评估工具的使用。

4用户完成任务后测验后的调查的一部分。因此,会话的总时间约60分钟。用户可以选择做一个或两个会话。在后者的情况下他们工作在不同的任务类型和不同的数据集的每一个会议和完整的只有一个预先测试调查在第一和第二个会话检测后调查之一。

6.3。主题

桌面的评估:与19个用户测试已经执行。在检测前调查的一部分,我们搜集了有关主题的信息。根据用户使用频率数字视频检索系统中,我们介绍了两组:第一组由11人从未或很少使用数字视频检索系统。8个科目的第二组代表了更有经验的用户,使用数字视频检索系统至少一天一次。

三分之二的用户搜索Web或信息系统每天不止一次。超过一半的用户是不熟悉的工具来评估,只有10%是相当或更熟悉它。三分之二没有或小数据集使用的知识,只有17%的人相当或更熟悉所有的数据。

网络评估:网络视频浏览工具的评估已经完成十我们研究所的参与者是谁没有参与视频浏览和没有参与评价的桌面应用程序。只有一个主题有点熟悉TRECVID 2006数据集,所有其他人都表示他们不熟悉任何评价中使用的数据集。八个主题的评价不使用任何数字视频检索系统。还八个主题不熟悉视频浏览工具(Web和桌面)。因此不可能创建两个用户组根据用户在桌面的经验评估。两人表示,他们是有点熟悉的视频浏览工具。四个搜索网络频繁,其他的频率更低。

6.4。结果

6.4.1。不同的用户组

我们有两个不同的用户组(有经验的和没有经验的用户)我们想要确定组的结果是不同的。我们试图拒绝零假设,F1度量,定义为/的两组,通过检索和问答任务具有相同的意思。检索任务我们有24个样本没有经验的用户(0.26意味着F1)从有经验的用户和12(平均F1 0.23)。问答任务我们有25个样本经验组(0.37意味着F1)和16个样本有经验的用户组(意味着F1 0.45)。我们应用小动物——一张长有独立的两个示例以及它产生一个价值的。75for the retrieval tasks and .48 for the question answering tasks, both at a significance level of 95%. The lower value for the question answering task seems to be mainly due to the lower number of samples. We can thus not reject the null hypothesis, that is, there are no significant differences between the two user groups.

6.4.2。方法之间的相关性

为了比较不同的评估方法,我们分析结果之间的相关性。的假设是F1分数检索任务和相应的问答任务相关,以及F1措施,这个问题的答案TVB3-6各自任务的任务后问卷(cf表1)。

之间的相关系数F1检索和问答任务的措施和(价值.41点)。结果之间有轻微的负相关但不显著。一个以及还显示在显著性水平为0.0001,这两个分布有不同的意思。我们可以得出结论,检索和问答任务不具有直接可比性,即使用户需要一个非常相似的结果集来回答它们。

一个可能的结果差异的原因可能是不平衡的精度和召回。在检索任务,召回通常低于精度。虽然用户不收集一个结果集的问答任务,理论上它可以被视为组成的检索任务(收集所有必要的材料)和收集材料的分析来回答这个问题。低召回率当然会减少能够正确地回答这个问题。差异的另一个原因可能是用户的方法检索任务(“收集数据”)和问答任务(“查明事实”)在一个非常不同的方式。

表2显示了任务之间的相关性的结果(F1措施)和各自的任务的任务后问题的答案。检索结果只与问题TVB6在显著性水平为0.10,也就是说,用户的满意浏览结果与实际检索性能呈正相关。

也只有一个强大的相关问答任务。F1措施是与问题相关TVB4 0.10的显著性水平。但这是一个负相关,即用户在问答中得分更糟的任务他们感到有更多的时间。一个可能的解释是,用户感到压力的情况下遇到许多查询匹配的视频片段,但认为他们有更多的时间比当他们只遇到几个相关的。

6.4.3。独立任务后的问题

每次检索后或问答任务表中列出的用户回答问题1。问题之间的相关性如表所示3。之间存在很强的相关性问题TVB3, TVB4, TVB5 TVB6,可以接受0.10的显著性水平,在两种情况下即使是在0.01的水平。这些结果表明,用户很难单独判断某些方面(例如,是否该工具是有用的在这种情况下)。相反的印象评价浏览体验,包括满意结果和印象的工具,有足够的时间。

熟悉的话题不是只有非常微弱的或与其他方面。只有一个相关的感知从容任务(= 0.67显著性水平为0.10),也就是说,用户的任务似乎更熟悉的话题。然而,他们不觉得自己比别人有更多的时间或取得更令人满意的结果。

6.4.4。学习效果

我们分析这个通过寻找趋势4任务完成的成果在一个会话中。四种不同的任务序列,两个不同的数据集和任务由不同用户在不同的顺序,单个任务的难度并不影响趋势。图8显示了任务后的分数问题第一到第四任务由参与者来完成。正如预期的那样,一些措施(如熟悉搜索主题)没有显示一个明确的模式,但一些似乎有一种趋势。如果我们适合线性趋势函数的数据我们得到一个明确的趋势的两个问题:TVB4(足够的时间,斜率)和TVB6(满意结果,斜率)。用户使用该工具的时间越长越高是他们满意的结果,他们认为工作时间更充足。

(一)

(b)

(c)

(d)

问题是这种趋势是否也可以测量任务的结果。当拟合趋势函数问答任务的结果,我们得到的的精度和回忆,也就是说,没有明确的趋势可以看到,尤其不是一个积极的趋势调查的答案。检索任务的趋势函数精度的斜率是0.12,0.01的回忆。支持用户的感知精度值的检索任务,尽管增长并不像在调查中回答。的满意度比回忆更相关的精度可以解释如下。用户知道他们发现只有视频片段,也就是说,不是正确的没有发现召回来。因此结果的感知质量取决于查询匹配结果集的部分,这与精度。

6.4.5。观看视频时精度更高的分数

用户可以选择查看玩家选择之前或之后的视频片段或只是相应的关键帧拖到结果列表没有观看视频。我们可以期待,查看视频作为验证,因此应该更高精度的情况下视频播放器使用。因此我们试图拒绝零假设的分布精度实现不使用视频播放器的意思是高于使用视频播放器。我们有46个样本,20(44%)视频播放器已经使用,意味着和。我们申请一个独立的两个示例以及它产生一个价值的。25for the one-tailed test, that is, we cannot reject the null hypothesis. It seems that users use the video player in cases where they are unsure while they add segments for which they are sure without using the player. Thus the precision for the segments added after viewing them is not significantly better.

6.4.6。网络工具的评估

确定检索的结果基于web的应用程序和桌面应用程序的任务是不同的,我们已经评估了一系列测量双尾两个示例测试假设不同的差异。我们试图拒绝零假设在每个测试的精度和召回Web和桌面版是相同的。

第一个测试(见表4)由38个样本的网络评价和34个样本桌面评价从我们学院的员工(用户)。我们得到一个值的精度。036年,一个回忆的价值。222,both at a significance level of 0.05. Thus we can reject the null hypothesis for the precision, which means the results of the Web-based application are worse in contrast to the desktop application for this user group. On the other hand we cannot reject the null hypothesis for the recall values, which means there is no overall significant difference in this test setup.

第二个测试(见表5)由20个样本的网络评价和20个桌面样本评价从SEMEDIA项目(用户)。我们得到一个值的精度。526年,一个回忆的价值。387,both at a significance level of 0.05. This means we cannot reject the null hypothesis for both tests, that is, there are no significant differences of the Web-based application and the desktop application with this user group.

图9显示了任务后的分数问题为第一到第四任务由参与者在Web评估。只有满意(TVB6)显示了一个斜坡。这与用户的桌面版更满意的任务(坡0.19)。这个测试的所有其他问题(TVB1-TVB5)没有显示一个明确的模式。

(一)

(b)

(c)

(d)

图10说明了累积和规范化的发现结果列表项的所有用户在工作时间。引人注目的是一个近似的任务1和6凹曲线。在三分之一的工作时间的用户大约有一半的项目在结果列表和一半的工作时间大约70%的项目在结果列表中。此外,用户获得最好的结果在这些任务(任务1:精度、0.56记得0.30;任务6:精度、0.65记得0.20)。

6.4.7。试验后的问卷调查和用户反馈

在检测后问卷调查我们收集了信息视频浏览工具和一般自由文本的用户的反馈。

桌面的评估。一半的用户表示,响应时间较快,三分之一的用户认为这是“很快”。响应“学习如何使用这个系统很容易“如下:不4%,17%,42%,不少非常21%和13%。50%的用户回答系统接口允许做有效的任务有点帮助,42%回答说,这是一个相当不错的帮助。

网络评估。40%的网民表示,系统响应时间是“小快”,三分之一的用户选择“不是快”,最后三分之一认为系统响应“相当”。一半的用户回答,很容易学会如何使用这个系统。桌面版相比,50%的网络用户认为系统接口“相当多”允许retrieveal任务,另一种答案是:20%,20%,而不是10%。

根据自由文本反馈的用户,最烦人的事情两个版本的性能问题和集群功能有时会产生不正确的结果(每个11 46答案),但7 43个答案关于系统的用户最喜欢提到集群功能。在4的43个答案集群的用户希望附加功能。此外,11个43回答说,易于使用的接口。还4答案是显示更多的元数据和视频信息,集群和关键帧。

7所示。结论

浏览等多媒体内容抽象方法越来越重要的应用程序和视频摘要处理多媒体的集合。他们是互补的搜索和检索方法,专注于问题的配方查询困难是由于可用的元数据和/或用户的知识内容的集合。

我们提出了一种软件实现多媒体内容的流程模型抽象为一个视频浏览工具针对在后期制作中的应用。浏览工具是一个互动的应用程序,允许执行迭代聚类和选择为了过滤内容到一个可管理的一组相关的项目。聚类可以使用相机运动的特性,进行视觉活动,音频音量,脸出现,全球颜色相似,重复以多视点的内容和关系。许多代表帧用于可视化一个集群。桌面和基于web的客户端应用程序的实现。关于可伸缩性,该工具是专为内容集生产工作流程,预计将在100小时生产。集群的响应时间的完整内容不超过几秒钟的大部分功能。此外在运行时增加数据集是次线性增长,也就是说,对一个数据集8倍大小的集群的时间只有一个因素增加1.3和3.9之间。

我们应用两种TRECVID风格调查的方法和用户调查的评价视频浏览工具。我们分析了不同方法的结果之间的相关性,是否可以独立评估不同方面的调查显示,如果一个学习效果可以与不同的测量方法,并比较了桌面和web客户机应用程序。

总的来说,结果表明(不是意外),特别是回忆分数,而低这样的应用程序。这绝对是一个需要解决的问题在未来的工作中在视频浏览。

我们也比较感兴趣的视频浏览工具的不同评估方法。我们可以得出结论,更好的与用户体验相关的检索任务比问答调查显示任务。作为检索相关内容也更接近真实世界的应用程序的工具比找到关于内容的事实,它似乎是更合适的评价方法在这种情况下,尽管这是一个昂贵的方法由于数据集和地面真理的努力准备。因此只检索任务和调查已被用于比较的桌面,然后基于web的客户机应用程序。

事实证明,一般用户体验调查,而措施虽然可用性的不同方面不能独立进行分析。这意味着调查相当适合比较工具为特定应用程序的易用性比获得某种工具的优点和缺点的信息。

确认

作者要感谢他们的同事造成这里描述的组件的实现,特别是基督教Schober哈拉尔德Stiegler,和Andras园艺,以及所有的人参加了评估会议。本文研究导致部分由欧盟委员会支持下的合同是2 - 511316 ip,“IP-RACINE-Integrated项目研究领域电影”(http://www.ipracine.org)、fp6 - 045032“SEMEDIA”(http://www.semedia.org),fp7 - 215475之下,“2020 3 d Media-Spatial声音和视觉”(http://www.20203dmedia.eu/)。2006年BBC冲视频版权。英国广播公司(BBC) 2006冲视频用于这项工作提供了研究目的通过BBC TREC信息检索研究收集。

引用

菲佛,r . Lienhart s·费舍尔,w .由“自动提取数字电影,”杂志的视觉传达和图像表示,7卷,不。4、345 - 353年,1996页。
视图: 出版商的网站 | 谷歌学术搜索
b . t . Truong美国马纳尔,“视频抽象:系统回顾和分类。”ACM交易多媒体计算、通信和应用程序,3卷,不。1,第三条,2007。
视图: 出版商的网站 | 谷歌学术搜索
w .水斗和g . Thallinger“多媒体内容抽象的框架及其应用冲勘探,”学报第六届ACM国际会议上图像和视频检索(CIVR ' 07),页146 - 153,阿姆斯特丹,荷兰,2007年7月。
视图: 出版商的网站 | 谷歌学术搜索
j .哦和k·a·华,”一个高效的技术使用视觉内容,总结视频”学报IEEE国际多媒体会议和博览会(ICME ' 00),页1167 - 1170,纽约,纽约,美国,2000年。
视图: 谷歌学术搜索
r . Lienhart s·菲佛,w .由“视频提取,”ACM的通信,40卷,不。12日,55 - 62、1997页。
视图: 谷歌学术搜索
a·g·m·g·Christel豪普特曼,a . s . Warmack s a·克罗斯比,“可调整的幻灯片和丢弃作为数字视频图书馆抽象,”论坛程序研究和技术进步在数字图书馆(ADL的99)马里兰州巴尔的摩,页98 - 104,美国1999年。
视图: 谷歌学术搜索
d . Ponceleon”视频数据的集合,天使的刷牙”第34届夏威夷国际会议系统科学学报》(HICSS ' 01)卷,4 p。116年,IEEE计算机协会,华盛顿特区,美国,2001年。
视图: 谷歌学术搜索
z, r . Radhakrishnan a . Divakaran y鲁伊,黄和t . s .一个统一的框架,用于视频摘要,浏览和检索:应用程序消费和监控录像、学术出版社,纽约,纽约,美国,2005年。
p .赵A . Girgensohn w·波兰的e . Rieffel l·威尔科克斯,“视频分割和总结,遗传算法”学报IEEE国际多媒体会议和博览会(ICME ' 00),3卷,第1332 - 1329页,2000年纽约,纽约,美国。
视图: 谷歌学术搜索
s . Uchihashi j·富特、a . Girgensohn和j . Boreczky”视频漫画:生成语义上有意义的视频摘要,”诉讼的ACM国际多媒体会议及展览(ACMMM 99),页383 - 392,奥兰多,佛罗里达州,美国,1999年11月。
视图: 谷歌学术搜索
m·m·杨和B.-L。狮子座:“视频可视化紧凑的表示和图形的快速浏览内容,“IEEE电路和系统视频技术,7卷,不。5,771 - 785年,1997页。
视图: 谷歌学术搜索
m·a·史密斯和t·金”视频浏览快速浏览基于音频和图像特征,“技术。众议员cmu - cs - 95 - 186,卡内基梅隆大学,匹兹堡,Pa,美国,1995年7月。
视图: 谷歌学术搜索
j . r .史密斯和S.-F。常”,图像和视频为万维网搜索引擎,”《IS&T, /电子成像方法相比研讨会:科学和技术(即97年)卷,3022学报学报美国加州圣何塞,1997年2月。
视图: 谷歌学术搜索
g .聊聊g . Marchionini b . m . Wildemuth et al .,“视频浏览接口开放的视频项目”会议的程序在计算系统人为因素(气' 02)ACM,页514 - 515年,纽约,纽约,美国,2002年。
视图: 谷歌学术搜索
y鲁伊·t . s .黄,“统一视频浏览和检索,框架”图像和视频处理手册,a·c·Bovik Ed,页705 - 715,学术出版社,纽约,纽约,美国,2000年。
视图: 谷歌学术搜索
h .《l .谢,S.-F。Chang,”一个实用程序框架自动生成视听关注”诉讼的ACM国际多媒体会议和展览(多媒体' 02),页189 - 198,纽约,纽约,美国,2002年。
视图: 谷歌学术搜索
m . Irani p .阿南丹,“视频索引基于马赛克表示,“IEEE学报》,卷86,不。5,905 - 921年,1998页。
视图: 谷歌学术搜索
。坎贝尔和c·j·范Rijsbergen”,实指发展中信息需求模型”第二届国际会议的图书馆学概念(线圈与96年)丹麦哥本哈根,页251 - 268,,1996。
视图: 谷歌学术搜索
w .水斗和p . Schallauer”,详细的视听简介:启用基于MPEG-7的系统之间的互操作性,”学报》第12届国际多媒体模拟会议(嗯' 06)h·冯,杨,和y壮族,Eds。,pp. 217–224, Beijing, China, January 2006.
视图: 谷歌学术搜索
h . Stiegler”模块开发人员指南”,科技代表、JOANNEUM研究学院信息系统与信息管理、格拉茨,奥地利,2007年。
视图: 谷歌学术搜索
w .水斗,p . Schallauer g . Thallinger”JOANNEUM TRECVID 2005 -相机运动检测,研究”《TRECVID车间盖瑟斯堡,页182 - 189年,医学博士,美国,2005年11月。
视图: 谷歌学术搜索
d . Comaniciu p·米尔,“意味着转变:一个健壮的方法对特征空间分析,“IEEE模式分析与机器智能,24卷,不。5,603 - 619年,2002页。
视图: 出版商的网站 | 谷歌学术搜索
“信息technology-multimedia内容描述interface-part 3:视觉,“ISO / IEC 15938 - 3, 2001。
视图: 谷歌学术搜索
r·o·杜达·e·哈特和d . g .鹳,模式分类Wiley-Interscience,纽约,纽约,美国,第二版,2001年版。
w .水斗、f·李和g . Thallinger“距离测量重复需要的一个场景,”计算机视觉,25卷,不。1,53 - 68年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
w .水斗和h . Rehatschek“比较事实发现任务和用户调查来评估视频浏览工具,”ACM多媒体会议程序,共存讲习班和研讨会(毫米' 09),第744 - 741页,北京,中国,2009年10月。
视图: 出版商的网站 | 谷歌学术搜索
a . f . Smeaton p .结束,w . Kraaij“评价活动和TRECVid”诉讼的ACM国际多媒体会议和展览圣芭芭拉分校,页321 - 330年,加州,美国,2006年。
视图: 出版商的网站 | 谷歌学术搜索
c . Schober w .水斗,g . Thallinger“视频内容浏览基于迭代特征聚类冲剥削,”《TRECVID车间盖瑟斯堡,页230 - 239年,医学博士,美国,2006年11月。
视图: 谷歌学术搜索
a . Smeaton p·威尔金斯,“TRECVID 2004:互动搜索调查问卷”http://www-nlpir.nist.gov/projects/tv2004/questionnaires.html。
视图: 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

1824年

下载

863年

引用