研究文章|gydF4y2Ba开放获取gydF4y2Ba
Francesco Cricri Kostadin Dabov, Mikko j . Roininen Sujeet交配,伊戈尔·d·d·Curcio蒙GabboujgydF4y2Ba,gydF4y2Ba ”gydF4y2Ba多通道从用户生成的视频语义提取gydF4y2Ba”,gydF4y2Ba多媒体的发展gydF4y2Ba,gydF4y2Ba 卷。gydF4y2Ba2012年gydF4y2Ba,gydF4y2Ba 文章的IDgydF4y2Ba292064年gydF4y2Ba,gydF4y2Ba 17gydF4y2Ba 页面gydF4y2Ba,gydF4y2Ba 2012年gydF4y2Ba。gydF4y2Ba https://doi.org/10.1155/2012/292064gydF4y2Ba
多通道从用户生成的视频语义提取gydF4y2Ba
文摘gydF4y2Ba
用户生成的视频内容已经变得非常快的超过专业内容创建。在这个工作我们开发方法,分析上下文信息的多个用户生成的视频为了获得语义信息对公共事件(例如,运动和现场音乐事件)被记录在这些视频。这项工作的主要贡献之一是联合利用不同的数据模式,包括辅助传感器捕捉到在每个用户执行的录像。特别是,我们分析GPS数据,磁强计数据,加速度计数据、视频和音频内容的数据。我们使用这些数据形式来推断关于事件的信息被记录,在布局方面(例如,体育场),流派,室内和室外场景,事件的主要感兴趣的领域。而且我们提出一个方法自动确定最优组相机中使用多个摄像机视频生产。最后,我们发现相机用户属于其他相机的视野记录在同一公共发生。我们表明,该多通道分析方法表现良好在各种录音中获得真正的体育赛事和现场音乐表演。gydF4y2Ba
1。介绍gydF4y2Ba
camera-enabled移动设备的广泛使用使得记录任何他们感兴趣的人在他们的日常生活。特别是,录制视频的一个最流行的方法是用手机,由于简单的可移植性,可以在一天的任何时候。有趣的事情,人们认为值得捕捉非常多样化;例子可以包括有趣的时刻与朋友或家人,音乐节目,庆祝活动,如婚礼。特别是,有些情况下,众多的人恰巧是记录在同一时间同一场景。这些情况通常是公共事件,如体育赛事或现场音乐表演。在本文中,我们的目标这样的场景,在同一事件的视频记录由多个人们为自己的个人档案使用他们的手持设备(我们使用术语gydF4y2Ba发生gydF4y2Ba和gydF4y2Ba事件gydF4y2Ba互换)。gydF4y2Ba
也说明在gydF4y2Ba1gydF4y2Ba,gydF4y2Ba2gydF4y2Ba),然后用户生成视频很少关注通过拍摄他们的人或其他人。的一个主要原因是缺乏有效的工具来自动组织视频档案以这样一种方式,它将很容易为用户检索一个特定的视频。例如,自动将是有益的gydF4y2Ba分类gydF4y2Ba据类型(即视频。,体育运动,音乐,travels, etc.), scene (i.e., indoors versus outdoors, cityscape versus landscape), type of venue where the event is held (e.g., stadium-like venues).
应用程序针对视频浏览或自动创建的视频摘要将受益于凸视频信息的可用性,如突出事件(例如,目标是在一场足球比赛得分),和突出的区域(例如,目标区域)。gydF4y2Ba
录像被多个摄像机在同一事件可以用于自动生成gydF4y2Ba摄像机视频集锦gydF4y2Ba(即。,a temporal sequence of video segments recorded by different cameras and stitched together one after the other) or a多个摄像机的总结gydF4y2Ba。这些类型的应用程序将受益于可用的几种类型的信息,如相机提供最好的观点在一些指定的质量措施方面,或者其他相机定位对一个特定的相机记录。gydF4y2Ba
在这项工作中,我们执行多通道分析的视频记录的多个用户在一个公众发生为了提取信息索引记录的内容。获得的索引可以用于自动组织视频档案到类或自动生成多个摄像机视频混搭式应用和总结。gydF4y2Ba
我们建议的方法分类记录事件的类型按照下列标准:gydF4y2Ba(我)gydF4y2Ba室内和室外活动gydF4y2Ba,利用GPS锁定状态信息从所有的录音设备;gydF4y2Ba(2)gydF4y2Ba事件类型gydF4y2Ba(运动与现场音乐):我们(即提出新颖的多通道特性。,features derived from auxiliary sensor data) which are used, in combination with content-based features, to classify the event genre by means of machine learning techniques;(3)gydF4y2Ba事件的布局gydF4y2Ba(球场与nonstadium):我们分析的方式面向相机空间分布和(即。相机的结构网络)。gydF4y2Ba
此外我们开发方法,在多个摄像机记录的情况下确定以下方面:gydF4y2Ba(我)gydF4y2Ba的gydF4y2Ba感兴趣的领域gydF4y2Ba在活动区域内,利用录音设备的位置和通过他们指出他们的用户;gydF4y2Ba(2)gydF4y2Ba的gydF4y2Ba最优的相机gydF4y2Ba用于自动生成多个摄像机视频混搭;gydF4y2Ba(3)gydF4y2Ba的gydF4y2Ba相机领域的观点gydF4y2Ba其他的相机记录。gydF4y2Ba
常见的新奇事物的所有方法提出了主要是两个。gydF4y2Ba(1)gydF4y2Ba我们分析gydF4y2Ba上下文数据gydF4y2Ba单独或结合视频和音频内容的数据。这种上下文数据捕捉到gydF4y2Ba辅助传感器gydF4y2Ba(嵌入到录音设备)在视频录制活动。特别是我们考虑加速度计所捕获的数据,电子罗盘,GPS接收器。gydF4y2Ba(2)gydF4y2Ba我们利用的可用性gydF4y2Ba多个设备记录相同的事件gydF4y2Ba提高鲁棒性的分析(由于高冗余)和推断的语义信息,否则很难提取通过分析只有一个视频。gydF4y2Ba
本文的组织结构如下:部分gydF4y2Ba1。1gydF4y2Ba介绍了辅助传感器用于这项工作,部分gydF4y2Ba2gydF4y2Ba介绍了适用于每个建议的算法之前,部分gydF4y2Ba3gydF4y2Ba描述了我们建议的方法,部分gydF4y2Ba4gydF4y2Ba介绍了实验评价,部分gydF4y2Ba5gydF4y2Ba是一个讨论取得的结果,部分gydF4y2Ba6gydF4y2Ba总结了纸。gydF4y2Ba
1.1。辅助传感器在移动设备上gydF4y2Ba
因为这项工作的主要贡献之一是辅助传感器的开发模式为用户生成的视频内容分析,重要的是要介绍我们使用的传感器:gydF4y2Ba(我)gydF4y2BaGPS接收器,gydF4y2Ba(2)gydF4y2Ba加速度计,gydF4y2Ba(3)gydF4y2Ba指南针(三轴磁强计)。gydF4y2Ba
现在GPS接收器是出现在许多电子设备。例如他们是嵌入在最现代化的智能手机,因为它们使用的移动应用程序需要的位置信息,如地图、天气小部件,和图像地理标记功能。gydF4y2Ba
三轴加速度计记录跨三个互相垂直的轴的加速度。这个传感器的一个非常重要的特征是,当缺乏其他加速它的感官静态加速度的1 g(大约9.8 m / sgydF4y2Ba2gydF4y2Ba在海平面)地球质心的方向。这相对强劲的静态加速度允许确定相机的倾斜对水平面,即平面是垂直于重力的力量。我们修复相机方向对三轴垂直加速度计测量,如图gydF4y2Ba1gydF4y2Ba。gydF4y2Ba
我们认为从三轴电子罗盘意识到磁力计。这些传感器输出瞬时水平方向向他们指出关于磁北。指南针的输出,从磁北是在度。通过使用一个三轴磁强计,相机的感觉到取向是正确的甚至在倾斜的存在(相对于水平面)。在相机中嵌入这些传感器的情况下,指南针可以提供平移运动的信息。gydF4y2Ba
我们假设传感器读数在一个固定的采样(但可能不同单个传感器)采样率。同时,我们假定传感器数据的采样时间戳是可用的,与视频录制的开始。传感器数据记录可以被视为一个单独的数据流。节gydF4y2Ba4gydF4y2Ba,我们表明,这些假设是合理的,没有专门的硬件设置很容易满足。gydF4y2Ba
2。现有技术gydF4y2Ba
在本节中,我们报告之前工作解决问题,类似于那些被认为由我们提出的方法。为每个这些作品我们描述的方法,数据的类型进行了分析,主要的差异对我们的方法,我们的方法的优点和缺点是什么关于现有技术。特别是,我们专注于工作解决视频的分类(根据室内/室外场景,风格,和记录事件的布局),识别感兴趣的领域,选择最优的摄像机,相机的检测属于其他相机的视野。gydF4y2Ba
2.1。根据室内和室外场景分类的视频gydF4y2Ba
许多作家曾在分析视频内容为目的的分类。一项调查中给出了关于这一主题的(gydF4y2Ba3gydF4y2Ba]。关于视频的分类在室内/室外场景,塞拉诺et al。(gydF4y2Ba4gydF4y2Ba)提出了一个两阶段的有效方法使用支持向量机分类方法应用于低层次的颜色和纹理特征。作者报告准确性结果与其他计算昂贵的方法。最近,Lipowezky和卷发达的室内/室外探测器适用于手机相机(gydF4y2Ba5gydF4y2Ba]。该方法适用于拜耳域图像和使用光度学的和colorimetrical特性通常是计算在手机白平衡收益评估。分类步骤是基于温柔的提振。在[gydF4y2Ba6gydF4y2Ba]作者建议使用以下功能室内/室外场景图像分类:太颜色直方图空间,同时多分辨率自回归模型参数,移不变的DCT系数。结果在90.3%的正确分类的方法。佩恩和辛格(gydF4y2Ba7gydF4y2Ba)提出一个室内/室外图像分类方法通过分析在图像边缘轮廓的平直度。他们认为一般而言有更大比例的直线边缘的图像室内与户外图像。户外场景识别方法具有较强的自然元素与结构和室内图像边缘清晰可见,但问题与城市户外场景和凌乱的室内图片。因此这项工作将有一些限制应用于户外公共事件的视频时,通常在城市地区举行。gydF4y2Ba
所有这些作品场景分类的解决这个问题通过数据分析内容,这是一个需要大量的计算方法,即使试图减少复杂性已经完成,因为它(例如所示gydF4y2Ba5gydF4y2Ba]。在我们的方法,我们根本不分析视频或音频内容,而我们只依赖于GPS接收器提供的数据由多个记录装置等出席活动。gydF4y2Ba
2.2。根据类型分类的视频gydF4y2Ba
各种视频的分类方法提出了基于类型的使用主要是视频内容分析。在[gydF4y2Ba8gydF4y2Ba)作者提出使用领域知识独立特性(尤其是尺度不变特征变换)和基于bag-of-visual-words——(BoVW)模型与一个创新的码书生成。最后采用分类再分类器。该方法在23个不同的视频运动检测;因此主要针对分类子运动的视频类型。的工作(gydF4y2Ba9gydF4y2Ba)处理层次本体的视频类型的使用。从视频中提取视觉时空特性,他们使用层次支持向量机进行分类。特别是作者提出构建两个最优支持向量机二叉树,局部和全局,以找到最好的树结构类型的本体。提取的时间特性是每个镜头的长度,减少百分比,平均色差,和相机运动,而空间特性是面对帧率,平均亮度和平均颜色熵。我们想要指出其中的一些特性,即每个镜头的长度和削减比例,不能申请分析用户生成视频通常非结构化和未经审查的。值得注意的是,作者提到音乐视频的特点是大框架的区别(颜色直方图)而言,这是一个功能,我们考虑在我们的事件类型分类器。该方法测试电视录音。在[gydF4y2Ba10gydF4y2Ba]作者之间的歧视五视频genres-cartoon,商业、音乐、新闻、和sport-by利用组合模型的提取特性分为编辑(镜头边界的变化),颜色(颜色直方图,平均亮度,和平均饱和度),纹理(统计提取灰度同现矩阵,相反,同质性的能量,熵,以及相关),和运动(亮度变化,平静的视频,动态特性在RGB空间)。使用的分类器是修改后的有向无环图支持向量机模型。在[gydF4y2Ba11gydF4y2Ba)多通道特性从电视节目中提取和分类并行神经网络为七个类型(广告、新闻、天气预报、漫画、音乐、谈话节目,和足球)。提取的特征颜色、纹理、运动,每个镜头的长度,集群的持续时间和饱和度,镜头的长度分布,拍摄时间活动,面对位置分布,覆盖比例的面孔,面对数量分布,音频分割分析,背景音频分析,言论和平均速度。作者报告一个分类准确率为96%。在[gydF4y2Ba2gydF4y2Ba体裁分类提出了家庭视频,这是我们特别感兴趣的目标非专业生产视频内容。作者从MPEG压缩域提取底层特征声称这些功能强大的生产低质量,这是一种常见的家庭录像。作者的目标只有那些视频类型特定的家庭视频,也就是说,旅行,运动,家人和宠物,事件,和娱乐。提取的特征是相机运动(通过分析运动矢量),运动主题,音频类、音频音量、亮度、颜色和手电筒。作者报告,通过整体学习他们实现gydF4y2BaFgydF4y2Ba测量值约为0.7至0.8。gydF4y2Ba
正如我们已经提到的,讨论的类型分类方法分析视频或音频内容的提取通常复杂的特性。同时,这些作品的作者考虑专业录制的视频内容,这是非常不同于用户生成内容。除了内容数据,还在我们的流派分类方法分析,电子罗盘和加速度计所捕获的数据中提取相机运动的特性。我们以这种方式避免执行基于内容的运动估计计算昂贵,其性能受限于移动物体的存在在录制现场。gydF4y2Ba
2.3。事件的分类布局gydF4y2Ba
至于我们所知,没有先前的工作解决的具体问题分类的类型场所的公共事件发生。然而,也有一些作品,解决类似的问题,他们都是基于内容分析,像前面讨论的现有技术在室内/室外场景分类和类型分类。最近的一篇论文([gydF4y2Ba12gydF4y2Ba)提出了一个有趣的位置识别方法。作者使用“骗健壮的特性(冲浪)描述符来检测图像中的对象。位置识别是通过匹配检测对象及其空间关系查询和数据库图像。然而,他们的图像匹配方法的目的是相同的位置而不是分类不同位置类型。Schroth et al。gydF4y2Ba13gydF4y2Ba]给出的详细描述close-real-time移动基于服务器的视觉位置识别系统。他们使用最稳定极值区域(女士)作为特征检测器,日后健壮的特性(冲浪)和压缩的梯度直方图(位)作为重点描述符,和Bag-of-Features(转炉)模型形成整体的描述符。也在这种情况下,他们的视觉基于内容的方法考虑类型匹配的确切位置,而不是位置。除了这些方法基于图像匹配的位置识别,其他作者处理的问题确定一个视觉传感器网络的结构,这是我们执行实现场地分类的类型。在[gydF4y2Ba14gydF4y2Ba]提出测量观测之间的统计依赖不同的相机。他们执行的测试,两个摄像头定位在两个不重叠的部分。在另一项测试五个相机属于真正的交通网络。也是作者的状态,结果近似,但有前途。作者还提出一种方法学习相机利用的绝对位置信息由gps设备,通过记录区域移动。gydF4y2Ba
而不是这些基于内容的方法,我们建议只能推断出场地的类型,通过分析摄像机的位置和方向。我们实现这一目标,利用数据提供的GPS接收器,加速度计和罗盘。直接提供这些传感器,分别位置、垂直方向和水平方向,很难估计通过内容分析。gydF4y2Ba
2.4。感兴趣的领域gydF4y2Ba
分析感兴趣的区域或地区多个暂时对齐录像的一个常见的场景中已经涉及到了一些以前的作品,如在gydF4y2Ba15gydF4y2Ba,gydF4y2Ba16gydF4y2Ba]。在[gydF4y2Ba15gydF4y2Ba]Thummanuntawat等人使用密码本的局部视觉特征提取组帧的图片(共和党)形成的不同的观点。由此产生的特征与空间使用,外观模型以及运动和深度估计跟踪场景中感兴趣的区域。Hayet等人使用本地图像特征提取的视频内容的多个摄像头跟踪球员在足球比赛gydF4y2Ba16gydF4y2Ba]。他们使用模块化的系统架构和分布式计算的高计算成本来弥补当地特征提取和多目标跟踪。卡莉et al。gydF4y2Ba17gydF4y2Ba]提出一个众包的方法确定感兴趣的区域(ROI)的视频。他们收集使用模式从一个缩放网页视频播放器和考虑的地区观众放大roi。他们使用高斯混合模型(GMM)模型的roi从池中用户模式。电影规则应用于gdp8 %的高清视频小屏幕设备基于roi。根据他们的用户研究方法产生的结果与专家手工重新定位目标。然而,他们的方法推广不佳新视频没有用户缩放偏好数据。gydF4y2Ba
与这些作品,我们感兴趣的领域的方法识别利用了利息由相机用户隐式地显示一个特定的区域。我们实现这一目标通过分析摄像机的位置和它们是如何指出。gydF4y2Ba
2.5。选择最优的相机gydF4y2Ba
在[gydF4y2Ba18gydF4y2Ba)作者提出一个系统自动选择的观点从一组摄像机记录的一个场景。他们的目标是创建一个实时视频编辑根据一组电影规则基于人跟踪(身体、头和手)。不同的标准是用于估计视图适用性等跟踪人的位置在视图中,基于估计与摄像机之间的相对取向方向的运动的人,检测皮肤斑点的视图和摄像机的位置关系近似行动轴规则(也称为180度规则)。他们还描述视频重新定位目标和视点插值方法与plane-sweeping算法通过提取三维信息。该方法假定固定相机的位置。在[gydF4y2Ba19gydF4y2Ba]作者提出一个自治视点切换方法根据知觉和蔼可亲,游戏语义,查看设备的限制,用户首选项在篮球比赛中多个摄像机记录。上下文相关的权衡的引入概念(即“完整性”。显示所有相关信息),(即“亲密”。显示详细信息),(即“光滑”。,perceptual and semantic continuity) are used as the basis of a two-way hierarchical view switching approach. A fixed camera setup is used in the work.
2.6。讨论现有技术gydF4y2Ba
大部分的讨论了视频基于内容分析的方法分析;因此他们计算昂贵。此外,只利用一个或几个数据模式可能是不够完整的方式来描述记录现场。一些之前的作品共同分析了视频内容,音频内容,和文本,但联合使用其他类型的传感器,如运动传感器(现在嵌入式在大多数智能手机),与更传统的内容分析仍在研究社区并不是很受欢迎。此外,除了少数例外,以前作品并不认为媒体的可用性被不同的相机在同一事件。gydF4y2Ba
与上述工作,在本文中,我们提出,共同分析辅助传感器数据和媒体内容数据从多个捕获设备。利用这些辅助传感器数据使我们能够执行操作的低计算成本和获取信息,否则很难提取只通过内容分析(如照相机的方向)。gydF4y2Ba
3所示。多通道语义提取gydF4y2Ba
在本节中,我们描述了提出了多通道用户生成的视频分析方法。我们从相机位置提取的语义信息,从相机的态度(即。,相机的方向),从记录媒体内容(视频和音频)。特别是,我们执行以下类型的分析:gydF4y2Ba(我)gydF4y2Ba事件类型的分类;gydF4y2Ba(2)gydF4y2Ba识别的主要感兴趣的领域;gydF4y2Ba(3)gydF4y2Ba检测的最佳设置相机中使用多个摄像机视频生产;gydF4y2Ba(iv)gydF4y2Ba检测设备,属于相机的视野。gydF4y2Ba
在所有这些分析方法我们假设用户生成的视频已经被抓获的公共事件,他们都是可用的,连同相关的辅助传感器数据(我们也提到“上下文”数据),计算设备执行实际的分析(例如,一个网络服务器)。图gydF4y2Ba2gydF4y2Ba说明了提出的语义提取方法的处理步骤。重要的是要注意,(内容和上下文)捕获的数据在同一事件不同的相机必须对齐到一个共同的时间轴上,为了让共同分析。然而,数据一致性不是这个工作的重点,因此这里不详述。在接下来我们首先介绍使用的特性,我们提出的方法。gydF4y2Ba
3.1。特征提取gydF4y2Ba
我们从不同的数据模式和提取一些特性我们下面介绍他们。我们提供理由提取这些特定功能的描述提出了分析方法。gydF4y2Ba
3.1.1。视频分割和视觉特性gydF4y2Ba
我们分析视觉特征结合音频、指南针和加速度计功能的任务事件类型分类。显然,从视频帧中提取视觉特性,分析由多个摄像机记录的所有帧的视频在每个公共事件是昂贵的计算复杂度而言,没有必要。事实上,视频内容通常包含大量的时间冗余,也就是说,帧是暂时接近彼此非常相似。特别是用户生成的视频,这通常是未经编辑,也就是说,它们不包含镜头边界每个视频通常是记录不断没有停顿。因此,它是合理的考虑一帧代表一定数量的其他附近的帧,和提取视觉特征只能从这样的代表帧。为了克服上述问题的计算成本,选择一个子集的原始帧应该执行对每个视频,在获得子集代表了整个视频。gydF4y2Ba
存在不同的策略来获得这样的框架的一个子集。最常见的一种策略包括暂时分段视频通过gydF4y2Ba镜头边界检测gydF4y2Ba技术。然而,一些视觉的特性,我们提取来自后续的变化代表帧,需要由相同数量的所有视频的帧。因此,我们考虑另一个策略,由均匀采样视频帧,例如,通过选择一帧每十秒的视频。gydF4y2Ba
在这个工作我们建议提取以下gydF4y2Ba全球gydF4y2Ba视觉功能为每个代表帧:gydF4y2Ba平均亮度gydF4y2Ba,gydF4y2Ba主要的颜色gydF4y2Ba,gydF4y2Ba局部二元模式gydF4y2Ba(LBP) (gydF4y2Ba20.gydF4y2Ba),而gydF4y2Ba颜色布局gydF4y2Ba(gydF4y2Ba21gydF4y2Ba]。通过考虑后续帧代表我们也提取以下特点:gydF4y2Ba平均亮度的差异gydF4y2Ba和gydF4y2Ba占主导地位的不同颜色gydF4y2Ba。gydF4y2Ba
此外,我们提取局部视觉特征检测通过密集的尺度不变特征变换(DSIFT)为了比较它们的性能与前所述全球视觉特性,类型的分类精度。DSIFT是筛选的扩展(gydF4y2Ba22gydF4y2Ba]。特别是,稀疏的方式提取关键点,他们是人口从整幅图像中提取表面,也就是说,每一帧分成块和筛选重点然后提取每个这样的街区。gydF4y2Ba
3.1.2。音频功能gydF4y2Ba
通过分析每个视频记录的音轨的公共事件我们提取一组特性,然后按贝叶斯网络分类的。为我们使用的音频特征提取和分类描述的工作(gydF4y2Ba23gydF4y2Ba]。gydF4y2Ba
3.1.3。指南针和加速度计数据的特性gydF4y2Ba
我们通过分析捕获的数据提取功能指南针和加速度计传感器。从原始的电子罗盘数据(代表相机的水平方向对磁北)捕获在记录每个视频,我们提取以下功能。gydF4y2Ba(我)gydF4y2Ba平均水平的相机方向gydF4y2Ba ——每一个视频我们计算的平均方向(由罗盘航向)对相机已经指出在视频录制活动。平均计算的gydF4y2Ba圆形的意思是gydF4y2Ba。特别是,gydF4y2Ba对磁北表示为度。gydF4y2Ba(2)gydF4y2Ba摄像机平移速度gydF4y2Ba——水平相机定位在相对较高的采样率(即。,10 Hz), it is possible to automatically detect camera panning movements by analyzing raw compass data (as described in [24gydF4y2Ba])。对于每个视频我们计算平移速度之间的比率的总数平移运动和录像的持续时间。gydF4y2Ba
从数据捕获的加速度计在每个视频的记录我们提取以下特性。gydF4y2Ba(我)gydF4y2Ba平均垂直相机方向gydF4y2Ba ——静态加速度分析的三个正交轴的加速度计可以确定为每个瞬间的角设备是相对于水平面倾斜。我们计算出平均每个视频gydF4y2Ba这样的瞬时垂直方向。gydF4y2Ba(2)gydF4y2Ba相机倾斜率gydF4y2Ba——分析地球的引力的动态分布gydF4y2BaggydF4y2Ba(~ 9.81 m / sgydF4y2Ba2gydF4y2Ba)三轴加速度计可以自动检测相机倾斜运动,也描述了在gydF4y2Ba24gydF4y2Ba]。从检测到的每个视频中,我们推导出相机倾斜的倾斜运动速率。gydF4y2Ba
3.1.4。GPS数据特性gydF4y2Ba
GPS接收器输出不同类型的数据。在这项工作中,我们只考虑位置信息,测量时间,锁状态。我们分析这些数据来获得以下特性。gydF4y2Ba(我)gydF4y2Ba平均GPS定位gydF4y2Ba我们使用GPS接收器嵌入在大多数现代手机获取摄像机的瞬时GPS定位的坐标双(经度和纬度)。为了应对错误估计的位置时,我们计算出平均每个相机获得的GPS位置。这样做我们假设,而录制的视频事件,这个人拿着相机一直大约在同一位置。因此,我们获得的平均每个相机的GPS定位。gydF4y2Ba(2)gydF4y2BaGPS锁定状态gydF4y2BaGPS接收器需要能够与足够数量的GPS卫星通信,以评估他们的位置。如果是满足了这一要求,那么GPS接收器被“锁定”,否则它的状态是“不锁。“我们检查GPS锁定状态的所有录音设备和我们指定的标签“锁”或“锁定”功能gydF4y2BaGPS锁定状态gydF4y2Ba如果大部分的设备,分别锁不锁。gydF4y2Ba
3.2。事件类型的分类gydF4y2Ba
事件类型的分类,我们考虑以下三个方面的公共事件:事件发生的环境(我们也称之为场景分类),布局的事件,事件类型。首先,我们每一个方面进行分类。然后推断事件类型通过结合这些方面的类标签,也就是说,gydF4y2Ba在室内gydF4y2Ba与gydF4y2Ba在户外gydF4y2Ba对环境,gydF4y2Ba体育场gydF4y2Ba与gydF4y2BanonstadiumgydF4y2Ba布局,gydF4y2Ba现场音乐gydF4y2Ba与gydF4y2Ba体育运动gydF4y2Ba的风格。这些操作的组合类标签是可能的,它代表了最终分类的事件类型。gydF4y2Ba
在下面我们将讨论如何使用提取的多通道特性分类公共活动的这三个方面。gydF4y2Ba
3.2.1之上。室内和室外场景gydF4y2Ba
分析的第一步,我们执行的类型推断事件包括确定事件在室内或室外举行。我们实现这一目标的简单方法,通过利用传感器数据(而不是更传统的视频内容数据,如部分所述gydF4y2Ba2gydF4y2Ba)被多个摄像机记录的事件。特别是,我们使用GPS接收器提供的数据嵌入在camera-enabled手机。值得注意的是,这个分析任何便携式设备嵌入可以使用GPS接收器不仅camera-enabled设备,作为我们的方法不分析视频数据。特别是我们只利用GPS接收器的信息关于锁状态。如果设备是在一个室内环境中(例如,在一个建筑),那么它将无法“看到”一个足够数量的卫星(如果不是全部),因此它不会被锁定。因此,我们利用GPS锁定状态了解设备是否在室内或室外。然而,也有一些情况下,即使户外设备,由于周围的建筑物或其他高结构的GPS接收器不能收到足够数量的卫星信号;因此它不会被锁定。在这种情况下,这在实践中很常见,在室内/室外分类方法仅依赖一个GPS接收器会失败。要克服这一点,我们利用多用户数据可用性,也就是说,我们考虑所有的GPS设备的GPS锁定状态出席公众活动。 In this way, outlier devices that in an outdoor environment are not able to have GPS-receiver locked (e.g., due to tall structures in their vicinities) are isolated and not taken into account. Thus, if most of the devices are locked, we conclude that the event is held outdoors, otherwise indoors.
室内和室外的场景之间的分类不仅使用事件类型的标识符,而且对其他分析步骤,我们建议在这工作。事实上一个户外活动的识别使下面的方法使用GPS数据:检测感兴趣的领域,选择最优的摄像机,检测针对相机。gydF4y2Ba
3.2.2。事件的布局gydF4y2Ba
公共事件通常是在场馆举行,专门为允许参加活动的人享受它在一个最佳的和舒适的方式。我们将等场所的特定结构gydF4y2Ba布局gydF4y2Ba的事件。关于体育赛事,最典型的布局体育场(所组成的字段或阶段,部分或完全包围的区域指定为参加活动的人的例子中,足球,橄榄球、排球、网球比赛),电路跟踪(例如,f1比赛,摩托车比赛),和更多的空间分布式布局(如高尔夫、集会比赛,自行车比赛,和马拉松)。现场音乐事件,通常观众是在一个或多个阶段的性能。在一个“舞台”,这是最典型的类型的舞台音乐表演,观众站或坐在一侧(见图gydF4y2Ba3gydF4y2Ba)。然而,对于大型音乐活动,体育场馆的首选场所,因为他们通常大到足以包含成千上万的观众。gydF4y2Ba
我们提出一个方法的歧视两种布局。gydF4y2Ba(我)gydF4y2Ba体育场gydF4y2Balayout-those布局,可以视为stadium-like(即。,在哪里的audience/spectators area has elliptical shape—see Figure4gydF4y2Ba),gydF4y2Ba(2)gydF4y2BaNonstadiumgydF4y2Balayout-those布局的听众/观众区域没有椭圆形状(例如,舞台阶段的现场音乐或戏剧,等等)。gydF4y2Ba
该方法的主要思想是估计摄像机网络结构(即。,how the cameras are spatially distributed and oriented) in order to infer the layout of the event. For this we analyze the locations of the camera users and how they are pointing their camera (i.e., the horizontal camera orientations). Furthermore, we analyze also the tilt angles of the cameras. Location, horizontal orientation, and tilt angle contribute with a different weight to the final classification of the layout. Our method does not perform any video-content analysis to infer the layout of the event which usually requires high computational costs. Figure5gydF4y2Ba显示分类布局所需的处理步骤的一个事件。gydF4y2Ba
我们分析的GPS位置相机了解他们是否分布在一个椭圆模式。特别是,每个相机我们考虑其平均位置在整个事件的持续时间。如果相机位置模式是椭圆的形状,然后分配“椭圆”(数值的名义价值gydF4y2Ba1gydF4y2Ba),否则“Nonelliptical”(数值gydF4y2Ba0gydF4y2Ba)。为了分类相机位置模式,我们使用一个合适的相机位置的优化方法,包括一个椭圆,然后评估错误(即。,每个相机的距离位置的最佳椭圆)。这可以概括为所示算法gydF4y2Ba1gydF4y2Ba。gydF4y2Ba
|
||||||
对于水平方向信息,我们认为的平均取向gydF4y2Ba每个相机在录像。如果相机面向相似的方向,也就是说,他们的方向属于一个预定义的和窄角范围(例如,90度),然后分配标称值“定向”(对应于数值gydF4y2Ba0gydF4y2Ba事件的相机取向模式。否则我们将“没有方向的”(数值的名义价值gydF4y2Ba1gydF4y2Ba)。gydF4y2Ba
最后,关于相机垂直取向,我们考虑平均倾斜角gydF4y2Ba所有的相机,代表整个记录事件最常见的垂直方向。如果相机在事件大多是向下倾斜的,我们指定一个名义值“球场”(数值gydF4y2Ba1gydF4y2Ba倾斜角度的模式,否则“nonstadium”(数值gydF4y2Ba0gydF4y2Ba)。gydF4y2Ba
最终分类的布局,我们指定一个不同重量的位置模式gydF4y2Ba,水平方向的模式gydF4y2Ba和垂直取向模式gydF4y2Ba。然后我们使用的数值模式计算加权平均:gydF4y2Ba 在哪里gydF4y2Ba,gydF4y2Ba,gydF4y2Ba非负权重。每个重量代表信心的辨别力,每个模式考虑布局分类问题。这些权重可以通过一个监督学习的步骤。然而在我们的例子中我们已经分配权重经验后执行广泛的实验。布局上的最终决定采取加权平均进行比较gydF4y2Ba与一个预定义的阈值用力推gydF4y2Ba布局gydF4y2Ba。如果gydF4y2Ba多刺gydF4y2Ba布局gydF4y2Ba然后我们将事件被关押在一个gydF4y2Ba体育场gydF4y2Ba式布局,否则在一个gydF4y2BanonstadiumgydF4y2Ba式布局。gydF4y2Ba
相机的GPS位置信息只能为这些事件在室外环境中举行。然而,如果我们的系统检测到事件在室内举行(此信息提供的室内和室外场景分类中所描述的部分gydF4y2Ba3.2。1gydF4y2Ba),布局分类方法将不考虑位置数据,它将分析只罗盘数据和加速度计数据。gydF4y2Ba
3.2.3。事件类型gydF4y2Ba
在视频类型分类最常被认为是类型gydF4y2Ba电影gydF4y2Ba,gydF4y2Ba新闻gydF4y2Ba,gydF4y2Ba体育运动gydF4y2Ba,gydF4y2Ba音乐gydF4y2Ba,gydF4y2Ba广告gydF4y2Ba,gydF4y2Ba纪录片gydF4y2Ba,也可以看到gydF4y2Ba2gydF4y2Ba,gydF4y2Ba8gydF4y2Ba- - - - - -gydF4y2Ba11gydF4y2Ba]。在这个工作我们考虑用户生成的视频已被记录在一个公共事件。这意味着我们的目标具体用例可能相对较高的人们聚集在一起参加一些共同利益。因此,我们关注的是事件类型之间的差别只有符合这个场景:gydF4y2Ba体育赛事gydF4y2Ba和gydF4y2Ba现场音乐事件gydF4y2Ba。gydF4y2Ba
我们方法的问题事件类型分类,通过分析多个数据收集的方式多个摄像头出席活动(见图gydF4y2Ba6gydF4y2Ba)。特别是我们分析视频数据,音频内容数据和辅助数据传感器(电子罗盘,加速度计)。这样,我们的目标是达到一个健壮的分类由于场景的一个更完整的描述。仅仅作为一个例子,运用一个简单的音乐发生检测器的音轨录音和视频分类成音乐或运动类型基于视频是否含有更多的音乐或nonmusic部分,在以下情况下会失败:首先,在音乐活动人可能记录事情发生之前或之后的音乐节目甚至更长时间比实际的音乐表演。第二,许多体育赛事不同的背景音乐在休息,有的甚至在实际体育活动。最后,分类性能容易恶化与用户现实世界data-particularly音频录制的观众区域使用手机,因为非专业素质的背景噪音的麦克风,因为来自人群(我们已经证实这个实验,我们提供进一步的细节在我们的实验部分gydF4y2Ba4gydF4y2Ba)。然而,音频形态很大程度上有助于流派分类任务,及其与信息从挫折可以补偿额外的模式。gydF4y2Ba
在节中我们讨论的功能gydF4y2Ba3.1gydF4y2Ba,我们使用以下的事件类型的分类:gydF4y2Ba亮度,亮度差异,主要颜色、主导颜色差异,枸杞多糖、颜色布局、音频功能gydF4y2Ba(描述的gydF4y2Ba23gydF4y2Ba])gydF4y2Ba、相机平移速度、gydF4y2Ba和gydF4y2Ba相机倾斜率gydF4y2Ba。节gydF4y2Ba4gydF4y2Ba我们比较分类性能通过使用这些特性在不同组合并结合SIFT-based特性。gydF4y2Ba
原因选择这个特殊的功能在下面给出。基于视觉和听觉检查视频属于体育和音乐流派我们已经注意到大亮度特性的差异。事实上,现场音乐事件通常是在比较黑暗的地方举行,而体育事件的特点是良好的照明条件。主导颜色也有识别力的这两个事件类型,足球视频的特点是绿色色调,冰球比赛的白色色调,为其他体育等等,而现场音乐事件的特点是许多不同的色调由于经常变化的舞台灯光,特别是颜色如红色、紫色、蓝色;在音乐会举行室内或晚上时间另一个主要场景的颜色通常是由黑色的主要阶段,尤其是对于那些相机记录从更远的距离的阶段。亮度值和颜色的变化通常更高和频繁的现场音乐表演比运动,由于舞台灯光。纹理在体育视频通常比在现场音乐视频中更均匀,因为字段(如足球、冰球等)或跟踪(例如,滑雪)。还颜色布局被发现之间的辨别特征类型,因为他们有不同的颜色的空间分布模式。例如在足球比赛绿地通常占据了很大一部分在中部和底部部分的图像。最后,我们选择分析摄像机运动(平移和倾斜率),它通常是高当记录运动事件(也在gydF4y2Ba2gydF4y2Ba,gydF4y2Ba25gydF4y2Ba])。gydF4y2Ba
执行实际的分类利用gydF4y2Ba后期融合gydF4y2Ba策略gydF4y2Ba26gydF4y2Ba]。我们可以看到在图gydF4y2Ba6gydF4y2Ba,每个记录设备捕获数据不同的模式,即视频、音频、指南针、和加速度计数据。分别进行特征提取从而获得视觉、音频和传感器(指南针和加速度计)的特征向量。以下的三个分类器然后使用(一个为每个数据形态分类器)。gydF4y2Ba(我)gydF4y2Ba支持向量机(SVM) (gydF4y2Ba27gydF4y2Ba)代表了视觉标识符,用于视觉特征向量进行分类。gydF4y2Ba(2)gydF4y2Ba贝叶斯网络代表了音频分类器,分类音频特征向量。为此我们使用[描述的工作gydF4y2Ba23gydF4y2Ba]。特别是,我们获得一个类标签为每个时间部分预定义的长度。然后我们把事件归类为音频类标签通常发生在所有的视频。gydF4y2Ba(3)gydF4y2Ba另一个使用支持向量机对传感器特征向量进行分类。gydF4y2Ba
节gydF4y2Ba4gydF4y2Ba我们给的细节如何训练分类器。这三种分类器的结果是由计算权重的加权平均融合来自每一个分类器的分类性能测试集,也就是说,每个重量代表各自的分类器的信心。在结果部分,我们也提供一个比较类型的分类精度通过使用不同的组合功能。gydF4y2Ba
3.3。感兴趣的领域识别gydF4y2Ba
在某些应用场景,比如在视频内容检索,重要的是要识别的区域吸引了人们的注意出席公开活动的视频已经被记录在案。我们提出一个新颖的方法来自动识别gydF4y2Ba感兴趣的领域gydF4y2Ba(我们也引用它gydF4y2Ba苍老师gydF4y2Ba)通过分析只有辅助传感器数据。我们的方法是基于公平的假设,这些人的利益记录事件代表一个视频的良好指标所有其他与会者的一般利益,尤其是当相机记录的数量显著。我们建议分析相机的人在给定的时间记录gydF4y2Ba为了确定瞬时感兴趣的领域gydF4y2Ba(见图gydF4y2Ba7gydF4y2Ba)。通过结合所有的瞬时感兴趣的领域发现整个事件的持续时间,然后我们获得事件的主要感兴趣的领域gydF4y2Ba。gydF4y2Ba
特别是我们的方法利用相机位置和相机的可用性水平方向信息。因此我们不分析视频或音频内容,这将需要较高的计算成本。gydF4y2Ba
对于每一个瞬间gydF4y2Ba(或颞段预定义的长度),我们在算法执行步骤gydF4y2Ba2gydF4y2Ba。gydF4y2Ba
|
||||||||||||||
应用这些步骤对于每一个即时的结果(或颞段)是一组瞬时感兴趣的领域。主要感兴趣的领域gydF4y2Ba事件然后派生只需平均交点的坐标形成所有瞬时感兴趣的领域(我们使用削减意味着以隔离离群值瞬间苍老师)。我们确定感兴趣的要点gydF4y2Ba通过计算坐标的削减意味着所有的瞬时的兴趣点。gydF4y2Ba
3.4。选择最优的相机gydF4y2Ba
在多个摄像机视频(即生产。,generation of a mash-up of videos capturing the same scene from multiple cameras) it is important to respect one of the most widely used techniques in filmmaking: the180度的规则gydF4y2Ba(gydF4y2Ba28gydF4y2Ba]。这样的规则是必要的为了不混淆观众最终视频的混搭对场景中的物体的运动方向。例如,在一场足球比赛的具体情况,球的运动方向应该是一致的,恰好是view-switch(即。视频中,切换不同的相机)混搭。专业视频广播的足球比赛,这是通过将摄像机只有一侧的足球场。这个规则同样适用于其他类型的场景由多个摄像头记录,如面试或现场音乐表演。gydF4y2Ba
不幸的是,当处理用户生成的视频被多个摄像头是不可能的假设摄像机说谎只有一侧的主要场景,因为用户录制的视频可以位于任何地方在体育场或听众区。因此需要确定这种相机定位事件期间,只为了能够利用那些兼容180度规则在视频混搭的生产。这些摄像机构成了gydF4y2Ba最优的相机gydF4y2Ba,这是所有相机记录事件的一个子集。gydF4y2Ba
我们提出一个方法来自动确定最优组通过选择那些躺在只有一个相机的两面gydF4y2Ba最优的分离线gydF4y2Ba。分离线是一个假想线,将记录场景划分为两个部分。例如,在图gydF4y2Ba8gydF4y2Ba一个足球场和一个可能的分离线。在我们的方法分离线是由两个参数:这一点gydF4y2Ba交叉的线和斜率gydF4y2Ba的线。特别是,交点必须在记录的场景(即谎言。,within the area of interest, such as the football field in a football match or the performance stage in a live music show). The optimal separating line is characterized by the optimal slope收益率最大数量的摄像头的一个分离的两面:gydF4y2Ba
我们的方法完全依赖摄像机和录音的位置在一个代表点的主要场景。特别是,所有摄像机的GPS位置等出席活动进行了分析。我们认为作为代表点gydF4y2Ba主要的场景gydF4y2Ba主要兴趣点gydF4y2Ba(确定部分中描述的方法gydF4y2Ba3.3gydF4y2Ba)。该方法在算法中所示的步骤可以概括gydF4y2Ba3gydF4y2Ba。gydF4y2Ba
|
||||||
3.5。针对相机的检测gydF4y2Ba
我们提出一个方法来自动检测摄像头视野内的存在(FOV)记录相机,在一个公共事件(见图gydF4y2Ba9gydF4y2Ba)。方法并不局限于检测只有摄像头设备,但它可以用于检测存在的其他设备的位置信息是可用的,例如带有gps功能的设备。该方法的潜在用途主要领域的自动视频生成和集锦,更多的在一般情况下,视频内容检索。例如,它将有利于知道哪些特定的人(他举行一个gps设备)可能会在视图中记录的相机,或者知道相机是否记录大约相同的场景和其他相机出席一个活动。gydF4y2Ba
对于每一个相机,记录一个事件,我们的方法利用位置的可用性,指出方向,和相机的视野。此外其他gps设备的位置等出席活动。描述的方法包括步骤算法gydF4y2Ba4gydF4y2Ba。gydF4y2Ba
|
||||||
4所示。结果gydF4y2Ba
在本节中,我们评估该方法的性能。当我们分析流传感器测量记录同时录像,没有公开的数据集,已经包含这样的传感器数据。此外,我们分析数据被多个设备同时在同一事件。因此,对于我们的实验我们使用测试数据集获得节中描述gydF4y2Ba4所示。1gydF4y2Ba。gydF4y2Ba
4.1。测试数据集gydF4y2Ba
我们使用公开可用的智能手机和简单的专用软件,使得收集传感器数据同步录像。默认为每个传感器采样率,也就是说,40个样本/秒的加速度计,10个样本/秒的指南针,GPS和1样本每5秒钟。每个样本进一步与时间戳标记。录像和记录之间的时间校准传感器数据容易获得,在视频的开始和停止记录时间获得媒体文件的创建时间的时间戳,然后被匹配传感器测量。我们使用的软件应用程序存储传感器测量(和相关的时间戳)与记录相关的数据流视频。gydF4y2Ba
我们两个数据集用于实验。数据集1包含数据(用户生成的视频和相关的上下文数据)收集在公众场合运动类型和现场音乐流派,在室内或户外举行,在体育场或nonstadium布局。尤其是记录事件:三个足球比赛在室外体育场举行(视频的数量是54岁的所有视频的总长度约为720分钟),两个冰上曲棍球比赛在室内体育馆举行(71个视频总长度约684分钟),四个现场音乐表演在舞台举行阶段,两人在户外和室内两(156个视频为所有四个事件,生成一个总体持续时间890分钟)。收集的数据是参加活动和多个用户都位于稀疏的观众(或观众的体育赛事的情况下)。数据集1已经被用于测试事件类型的分类。数据集2包含事件包含在数据集的一个子集1。第二个数据集已经被用于测试识别感兴趣的领域的事件,选择最优的摄像机,在相机的检测。数据集2只包括户外活动。特别是,属于这个数据集的事件有三个足球比赛和两个现场音乐表演。值得注意的是,记录各种公共事件的人没有任何具体指示的方式记录。 On the contrary, they were only asked to record the event as they would normally do when they want to obtain videos for their personal use.
4.2。分类的事件的类型gydF4y2Ba
为了评估事件类型的分类器,我们现在得到的实验结果中的每个事件分类数据集1根据以下方面:室内/室外场景,布局,和事件类型。这些方面定义最后的事件类型。gydF4y2Ba
特别是关于事件类型分类,在分析多个数据我们做了一些评估方法只使用音频分类实现之间的歧视gydF4y2Ba体育运动gydF4y2Ba和gydF4y2Ba现场音乐gydF4y2Ba事件类型。为此,描述的音频分类器(gydF4y2Ba23gydF4y2Ba)已被应用于从视频中提取音频内容录音属于数据集1。分类结果表gydF4y2Ba1gydF4y2Ba。可以看到,音频分类器的性能对用户生成的数据不是非常高,即使在我们的实验中我们使用高端手机嵌入麦克风的质量高于人们使用的最常见的设备。作为一个初步测试的结果,我们决定分析其他数据形式除了音频内容数据实现事件类型分类,如前所描述的部分gydF4y2Ba3.2。3gydF4y2Ba。gydF4y2Ba
|
|||||||||||||||||||||||||||||||||||||||
当我们使用监督分类方法,使用的三种分类器类型分类首先训练。关于gydF4y2Ba视觉分类器gydF4y2Ba,培训是由哥伦比亚消费者使用视频(闭路)数据库(gydF4y2Ba29日gydF4y2Ba作为训练数据,这是一个集不同主题的YouTube视频,等几种类型的运动(足球、滑雪和滑冰),音乐表演,和婚礼仪式。特别是,我们只选择那些标记为运动的视频或音乐表演。gydF4y2Ba
关于gydF4y2Ba音频分类器gydF4y2Ba我们已经提到,[描述的工作gydF4y2Ba23gydF4y2Ba)被用来分类每个视频的音轨是“音乐”或“没有音乐。“贝叶斯网络训练数据被移动电话。gydF4y2Ba
关于gydF4y2Ba传感器的分类器gydF4y2Ba,没有公开的数据集的指南针和加速度计数据捕获在录像。因此训练数据集是由传感器数据被我们的手机在公共事件。特别是,我们考虑一组不同的手机对那些用于测试的分类性能,为了获得一个训练集和测试集尽可能多的独立。gydF4y2Ba
实验结果在场景分类,通过分析多个数据布局和风格形式展示在表gydF4y2Ba2gydF4y2Ba。关于布局分类gydF4y2Ba音乐会2gydF4y2Ba我们获得了误分类(gydF4y2Ba体育场gydF4y2Ba而不是gydF4y2BanonstadiumgydF4y2Ba),因为事件的大场地举行相机用户分布几乎发生在一个椭圆。gydF4y2Ba
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
根据报告的分类精度表gydF4y2Ba2gydF4y2Ba,该事件类型的分类方法在实际使用场景表现良好。gydF4y2Ba
我们还进行了一个比较使用不同的事件类型的特征分类。特别是,我们分析了分类性能的以下又:gydF4y2Ba(我)gydF4y2Ba特性gydF4y2Ba :音频功能;gydF4y2Ba(2)gydF4y2Ba特性gydF4y2Ba :传感器特性;gydF4y2Ba(3)gydF4y2Ba特性gydF4y2Ba :只有DSIFT (Bag-of-Visual-Words方法);gydF4y2Ba(iv)gydF4y2Ba特性gydF4y2Ba :只有全球视觉特性;gydF4y2Ba(v)gydF4y2Ba特性gydF4y2Ba :音频和传感器特性的组合;gydF4y2Ba(vi)gydF4y2Ba特性gydF4y2Ba :DSIFT和传感器特性的组合;gydF4y2Ba(七)gydF4y2Ba特性gydF4y2Ba :全球视觉特性和传感器特性的组合;gydF4y2Ba(八)gydF4y2Ba特性gydF4y2Ba :结合音频特性,DSIFT和传感器特性;gydF4y2Ba(第九)gydF4y2Ba特性gydF4y2Ba :结合音频功能,全球视觉特性和传感器特性。这是一组,我们建议使用。gydF4y2Ba
Bag-of-Visual-Words方法是一种先进的图片和视频分类方法,除了也用于检测对象和重要事件。一个工作视频类型的分类使用BoVW是在[gydF4y2Ba8gydF4y2Ba]。BoVW方法在两个阶段:gydF4y2Ba(1)gydF4y2Ba码书生成和分类器训练阶段;gydF4y2Ba(2)gydF4y2Ba分类阶段。gydF4y2Ba
两阶段我们人口提取一组筛分每个视频的每一帧。在第一阶段(电报密码本代)从培训视频提取的点聚集成一组码字使用gydF4y2Ba——聚类算法。为每个代表帧,我们就得出了直方图的码字出现,这是通过映射提取的筛分得到的码字。然后使用直方图获得训练SVM分类器。在第二阶段(分类),我们认为每个代表帧的视频,通过提取的映射组筛分以前生成的码字,我们获得一个码字出现的柱状图。这样一个直方图代表了特征向量将SVM分类的训练在第一阶段。gydF4y2Ba
这种比较的结果被发表在表gydF4y2Ba3gydF4y2Ba和gydF4y2Ba4gydF4y2Ba。特别是,在桌子上gydF4y2Ba4gydF4y2Ba我们报告的分类结果相结合特征从不同形式的数据。我们建议的方法(特性gydF4y2Ba)使用的音频功能,全球视觉特性,和传感器特性执行最好的分类精度。gydF4y2Ba
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4.3。确定感兴趣的区域gydF4y2Ba
视频属于数据集2被用于测试识别感兴趣的区域。我们进行一个评估通过可视化地估计,整个事件的主要感兴趣的领域。我们绘制了位置的主要感兴趣的领域,然后视觉评估它是否已被确认正确与否。尤其是对体育赛事,我们估计主要感兴趣的领域标记为“确定”如果是位于足球场。现场音乐事件我们其标记为“确定”,如果是在舞台上(或身后舞台)。表gydF4y2Ba5gydF4y2Ba总结了我们感兴趣的区域识别实验。在表中,每个记录的事件,我们报告的总数瞬时感兴趣的领域(即。分析时间片段的数量),识别主要的苍老师,gydF4y2Ba均方误差gydF4y2Ba(MSE)每个相机距离的确定主要苍老师。我们能够确定数据集的所有事件的主要光学检查2。此外我们获得不同精度的估计距离相机和感兴趣的领域。特别是,对gydF4y2Ba音乐会2gydF4y2Ba我们获得最高的均方误差值,这是由于背后的主要光学性能的识别阶段(主要代表了地面实况苍老师),由于GPS测量的不准确。gydF4y2Ba
|
||||||||||||||||||||||||||||||||||||
4.4。选择最优的一组相机gydF4y2Ba
测试优化摄像机的选择根据180度规则一直在进行数据集2。我们提出的方法确定最优相机依赖的正确识别事件的主要感兴趣的领域;特别是它使用主要的中心葵和认为这是分离线相交的点。关于地面真相,可能会有多个最优集的相机,这是考虑到在我们的实验。实验结果被发表在表gydF4y2Ba6gydF4y2Ba。gydF4y2Ba
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
我们使用以下措施选择的性能评价方法:gydF4y2Ba(我)gydF4y2Ba精度(gydF4y2BaPgydF4y2Ba)分数的自动选择相机属于一个地面真理组最佳摄像头;gydF4y2Ba(2)gydF4y2Ba回忆(gydF4y2BaRgydF4y2Ba)分数的最优相机属于一个地面真理的最优集由我们的正确选择方法;gydF4y2Ba(3)gydF4y2Ba平衡gydF4y2BaFgydF4y2Ba测量(gydF4y2BaFgydF4y2Ba)——调和平均数的计算精度和召回。gydF4y2Ba
我们可以看到在桌子上gydF4y2Ba6gydF4y2Ba,因为gydF4y2Ba足球比赛1gydF4y2Ba和gydF4y2Ba足球比赛3gydF4y2Ba我们的方法引入了一个额外的相机对地面真理最优集之一。这个错误是由GPS数据的不准确测量。关于gydF4y2Ba音乐会1gydF4y2Ba和gydF4y2Ba音乐会2gydF4y2Ba,显示在舞台举行阶段记录相机都位于舞台前,地面真理最优集包含所有的相机。该方法正确地识别这些最优集。gydF4y2Ba
4.5。检测针对相机gydF4y2Ba
我们已经测试了检测相机的视场内的其他相机通过使用数据集2。表gydF4y2Ba7gydF4y2Ba总结了实验结果。评估的性能检测方法我们使用类似措施的选择最佳的相机。gydF4y2Ba
|
||||||||||||||||||||||||||||||||||||||||||||
特别是,(我)精度(gydF4y2BaPgydF4y2Ba)检测到摄像头的分数确实是在其他相机的视野;(2)召回(gydF4y2BaRgydF4y2Ba)分数的真正针对相机检测到正确;(3)平衡gydF4y2BaFgydF4y2Ba测量(gydF4y2BaFgydF4y2Ba)——调和平均数的计算精度和召回。gydF4y2Ba
5。讨论gydF4y2Ba
用户生成的内容出现了巨大的增长在最新的年gydF4y2Ba30.gydF4y2Ba),这种内容的分析成为一个重要的研究问题。在这个工作我们显示上下文数据从多个用户生成的视频可以提供重要的信息关于他们的环境记录。这些信息随后可以利用各种其他应用程序(如视频检索、汇总和混搭创造)。gydF4y2Ba
这项工作的主要贡献之一是开发多种形式的数据分析用户生成内容。辅助传感器模式不仅允许精确的位置和方向信息记录装置也比传统的内容分析处理需要更少的计算方法。例如,我们在这项工作中使用的所有辅助传感器生产小于每秒200个样本,而一秒钟的高清视频内容以每秒25帧包含2300万像素。gydF4y2Ba
在这个工作我们GPS数据用于室内/室外场景分类,识别事件布局和感兴趣的领域,为选择最佳的相机,和检测针对相机。GPS通常只提供公共活动在户外举行。然而,如果室内定位系统是可用的,我们的方法可以很容易地扩展到室内活动。GPS位置信息是影响错误源于几个来源,值得讨论此类错误的影响,我们提出的方法。在最近的一篇论文gydF4y2Ba31日gydF4y2Ba]作者声称的平均位置错误经验丰富的现代手机在8 - 12米之间变化。在工作中描述(gydF4y2Ba32gydF4y2Ba)(从2011年)手机和GPS报告错误认为是在0和5米之间。特别是现代智能手机的不同模型估算GPS测试不准确。这样的模型之一,97%的测量值被发现受5米内的错误。正如我们已经提到的,为了应对全球定位系统(GPS)和离群值位置测量不准确,特别是,我们多次获取位置信息为每个相机然后我们计算一个削减意味着这样的测量。gydF4y2Ba
关于我们提出的方法用于室内/室外场景分类,错误的GPS位置信息不会影响算法的性能。然而,如果记录事件举行户外和大部分的GPS接收器不锁定我们的方法会提供错误的信息。这种情况可能发生事件时面积小,被高楼大厦包围或其他结构。在stadium-like场所通常没有建筑活动区域太近,我们有实验验证的结构构成了观众部分不代表主要问题的直接视线。gydF4y2Ba
关于事件的识别布局,在手机内典型定位错误5或10米,体育场有更大的尺寸,这些错误没有大影响的估计布局,也就是说,它仍然有可能确定摄像机分布在一个椭圆的方法通过使用我们的方法基于曲线拟合。我们已经证明了这个实验在我们的测试中,所有stadium-like场馆被正确识别。gydF4y2Ba
该方法对于识别感兴趣的区域更敏感的GPS定位不准确。但是,我们并不针对精确确定的确切位置的兴趣点(或焦点)所在地;相反,我们感兴趣的是确定一个更广泛的区域,可以给指示性信息的显示(体育比赛或音乐性能)是位于整个事件区域。因此,稍微不准确的测量位置(与以前讨论的)不干扰这一目标。gydF4y2Ba
最优的选择相机依赖于识别感兴趣的领域和每个相机的位置对这样的地区。这种方法的性能可能受损的不准确的位置信息。事实上,因为这样的错误,一个相机,实际上是对180度线一侧可以发现错误是另一方面。我们经历了这个在我们的测试中(表gydF4y2Ba6gydF4y2Ba),自动选择最佳的相机并不总是完全与地面真理最佳镜头。最后,对该方法检测相机的视场范围内其他相机,相机位置不准确的记录和目标相机可能会影响结果。事实上,如果一个目标相机边境附近的视野记录相机,即使很小的位置错误的目标或录音相机可以影响检测精度。另一个案例中,小型GPS错误会产生错误的检测结果是当录音相机和目标相机接近对方。gydF4y2Ba
6。结论gydF4y2Ba
在这个工作我们提出一套方法自动提取语义信息对公共事件,如体育和现场音乐活动。用户生成的视频记录的方法依赖于分析在这些事件由多个记录装置。特别是,我们提取的信息记录场景考虑摄像机的位置和其他上下文信息记录的活动。辅助传感器数据,以及视频和音频内容数据,分析确定事件被记录的类型。特别是,我们能够识别事件的布局、事件类型和事件是否在室内或户外举行。此外,我们提出了算法确定一个事件的感兴趣的领域和自动选择最优的一组摄像机用于多个摄像机的视频生产,根据180度规则是一种广泛使用的技术在电影制作。最后一种方法检测设备的摄像头的视场内。我们进行了实验评估提出的算法在实际测试数据。特别是我们得到以下的分类精度,分别的场景,风格,和布局:88.9%,100%,88.9%。主要感兴趣的领域已被确定在所有的测试用例。 By using the identified main areas of interest, we were able to select the optimal cameras with an averageFgydF4y2Ba测量为0.95。最后,针对相机的检测我们平均获得gydF4y2BaFgydF4y2Ba测量为0.77。因此,我们的实验结果表明,该方法有良好的表现在几个真正的公共事件。gydF4y2Ba
引用gydF4y2Ba
- r . Oami a·b·贝尼特斯s . f . Chang和n克里斯汀娜”理解消费者的视频和建模用户利益,”gydF4y2BaIEEE国际多媒体会议和博览会gydF4y2Ba,页1475 - 1478,台北,台湾,2004。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- s . m . Sugano t Yamada Sakazawa, s . Hangai“家庭视频类型分类方法,”gydF4y2BaIEEE国际研讨会上信号处理gydF4y2Ba,页1 - 5,里约热内卢,巴西,2009年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- d . Brezeale和d·j·库克,“自动视频分类:文献的调查,“gydF4y2BaIEEE系统,人与控制论CgydF4y2Ba,38卷,不。3、416 - 430年,2008页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- A . n . Serrano Savakis和j·罗,”一个计算高效的室内/室外场景分类方法,”gydF4y2Ba16日IEEE国际会议模式识别gydF4y2Ba魁北克市,页146 - 149年,加拿大,2002。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- Lipowezky和卷,“室内外探测器对手机相机使用温和的刺激,”gydF4y2BaIEEE计算机视觉与模式识别会议研讨会gydF4y2Ba,页31-38,旧金山,加州,美国,2010年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- m . Szummer和r·w·皮卡德“室内外图像分类、”gydF4y2BaIEEE国际研讨会在基于内容的图像和视频数据库的访问gydF4y2Ba页42-51,孟买,印度,1998。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- a·佩恩和s·辛格,“数码照片,室内与室外场景分类”gydF4y2Ba模式识别gydF4y2Ba,38卷,不。10日,1533 - 1545年,2005页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- 张n和l .关”,一个有效的框架大规模视频类型分类,”gydF4y2BaIEEE国际研讨会上多媒体信号处理gydF4y2Ba圣马洛,页481 - 486年,法国,2010年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- x元(w·赖,t·梅x华,吴x q、s·李,“自动视频类型分类,采用层次支持向量机”gydF4y2BaIEEE国际会议上图像处理gydF4y2Ba,页2905 - 2908年,亚特兰大,乔治亚州,美国,2006年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- j . Xinghao s Tanfeng, c . Bin”小说的视频内容基于视觉特征模型相结合,分类算法”gydF4y2Ba第二次国际大会上图像和信号处理(CISP ' 09)gydF4y2Ba,2009年10月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- m . Montagnuolo和墨西拿,“多通道类型分析应用于数字电视档案,”gydF4y2Ba19国际会议数据库和专家系统应用程序(用08年)gydF4y2Ba都灵,页130 - 134年,意大利,2008年9月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- a . Feryanto和i Supriana位置识别使用检测到的对象在一个图像,”gydF4y2Ba电气工程和信息学国际会议gydF4y2Ba,页1 - 4,Ban-dung,印度尼西亚,2011。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- g . Schroth r . Huitl d . Chen m . Abu-Alqumsan a . Al-Nuaimi施泰因巴赫和大肠,“移动视觉位置识别,”gydF4y2BaIEEE信号处理杂志gydF4y2Ba,28卷,不。4、77 - 89年,2011页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- k .越南计量、g . Dalley和w·e·l . Grimson”推理的非重叠摄像机网络拓扑测量的统计依赖,”gydF4y2Ba10日IEEE计算机视觉国际会议gydF4y2Ba,卷2,页1842 - 1849,北京,中国,2005。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- t . Thummanuntawat w . Kumwilaisak, j . Chinrungrueng”在多视点视频自动的检测gydF4y2Ba国际会议上电子工程/电子计算机电信和信息技术(ECTI-CON 10)gydF4y2Ba,页889 - 893,清迈,泰国,2010年5月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- j·b·Hayet t .数学,j . Czyz j .反坦克炮,j .维尔和b . Macq“模块化多幅相机团队运动跟踪框架”gydF4y2BaIEEE视频和基于信号的监测(AVSS 05)gydF4y2Ba科莫,页493 - 498年,意大利,2005年9月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- a .卡莉诉Charvillat, w . t . Ooi r . Grigoras g·莫兰,“众包自动缩放和滚动视频重新定位目标,”gydF4y2Ba18 ACM国际多媒体ACM多媒体会议10(毫米)gydF4y2Ba,页201 - 210,佛罗伦萨,意大利,2010年10月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- p . Doubek相当的,t . Svoboda, l . Van干傻事,“电影规则应用于摄像机网络”gydF4y2Ba5号车间全向视觉上,相机网络和非经典的相机gydF4y2Ba17 - 29页。布拉格,捷克共和国,2004年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- f·陈和c . DeVleeschouwer“个性化生产下的篮球视频从多传感器数据显示分辨率有限,”gydF4y2Ba爱思唯尔《计算机视觉和图像理解gydF4y2Ba,卷114,不。6,667 - 680年,2010页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- t . Ojala m . Pietikainen d·哈伍德,“绩效评估的结构措施,分类基于Kullback分布的歧视,”gydF4y2Ba12日IAPR模式识别国际会议gydF4y2Ba,1卷,页。582 - 585年,耶路撒冷,巴勒斯坦,1994年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- MPEG-7”, ISO / IEC 15938,多媒体内容描述接口,“gydF4y2Bahttp://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=34228gydF4y2Ba。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- d·g·劳”,从当地的扇区特征对象识别,”gydF4y2BaIEEE计算机视觉国际会议gydF4y2Ba,卷2,页1150 - 1157,科孚岛,希腊,1999。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- t .拉赫蒂gydF4y2Ba低复杂性技术自动语音识别和自动音频内容分析gydF4y2Ba,坦佩雷理工大学博士论文,2008年。gydF4y2Ba
- f . Cricri k . Dabov i d·d·Curcio交配,和m . Gabbouj“复合事件检测用户生成的视频中,”gydF4y2BaIEEE国际研讨会上多媒体gydF4y2Ba达纳指出,页263 - 270年,加州,美国,2011年12月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- 诉Kobla、d . DeMenthon和d . Doermann”识别运动使用回放视频,文字,和相机的运动特性,”gydF4y2Ba媒体数据库的存储和检索gydF4y2Ba卷,3972gydF4y2Ba学报学报gydF4y2Ba,第343 - 332页,2000年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- c .通用杖鱼、m .烦恼和a·w·m . Smeulders”语义视频分析,早期和晚期融合”gydF4y2BaACM国际多媒体会议gydF4y2Ba,页399 - 402,新加坡,2005年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- v . n . VapnikgydF4y2Ba统计学习理论的本质gydF4y2Ba施普林格,纽约,纽约,美国,1995年。gydF4y2Ba
- 自由/开源软件,gydF4y2Ba电影:叙事和结构技术gydF4y2Ba,Silman詹姆斯出版社,洛杉矶,加州,美国。gydF4y2Ba
- 江y . g . g .你们,s . f . Chang d·埃利斯和A·c·Loui”消费者视频理解:一个基准数据库和一个人类和机器性能的评价,”gydF4y2Ba1日ACM国际多媒体检索会议上(11)gydF4y2Ba特兰托,意大利,2011年4月。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- m . Cha h·夸克·罗德里格斯y y安,和美国的月亮,“大规模的用户生成内容的视频流行特征分析系统”gydF4y2BaIEEE / ACM交易网络gydF4y2Ba,17卷,不。5,1357 - 1370年,2009页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- y小高,s . Takano y, m . Higuchi和h .村上”错误的评价多个GPS终端的特点,”gydF4y2Ba最近的研究电路、系统控制和信号gydF4y2Ba,13-21,2011页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- t . Menard j·米勒,m·诺瓦克和d·诺里斯”比较三星Galaxy S的GPS功能,摩托罗拉Droid X,和苹果的iPhone使用FreeSim_Mobile车辆跟踪,”gydF4y2Ba14日IEEE国际会议在智能交通系统中gydF4y2Ba华盛顿特区,页985 - 990,美国2011年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
版权gydF4y2Ba
版权©2012 Francesco Cricri et al。这是一个开放的分布式下文章gydF4y2Ba知识共享归属许可gydF4y2Ba,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。gydF4y2Ba