视频场景检测使用紧凑的视觉词袋模型

文摘

视频分割成镜头是视频索引和搜索的第一步。视频照片大多是非常小的时间和不给有意义的视觉内容的见解。然而,分组基于类似的照片视频场景的视觉内容可以让我们更好地理解;分组相似的照片被称为现场或视频分割成镜头边界检测。在本文中,我们提出一个模型对视频分割成视觉场景使用视觉词包(BoVW)模型。最初,视频分成后的照片由一组关键帧。关键帧进一步由BoVW特征向量相比很短而紧凑的经典BoVW模型实现。两种变体BoVW模型的使用:古典BoVW模型和向量的线性聚合描述符(弗拉德)古典BoVW模型的一个扩展。镜头的相似性计算的关键帧的特征向量之间的距离长度的滑动窗口内 ,而比较每一个镜头的镜头很长的列表之前练习,和的值是。实验电影和戏剧的视频显示了该框架的有效性。BoVW是 - - - - - -维向量和弗拉德 - - - - - -维向量模型。BoVW达到分割的准确性,而弗拉德达到。

1。介绍

视频数据库的规模呈几何倍数增长,由于廉价和快速互联网的出现。视频的索引和检索变得更加困难。用户的期望很高由于advanecment技术。巨大的视频门户网站,如YouTube, Dailymotion网站,和谷歌,大量投资效率和智能索引和检索,以便用户门户网站仍具吸引力和上瘾。

为索引和搜索过程的视频,第一个任务是将视频分割成镜头和提取代表帧,称为关键帧,从每一个镜头。这些关键帧后用于搜索、高效的索引,场景生成和视频分类。选择关键帧的主要思想是降低计算成本为视频帧的集合存储在时间顺序;也就是说,every video uploaded on Youtube is 30 frames per second or higher. The more the frames per second, the better the visual effect. Despite being very sophisticated hardware, all the frames cannot be processed in real time applications such as event detection from CCTV streaming. To process one frame for the detection of possible objects, it takes 0.5 to 1.5 seconds to identify objects in the frame (cascade object detector is used to identify possible text boards in the frame using Matlab).

在视频场景分割,视频分为镜头和类似的照片组合在一起的场景。照片是不间断的,不断的视频帧序列没有改变主题和相机1]。一般来说,视频镜头可以分为两种类型:突然的照片和渐进的照片。突然镜头边界的突然改变等现场议长在电视采访中,而渐进的照片多拍几张改变消失和溶解等。在视频中,许多镜头重复在很短的时间间隔;如果这些照片结合那么这些照片的集合称为场景。例如,如果两个演员在说然后镜头不断切换到两个角色都很少视频的背景和在两分钟的对话中有时有25 - 30次。现场检测,即镜头边界检测或视频场景分割,是研究合并相似或重复拍摄到一个剪辑,或将视频分成语义或视觉相关或相似的片段。

手动分割的视频网站和dvd非常耗时,并且在处理大型数据集时并不可行。最近,自动视频分割成镜头和场景已经得到行业和研究人员的广泛吸引力2- - - - - -5]。

在拟议的方法,视频分割成突然镜头边界,进一步分组的基础上构造的相似之处。拟议的方法是受BoVW模型场景检测(2];抽象流程图如图1。在视觉词袋模型中,地方重点描述符提取的关键帧照片由视觉单词的直方图表示。这些关键帧匹配基于视觉词包直方图的滑动窗口长度(3]。它已经表明,滑动窗口的照片匹配更有效(2,3]。古典BoVW模型和弗拉德在精度前提下使用紧凑的词汇。

剩下的纸是组织如下。部分2介绍了相关的工作。它分为三个部分:镜头边界检测,关键帧提取镜头边界检测。部分3介绍了提出的方法以及实验协议,最后一节4总结了论文,讨论了未来的工作。

在本节中,一个简短的文献回顾和最先进的方法提出了视频分割的主要步骤,包括镜头边界检测、关键帧提取和镜头边界检测。

2.1。镜头边界检测

在视频索引和搜索的问题,首先,也是最重要的一步是镜头边界检测。镜头边界如前所述有两种类型:突然的和渐进的镜头边界。突然的突变镜头边界流;如果连续两帧间的不同差异很大,那么这两个相邻帧被认为是边界,而逐步逐步改变视频镜头边界等的影响像淡入,淡出,溶解。

让是一个视频的帧,和据说突然当且仅当镜头边界之间的区别吗和大于一个阈值。在我们的实验中我们没有考虑到逐步镜头检测的比率逐渐在任何电影视频太小,超过90%的镜头边界突变边界(2,3]。

有长串的方法第一次像素像素连续视频帧之间的差异;也就是说,和用于分割的视频6]。在这项技术,如果像素差之和大于某个阈值,则被认为是突然镜头边界。

后来,许多其他科学家在努力解决这个问题,提出了一种新的技术,像素强度直方图被用于连续帧的像素像素差分检测突然镜头边界(7,8]。这些技术都很好,除了他们敏感的对象和摄像机的运动(9]。

此外,后一种方法(10)检测镜头边界基于互信息和连续帧之间的联合熵。一个体育数据集被用来检测镜头边界。这种技术的联合熵是有用的,如果用于褪色或渐进的边界。熵是高在较长时期在淡入,因为视觉强度逐渐增加,在淡出熵低强度逐渐降低。

视频分段帧的像素方差和像素强度直方图计算中提出了在11,12]。帧索引用于快速边界,当镜头两帧之间像素的数量是由一些过度阈值。

查韦斯et al。13)提出了一个不同的技术,他们使用监督学习与支持向量机(SVM)以独立突然从渐进边界边界。在这种技术中,作者计算了不同向量同化的不同特性,包括Fourier-Mellinmoments泽尼克时刻,和颜色直方图(RGB和HSV)捕捉信息,如光照变化和快速运动。之后,这个向量用于支持向量机检测镜头边界。作者还使用照明变化检测逐渐镜头边界。

此外,(14)的学习算法提出了一种新的技术有三个主要步骤。(1)首先,框架已顺利更改删除。(2)其次,三种类型的提取特征差异。强度差异,在垂直和水平边缘直方图差异,区别HSV颜色直方图的计算边界。(3)最后,作者的渐进边界检测视频使用一种称为颞多分辨率分析的技术。

其他几个使用各种各样的方法适合不同的镜头。这样的一个例子(工作15]不同的技术用于突然镜头和渐进的镜头利用筛选和支持向量机。他们的方法还包括下面的几个主要步骤。(1)在第一步中,他们选择视频的镜头边界框架使用颜色直方图的两个连续帧之间的区别。(2)然后在第二步中,他们从帧中提取筛选功能选为边界。(3)最后,他们用不同的方法对突然的和渐进的边界通过筛选和支持向量机。中被认为是最有效的,有效的,和大量使用最先进的技术。

尽管筛选被认为是使用最广泛的特征提取技术,它仍然有一些缺点比冲浪。筛选功能的高维特征向量,即。128 - d,而冲浪只有64 - d向量。筛选慢比冲浪是由于复杂的和全面的图像。此外大et al。3)提出了一种新的镜头边界检测技术使用两种不同的特征提取方法,冲浪和熵。他们的研究包括不同的步骤,他们检测镜头边界(突然和渐进)和渐进边界有别于突然镜头边界。的步骤如下。(1)在第一步中,消失的边界检测分析的熵模式在褪色的效果。(2)褪色镜头边界的检测后,另一种镜头边界,突然镜头边界检测利用熵两个连续帧之间的区别。如果连续两帧之间的差异大于阈值 ,它被认为是突然镜头边界。(3)冲浪是用来消除假阴性的边界。

2.2。关键帧提取

大部分的研究人员使用镜头边界检测作为重要的一步从视频中提取具有代表性的关键帧。代表视频的关键帧的特定框架描述整个内容特定场景的视频。每个视频可能由一个或多个关键帧基于视频的场景或内容。

镜头边界检测是最关键的步骤之一,我们的问题寻找代表视频的关键帧,作为现场检测是完全基于这些具有代表性的关键帧。贝博et al。5)使用熵两个连续帧之间的差异寻找镜头边界。如果两个连续帧的内容和熵是不同的,他们的区别是大于指定的阈值,然后呢据说是一个边界视为一个具有代表性的关键帧。

在我们的方法,我们首先计算每个视频帧的熵,然后记录连续两帧之间的区别。大于阈值的差异被认为是具有代表性的关键帧。熵是一个随机性的统计测量,可用于描述输入图像的纹理。数学熵定义为在哪里是归一化直方图的灰度图像的像素强度。

2.3。现场检测

在第一阶段,镜头的视频分割和场景语义相似的照片合并形式。场景分类等各种类谈话,室内和室外的场景。许多重要的研究已发表相关视频分割场景使用不同类型的视频,例如,电影,电视剧(室内和室外),视频讲座,和纪录片。虽然很多工作已经报道了分割的视频场景,仍有差距,解决挑战电影视频。通常有两种类型的特征被提取的视频分割,即。、音频和视觉。我们专注于视觉特性研究。

Yeung et al。16)提出了一个技术,作者使用了场景转换图(STG)段视频。图中的节点是,基于时间关系和视觉相似性边缘。图分为子图,这些子图是基于场景的颜色相似。

拉希德et al。17在好莱坞)提出了一个有效的现场检测技术和电视节目。他们使用了运动的特性,镜头的颜色和长度。在最初的一步,他们第一次集群的镜头使用落后的一致性(BSC)。接下来,通过计算颜色相似性,他们第一次发现潜在的场景边界和在那之后他们把假阴性从潜在的场景边界的动态场景是基于运动和镜头的长度。

近期许多作者在视频场景分割,提出了研究这一问题的新技术。一些研究人员使用多通道融合技术最优分组功能使用动态规划方案[18- - - - - -20.]。他们的方法包括几个步骤,第一步是把视频分成照片然后使用集群技术集群。作者在他们的论文中(19)提出了一个称为中间融合的技术,它使用的所有信息从不同的模式。他们认为这个问题一个优化问题,通过使用动态规划(19]。作者有一些先前的研究[18),他们提出了一个技术将视频分成场景使用顺序结构。在这种技术中,他们决定一个位置仅供视频分割和检查分区的可能性。在这个技术特性的视频是由组,每组由一个距离度量。分割纯粹取决于输入特性和距离度量(18]。

此外,提出了一种不同的技术,他们利用谱聚类技术和自动选择的集群和提取每一个镜头的归一化直方图。进一步使用Bhattacharyya距离和时间距离作为距离度量。作者在这篇文章中说,聚类是不一致和相邻镜头属于不同的集群(20.]。

Sakarya et al。21]图施工的新技术用于视频场景的分割。他们建立一个图表,加权相似的时间和空间的函数。从这个时态一致性约束的主要发现和他们使用场景的边缘通过平均值和标准偏差的拍摄位置。这个过程继续,直到所有场景的视频分配。林等。22)颜色直方图的方法用于镜头边界检测,然后现场通过合并形成类似的镜头通过识别局部最小值和最大值来确定场景转换。

Baraldi et al。4]另一个方法用于拍摄和现场检测的视频使用颜色直方图和集群技术,分别。作者首先检测注射用颜色直方图;然后作者集群使用k -均值聚类技术和分层的照片创建N集群的N次。每一个镜头至少指定一个特定的集群,他们发现不同的镜头使用的距离度量公式和合并两个集群最少的距离。这一过程持续进行直到检测到,除非所有的场景和视频。

陈等人。23)提出了一种新的方法用于现场检测h的视频序列。他们定义一个场景用于储备变化因素对每一帧比特。他们的方法降低了速度误差,发现更好的与JVT-G012算法相比。的工作(24)提出了一个新颖的场景变化检测技术尤其是h / AVC的编码的视频序列,他们考虑到系统的设计和性能评估。他们进一步与动态阈值的调整和跟踪不同的描述符和系统的准确性提高了定位真正的场景视频。

3所示。提出了现场检测方法

拟议的框架包括镜头边界检测、关键帧提取、当地重点描述符从关键帧提取,特征量化,和镜头边界检测。

3.1。镜头边界检测

镜头边界检测是视频任何类型的操作的主要步骤。有数量的框架对镜头边界检测。我们已经使用该技术基于熵的镜头边界检测差异(5,26]。的熵计算每一帧,计算相邻帧之间的差异。框架被认为是一个镜头边界,特别是突然镜头边界,如果熵之间的区别吗和大于预定义的阈值(2,3,5]。它可以返回决定要么给定的框架镜头边界,然后呢计算相邻帧之间的不同或差异。的值给更好的精度较差的回忆如果差的和更好的回忆精度高如果低,如图2。在实验过程中,价值的设置实验使高f值。

3.2。关键帧和地方重点描述符提取

让所有镜头边界的集合。一个或一组关键帧(s)从每个选择。有许多可能性选择代表帧,也称为关键帧,从每一个镜头。自熵已经计算在镜头边界的过程,所以基于熵的使用关键帧选择标准3]。

对于任何给定的镜头, ,最大熵的框架是选为关键帧。实验表明,如果熵较大,内容框架的致密恰恰代表了镜头。照片是现在用关键帧和用 ,在哪里表示镜头的关键帧。

两个图像可以匹配如果他们类似的基于相似性的标准。特性的图像之间的相似度计算。筛选(27)被广泛用作各种应用程序的计算机视觉图像特征和视频处理。对于任何给定的图像,检测到要点,这些要点由筛等描述符表示。平均有2 - 3千要点单图像匹配非常昂贵和详尽,单一的图像是由2 - 3千特征向量表示。两张图片的大小相匹配 ,平均需要2秒在商品硬件。如果一个图像必须与几百或几千图片然后不实际使用筛选或任何原始描述符。量化是用来减少特征空间。

3.3。量化:BoVW模型

视觉词包模型被广泛用于量化的特性。每一个关键点描述符, ,量化为有限数量的重心从1到吗 ,在哪里表示质心的总数,即视觉单词,用和每个。让一个框架由一些地方重点描述符 ,在哪里。在BoVW模型中,一个函数被定义为映射描述符一个整数索引。对于给定的帧, ,视觉词包, ,计算。显示的次数出现在框架 ,和最后是单位规范化。大多数情况下, - - - - - -意味着或层次 - - - - - -意味着集群应用、和质心(视觉单词), ,得到了。的价值保持非常大的图像匹配和检索应用程序;的建议值是100万。量化的准确性主要取决于的价值 ;如果值是小两个不同的重点描述符将量化相同的视觉单词降低特殊性,或如果该值非常大,那么两个相似的关键点描述符也会有轻微的变形可以分配不同的视觉语言将减少的鲁棒性28]。

在视频分割的情况下,场景是不同的搜索和匹配一个图像组非常大的数据库,有严重的图像转换如照明、规模、观点,在不同的时间和场景捕获。在视频分割、图像与其他一些图片,4 - 7,滑动窗口中包含内容略有不同。滑动窗口的每个图像是一个关键帧代表拍摄;滑动窗口匹配的一个例子是图所示3。

提出了框架的价值保存价值远远小于建议在文献[2在不影响在分割精度。在实验过程中,价值的给了大约相同的精度值500000用于我们的以前的工作2]。上述实验的价值逐渐从5000增加到30000的1000倍,这是发现价值给了大约相同精度的我们的以前的工作2]。

3.4。量化:弗拉德模型

弗拉德是新兴量化框架为当地重点描述符(29日]。相反,计算视觉单词的直方图,计算剩余的差异描述符的总和与视觉单词和连接到单向量。让弗拉德量化函数(30.] 弗拉德是计算三个步骤:

线下视觉单词 ,

所有的关键点描述符从给定的帧, ,是量子化的使用(4),

弗拉德是计算给定的帧, ,其中每个是 - - - - - -维向量得到如下: 是维的特性。在筛选的情况下, 和推荐值 (29日]。如上所述,视频分割不需要非常大的价值。在实验过程中,价值的弗拉德是16使用筛选维。最后是单位规范化。向量是非常紧凑而不损失精度所示实验。

3.5。镜头边界检测

算法1用于查找现场边界(2]。表示关键帧的特征向量;特征向量是弗拉德或BoVW向量在前一节中解释。两个关键帧之间的相似性决定了不同的功能可以计算如下: 如果他们两个关键帧被视为相似。的价值平均最小和最大相似性的类似的拍摄视频的一个子集用于实验。相似性得分的平均值是广泛使用的价值。在我们的实验中相似性得分的平均值为低分割准确性,即。0.713点。

要求:


指数2
为每一个做
isSimilar假
为来做
(7)如果包含然后
(8)
(9)isSimilar真正的
(10)如果
(11)结束了
(12)如果 isSimilar 然后
(13)add ( )来
(14)
(15)指数指数
(16)如果
(17)结束了
(18)短
(19)返回

4所示。实验和结果

使用电影和戏剧的视频镜头边界检测;电影和电视剧是在表的列表1。f值是作为镜头边界检测的性能指标。没有基准数据集。两种策略被用来获得真实,真实甲方和第三方。甲方真实是由作者和第三方收集真实照片的专家有足够的知识和现场边界(2,3]。真实让hinased、第三方的方法是用于我们的实验(3,5,26]。


电影的名字	帧/秒	持续时间hh: mm: ss	f值
电影的名字	帧/秒	持续时间hh: mm: ss	场景边界由[3]	场景边界由BoVW [2]	场景边界由[25]	弗拉德



《粉红豹》(2006)	24	01:32:01	0.91	0.86	0.79	0.88
成人(2010)	25	01:40:55	0.89	0.85	0.77	0.82
《敢死队》(2010)	24	01:43:29	0.85	0.82	0.72	0.81



我梦想Jeannie-My野生打量着主人	25	00:24:15	0.90	0.86	0.83	0.88
我梦想Jeannie-My主人,富人大亨	25	00:24:18	0.89	0.87	0.81	0.84
我梦想Jeannie-My主人,医生	25	00:24:43	0.87	0.85	0.75	0.88
我梦想Jeannie-The移动手指	25	00:24:32	0.85	0.83	0.79	0.81
生活大爆炸第一季第一集	25	00:22:33	0.87	0.86	0.79	0.84
大爆炸理论(1)季第2集	25	00:23:00	0.86	0.81	0.85	0.85
生活大爆炸第一季第三集	25	00:23:00	0.87	0.84	0.81	0.81
大爆炸理论(1)季第4集	25	00:24:00	0.88	0.87	0.83	0.87

提出了系统中可以看到表的准确性1。我们的数据集有两个不同的组和完全不同的视频。一组由电影电影完全不同的环境和挑战影响复杂的运动场景。另一方面,第二组数据包括室内电视剧相比,很容易段电影的电影,因为它们简单场景没有挑战性的效果,这就是为什么然后滑动窗口长度是不同的两组数据集。的敏感性可以看到图吗4(2]。在电影视频,场面是长和镜头短。短短几秒,有时有超过20个镜头由于不同的效果和行动。的价值相比略高戏剧类型的视频。不过,单值也可以用于所有类型。

后的值弗拉德和BoVW短相比,提出实验推荐值为相似度计算,提高效率的相似性计算(6至少是)或其他任何距离 ,在哪里表示特征的维数。相似度的计算是更快的价值是短,如图5。可以看出,弗拉德比BoVW更快,因为弗拉德BoVW相比有更短的维度。的推荐值BoVW是1000000,因为在前一节中所讨论的,而在我们实验的价值是25000。

5。结论

视频分割是视频索引和搜索的一个主要步骤。镜头边界检测的视频分为小单位。这些小单位不给视频故事或主题的有意义的见解。然而,分组相似的照片给更好的洞察力的视频和这个分组可视为视频场景,和分组相似的镜头称为场景。

在本文中,我们提出框架,它使用最先进的搜索技术,如BoVW和弗拉德,这是广泛应用于图像和视频检索,对镜头边界检测。图像或视频帧,为BoVW和弗拉德非常高维的特征向量。我们实验表明,在镜头边界检测领域,竞争的精度可以通过保持BoVW和弗拉德的尺寸很小。BoVW推荐的尺寸是100万;在我们的实验中,我们只是调整到25000岁。弗拉德的建议尺寸是32768;在我们的实验调到2048。我们利用滑动窗口的镜头边界检测。在非常小的滑动窗口,视频拍摄的内容不会改变,这有助于减少维度代表镜头的BoVW和弗拉德。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

我们感谢Shin 'ichi Satoh从信息学研究所,日本,Nitin Afzulpurkar从亚洲理工学院,泰国,和Chadaporn Keatmanee Thai-Nichi理工学院、泰国、极大地协助这项研究的专业知识。

引用

勒费弗和n文森特,“高效、健壮的镜头变化检测,”实时图像处理》杂志上,卷2,不。1,23-34,2007页。视图:出版商的网站|谷歌学术搜索
佐藤晴贝博·j·s . n . Afzulpurkar, c . Keatmanee”视觉词袋模型视频分割成镜头,”学报》第五届国际会议上互联网多媒体计算和服务ACM, 194,页191 - 2013。视图:出版商的网站|谷歌学术搜索
佐藤晴贝博j . n . Afzulpurkar和美国“视频分割的框架使用全球和地方特色,“模式识别与人工智能》国际期刊上,27卷,不。5、文章ID 1355007, 2013。视图:出版商的网站|谷歌学术搜索
l . Baraldi c基粒,r . Cucchiara”拍摄和现场检测通过分层聚类的重用广播视频”国际会议程序映像和模式的计算机分析施普林格,页801 - 811年,2015年。视图:出版商的网站|谷歌学术搜索|MathSciNet
贝博j . n . Afzulpurkar和m . Bakhtyar”视频分割成镜头使用熵和冲浪,”学报2011年第七届国际会议上新兴技术(ICET 11),页1 - 6,IEEE 2011。视图:出版商的网站|谷歌学术搜索
t .菊川刚和美国Kawafuchi事务研究所的电子自动汇总编辑系统的发展视听资源,”信息和通信工程师,卷75,不。2、398 - 402年,1992页。视图:谷歌学术搜索
答:Nagasaka y .田中,可视化数据库系统II,1992年。
a . h . Zhang Kankanhalli, s . w . Smoliar”全动态视频的自动分区”,多媒体系统,1卷,不。1,28,1993页。视图:出版商的网站|谷歌学术搜索
即Koprinska和美国Carrato时间视频分割:一项调查,”信号处理:图像通信,16卷,不。5,477 - 500年,2001页。视图:出版商的网站|谷歌学术搜索
z Cernekova、皮塔饼,和c . Nikou”信息基于理论的镜头/消退检测和视频摘要,“IEEE电路和系统视频技术,16卷,不。1,第91 - 82页,2006。视图:出版商的网站|谷歌学术搜索
t .菊川刚和美国Kawafuchi自动汇总编辑系统的发展视听资源,”J75-A交易电子和信息,第212 - 204页,1992年。视图:谷歌学术搜索
a . Nagasaka“自动视频索引和完整视频搜索对象表象,”联合会第二次工作会议的程序可视化的数据库系统,1992年。视图:谷歌学术搜索
g·c·查韦斯,f . Precioso m .绳s Philipp-Foliguet和a . d . a . Araujo”在trecvid 2006镜头边界检测,”学报TREC视频检索Eval15卷,2006。视图:谷歌学术搜索
x, o . Yuanxin、l .欢和x张“基于支持向量机的快速镜头边界检测方法,”学报2008年国会图像和信号处理,卷2,页445 - 449,IEEE 2008。视图:出版商的网站|谷歌学术搜索
Shi y, y . j . Li丁和w·李,“分而治之计划镜头边界检测筛选的基础上,“国际期刊的数字内容技术及其应用,4卷,不。3、202 - 214年,2010页。视图:出版商的网站|谷歌学术搜索
m . Yeung B.-L。唷,b .刘”的视频分割聚类和图像分析,“计算机视觉和图像理解,卷71,不。1,第109 - 94页,1998。视图:出版商的网站|谷歌学术搜索
z拉希德和m .沙”在好莱坞电影和电视节目现场检测2003年IEEE计算机学会学报计算机视觉与模式识别会议,卷2,页343 - 348,IEEE 2003。视图:出版商的网站|谷歌学术搜索
d·罗特曼·d·波拉特,g . Ashour“健壮和高效的视频场景检测使用最优顺序分组,”诉讼18 IEEE国际研讨会的多媒体,ISM的16IEEE,页275 - 280年,2016年。视图:谷歌学术搜索
d·罗特曼·d·波拉特,g . Ashour”强大的视频场景检测使用多通道融合的最优分组功能,”学报19 IEEE国际研讨会在多媒体信号处理,MMSP 17,2017年,页1 - 6。视图:谷歌学术搜索
l . Baraldi c基粒,r . Cucchiara”分析和重用的视频与自动场景检测教育数字图书馆,”《意大利研究数字图书馆会议施普林格,页155 - 164年,2015年。视图:出版商的网站|谷歌学术搜索
Sakarya和z Telatar,“视频场景检测使用主要集”学报2008年15日IEEE国际会议上图像处理- ICIP 08年IEEE,页73 - 76年,2008年。视图:出版商的网站|谷歌学术搜索
t·林,h·张,徐瑞秋释,“视频场景提取武力竞争,”《IEEE国际多媒体会议和博览会,(ICME ' 01),第756 - 753页,2001年。视图:出版商的网站|谷歌学术搜索
x陈和f·卢”,自适应速率控制算法的h / AVC考虑场景的变化,“数学问题在工程373689卷,2013篇文章ID, 6页,2013。视图:谷歌学术搜索
g . Rascioni s Spinsante大肠特使,”一个优化的动态场景变化检测算法对h / AVC视频序列,编码”国际期刊的数字多媒体广播ID 864123条,卷。2010年,9页,2010。视图:谷歌学术搜索
z拉希德和m .沙”在好莱坞电影和电视节目现场检测2003年IEEE计算机学会学报计算机视觉与模式识别会议,2003年。视图:谷歌学术搜索
贝博j . n . Afzulpurkar m . n . Dailey和m . Bakhtyar”镜头边界检测使用熵和局部描述符,从视频”学报2011年17国际会议对数字信号处理(DSP 11),页1 - 6,IEEE 2011。视图:出版商的网站|谷歌学术搜索
d·g·劳”独特的形象特征尺度不变的要点,国际计算机视觉杂志》上,60卷,不。2、91 - 110年,2004页。视图:出版商的网站|谷歌学术搜索
贝博j . m . n . Dailey n . Afzulpurkar佐藤晴s和m . Bakhtyar“大o:二值化的梯度方向直方图,”图像和视觉计算,32卷,不。11日,第953 - 940页,2014年。视图:出版商的网站|谷歌学术搜索
h . Jegou m . Douze c·施密德和p·佩雷斯,“局部描述符聚合成一个紧凑的形象代表,”2010年IEEE计算机学会学报计算机视觉与模式识别会议(CVPR 10),第3311 - 3304页,2010年。视图:出版商的网站|谷歌学术搜索
j . Delhumeau林志信。Gosselin、h . Jegou和p·佩雷斯,“回顾弗拉德形象代表,”多媒体21 ACM国际会议的程序,第656 - 653页,2013年。视图:谷歌学术搜索