视频分割成镜头是视频索引和搜索的第一步。视频照片大多是非常小的时间和不给有意义的视觉内容的见解。然而,分组基于类似的照片视频场景的视觉内容可以让我们更好地理解;分组相似的照片被称为现场或视频分割成镜头边界检测。在本文中,我们提出一个模型对视频分割成视觉场景使用视觉词包(BoVW)模型。最初,视频分成后的照片由一组关键帧。关键帧进一步由BoVW特征向量相比很短而紧凑的经典BoVW模型实现。两种变体BoVW模型的使用:gydF4y2Ba
视频数据库的规模呈几何倍数增长,由于廉价和快速互联网的出现。视频的索引和检索变得更加困难。用户的期望很高由于advanecment技术。巨大的视频门户网站,如YouTube, Dailymotion网站,和谷歌,大量投资效率和智能索引和检索,以便用户门户网站仍具吸引力和上瘾。gydF4y2Ba
为索引和搜索过程的视频,第一个任务是将视频分割成镜头和提取代表帧,称为关键帧,从每一个镜头。这些关键帧后用于搜索、高效的索引,场景生成和视频分类。选择关键帧的主要思想是降低计算成本为视频帧的集合存储在时间顺序;也就是说,everyv我deouploaded on Youtube is 30 frames per second or higher. The more the frames per second, the better the visual effect. Despite being very sophisticated hardware, all the frames cannot be processed in real time applications such as event detection from CCTV streaming. To process one frame for the detection of possible objects, it takes 0.5 to 1.5 seconds to identify objects in the frame (cascade object detector is used to identify possible text boards in the frame using Matlab).
在视频场景分割,视频分为镜头和类似的照片组合在一起的场景。照片是不间断的,不断的视频帧序列没有改变主题和相机gydF4y2Ba
手动分割的视频网站和dvd非常耗时,并且在处理大型数据集时并不可行。最近,自动视频分割成镜头和场景已经得到行业和研究人员的广泛吸引力gydF4y2Ba
在拟议的方法,视频分割成突然镜头边界,进一步分组的基础上构造的相似之处。拟议的方法是受BoVW模型场景检测(gydF4y2Ba
摘要提出了框架的流程图。gydF4y2Ba
剩下的纸是组织如下。部分gydF4y2Ba
在本节中,一个简短的文献回顾和最先进的方法提出了视频分割的主要步骤,包括镜头边界检测、关键帧提取和镜头边界检测。gydF4y2Ba
在视频索引和搜索的问题,首先,也是最重要的一步是镜头边界检测。镜头边界如前所述有两种类型:突然的和渐进的镜头边界。突然的突变镜头边界流;如果连续两帧间的不同差异很大,那么这两个相邻帧被认为是边界,而逐步逐步改变视频镜头边界等的影响像淡入,淡出,溶解。gydF4y2Ba
让gydF4y2Ba
有长串的方法第一次像素像素连续视频帧之间的差异;也就是说,gydF4y2Ba
后来,许多其他科学家在努力解决这个问题,提出了一种新的技术,像素强度直方图被用于连续帧的像素像素差分检测突然镜头边界(gydF4y2Ba
此外,后一种方法(gydF4y2Ba
视频分段帧的像素方差和像素强度直方图计算中提出了在gydF4y2Ba
查韦斯et al。gydF4y2Ba
此外,(gydF4y2Ba
首先,框架已顺利更改删除。gydF4y2Ba
其次,三种类型的提取特征差异。强度差异,在垂直和水平边缘直方图差异,区别HSV颜色直方图的计算边界。gydF4y2Ba
最后,作者的渐进边界检测视频使用一种称为颞多分辨率分析的技术。gydF4y2Ba
其他几个使用各种各样的方法适合不同的镜头。这样的一个例子(工作gydF4y2Ba
在第一步中,他们选择视频的镜头边界框架使用颜色直方图的两个连续帧之间的区别。gydF4y2Ba
然后在第二步中,他们从帧中提取筛选功能选为边界。gydF4y2Ba
最后,他们用不同的方法对突然的和渐进的边界通过筛选和支持向量机。中被认为是最有效的,有效的,和大量使用最先进的技术。gydF4y2Ba
尽管筛选被认为是使用最广泛的特征提取技术,它仍然有一些缺点比冲浪。筛选功能的高维特征向量,即。128 - d,而冲浪只有64 - d向量。筛选慢比冲浪是由于复杂的和全面的图像。此外大et al。gydF4y2Ba
在第一步中,消失的边界检测分析的熵模式在褪色的效果。gydF4y2Ba
褪色镜头边界的检测后,另一种镜头边界,突然镜头边界检测利用熵两个连续帧之间的区别。如果连续两帧之间的差异大于阈值gydF4y2Ba
冲浪是用来消除假阴性的边界。gydF4y2Ba
大部分的研究人员使用镜头边界检测作为重要的一步从视频中提取具有代表性的关键帧。代表视频的关键帧的特定框架描述整个内容特定场景的视频。每个视频可能由一个或多个关键帧基于视频的场景或内容。gydF4y2Ba
镜头边界检测是最关键的步骤之一,我们的问题寻找代表视频的关键帧,作为现场检测是完全基于这些具有代表性的关键帧。贝博et al。gydF4y2Ba
在我们的方法,我们首先计算每个视频帧的熵,然后记录连续两帧之间的区别。大于阈值的差异gydF4y2Ba
在第一阶段,镜头的视频分割和场景语义相似的照片合并形式。场景分类等各种类谈话,室内和室外的场景。许多重要的研究已发表相关视频分割场景使用不同类型的视频,例如,电影,电视剧(室内和室外),视频讲座,和纪录片。虽然很多工作已经报道了分割的视频场景,仍有差距,解决挑战电影视频。通常有两种类型的特征被提取的视频分割,即。、音频和视觉。我们专注于视觉特性研究。gydF4y2Ba
Yeung et al。gydF4y2Ba
拉希德et al。gydF4y2Ba
近期许多作者在视频场景分割,提出了研究这一问题的新技术。一些研究人员使用多通道融合技术最优分组功能使用动态规划方案[gydF4y2Ba
此外,提出了一种不同的技术,他们利用谱聚类技术和自动选择的集群和提取每一个镜头的归一化直方图。进一步使用Bhattacharyya距离和时间距离作为距离度量。作者在这篇文章中说,聚类是不一致和相邻镜头属于不同的集群(gydF4y2Ba
Sakarya et al。gydF4y2Ba
Baraldi et al。gydF4y2Ba
陈等人。gydF4y2Ba
拟议的框架包括镜头边界检测、关键帧提取、当地重点描述符从关键帧提取,特征量化,和镜头边界检测。gydF4y2Ba
镜头边界检测是视频任何类型的操作的主要步骤。有数量的框架对镜头边界检测。我们已经使用该技术基于熵的镜头边界检测差异(gydF4y2Ba
的敏感性gydF4y2Ba
让gydF4y2Ba
对于任何给定的镜头,gydF4y2Ba
两个图像可以匹配如果他们类似的基于相似性的标准。特性的图像之间的相似度计算。筛选(gydF4y2Ba
视觉词包模型被广泛用于量化的特性。每一个关键点描述符,gydF4y2Ba
在视频分割的情况下,场景是不同的搜索和匹配一个图像组非常大的数据库,有严重的图像转换如照明、规模、观点,在不同的时间和场景捕获。在视频分割、图像与其他一些图片,4 - 7,滑动窗口中包含内容略有不同。滑动窗口的每个图像是一个关键帧代表拍摄;滑动窗口匹配的一个例子是图所示gydF4y2Ba
的例子,关键帧匹配的滑动窗口长度gydF4y2Ba
提出了框架的价值gydF4y2Ba
弗拉德是新兴量化框架为当地重点描述符(gydF4y2Ba
算法gydF4y2Ba
(7)gydF4y2Ba
(8)gydF4y2Ba
(9)gydF4y2Ba
(10)gydF4y2Ba
(11)gydF4y2Ba
(12)gydF4y2Ba
(13)gydF4y2Ba
(14)gydF4y2Ba
(15)gydF4y2Ba
(16)gydF4y2Ba
(17)gydF4y2Ba
(18)gydF4y2Ba
(19)gydF4y2Ba
使用电影和戏剧的视频镜头边界检测;电影和电视剧是在表的列表gydF4y2Ba
BoVW和弗拉德在电影和戏剧的视频。gydF4y2Ba
| 电影的名字gydF4y2Ba | 帧/秒gydF4y2Ba | 持续时间hh: mm: ssgydF4y2Ba | f值gydF4y2Ba | |||
|---|---|---|---|---|---|---|
| 场景边界由[gydF4y2Ba |
场景边界由BoVW [gydF4y2Ba |
场景边界由[gydF4y2Ba |
弗拉德gydF4y2Ba | |||
|
|
||||||
|
|
||||||
| 《粉红豹》(2006)gydF4y2Ba | 24gydF4y2Ba | 01:32:01gydF4y2Ba | 0.91gydF4y2Ba | 0.86gydF4y2Ba | 0.79gydF4y2Ba | 0.88gydF4y2Ba |
| 成人(2010)gydF4y2Ba | 25gydF4y2Ba | 01:40:55gydF4y2Ba | 0.89gydF4y2Ba | 0.85gydF4y2Ba | 0.77gydF4y2Ba | 0.82gydF4y2Ba |
| 《敢死队》(2010)gydF4y2Ba | 24gydF4y2Ba | 01:43:29gydF4y2Ba | 0.85gydF4y2Ba | 0.82gydF4y2Ba | 0.72gydF4y2Ba | 0.81gydF4y2Ba |
|
|
||||||
|
|
||||||
|
|
||||||
| 我梦想Jeannie-My野生打量着主人gydF4y2Ba | 25gydF4y2Ba | 00:24:15gydF4y2Ba | 0.90gydF4y2Ba | 0.86gydF4y2Ba | 0.83gydF4y2Ba | 0.88gydF4y2Ba |
| 我梦想Jeannie-My主人,富人大亨gydF4y2Ba | 25gydF4y2Ba | 00:24:18gydF4y2Ba | 0.89gydF4y2Ba | 0.87gydF4y2Ba | 0.81gydF4y2Ba | 0.84gydF4y2Ba |
| 我梦想Jeannie-My主人,医生gydF4y2Ba | 25gydF4y2Ba | 00:24:43gydF4y2Ba | 0.87gydF4y2Ba | 0.85gydF4y2Ba | 0.75gydF4y2Ba | 0.88gydF4y2Ba |
| 我梦想Jeannie-The移动手指gydF4y2Ba | 25gydF4y2Ba | 00:24:32gydF4y2Ba | 0.85gydF4y2Ba | 0.83gydF4y2Ba | 0.79gydF4y2Ba | 0.81gydF4y2Ba |
| 生活大爆炸第一季第一集gydF4y2Ba | 25gydF4y2Ba | 00:22:33gydF4y2Ba | 0.87gydF4y2Ba | 0.86gydF4y2Ba | 0.79gydF4y2Ba | 0.84gydF4y2Ba |
| 大爆炸理论(1)季第2集gydF4y2Ba | 25gydF4y2Ba | 00:23:00gydF4y2Ba | 0.86gydF4y2Ba | 0.81gydF4y2Ba | 0.85gydF4y2Ba | 0.85gydF4y2Ba |
| 生活大爆炸第一季第三集gydF4y2Ba | 25gydF4y2Ba | 00:23:00gydF4y2Ba | 0.87gydF4y2Ba | 0.84gydF4y2Ba | 0.81gydF4y2Ba | 0.81gydF4y2Ba |
| 大爆炸理论(1)季第4集gydF4y2Ba | 25gydF4y2Ba | 00:24:00gydF4y2Ba | 0.88gydF4y2Ba | 0.87gydF4y2Ba | 0.83gydF4y2Ba | 0.87gydF4y2Ba |
提出了系统中可以看到表的准确性gydF4y2Ba
的敏感性gydF4y2Ba
后的值gydF4y2Ba
时间的查询图像匹配的图像数据库。弗拉德总是少尺寸相比BoVW比BoVW快使弗拉德。gydF4y2Ba
视频分割是视频索引和搜索的一个主要步骤。镜头边界检测的视频分为小单位。这些小单位不给视频故事或主题的有意义的见解。然而,分组相似的照片给更好的洞察力的视频和这个分组可视为视频场景,和分组相似的镜头称为场景。gydF4y2Ba
在本文中,我们提出框架,它使用最先进的搜索技术,如BoVW和弗拉德,这是广泛应用于图像和视频检索,对镜头边界检测。图像或视频帧,为BoVW和弗拉德非常高维的特征向量。我们实验表明,在镜头边界检测领域,竞争的精度可以通过保持BoVW和弗拉德的尺寸很小。BoVW推荐的尺寸是100万;在我们的实验中,我们只是调整到25000岁。弗拉德的建议尺寸是32768;在我们的实验调到2048。我们利用滑动窗口的镜头边界检测。在非常小的滑动窗口,视频拍摄的内容不会改变,这有助于减少维度代表镜头的BoVW和弗拉德。gydF4y2Ba
使用的数据来支持本研究的发现可以从相应的作者。gydF4y2Ba
作者宣称没有利益冲突。gydF4y2Ba
我们感谢Shin 'ichi Satoh从信息学研究所,日本,Nitin Afzulpurkar从亚洲理工学院,泰国,和Chadaporn Keatmanee Thai-Nichi理工学院、泰国、极大地协助这项研究的专业知识。gydF4y2Ba