文摘

个性化的电影总结当前时代的需求是由于电影生产的指数增长。电影总结的工作方法无法满足用户的需求,由于电影的主观性质数据。因此,在本文中,我们提出了一个基于用户偏好的电影总结计划。首先,我们把电影分成镜头使用小说entropy-based镜头分割机制。接下来,时间计算镜头的特点,导致高度突出检测到照片中人物的脸。结果照片然后向前传播到我们的面部表情识别训练深CNN模型(带)来分析人物的情绪状态。最后的总结是生成基于用户首选从七情绪情感的时刻,即。、害怕、生气、厌恶、快乐,中性的,悲伤和惊奇。主观评价在五好莱坞电影证明了我们提出的方案的有效性方面的用户满意度。此外,客观评价验证了该控制方案的优越性在最先进的电影总结方法。

1。介绍

视频数据成倍增加的在互联网上和个人存储设备包括社交网络、监控、和电影由于进步和方便地访问数据捕获技术。电影数据特别成为观众最有趣的来源之一。然而,在巨大的收集和浏览电影寻找所需的场景在一个完整的电影是一个乏味而耗时的任务。电影总结(MS)技术试图解决这个问题通过产生一个简短的视频序列的电影,其中包含最重要的事件或场景。因此,观众可能有一个想法关于语境和语义的电影只看重要的场景。

近年来,许多女士技术被研究人员提出,可以大致分为自动技术[女士1- - - - - -10)和基于用户偏好的MS技术(11- - - - - -15]。在自动技术,女士没有直接来自用户的偏好来生成一个摘要。这些技术依赖于多个脚本等线索,字幕,和电影结构结合视觉和听觉功能。例如,非政府组织等。1)利用concept-expansion树构建一个关系图描述的语义概念纪录片视频。你等。2]提出了总结方法,融合四种感知模型根据不同线索包括运动、对比、统计节奏,和特殊场景使用线性组合生成摘要。相比之下,翁et al。3]分析了电影从电影的人物之间的关系的角度而不是视听功能。他们建造了一个role-network然后确定了主要的角色。role-network用于电影划分为几个子事例。同样,Salamin et al。4)使用音频分割算法与最大后验概率(MAP)的方法来确定主要人物在电影中,可以用于索引和检索特定人物的照片以及总结的一代。唱歌和徐5)面对集群主要角色和使用,基于他们的外表,他们生成的电影总结里面唯一的主角。Evangelopoulos et al。6)提出了一种基于多通道特点总结为电影计划。他们从三种不同的模式中提取特征和集成多通道凸起的曲线。他们使用时空特点的模型,一个调幅-调频语音模型,和词性(POS)标记提取特征从视觉,听觉,和文本模块,分别。Aparicio et al。8)总结了不同类型的电影和纪录片分析六种不同的电影脚本和字幕文本摘要算法。贡献他们的工作的关键是选择一个方法最适合六个技术电影或纪录片中一个特定的风格。另一个基于文本的电影总结计划提出的Hesham et al。9)生成了一个简短的摘要拖车使用字幕的电影。挂做et al。10基于发展中角色网络]总结电影。人物之间的关系是基于他们的外表,用于段长篇电影场景。最后,电影的故事情节是生成摘要通过测量社交网络中的每个字符的社会力量。

由于不同性质的电影和用户的偏好之间的矛盾,使用自动MS技术生成的总结为一个用户可能是恰当的,但它可能是不适当的。女士这样的计划没有力量来生成一个摘要,可以满足用户的不同的主观要求。因此,用户偏爱的投篮选择电影总结仍然是一个具有挑战性的问题,以及解决的基于用户偏好的技术。例如,李et al。11]表明,子事例从电影中可以发现使用短期和长期视听时间特性分析。生成摘要的长度由用户输入控制。同样,Ellouze et al。12)视听功能用于个性化的电影总结,用户可以选择各种镜头的内容和类型以及总结的持续时间。然而,用户首选的比较内容和电影内容在功能级别而不是语义级别执行。彭et al。13)利用观众的情绪和注意力来生成摘要根据用户的情绪通过分析他的面部表情,眼球运动,眨眼,和头部运动同时观看视频。电影总结方案基于用户生成的数据提出了太阳et al。15]。他们使用实时评论给观众看电影的时间戳。评论的内容显示的场景的概念,而评论的数量表示兴奋的观众。结束的女士文学、电影的丰富来源,提供复杂的想法通过视听数据的语义。因此,细分电影基于语义特征赋予人类情感女士的最佳基线水平的语义层次信息,可以从视频中提取内容。带各种应用程序在不同的领域如医疗(21),内容推荐(22],监测[23)、安全(24),和机器人(25]。同样,在电影数据,情感的角色是突出的元素,直接抓住观众的注意力,可以用来生成一个有意义的总结。

最近,很多研究已经完成对人类情感识别使用面部表情分析。全面调查带提出了Corneanu et al。26为RGB), 3 d,热,和多通道方案。传统的面部特征提取方案如伽柏小波变换(27),光学流(28),局部二进制模式(29日),和基于模型的方法30.)有许多局限性像高计算和低性能多样化的环境中,例如、光线变化、构成和杂乱的背景。此外,这些计划限制额面孔和统一的皮肤颜色。最近,深度学习技术(31日]显示巨大的结果在计算机视觉领域与传统方法相比。例如,金等。32)提出了一种分层深cnn委员会通过结合多个模型训练的决定在公共拿来数据库。一个特性redundancy-reduced (FRR-CNN)谢等人提出的。33]拿来生成更少的冗余特性和紧凑的表示图像的。Uddin et al。34]从深度视频数据中提取局部定向位置模式和美联储成带的深度信念网(DBN)。从CNN方法的启发,在这篇文章中,我们提出了一个基于用户偏好的女士计划,基于拿来使用CNN模型确定人物的情绪状态。用户应该选择什么样的情绪状态,他更喜欢参与最后的总结。这项工作的主要贡献总结如下:(1)情感的人物在电影中突出的元素,直接得到观众的关注。因此,用户总是表现出兴趣某种情感电影中的场景。在本文中,我们提出一个框架生成总结基于用户偏爱的情感通过输入查询在总结生成场景。(2)电影的层次结构帮助生成一个合理的总结中,镜头分割扮演重要的角色。因此,我们提出一个entropy-based镜头分割机制,这段镜头基于视觉信息。这种策略帮助到信息和noninformative分类。(3)深度学习更好的学习方法需要大数据的参数,而现有拿来CNN在这样庞大的数据模型不是训练。因此,对于精确的带我们首先训练训练抓VGG脸上的模型数据集的结构学习的脸,然后我们调整这个模型拿来KEDF数据集。我们的策略让突出的结果在最先进的技术。

剩下的论文安排如下:部分2详细讨论了拟议的电影总结方法。给出了实验结果和讨论部分3节中,紧随其后的是结论和未来的工作4

2。提出的方法

我们建议的方案四个折叠女士:(1)entropy-based镜头分割,(2)特点提取和人脸检测、基于深度CNN模型(3)带,和(4)汇总生成。所有的步骤都在随后的章节中详细讨论。该系统可以生成摘要基于用户偏好对任何类型的电影。给出了该方案的总体框架如图1

2.1。Entropy-Based镜头分割

电影也称为结构化视频因为他们包括场景与镜头的层次结构。一枪是一个不间断的电影,由顺序与静态帧或连续的镜头运动,而一个场景由一个或多个的同一个地方或活动(从不同角度拍摄1]。这个结构在初始阶段协助女士通过分段长篇电影镜头和场景。镜头分割是一个关键步骤的总结技术,尤其是在处理娱乐视频。最近,许多领域特定镜头分割技术提出了基于颜色直方图等(15),深特性基础(35),基于人的外表(31日),和备用基于编码的方法36]。在本文中,我们提出了entropy-based镜头分割技术,分析帧序列和选择框架与急剧变化的视觉内容。熵 单帧可以计算使用(1)和(2)。 在此, 是像素的概率, , 是邻居像素的像素的数量吗 , 是像素的数量相同的强度。熵的框架表示的信息量和语义的视觉内容。因此,它有助于分类信息和noninformative。此外,生成的摘要代表的照片只有排除没有或少的照片信息。

2.2。特点提取,人脸检测

一般来说,图像的特点是用于提取前景的信息,也可以用来预测信息的数量(37,38]。选择最有益的镜头,我们计算的平均得分显著一枪使用特点优化技术(39]。首先,卓越的地图获得一帧和非零像素的总和除以图像像素的总数。其次,一枪的平均得分显著计算单个帧的总额除以总数量的帧。最后,凸起的平均得分是与一个预定义的阈值选择最突出的照片。通过这种方式,所有的非突或noninformative镜头被丢弃,突出镜头成为生成摘要的一部分。突出镜头进一步分析检测字符的脸。人脸检测,多任务级联网络(40)是使用大小的附加约束。一脸的大小限制是由于规模和姿势的变化发现适用于去除不必要的脸。因此,我们只选择那些面孔,15%的外框尺寸,因为主角是拍摄的专注和关闭。同时,为小型(带也并非十全十美41]。图2代表了一些示例电影帧检测到人脸和相应的显著图。

2.3。面部表情识别使用转移学习

训练一个深CNN模型需要大量的数据从抓学习它的参数。然而,学习转移成为一个关键概念深度学习,因为它有效地处理问题在小数据集(42,43]。最近,CNN对图像分类被人为错误,当训练数据集与数以百万计的数据样本。然而,一些任务,比如带仍面临着缺乏数据。因此,为了解决这个问题,我们使用转让的概念学习使用ResNet [20.CNN带模型。包括ResNet-34 ResNet CNN模型有很多版本,ResNet-50 ResNet - 101, ResNet - 152层网络。我们利用ResNet-50平衡系统的准确性和时间复杂度。最初,它是训练有素的224×224的图像ImageNet [44)的数据集,其中包含数以百万计的样本为1000类别。我们没有取得好的结果在使用的权重pretrained ResNet-50模型微调在KDEF拿来数据集(45]。原因是,我们只有面对图像代表人类的情感很少KDEF数据集和脸的变化模型,pretrained大类数据,不是有效的。为此,我们引入了两个步骤学习过程包括训练的第一步从抓脸的识别和CNN模型二是转移拿来学习相同的模型。脸识别,我们使用大规模VGG脸(46]数据集训练ResNet-50面对数据的权重。VGG ResNet主要受结构(47)模式,这两种模型对卷积特性提取使用小型内核。小型过滤器帮助学习各种微小的数据中的模式,这是很常见的在带48]。ResNet利用卷积层相互堆叠的多个连续分支和执行抽样2步。网络是结束,全球平均池层和一个完全连接层,展示类的数量分类。给出加权50层的架构图3。讨论了实现细节转移学习实验部分。

2.4。总结的一代

高凸起和脸的镜头向前传播到提出了带训练CNN模型。在我们的实验中,我们观察到带从单帧的镜头不是有效地代表整个拍摄的情绪状态。也有可能一枪可能包含多个面孔。因此,最大的发现情感被选中作为整个拍摄的情绪状态。最后,总结是根据用户的查询生成指定从预定义的七类的情绪情感状态。总结的一代可视化图4

3所示。实验评价

在本节中,我们已经讨论了实验评价该女士计划。我们进行了两组实验:(1)KDEF数据集训练模型的评价及其与其他模型进行比较和(2)主观评价五个不同类型的好莱坞电影。实验使用深度学习框架执行被称为咖啡(49]在Ubuntu16.04安装操作系统和装备NVIDIA泰坦X GPU在12 GB专用内存运行的硬件英特尔™Core i5处理器与64 GB RAM。

3.1。数据集

我们使用两个数据集:VGG脸(46从头开始训练ResNet CNN模型和KDEF数据集(45转帐)学习。VGG面临数据集包含2.6米2.6 K的图像世界各地的名人。KDEF数据集包含4900 70主题包括35岁男性和35岁女性的形象。这个数据集包含7类,即。,afraid, angry, disgust, happy, neutral, sad, and surprise. For each class, image samples are taken from five different angles in two sessions. This dataset best fits for our problem because, in movies, characters’ faces are also found in a variety of poses. Figure5代表了一些样品图片KDEF每个类的数据集。主观评价,五好莱坞电影。测试影片的详细描述在表1

3.2。面部表情识别的客观评价

VGG脸上ResNet CNN模型是第一个训练(46]数据集有2597类。我们缩放图像128×128的脸区域和每个像素的图像中减去均值图像规格化强度。VGG脸上数据集是过滤掉和一些图片被丢弃在培训。我们的实验中使用的数据集包含042万年培训和014万年验证图像。原ResNet-50训练在224×224图像;因此,如果我们使用pretrained ResNet-50,那么它的内核大小、步幅和填充信息不适合128×128图像分类问题。在我们的方法中,权重的ResNet 128×128的脸图像的初始化。详细的描述中可以看到原始ResNet文章(20.]。模型训练50时代64批大小和初始化学习速率为0.01,这是减少每十世之后的学习速率比10倍。学习速度下降背后的原因是防止模型过度拟合问题的培训。VGG脸上我们实现精确的结果数据集使用ResNet-50层网络,在50时代后的精度达到96.82%而损失降低了7×10−5。结果不同的CNN模型调整KDEF数据表2。很明显从表2所有pretrained模型取得了非常少的准确性在调整原来的重量。低精度的原因是,这些模型在大类数据集训练之前,我们需要一个模型的参数训练数据。因此,我们首先训练ResNet-50使用大规模VGG脸数据集学习结构,然后调整带KDEF数据集训练模型。

与人脸识别数据集训练ResNet之后,我们声称,它的重量现在可以面对特性和其结构有效地学习。因此,我们使用的参数训练模型转移学习使用KDEF拿来的数据集。微调的过程中,所有图片KDEF数据集的大小为128×128的脸区域和每个像素的图像中减去从意味着图像规格化强度。在转移的学习过程中,我们初始化的学习速率0.001和减少每次10时代学习速率的因素比10。模型调整为30时代,实现92.08%的验证精度损失为0.192在最后的时期。混淆矩阵和整体精度的测试集KDEF数据集给出了表3。所有类别不相互混淆,即。,afraid, angry, and sad classes achieved per-class accuracy under 90% while the rest of all classes have accuracy above 90%. The results for this dataset are very convincing, making our trained model capable of FER in the heterogamous movie data. The KDEF dataset has various categories of face poses and viewpoint variations, which help to easily analyze the character’s facial expressions in the movie.

3.3。主观评价生成的摘要

电影的一个具有挑战性的步骤总结评估生成的摘要是由于缺乏标准。一般来说,有两种类型的评估中使用视频总结文献可以分为内在和外在的技术。在固有的评价,生成的总结是直接从其内容分析。例如,生成的摘要,流利的报道主题的原创视频,和相似性引用摘要生成的电影专家检查。在外在评价,绩效评估作为信息检索问题使用multichoice问卷。总结的卓越是衡量测验分数的增加。在这篇文章中,我们跟随第二个技巧,因为它生成总结基于用户的查询选择情感的特定类。在我们的实验中,总共十个调查对象参加了主观评价,在这六个学生选择从本科课程在研究生和四个年龄从20到25年。所有的参与者被要求看所选电影前的评价和要求下列三个问题1 - 10后看他们所需的查询生成的摘要。表4代表所有检测到的情绪的统计测试的信息拍摄电影。问1:有多少总结相关输入查询?问2:每个概要的enjoyability怎么样?问3:每个概要的忠实度如何?

在图6,所有的参与者的平均得分为每个测试电影计算和图形的形式来表示。很明显从图6所有的测试电影给好的结果除了“”,这是一部动作片。在动作片中,人类的动作快,使带非常具有挑战性的任务由于模糊效果。电影《我们的方案实现最好的结果诺丁山”,这是一个浪漫的电影,含有非常丰富的情感。图7代表了一些照片从电影”《诺丁山》”与相应的情绪状态。结论总体评价和讨论,我们认为我们的方案的性能是最好的电影流派戏剧,喜剧,浪漫,和幻想而行动和冒险。

4所示。结论

在本文中,我们提出了一个基于用户偏好的电影总结计划。首先,我们把电影分成镜头使用小说entropy-based镜头分割机制。其次,我们计算时间为每个镜头抛弃非突投凸起。接下来,人物的脸发现突出的照片和带送入深CNN模型。最后,总结是根据用户的查询生成的任何情感状态从预定义的七类。带我们评估训练模型和整体方案的电影使用客观的和主观的分析总结。我们发现我们的方案演示了更好的性能比其他电影总结技巧。在未来,我们的目标是进行实验动画电影和保险丝听觉和视觉特性为电影总结的一代。

数据可用性

所有的数据和测试电影公开。我们提供每个数据集的引用从在线数据库下载的电影,例如,YouTube和裂纹。分析和训练模型的python代码将根据要求提供给读者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项研究受到了基础科学研究项目通过韩国国家研究基金会(NRF)由教育部(2018 r1d1a1b07043302)。