复杂性

在这一页上

文摘介绍结论数据可用性的利益冲突确认引用版权相关文章

特殊的问题

复杂的深度学习与进化计算模型在计算机视觉

把这个特殊的问题

研究文章|开放获取

体积2019年| 文章的ID3581419| https://doi.org/10.1155/2019/3581419

个性化的电影总结使用深CNN-Assisted面部表情识别

Ijaz哈奇 ,¹ 阿明Ullah ,¹ 汗默罕默德 ,² Mi年轻的李 ,¹ 和唱钟旭Baik ¹

客座编辑: 李张

收到了 2018年11月16日

修改后的 2019年1月22日

接受 2019年04月02

发表 2019年5月05

文摘

个性化的电影总结当前时代的需求是由于电影生产的指数增长。电影总结的工作方法无法满足用户的需求,由于电影的主观性质数据。因此,在本文中,我们提出了一个基于用户偏好的电影总结计划。首先,我们把电影分成镜头使用小说entropy-based镜头分割机制。接下来,时间计算镜头的特点,导致高度突出检测到照片中人物的脸。结果照片然后向前传播到我们的面部表情识别训练深CNN模型(带)来分析人物的情绪状态。最后的总结是生成基于用户首选从七情绪情感的时刻,即。、害怕、生气、厌恶、快乐,中性的,悲伤和惊奇。主观评价在五好莱坞电影证明了我们提出的方案的有效性方面的用户满意度。此外,客观评价验证了该控制方案的优越性在最先进的电影总结方法。

1。介绍

视频数据成倍增加的在互联网上和个人存储设备包括社交网络、监控、和电影由于进步和方便地访问数据捕获技术。电影数据特别成为观众最有趣的来源之一。然而,在巨大的收集和浏览电影寻找所需的场景在一个完整的电影是一个乏味而耗时的任务。电影总结(MS)技术试图解决这个问题通过产生一个简短的视频序列的电影,其中包含最重要的事件或场景。因此,观众可能有一个想法关于语境和语义的电影只看重要的场景。

近年来,许多女士技术被研究人员提出,可以大致分为自动技术[女士1- - - - - -10)和基于用户偏好的MS技术(11- - - - - -15]。在自动技术,女士没有直接来自用户的偏好来生成一个摘要。这些技术依赖于多个脚本等线索,字幕,和电影结构结合视觉和听觉功能。例如,非政府组织等。1)利用concept-expansion树构建一个关系图描述的语义概念纪录片视频。你等。2]提出了总结方法,融合四种感知模型根据不同线索包括运动、对比、统计节奏,和特殊场景使用线性组合生成摘要。相比之下,翁et al。3]分析了电影从电影的人物之间的关系的角度而不是视听功能。他们建造了一个role-network然后确定了主要的角色。role-network用于电影划分为几个子事例。同样,Salamin et al。4)使用音频分割算法与最大后验概率(MAP)的方法来确定主要人物在电影中,可以用于索引和检索特定人物的照片以及总结的一代。唱歌和徐5)面对集群主要角色和使用,基于他们的外表,他们生成的电影总结里面唯一的主角。Evangelopoulos et al。6)提出了一种基于多通道特点总结为电影计划。他们从三种不同的模式中提取特征和集成多通道凸起的曲线。他们使用时空特点的模型,一个调幅-调频语音模型,和词性(POS)标记提取特征从视觉,听觉,和文本模块,分别。Aparicio et al。8)总结了不同类型的电影和纪录片分析六种不同的电影脚本和字幕文本摘要算法。贡献他们的工作的关键是选择一个方法最适合六个技术电影或纪录片中一个特定的风格。另一个基于文本的电影总结计划提出的Hesham et al。9)生成了一个简短的摘要拖车使用字幕的电影。挂做et al。10基于发展中角色网络]总结电影。人物之间的关系是基于他们的外表,用于段长篇电影场景。最后,电影的故事情节是生成摘要通过测量社交网络中的每个字符的社会力量。

由于不同性质的电影和用户的偏好之间的矛盾,使用自动MS技术生成的总结为一个用户可能是恰当的,但它可能是不适当的。女士这样的计划没有力量来生成一个摘要,可以满足用户的不同的主观要求。因此,用户偏爱的投篮选择电影总结仍然是一个具有挑战性的问题,以及解决的基于用户偏好的技术。例如,李et al。11]表明,子事例从电影中可以发现使用短期和长期视听时间特性分析。生成摘要的长度由用户输入控制。同样,Ellouze et al。12)视听功能用于个性化的电影总结,用户可以选择各种镜头的内容和类型以及总结的持续时间。然而,用户首选的比较内容和电影内容在功能级别而不是语义级别执行。彭et al。13)利用观众的情绪和注意力来生成摘要根据用户的情绪通过分析他的面部表情,眼球运动,眨眼,和头部运动同时观看视频。电影总结方案基于用户生成的数据提出了太阳et al。15]。他们使用实时评论给观众看电影的时间戳。评论的内容显示的场景的概念,而评论的数量表示兴奋的观众。结束的女士文学、电影的丰富来源,提供复杂的想法通过视听数据的语义。因此,细分电影基于语义特征赋予人类情感女士的最佳基线水平的语义层次信息,可以从视频中提取内容。带各种应用程序在不同的领域如医疗(21),内容推荐(22],监测[23)、安全(24),和机器人(25]。同样,在电影数据,情感的角色是突出的元素,直接抓住观众的注意力,可以用来生成一个有意义的总结。

最近,很多研究已经完成对人类情感识别使用面部表情分析。全面调查带提出了Corneanu et al。26为RGB), 3 d,热,和多通道方案。传统的面部特征提取方案如伽柏小波变换(27),光学流(28),局部二进制模式(29日),和基于模型的方法30.)有许多局限性像高计算和低性能多样化的环境中,例如、光线变化、构成和杂乱的背景。此外,这些计划限制额面孔和统一的皮肤颜色。最近,深度学习技术(31日]显示巨大的结果在计算机视觉领域与传统方法相比。例如,金等。32)提出了一种分层深cnn委员会通过结合多个模型训练的决定在公共拿来数据库。一个特性redundancy-reduced (FRR-CNN)谢等人提出的。33]拿来生成更少的冗余特性和紧凑的表示图像的。Uddin et al。34]从深度视频数据中提取局部定向位置模式和美联储成带的深度信念网(DBN)。从CNN方法的启发,在这篇文章中,我们提出了一个基于用户偏好的女士计划,基于拿来使用CNN模型确定人物的情绪状态。用户应该选择什么样的情绪状态,他更喜欢参与最后的总结。这项工作的主要贡献总结如下:(1)情感的人物在电影中突出的元素,直接得到观众的关注。因此,用户总是表现出兴趣某种情感电影中的场景。在本文中,我们提出一个框架生成总结基于用户偏爱的情感通过输入查询在总结生成场景。(2)电影的层次结构帮助生成一个合理的总结中,镜头分割扮演重要的角色。因此,我们提出一个entropy-based镜头分割机制,这段镜头基于视觉信息。这种策略帮助到信息和noninformative分类。(3)深度学习更好的学习方法需要大数据的参数,而现有拿来CNN在这样庞大的数据模型不是训练。因此,对于精确的带我们首先训练训练抓VGG脸上的模型数据集的结构学习的脸,然后我们调整这个模型拿来KEDF数据集。我们的策略让突出的结果在最先进的技术。

剩下的论文安排如下:部分2详细讨论了拟议的电影总结方法。给出了实验结果和讨论部分3节中,紧随其后的是结论和未来的工作4。

2。提出的方法

我们建议的方案四个折叠女士:(1)entropy-based镜头分割,(2)特点提取和人脸检测、基于深度CNN模型(3)带,和(4)汇总生成。所有的步骤都在随后的章节中详细讨论。该系统可以生成摘要基于用户偏好对任何类型的电影。给出了该方案的总体框架如图1。

2.1。Entropy-Based镜头分割

电影也称为结构化视频因为他们包括场景与镜头的层次结构。一枪是一个不间断的电影,由顺序与静态帧或连续的镜头运动,而一个场景由一个或多个的同一个地方或活动(从不同角度拍摄1]。这个结构在初始阶段协助女士通过分段长篇电影镜头和场景。镜头分割是一个关键步骤的总结技术,尤其是在处理娱乐视频。最近,许多领域特定镜头分割技术提出了基于颜色直方图等(15),深特性基础(35),基于人的外表(31日),和备用基于编码的方法36]。在本文中,我们提出了entropy-based镜头分割技术,分析帧序列和选择框架与急剧变化的视觉内容。熵单帧可以计算使用(1)和(2)。在此,是像素的概率, , 是邻居像素的像素的数量吗 ,和是像素的数量相同的强度。熵的框架表示的信息量和语义的视觉内容。因此,它有助于分类信息和noninformative。此外,生成的摘要代表的照片只有排除没有或少的照片信息。

2.2。特点提取,人脸检测

一般来说,图像的特点是用于提取前景的信息,也可以用来预测信息的数量(37,38]。选择最有益的镜头,我们计算的平均得分显著一枪使用特点优化技术(39]。首先,卓越的地图获得一帧和非零像素的总和除以图像像素的总数。其次,一枪的平均得分显著计算单个帧的总额除以总数量的帧。最后,凸起的平均得分是与一个预定义的阈值选择最突出的照片。通过这种方式,所有的非突或noninformative镜头被丢弃,突出镜头成为生成摘要的一部分。突出镜头进一步分析检测字符的脸。人脸检测,多任务级联网络(40)是使用大小的附加约束。一脸的大小限制是由于规模和姿势的变化发现适用于去除不必要的脸。因此,我们只选择那些面孔,15%的外框尺寸,因为主角是拍摄的专注和关闭。同时,为小型(带也并非十全十美41]。图2代表了一些示例电影帧检测到人脸和相应的显著图。

(一)

(b)

2.3。面部表情识别使用转移学习

训练一个深CNN模型需要大量的数据从抓学习它的参数。然而,学习转移成为一个关键概念深度学习,因为它有效地处理问题在小数据集(42,43]。最近,CNN对图像分类被人为错误,当训练数据集与数以百万计的数据样本。然而,一些任务,比如带仍面临着缺乏数据。因此,为了解决这个问题,我们使用转让的概念学习使用ResNet [20.CNN带模型。包括ResNet-34 ResNet CNN模型有很多版本,ResNet-50 ResNet - 101, ResNet - 152层网络。我们利用ResNet-50平衡系统的准确性和时间复杂度。最初,它是训练有素的224×224的图像ImageNet [44)的数据集,其中包含数以百万计的样本为1000类别。我们没有取得好的结果在使用的权重pretrained ResNet-50模型微调在KDEF拿来数据集(45]。原因是,我们只有面对图像代表人类的情感很少KDEF数据集和脸的变化模型,pretrained大类数据,不是有效的。为此,我们引入了两个步骤学习过程包括训练的第一步从抓脸的识别和CNN模型二是转移拿来学习相同的模型。脸识别,我们使用大规模VGG脸(46]数据集训练ResNet-50面对数据的权重。VGG ResNet主要受结构(47)模式,这两种模型对卷积特性提取使用小型内核。小型过滤器帮助学习各种微小的数据中的模式,这是很常见的在带48]。ResNet利用卷积层相互堆叠的多个连续分支和执行抽样2步。网络是结束,全球平均池层和一个完全连接层,展示类的数量分类。给出加权50层的架构图3。讨论了实现细节转移学习实验部分。

2.4。总结的一代

高凸起和脸的镜头向前传播到提出了带训练CNN模型。在我们的实验中,我们观察到带从单帧的镜头不是有效地代表整个拍摄的情绪状态。也有可能一枪可能包含多个面孔。因此,最大的发现情感被选中作为整个拍摄的情绪状态。最后,总结是根据用户的查询生成指定从预定义的七类的情绪情感状态。总结的一代可视化图4。

3所示。实验评价

在本节中,我们已经讨论了实验评价该女士计划。我们进行了两组实验:(1)KDEF数据集训练模型的评价及其与其他模型进行比较和(2)主观评价五个不同类型的好莱坞电影。实验使用深度学习框架执行被称为咖啡(49]在Ubuntu16.04安装操作系统和装备NVIDIA泰坦X GPU在12 GB专用内存运行的硬件英特尔™Core i5处理器与64 GB RAM。

3.1。数据集

我们使用两个数据集:VGG脸(46从头开始训练ResNet CNN模型和KDEF数据集(45转帐)学习。VGG面临数据集包含2.6米2.6 K的图像世界各地的名人。KDEF数据集包含4900 70主题包括35岁男性和35岁女性的形象。这个数据集包含7类,即。,afraid, angry, disgust, happy, neutral, sad, and surprise. For each class, image samples are taken from five different angles in two sessions. This dataset best fits for our problem because, in movies, characters’ faces are also found in a variety of poses. Figure5代表了一些样品图片KDEF每个类的数据集。主观评价,五好莱坞电影。测试影片的详细描述在表1。

3.2。面部表情识别的客观评价

VGG脸上ResNet CNN模型是第一个训练(46]数据集有2597类。我们缩放图像128×128的脸区域和每个像素的图像中减去均值图像规格化强度。VGG脸上数据集是过滤掉和一些图片被丢弃在培训。我们的实验中使用的数据集包含042万年培训和014万年验证图像。原ResNet-50训练在224×224图像;因此,如果我们使用pretrained ResNet-50,那么它的内核大小、步幅和填充信息不适合128×128图像分类问题。在我们的方法中,权重的ResNet 128×128的脸图像的初始化。详细的描述中可以看到原始ResNet文章(20.]。模型训练50时代64批大小和初始化学习速率为0.01,这是减少每十世之后的学习速率比10倍。学习速度下降背后的原因是防止模型过度拟合问题的培训。VGG脸上我们实现精确的结果数据集使用ResNet-50层网络,在50时代后的精度达到96.82%而损失降低了7×10⁻⁵。结果不同的CNN模型调整KDEF数据表2。很明显从表2所有pretrained模型取得了非常少的准确性在调整原来的重量。低精度的原因是,这些模型在大类数据集训练之前,我们需要一个模型的参数训练数据。因此,我们首先训练ResNet-50使用大规模VGG脸数据集学习结构,然后调整带KDEF数据集训练模型。

与人脸识别数据集训练ResNet之后,我们声称,它的重量现在可以面对特性和其结构有效地学习。因此,我们使用的参数训练模型转移学习使用KDEF拿来的数据集。微调的过程中,所有图片KDEF数据集的大小为128×128的脸区域和每个像素的图像中减去从意味着图像规格化强度。在转移的学习过程中,我们初始化的学习速率0.001和减少每次10时代学习速率的因素比10。模型调整为30时代,实现92.08%的验证精度损失为0.192在最后的时期。混淆矩阵和整体精度的测试集KDEF数据集给出了表3。所有类别不相互混淆,即。,afraid, angry, and sad classes achieved per-class accuracy under 90% while the rest of all classes have accuracy above 90%. The results for this dataset are very convincing, making our trained model capable of FER in the heterogamous movie data. The KDEF dataset has various categories of face poses and viewpoint variations, which help to easily analyze the character’s facial expressions in the movie.

3.3。主观评价生成的摘要

电影的一个具有挑战性的步骤总结评估生成的摘要是由于缺乏标准。一般来说,有两种类型的评估中使用视频总结文献可以分为内在和外在的技术。在固有的评价,生成的总结是直接从其内容分析。例如,生成的摘要,流利的报道主题的原创视频,和相似性引用摘要生成的电影专家检查。在外在评价,绩效评估作为信息检索问题使用multichoice问卷。总结的卓越是衡量测验分数的增加。在这篇文章中,我们跟随第二个技巧,因为它生成总结基于用户的查询选择情感的特定类。在我们的实验中,总共十个调查对象参加了主观评价,在这六个学生选择从本科课程在研究生和四个年龄从20到25年。所有的参与者被要求看所选电影前的评价和要求下列三个问题1 - 10后看他们所需的查询生成的摘要。表4代表所有检测到的情绪的统计测试的信息拍摄电影。问1:有多少总结相关输入查询?问2:每个概要的enjoyability怎么样?问3:每个概要的忠实度如何?

在图6,所有的参与者的平均得分为每个测试电影计算和图形的形式来表示。很明显从图6所有的测试电影给好的结果除了“盐”,这是一部动作片。在动作片中,人类的动作快,使带非常具有挑战性的任务由于模糊效果。电影《我们的方案实现最好的结果诺丁山”,这是一个浪漫的电影,含有非常丰富的情感。图7代表了一些照片从电影”《诺丁山》”与相应的情绪状态。结论总体评价和讨论,我们认为我们的方案的性能是最好的电影流派戏剧,喜剧,浪漫,和幻想而行动和冒险。

(一)

(b)

(c)

(d)

4所示。结论

在本文中,我们提出了一个基于用户偏好的电影总结计划。首先,我们把电影分成镜头使用小说entropy-based镜头分割机制。其次,我们计算时间为每个镜头抛弃非突投凸起。接下来,人物的脸发现突出的照片和带送入深CNN模型。最后,总结是根据用户的查询生成的任何情感状态从预定义的七类。带我们评估训练模型和整体方案的电影使用客观的和主观的分析总结。我们发现我们的方案演示了更好的性能比其他电影总结技巧。在未来,我们的目标是进行实验动画电影和保险丝听觉和视觉特性为电影总结的一代。

数据可用性

所有的数据和测试电影公开。我们提供每个数据集的引用从在线数据库下载的电影,例如,YouTube和裂纹。分析和训练模型的python代码将根据要求提供给读者。

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项研究受到了基础科学研究项目通过韩国国家研究基金会(NRF)由教育部(2018 r1d1a1b07043302)。

引用

C.-W。非政府组织,Y.-F。马,周宏儒。张,“图形建模、视频摘要和现场检测”IEEE电路和系统视频技术,15卷,不。2、296 - 304年,2005页。
视图: 出版商的网站 | 谷歌学术搜索
j .你g . Liu l .太阳和h·李,“一个基于多个视觉模型的感知分析框架为多级视频摘要,“IEEE电路和系统视频技术,17卷,不。3、273 - 285年,2007页。
视图: 出版商的网站 | 谷歌学术搜索
彭译葶。翁,W.-T。楚,J.-L。吴,“RoleNet:电影分析从社会网络的角度来看,“IEEE多媒体,11卷,不。2、256 - 271年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
h . Salamin s Favre, a . Vinciarelli”角色自动识别多党录音:利用社会关系网络对特征提取,”IEEE多媒体,11卷,不。7,1373 - 1380年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
j·c·徐,“基于字符的电影总结”学报18 ACM国际会议在2010年多媒体ACM多媒体,10毫米的2010年10月,页855 - 858。
视图: 谷歌学术搜索
g . Evangelopoulos a . Zlatintsi a Potamianos et al .,“多通道特点和融合电影总结基于听觉,视觉和文本的关注,“IEEE多媒体,15卷,不。7,1553 - 1568年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
C.-M。蔡,L.-W。Kang C.-W。林和w·林,“Scene-based电影摘要通过role-community网络,”IEEE电路和系统视频技术,23卷,不。11日,第1940 - 1927页,2013年。
视图: 出版商的网站 | 谷歌学术搜索
m . Aparicio p . Figueiredo f . Raposo d·德·马托斯马丁斯r·里贝罗和l . Marujo”总结的电影和纪录片字幕和脚本的基础上,“模式识别的字母卷。73年,广州2016页。
视图: 出版商的网站 | 谷歌学术搜索
m . Hesham b·哈尼:福,e . Amer“智能拖车:自动生成使用只有字幕电影预告片,”学报第一国际研讨会上深,表示学习,IWDRL 2018,26 - 30日,2018页。
视图: 谷歌学术搜索
t t, q h . Tran,问:d . Tran”电影索引和摘要使用社交网络技术》越南计算机科学杂志》上,5卷,不。2、157 - 164年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
y . Li工程学系。李,学术界。叶和c c。j .郭”技术对电影内容分析和浏览视频教程和概述抽象技术,”IEEE信号处理杂志,23卷,不。2、79 - 89年,2006页。
视图: 出版商的网站 | 谷歌学术搜索
m . Ellouze: Boujemaa, a . m . Alimi“IM (S) 2:交互式电影总结系统,”杂志的视觉传达和图像表示,21卷,不。4、283 - 294年,2010页。
视图: 出版商的网站 | 谷歌学术搜索
W.-T。彭,W.-T。楚,学术界。Chang et al .,“编辑通过查看:自动家庭视频摘要浏览行为分析,“IEEE多媒体,13卷,不。3、539 - 550年,2011页。
视图: 出版商的网站 | 谷歌学术搜索
Kannan r、g . Ghinea Swaminathan,“你希望看到什么?摘要系统基于用户偏好的电影,”信息处理与管理,51卷,不。3、286 - 305年,2015页。
视图: 出版商的网站 | 谷歌学术搜索
x z . Li刘,张,“镜头边界检测基于多层次的不同颜色直方图,”学报第一国际会议多媒体图像处理,ICMIP 20162016年6月,页15 - 22日。
视图: 谷歌学术搜索
a·g·霍华德·m·朱b . Chen等人Mobilenets:高效的移动视觉应用卷积神经网络,2017,https://arxiv.org/abs/1704.04861。
f . n . Iandola汉,m . w . Moskewicz k .阿什拉夫·w·j·磨磨蹭蹭的,快和k . KeutzerSqueezeNet: Alexnet-Level准确性少50 x < 0.5 MB的模型参数和尺寸,2016,https://arxiv.org/abs/1602.07360。
a . Krizhevsky i Sutskever, g·e·辛顿“Imagenet分类与深卷积神经网络,”学报》第26届年会在神经信息处理系统(捏12),第1105 - 1097页,2012年。
视图: 谷歌学术搜索
c . Szegedy w·刘,y贾et al .,“要更深的曲线玲珑,”《IEEE计算机视觉与模式识别会议(CVPR 15)2015年6月,页1 - 9,IEEE,。
视图: 出版商的网站 | 谷歌学术搜索
k . x张,他任美国,j .太阳,“深残余学习图像识别,”学报2016年IEEE计算机视觉与模式识别会议,CVPR 20162016年7月,页770 - 778。
视图: 谷歌学术搜索
l . Hazelhoff j·汉、美国Bambang-Oetomo和p h . de,“行为状态检测新生儿面部表情分析的基础上,”《国际会议上先进的智能视觉系统概念,第709 - 698页,2009年。
视图: 谷歌学术搜索
l . Canini s Benini, r . Leonardi”情感的电影推荐的基础上选定的内涵特征,“IEEE电路和系统视频技术,23卷,不。4、636 - 647年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
m·萨贾德·m·纳西尔,f . m . Ullah k·穆罕默德,a . k . Sangaiah和s . w . Baik“覆盆子π辅助面部表情识别框架执法服务、智能安全”信息科学, 2018年。
视图: 谷歌学术搜索
e . Vural m . Cetin a . Ercil g . Littlewort m . Bartlett和j . Movellan“瞌睡的司机检测通过面部运动分析,”美国国际研讨会在人机交互,6 - 18,2007页。
视图: 谷歌学术搜索
l, m .江、d法和m·a·侯赛因”智能面部情感识别和基于语义话题检测人形机器人,”专家系统与应用程序,40卷,不。13日,5160 - 5168年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
c . a . Corneanu m·o·西蒙,j·f·科恩和s e·格雷罗州”调查RGB, 3 d,热,面部表情识别的多通道方法:历史,发展趋势,和影响相关应用,”IEEE模式分析与机器智能,38卷,不。8,1548 - 1568年,2016页。
视图: 出版商的网站 | 谷歌学术搜索
m . Tkalcic a假想的,a . Kosir“地面实况疲软的影响和面部表达影响检测精度的时间连续的视频面部表情,“信息科学卷。249年,13-23,2013页。
视图: 出版商的网站 | 谷歌学术搜索
C.-K。谢长廷,工程学系。赖和研究。陈,“一个光学的基于流程的方法下的人脸识别表情变化,“IEEE图像处理,19卷,不。1,第240 - 233页,2010。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
c, s .锣,p . w . McOwan“面部表情识别基于局部二进制模式:一个全面的研究,“图像和视觉计算,27卷,不。6,803 - 816年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
m·a·a .政府高级官员e·格兰杰G.-L。r . Sabourin Marcialis, f . Roli”,自适应模型跟踪still-to-video外观人脸识别”,模式识别49卷,第151 - 129页,2016年。
视图: 出版商的网站 | 谷歌学术搜索
a . Ullah k·穆罕默德,j . Del Ser s . w . Baik诉阿尔伯克基,”活动识别使用时间光学卷积特性和多层LSTM流动,”IEEE工业电子产品, 2018年。
视图: 出版商的网站 | 谷歌学术搜索
B.-K。金,j .卢武铉S.-Y。盾,S.-Y。李,“深卷积神经网络分级委员会健壮的面部表情识别,”在多通道用户界面》杂志上,10卷,不。2、173 - 189年,2016页。
视图: 出版商的网站 | 谷歌学术搜索
谢和h·胡“面部表情识别与FRR-CNN”IEEE电子信件,53卷,不。4、235 - 237年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
m z Uddin, m·m·哈桑·a . Almogren a . Alamri m . Alrubaian和g . Fortino“面部表情识别利用本地策略鲁棒特性和深层信念网络,”IEEE访问5卷,第4536 - 4525页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
k·穆罕默德,t·侯赛因和s . w . Baik”高效的基于CNN的总结为资源受限的设备上的监控录像,”模式识别的字母, 2018年。
视图: 谷歌学术搜索
t . j . Li姚明,问:凌,t·梅”检测镜头边界稀疏编码的视频摘要,“Neurocomputing卷,266年,第78 - 66页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
j . d . Zhang汉、l .江你们美国,和x Chang,“揭示事件特点在无约束的视频集合,”IEEE图像处理,26卷,不。4、1746 - 1758年,2017页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
d . Zhang h .傅j .汉A . Borji和李x,“回顾co-saliency检测算法,ACM智能交易系统和技术p。38卷。9日,2018年。
视图: 出版商的网站 | 谷歌学术搜索
w·朱梁,y魏,j .太阳,“从健壮的背景检测显著优化,”学报the27th IEEE计算机视觉与模式识别会议(CVPR 14)2014年6月,页2814 - 2821。
视图: 出版商的网站 | 谷歌学术搜索
k . Zhang z张、李z和y乔,”联合人脸检测和校准使用多任务级联卷积网络,”IEEE信号处理信件,23卷,不。10日,1499 - 1503年,2016页。
视图: 出版商的网站 | 谷歌学术搜索
i哈克,k·穆罕默德,a . Ullah和s . w . Baik“DeepStar:检测主演的角色在电影,”IEEE访问7卷,第9272 - 9265页,2019年。
视图: 出版商的网站 | 谷歌学术搜索
a . Ullah j·艾哈迈德·k·穆罕默德,m·萨贾德,s . w . Baik”行动识别在视频序列中使用深度双向LSTM与CNN的特性,“IEEE访问》第六卷,第1166 - 1155页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
m . Seera和c·p·Lim“转移使用在线模糊min-max神经网络学习,”神经计算和应用,25卷,不。2、469 - 480年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
j .邓w .咚,r . Socher et al .,“ImageNet:大规模的分层图像数据库”《IEEE计算机学会学报计算机视觉与模式识别会议(CVPR ' 09),第255 - 248页,2009年。
视图: 出版商的网站 | 谷歌学术搜索
m·g·卡尔沃和d . Lundqvist”情绪的面部表情(KDEF):识别不同display-duration条件下,“行为研究方法,40卷,不。1,第115 - 109页,2008。
视图: 出版商的网站 | 谷歌学术搜索
o . m . Parkhi a Vedaldi, a . Zisserman“深人脸识别,”2015年英国机器视觉研讨会论文集,p . 2015。
视图: 出版商的网站 | 谷歌学术搜索
k·Simonyan和a . Zisserman很深的卷积网络大规模图像识别,2014,https://arxiv.org/abs/1409.1556。
j·艾哈迈德·k·穆罕默德,s . w . Baik”早期火灾探测中使用卷积神经网络监测有效的灾害管理,“Neurocomputing卷。288年,30-42,2018页。
视图: 出版商的网站 | 谷歌学术搜索
y, e . Shelhamer j·多纳休et al .,“咖啡:快速卷积架构功能嵌入”诉讼ACM多媒体会议(MM的14),第678 - 675页,2014年。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

3186年

下载

1938年

引用