文摘
短视频的快速发展,体育营销模式多样化,准确地检测视频营销的难度增加了。确定某些关键图像视频检测的重点,然后,分析可以有效地检测体育营销视频。视频关键图像检测的研究基于深层神经网络提出了解决不清楚的问题和未被承认的边界multiscene识别关键的图像。首先,图像检测的反馈网络模型的关键是提出和烧蚀实验进行一个简单的测试组DAVSOD。实验结果表明,该模型取得了更好的性能定量评价和视觉效果,可以准确地捕捉重要对象的整体形状。还介绍了混合损失函数来识别关键的边界图像,和实验结果表明,该模型优于或与当前最先进的视频显著目标检测模型的定量评价和视觉效果。
1。介绍
视觉是人类获取信息的主要途径与外界的联系,和神经科学领域的研究显示,大约108到109每秒字节的数据进入人眼(1]。这是因为选择性视觉注意机制的作用,视觉系统可以有选择地忽略无关的信息,关注相关信息,就像分离小麦谷物的外壳。在这个互联网时代的数据量的爆炸式增长,如何让人民关心的信息从大量的信息中劳动和塑方法得到了大量的关注。因此,将注意力机制引入数据处理任务和优先级数据处理资源的分配更重要的信息可以帮助提高处理信息的效率(2- - - - - -6]。
1998年,Borji和Itti [7]提出的第一个计算模型基于科赫等视觉特点。理论和认知心理学的经典特征整合理论8)和指向搜索模式(9),其算法过程包含三个主要步骤:提取三个初级视觉特征:颜色、亮度和取向。三种类型的关键特性在多尺度计算使用中央周边对比(关键特征提取);特征图的归一化,然后合成(功能融合)和关键目标的图像标签使用WTA机制。算法对后续研究有重大影响的计算模型视觉临界在计算机视觉领域,尤其是主流临界检测算法使用过类似的框架深度学习技术大规模使用。
早期的图像显著目标检测模型(10)主要是基于自底向上的方法使用不同的底层视觉特征,如颜色、边缘。以来显著目标检测人眼注意探测任务密切相关,人类视觉注意机制模型,早期显著目标检测模型也借了一些人类视觉注意机制的基本理论,包括经典的对比假设,center-surround假设。例如,假设都被刘et al。11)和Achanta et al。12),和一个类似的假设被程et al。10),他认为色彩对比在本地和全球尺度上的信息,算法简洁明了,受到学术界广泛关注。此外,燕et al。13显然]提出了完整一致的图像表示算法在不同尺度的图像在不同尺度和提取和融合的特征在不同尺度优化来获得最终的显著目标检测的结果。视觉中心的偏见也是一个常用的假设基于人类注意力机制(13]。假设是基于人类视觉系统的现象倾向于将注意力高权重分配给场景中心当观察现场。之后,流行的假说是背景之前的假设,提出了魏et al。142012年)。与center-periphery假说和视觉中心转移假说,试图定义“突出的地区,更可能是什么”这一假说试图定义“更重要的是可能的背景。“这种假设是基于这样的观察:在大多数场景,图像的边缘部分属于背景的概率更高。这种假设可以被视为一种视觉中心的进一步发展倾向的假设。深度学习技术的大规模应用之前,背景之前的假设是最有效的假设卓越领域的检测,和大多数的高性能模型(15- - - - - -19)是基于这样的假设。这些作品关注如何进一步提高背景先验假设的准确性和如何运用更高级的看到下面成了一个分类器。背景的先验假设,相当于获得一个类(背景)的样本,这个问题可以被视为一种看到下面成了一个分类器给只有一个类的样本。
与深度学习技术的巨大成功在图像分类问题,重点研究领域的重要对象检测已逐渐转移到基于深度学习模型。稍早些时候工作深度学习功能作为一个更有效的主要表现和使用完全卷积神经网络训练。李等人。20.)深度特性作为高级信息和Gabor-filtered响应和颜色直方图作为底层工人特性融合不同程度的显著预测的重要信息。这些模型实现更好的性能,但有一些缺点,比如大量的参数和空间信息的损失由于使用完全连接层的分类网络和高计算成本的这些算法由于需要重大/每个superpixel或无关紧要的分类目标对象的选择。
与完全卷积神经网络的兴起,近年来,显著目标检测基于深度学习的努力或适应完整的卷积神经网络用于进行像素级预测至关重要。有一些工作(21]的启发进行像素级的语义分割任务,提出融合来自不同神经网络层关键对象的特性检测。因为深的浅层次神经网络可以保留更多的细粒度的底层视觉特征,和深层可以提取更高层次,语义层面上的特性,融合来自不同神经网络层的功能可以保留原来的基础空间信息和获得更高级的语义信息。目前,主要研究工作集中在重要的对象检测基于深度学习技术是探索更高效的网络结构,可以保留更多的空间细节。王等人。22)提出了一个ASNet模型检测之前通过视觉注意力的视觉显著对象。将视觉注意力模型作为一个高层对整个场景的理解,这是中学到更高级的神经网络层,和突出的对象检测任务被认为是更细粒度对象级别的特点检测、视觉注意力提供自上而下的指导。ASNet模型是基于一个堆叠回旋的长期和短期记忆神经网络,它有一个独特的周期性结构,可以迭代优化特点的检测结果。这项工作提供了一个视觉注意力机制的深入了解和揭示了相关性显著目标检测和人眼注意检测。作为一个整体,深上优于显著目标检测模型达到更好的性能比传统模型(23- - - - - -26]。
针对目前的研究现状,探讨基于深层神经网络视频显著目标检测如下,提取更丰富的空间特点信息和更好的捕捉显著对象的整体形状。本文注重反馈提出了基于网络的视频显著目标检测模型。进一步获得更清晰的界限,一个新的混合损失函数介绍了基于视频的目标检测模型和注意力反馈网络。
2。深层神经网络
2.1。卷积神经网络
当人们阅读或观看视频,他们感知和理解当前基于内容的文本或图像之前他们已经观察到的和不完全忘记他们之前所观察到的,他们的大脑一片空白理解后面的内容。传统神经网络无法预测突出的信息在后面的帧的基础上突出对象区域在前面的视频帧。复发性神经网络的出现使得网络令人难忘,及其网络结构如图1。假设{Xt}t=0t是一组输入(t+ 1)时间步骤,{Ht}t=0t网络,网络的相应输出N在时间步接收吗t不仅Xt而且第一的价值(t−1)隐藏的状态在一个时间步的价值,也就是说,网络流程当前输入参照以前的记忆。
然而,当视频序列很长,当前视频帧之间的间隔要处理和相关的视频帧可能很大,这个时候,RNN可能失去的记忆遥远的视频帧梯度消失等问题。解决这个问题的长期依赖,Hochreiter et al。27)提出了一个长期和短期记忆网络,如图2,三个阶段的内容表示忘记阶段,更新状态阶段,分别和输出阶段。
所有三个阶段包含乙状结肠层之间将输入信息映射到[0,1],然后选择性地过滤有用的信息和忘记的无用的信息每比特乘法操作。
忘记阶段用于筛选有用的信息而忘记无用的信息。当前的输入是xt,连接xtℎ隐藏状态t - 1之前的时刻,表示Jt※表示连接、操作,如下所示:
乙状结肠层用于地图Jt到[0,1]获得输出门ft,在那里Wf和bf表示网络层的重量和偏见向量,分别σ表示乙状结肠操作,如下所示:
然后,相应的元素(∴)执行乘法操作和细胞状态Ct−1,从而选择性地筛选有用的信息,忘记了无用的信息,这一点和细胞状态而著称 。
更新细胞状态阶段允许国家控制细胞选择性地吸收相关信息J。Jt通过乙状结肠层并生成输入门我t。
相乘得到的信息获得的特性Jt双曲正切与相应的元素层后的信息添加到细胞状态,和新细胞的状态通过将这些信息添加到吗Ct忘记阶段获得的碎片。
输出阶段控制信息输出当前的一刻。Jt是输入到乙状结肠层输出门Ot。
让Ot和当前电池状态Ct由功能通过双曲正切增加位层获得当前时刻的输出Ht。
2.2。损失函数
执行进行像素级显著目标检测时,它可以被视为一个二元划分问题,在属于凸对象标记为1的像素和背景像素属于标记为0。假设y我表示样本的标签x我、所需的输出表示的概率值y我=1对于一个给定的样本x我。
1−表示的概率值y我= 0给定样本x我。
当x我发生的概率y我可以表达的发生P (y)我| x我)。从最大似然的角度来看,P (y)我| x我)可以表示在接下来的形式。
当真正的马克y我= 0,1,取对数操作。因为损失函数的值越小,越有利,日志需要一个负值,和损失函数计算如下:
2.3。反馈网络
为了减少必要的视觉临界信息的损失由于重复的步幅和池操作和学习更丰富的静态临界信息,AFNet用作静态临界模块的主要骨架。刺激在图3显示输入的图像帧,编码和解码网络由五个卷积VGG16块(表示E我和D我分别我∈{1,2,3,4,5}),相应的卷积模块之间的信息传递由关注反馈控制模块。
3所示。深层神经网络的设计
3.1。反馈网络检测模型
自然历史博物馆模型提出了获取更丰富的空间临界信息从而更好的捕捉关键图像的整体形状。自然历史博物馆模型使用注意力反馈网络的骨干静态临界模块以减少视觉关键信息的损失造成的尺度空间问题,指导正确的融合的多尺度特性从粗到细鳞片。从五个解码模块提取的多尺度特征图谱的注意力然后反馈网络融合和美联储的金字塔的扩张卷积模块保留更多的空间视觉关键信息。捕捉之后,实时信息使用一个关键对象transfer-aware卷积长在考虑attention-aware短期记忆网络传输,最后,模型的参数进行了优化,逐步减少损失函数的值通过不断迭代。算法分为三个部分:提取多尺度空间特征,时空关键信息的整合,以及最小化损失。
减轻负面影响比如尺度空间产生的视觉信息的损失问题,静态的骨干临界检测模块由AFNet和PDC模块连接在一起。AFNet作为小说编解码器的设计完全卷积网络形式,其编码和解码网络包括五个回旋的块,和E我和D我分别表示编码器和译码器模块我∈{1,2,3,4,5},表明E我和D我每个包含五回旋的街区,每一层的编码器块传输的关键信息通过反馈模块AFNet到相应的解码器。反馈模块使用一个两步迭代学习方法,用的时间步骤我∈{1,2},这有助于纠正不准确的预测中生成之前的网络通过模拟一个反馈机制,增加获得的三元图逐个像素特征映射,从而帮助捕获的关键对象的整体形状。面对全球空间临界探测问题,AFNet使用全球感知模块来克服完全连接操作的问题忽略了本地信息并生成冗余数据。多尺度分割策略是用来划分功能映射到4,16日和36部分,然后堆叠和重组全球卷积操作充分利用全球和地区内的凸起的信息。
图像的动态场景的关键是发现直接通过图像关键目标检测模型。关键对象检测只能检测颜色对比的空间差异,方向对比度,亮度对比,等等。然而,在动态场景,时间因素通常是用作临界探测的重要线索。第二,只在每个帧检测没有引用临界前一帧中包含的信息可能是不连贯的,因为目标和背景在不同的帧可能在外观方面有显著的差异,这将导致非相干检测结果之间的帧。最后,视频内容通常包含大量冗余,因为连续的视频帧需要足够的类似内容提供一个流畅的视觉体验。简单地忽略内容冗余可以导致更高的计算成本。因此,VSOD需要同时考虑时间和空间特点信息,所以动态特点检测模块用于将时间和空间特点的信息。为了更好地模拟人类视觉系统的感知功能,时间显著信息得知,和注意力捕捉知觉转移的过程中,本文使用SSLSTM动态特点检测模块,并结合强大的时空特征提取能力ConvLSTM注意力转移的机制。
深层神经网络逐步优化网络迭代的最小化损失函数。损失函数措施之间的差异值的预测模型和真实价值,和网络的权重由梯度下降法更新。
每个符号的含义如表所示1,因为视频显著目标检测数据集包含人眼集中注释,相对较少lt显示数据集是否包含人眼集中注释,当数据集不包含人眼集中注释,损失函数在这个时间不包含lt一个t项,错误不会back-propagated。每个符号的含义如表所示1。自视频重要目标探测数据集包含相对较少的眼睛专注注释,用于指示数据集是否包含眼睛专注注释。当数据集不包含眼睛专注注释,损失函数在这个时候不包含开办一项,错误不会传播。
3.2。损失函数设计
提出了一种新颖的混合损失函数基于边界增强损失,和功能的损失l一个预测attention-perception特性映射的损失最后的关键对象的预测结果,和损失最终预测目标的边界。 在哪里ω1,ω2作为学习速率参数对象级损失和损失物体边界的控制目标,分别让吗ω1:ω2= 1:10强调的学习目标边界。
使用的数据集的一部分培训不包含人眼集中注释,所以预测损失l一个知觉的关注特性图可以分为两个部分:损失使用人类的眼睛专注注释和损失计算计算使用显著对象的注释。 l一个=当δ(1)= 0,l一个=当δ(1)= 1。最后的预测结果用关键对象年代t。也就是说,损失可以计算。
当δ(1)= 0,l一个= ;当δ(1)= 1,l一个= 。年代t用于表示最终的预测结果关键对象,然后呢米t代表对象级别注释的主要对象。损失可以计算如下:
平均池操作可以用来提取光滑边界。认为有必要提取边界B (X)图像的X后,取绝对值的区别X和 。最后预测目标边界的损失如下:
NHM的基础上,添加混合损失函数捕捉清晰的界限。损失函数是基于边界增强损失和由注意知觉特征映射模型,预测的关键图像的预测结果,预测结果的关键图像边界。模型和LNSM记录。
4所示。实验和结果
4.1。实验设计
实验运行在一个Nvidia GTX1080TI GPU。本文实验使用Python语言实现在咖啡的深度学习框架,和Matlab用于定量评估的性能。戴维斯的训练集,DAVSOD, fbm和验证组DAVSOD也用来训练该模型,在网络的权重由AFNet模型初始化模型,每批处理和视频,时间步骤的数量conLSTM网络层处理被设置为3。成立了培训过程如下:首先,静态关键模型pretrained基地学习速率的10−9;然后,整个模型训练通过设置学习速率的动态关键模块到10−8和静态关键模块的学习速率10−10;最后,静态关键模块的重量是固定,动态调整学习速率的关键模块设置为10−10。LNSM模块被训练使用32小时和64 k迭代。
4.2。比较其他模型
本文提出LNSM是与四个先进的视频关键目标检测模型相比,MBNM, PDBM, SSAV,专门为VSOD数据集创建任务(可视化和UVSD设计比目前常用方法的整个数据集VOS测试集,和一个简单的测试集DAVSOD),和定量评价的实验结果如表所示1。从表可以看出1这三个模型的指标提出了比其他模型DAVSOD和可视化数据集设计比目前常用方法。特别是DAVSOD简单的测试集,f基于像素值指数和平均绝对误差误差和结构指数测量整体结构差异性能提高了0.06,0.03和0.064,分别与SSAV相比;先进的性能也已达到其他数据集。此外,可视化是第一个测试基准设计比目前常用方法尤其是专为视频关键对象检测;DAVSOD数据集考虑视觉注意力的转移及其选择性标记和能代表真正的关注行为的人类视觉系统在动态场景。这两个数据集是非常具有代表性的。实验结果表明,创建数据集的LNSM模型具有良好的性能尤其是VSOD和DAVSOD数据集,关键图像根据人眼的担忧。
5。结论
本文主要基于深层神经网络的图像检测完成体育营销视频的检测。多个场景的检测,反馈网络视频开显示的图片检测模型和一种混合损失函数提出了解决关键图像的检测问题。LNSM模型相比,本文提出的定量评价和可视化结果三个最先进的模型六代表数据集。定量结果表明LNSM优于其他先进模型在所有三个DAVSOD可视化数据集设计比目前常用方法和评估指标达到先进的性能与其他模型广泛使用的数据集。
数据可用性
数据集可以在访问请求。
的利益冲突
作者宣称没有利益冲突。