文摘

大量的有用的信息包含在新闻视频,和如何分类新闻视频信息已成为多媒体技术领域的重要研究课题。新闻视频非常丰富,采用手动分类方法耗时太长,容易受到主观的判断。因此,开发一个自动化的新闻视频分析和检索方法成为当前多媒体信息系统中最重要的研究内容。因此,本文提出一种基于ResNet-2新闻视频分类模型学习和转移。首先,采用基于模型的传输方法的共性知识转移pretrained ImageNet Inception-ResNet-v2网络的模型,和一个新闻视频分类模型构建。然后,势头更新规则的基础上,介绍了亚当算法,并提出了一种改进的梯度下降法,以获得一个最优解函数的局部最小值的学习过程。实验结果表明,改进的亚当算法可以通过迭代更新网络权重自适应学习速率达到最快的收敛。与其他卷积神经网络模型相比,修改后的Inception-ResNet-v2网络模型为常见的新闻视频数据集分类精度达到91.47%。

1。介绍

今天,视频媒体在丰富人们的生活中发挥着越来越突出的作用,教育和娱乐。视频是一种媒体丰富的内容,它可以提供比语言更生动的信息,声音和图像(1- - - - - -5]。新闻是一种视频,这是一个重要的方式让人们了解社会和人民生活密切相关。现在,有很多新闻节目和信息的数量也非常大。因此,它成为一个重要的需求,人们可以很容易的找到自己的相关内容对大量新闻节目的兴趣。

基于内容的检索是指检索根据语义功能或视听媒体对象的特征(6- - - - - -8]。语义特征指的是内容信息的视频片段,虽然视听特性指的是一些物理特性,可以直接从声音和图像,如颜色、纹理、形状和在图像、视频对象的运动和镜头,色调响度、音色听起来(9- - - - - -12]。这是一个非常实用的技术和广泛的应用。现在,基于内容的视频检索取得了一些成果。然而,基于内容的视频检索的研究新闻并不多。

深度学习抛弃了传统算法的复杂的操作过程,和卷积神经网络(CNN) (13,14)在图像识别,图像分割取得了极大的成功。在典型的网络结构,连续突破深层神经网络递归神经网络(RNN)[如15网络(DBN)[],很深的信仰16),和生成对抗网络(GAN) [17出现,可以更好地提高模型的特征提取能力监督学习(18,19]。因此,基于理论和基于内容的视频检索技术,本文的相关技术和实现新闻视频检索基于深度学习。

2。文献综述

传统的视频分类和识别方法一般使用人工设计特性模型,提取的大小,形状,颜色,质地,和其他视频关键帧的信息特征,融合一个或多个特性来建立一个分类器实现自动视频分类和识别。例如,Arivazhagan et al。20.)提出了应用完全局部二进制模式(CLBP)作为纹理特征图像识别。在这种方法中,颜色和纹理特征融合,和最近邻分类器是用来完成分类任务,并考虑到光照强度变化的因素。周et al。21)中提取的三个特征颜色,形状,大小,选择再(资讯)分类器进行分类和识别各种图像,并取得了良好的识别精度,识别准确率高达90%。然而,所有的这些方法都需要手工设计的图像特征。尽管他们是优秀的准确性和鲁棒性,手工设计的特征提取器通常需要大量的工作。卷积神经网络省略了特征提取的过程中通过人工设计和融合的注意机制提取在图像几何变换信息,以提高图像识别的准确性和稳定的网络。

目前,研究新闻视频识别使用深卷积神经网络仍然有限,主要是因为没有共同的新闻视频数据集与数据量足够大、足够高的质量,所以很难培养一个优秀的分类和识别模型。因此,在本文中,Inception-ResNet-v2,训练在ImageNet大型数据集(22- - - - - -24),比Inception-ResNet-v1有更好的性能,用作pretraining模型,基于模型的转移学习方法(25)用于实验。本文的主要创新如下:(1)学习转移技术应用于基于concept-ResNet-v2网络新闻视频分类模型,有效地提高了过度拟合,使模型具有更好的泛化能力;(2)提出一种改进的亚当梯度下降法来提高模型的收敛速度。

3所示。分类模型基于Inception-ResNet-v2网络学习和转移

3.1。深层神经网络

卷积神经网络是应用最广泛的深度学习模型在计算机视觉领域。它的最早的理论模型是日本学者提出的神经认知机福岛(26]。神经认知机有良好的识别能力,即使目标对象有点扭曲。神经认知机的基础上,LeNet-5出现多层前馈神经网络模型,并成功地应用于手写字符识别。卷积模型主要包括输入层,层、汇聚层、连接层,和输出层,它为后来的卷积神经网络结构奠定了基础。2012年,AlexNet模型获得了ILSVRC竞争,使卷积神经网络成为一个研究热点,然后,更多优秀的卷积神经网络提出了。一个典型的卷积神经网络模型结构如图1

卷积神经网络提取特性,通过卷积操作本地“接受域,它主要用于图像处理。CNN是一种前馈神经网络和深层结构。首先,输入图像在输入层,然后由卷积计算层、汇聚层,和非线性激活函数,高层抽象的语义信息是逐渐从图像中提取。这是“卷积神经网络前馈行动”。最后,对于完全连接层,所有的特性预测从先前的网络连接中提取,检测到的值之间的差异和真正的标记值计算网络。传播损失卷积回到第一层从完全连接层的梯度下降法,使所有的参数更新网络,整个网络模型收敛经过几轮的训练。

的公式计算一个反褶积层如下:

在这一层,一个图像 组成的特征图像 颜色通道作为输入。每个通道 图像可以表示为线性的总和 潜在的特征图谱和卷积的内核。

反褶积层使潜在的功能图 稀疏通过引入正则化条件。反褶积层的总损失函数是由如下: 在哪里 是稀疏的规范和 是恒定的。

反褶积的实现过程如图2

3.2。转移学习

在深层神经网络的训练,一个足够大的数据集与高质量是一个重要的基础训练模型的准确性和可靠性高。然而,在实际应用中,视频研究的分类和识别,因为常见的实验数据集是小,由Inception-ResNet-v2网络分类模型训练低精度和泛化能力差的问题。

因此,本文采用转移的概念学习方法,视Inception-ResNet-v2网络模型被ImageNet pretrained后大训练集作为一般图像特征提取器。通过将提取的一般图像底层特征知识转移到新闻分类任务,作为网络的初始化参数,少量的视频数据也可以学习和训练一个高性能的新闻分类模型。对比传统机器学习过程和转移学习过程如图3

首先,将学习的定义进行了分析。给定一个源域 和一个学习任务 ,如果有一个目标域 和一个学习任务 ,迁移学习的目标是使用学到的有用信息 帮助目标预测函数 ,在哪里 根据学习方法,学习转移可分为四类:纸浆包转移学习方法,基于转移学习方法、基于模型的转移学习方法,特性和转移学习方法(27]。基于模型的转换学习方法是指的方法找到共享源域和目标域之间的参数信息实现转移,因此本文采用基于模型的转移学习方法。

3.3。Inception-ResNet-v2分类模型

目前,经典的卷积神经网络模型LeNet, AlexNet, VGGNet, GoogLeNet, ResNet DenseNet, ResNeXt。根据上述结构,Szegedy等人提出了Inception-v2结构和Inception-v3结构。批正常化添加到Inception-v2模型,使得每一层的输出服从分布的均值为0,方差为1。Inception-v3整合了所有Inception-v2的优点。相比之下,v2, Inception-v3使用不对称的卷积来减少参数的数量和金额计算。相反,标签采用平滑正规化,防止过度拟合。

2016年,谷歌团队发布了Inception-ResNet-v2 CNN,取得最好的结果在LSVRC图像分类的基准测试。受残差网络(ResNet)和Inception-v3模型的变化。剩余的连接可以快捷键存在于模型中,从而简化了完成深层神经网络训练模块和概念。Inception-ResNet-v2如图的网络结构4。与当前常见深如GoogLeNet和ResNet卷积神经网络模型,本文使用Inception-ResNet-v2网络作为基本框架,如图5

的网络结构Inception-ResNet-v2由Inception-v4和ResNet的组合。三个Inception-ResNet块(Inception-ResNet-A Inception-ResNet-B, Inception-ResNet-C)直接连接添加到渠道的多样化。与Inception-v4相比,它有更少的参数和更快的收敛。与此同时,它也有一定的减少机器的性能要求,可以设置更高的参数在相同的实验环境。Inception-ResNet-v2的卷积核比Inception-ResNet-v1更多样的渠道。CNN,常用的优化算法是梯度下降法,等。网络深度逐渐增加,训练误差降低,然后增加。

的建设思想提出了分类模型结构如下:(1)使用pretraining模型Inception-ResNet-v2 ImageNet大规模图像数据集,结合基于模型转移学习方法,图像的底层特征学习pretraining模型卷积模块迁移到网络的分类任务的初始化参数(2)训练分类模型提取的特征映射的输出作为输入,并取代过去的连接层pretraining网络数量类别的新闻视频数据集(3)完成新闻视频数据集上的分类和识别任务了

根据上述思想,分类模型基于学习和转移Inception-ResNet-v2 pretraining网络如图6

本文使用基于模型的转换学习方法构建分类模型结构,不仅可以节省培训时间和减少了实验硬件配置的要求,而且还解决了小样本训练过程造成的超调问题,模型的泛化能力更好。

3.4。模型优化基于梯度下降的方法

梯度下降法是最常用的目标函数优化算法领域的深度学习(28,29日),它的目的是找到函数的局部最小值。梯度下降法一般符合法律,函数值更接近目标值,相应的梯度下降,下降缓慢。梯度下降法是一个神经网络算法获得最优解的学习过程。常用的是批处理梯度下降(BGD),随机梯度下降法(SGD) miniBatch梯度下降(MBGD)和亚当。

亚当,作为自适应梯度算法,结合MBGD算法的思想和SGD算法和计算梯度的均值和方差来动态调整学习速率。这个算法不是敏感梯度缩放和对角重新调节,所以它非常适合处理稀疏数据和非静态的目标。这是目前最好的梯度下降算法性能。亚当算法计算公式如下: 在哪里 动量系数,默认值为0.9, 是一个常数,默认值为0.999, 是学习速率, 一步的重量值吗t和步骤t+ 1,分别 是10−8

本文介绍了动量更新规则基于亚当,和偏差修正项的动量矢量合成,动态调整动量偏差。亚当动态算法的更新过程如下:

我们可以从公式(4), 的默认值在哪里 是0.99。

4所示。实验结果和分析

4.1。实验环境和数据集

Windows10 64位的操作系统是用于实验,和处理器配置是国米(R)至强(R)银4110(电子邮件保护)GHz。建立、训练和测试的卷积神经网络由python语言编程,开源人工神经网络库Keras叫做创建模型,和NVIDIA GeForce 2080 GTX公司用来加速训练。共有362个新闻通过互联网视频样本收集和合作拍摄,和训练和测试数据集可以满足深层神经网络训练的需要是准备随后的分类模型的训练。数据显示在图的一部分7

4.2。评价指标

因为有几个类型的新闻视频,本文使用(精度(Acctop-1)作为评价指标: 在哪里N代表视频和的总数 代表视频的数量正确分类。

4.3。学习速率的选择和批量

学习速率控制步长梯度下降,和不同的学习速率有很大的影响在模型的收敛性和分类的准确性。为了优化实验结果,学习速率之间的关系和分类的结果进行了分析。尝试不同的学习速率模型下进行默认参数设置。图8显示损失值的变化与模型的训练过程中迭代次数。的数据量需要训练Inception-ResNet-v2网络模型通常是相对较大。在实验过程中,一批培训一般采用,也就是说,一批样本数据读取一次。批量大小的选择与GPU的内存大小。如果批处理大小太小,不能充分利用GPU的并行计算能力;如果太大,它可能超过GPU的计算能力,导致溢出的视频内存。图9显示了不同批次数量的影响在模型优化过程最初的学习速率是0.01。

从图可以看出8总的来说,更高的学习速率可以实现更快的收敛。0.01模型收敛慢,和0.2的学习速率可以实现快速收敛,但是最终的损失价值较高。这是因为学习速率过高可能错过最佳的解决方案,降低分类精度。然而,当学习速率为0.01,可以获得更好的结果,所以后续实验的初始学习速率设置为0.01。

从图可以看出9这批大小越大,损失价值的性能越好。批处理大小为64的模型收敛速度最快,至少失去了。然而,由于有限的配置、视频时,将发生内存溢出批大小是64,所以批大小参数选择在这个实验中是32。

4.4。优化算法的比较

实验方案编号1 - 4,五梯度下降优化算法,BGD, MBGD, SGD,亚当,亚当和动态,用于优化这个模型的参数。实验结果如表所示1

从表可以看出1亚当的动态优化算法的精度高于其他四个算法,这表明动态亚当优化算法具有更快的收敛速度,更高效率的网络参数优化和更好的学习效果。

4.5。网络模型的比较

实验方案编号1 - 10,十pretrained卷积神经网络模型,AlexNet, VGG16, VGG19, Inception-v3, Inception-v4, ResNet-50, resnet - 101, resnet - 152, Inception-ResNet-v1, Inception-ResNet-v2被用于实验。实验结果如表所示2,梯度下降优化算法是统一为动态的亚当。转移培训的策略是整个层和pretraining网络模型,和训练迭代步骤25000。

如表所示2,ResNet-50网络模型的训练结果精度最低,而Inception-ResNet-V2最高,和精度逐步提高网络模型的深度的增加,这表明卷积神经网络有一定的深度影响新闻视频分类和识别的结果。更深层次的网络结构中提取视频信息具有较强的能力和较高的分类精度。

5。结论

本文基于Inception-ResNet-v2网络新闻视频分类模型和传输实现学习。在这个模型中,用作pretraining ImageNet网络模型,以及基于模型的传输采用学习方法构建Inception-ResNet-v2网络模型结构,并采用动态亚当算法模型优化方法。实验结果表明,Inception-ResNet-v2网络提取新闻视频信息具有更强的能力,更有利于分类任务的实现。改进的亚当算法可以达到最快的收敛的迭代更新网络权值的自适应学习速率。与其他卷积神经网络模型相比,提出Inception-ResNet-v2网络模型的分类精度为常见的新闻视频数据是91.47%。

数据可用性

使用的实验数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称他们没有利益冲突的报告对于本研究。