研究排球视频智能描述技术相结合的长期和短期记忆网络和注意力机制

文摘

随着计算机技术的发展,视频描述相结合的关键技术在自然语言处理和计算机视觉领域,吸引了越来越多研究者的关注。其中,如何客观、有效地描述高速和详细的体育视频是视频描述的发展的关键领域。针对问题的句子错误和损失的视觉信息的生成视频描述文本由于缺少语言学习现有的视频中的信息描述方法,多线程模型相结合的长期和短期记忆网络和注意力机制提出了排球的智能描述视频。通过关注机制的引入,该模型关注的重要领域的视频在生成句子。通过不同模型的比较实验,结果表明,该模型与注意力机制可以有效地解决视觉信息的损失。LSTM和基本模型相比,多线程模型提出了相结合的长期和短期记忆网络和注意力机制,具有较高的各评价指标得分,显著提高排球的智能文本描述质量的视频。

1。介绍

大数据的不断发展,计算机的计算能力,和机器学习模型,视频描述技术又引发了研究热潮。视频描述技术是一个跨学科研究的问题。这是一个探索的深度学习技术领域的扩张multidata后自然语言处理领域的杰出成就,语音识别,计算机视觉1]。它可以广泛应用于视频检索、智能安全、人机交互、虚拟现实、帮助盲人理解电影和视频。它具有较高的应用价值和现实意义。在所有类型的多媒体数据,视频已成为当今社会信息传播的重要载体因其大量的信息和丰富的内容2]。视频传感器的快速发展,我们可以很容易地收集大量复杂的视频数据,以及如何使用自然语言来描述存储的信息已经成为一个迫切需要解决的问题。使用自然语言来描述视频的任务很简单,正常的人,但这是一个非常困难的任务计算机。它要求该方法可以跨越语义鸿沟的低级像素高级语言特性。语义鸿沟的存在带来了很大的困难,计算机自动描述视频。现有的视频描述通常是由手动标记视频数据。这种方法效率低下,常常是主观的,它很容易忽略很多细节(3]。因此,具有十分重要的现实意义,找到一个有效的和客观的方法来描述视频帮助人们更快更方便地检索视频。

深度学习的迅速发展,研究人员开始将这一技术应用于视频描述。当前研究通常使用卷积神经网络(CNN)结构编码器中提取视觉信息和短期记忆(LSTM)网络结构的译码器来预测描述句子(4]。虽然这些方法在一定程度上避免人工注释的主体性,由于缺乏语言学习的深度信息和语法监督在生成描述句子,预测描述句子将句子错误,例如缺少谓词和视觉信息的损失。同时,体育视频领域占有重要位置的视频描述由于其巨大的观众。特别是,排球视频经常出现高速和详细的特点,增加了理解的困难视频传感器的智能视觉目标的描述(5]。因此,视频传感器处理方法相结合的长期和短期记忆网络和注意力机制提出了排球的智能描述视频。注意机制的引入可以使模型关注的重要区域的图像/视频在生成句子,快速识别目标,并有效地解决视觉信息的损失。

针对问题的视觉信息的缺乏,语法错误,和强烈的主体性在视频描述方法在现有的视频传感器,提出了一种方法相结合的长期和短期记忆网络和注意力机制来描述排球视频。在第一部分,研究背景和意义的视频描述简要描述。第二部分简要介绍了视频的描述视频传感器的研究现状,讨论了需要解决的问题在当前视频描述方法,并使总体介绍本文的研究工作和研究方法。第三部分首先介绍了长期和短期记忆网络和注意力机制,然后给出了应用程序在排球视频描述相结合的长期和短期记忆网络和注意力机制模型。在第四部分中,选择数据集进行训练和测试,确定评价指标模型的识别效果。然后,建立一系列的控制实验来测试注意机制模型的有效性结合长期和短期记忆网络视频领域的描述。第五部分简要总结了本文的主要结论。

由于传感器技术的研究和开发,嵌入式技术,机器翻译,形象的描述,和注释的扩张视频数据集近年来,视频描述的任务视频传感器也吸引了研究人员的广泛关注,和视频描述方法的研究也取得了很大的进步6]。

早期的视频描述方法主要基于预定义的模板生成的句子。句子描述视频第一次被分成几个部分,每个部分应该与视觉内容,然后是单词从视觉上发现被填充到预定义的模板。小岛等人选择了最合适的动词和对象通过检测人体姿势;然后,内容显示的操作语义对应从视频图像中提取特征,最后发现填补了句法成分为常见的情况模板(7]。Rohrbach说道等人首先生成丰富的视觉内容的语义表示。他们模拟视觉输入的不同组件之间的关系通过学习条件随机场(CRF)。最后,他们表达了一代的自然语言作为机器翻译问题[8]。。托马森等人获得目标的信心,行动,和场景的视频通过视觉识别系统和估计最可能的主题,动词,与因子图模型对象,并将(女性生殖器切割)9]。然而,这些方法过于依赖预定义的模板和检测到的视觉元素,只能简单描述视频,缺乏表达语义的能力。

的发展卷积神经网络在图像分类任务中,三维卷积神经网络在视频分析的任务,和循环神经网络机器翻译任务,许多研究者深层神经网络应用于视频描述的任务。多纳休等人提出了长期复发卷积网络(LRCN)模型,可直接生成词序列通过循环神经网络不考虑生成描述语句的语法问题[10]。美国Venugopalan等人提出了一个基于LSTM视频描述模型,但这种方法只考虑视频帧的特征,而忽略了动力学和连续性的视频11]。美国Venugopalan等人提出了一个两级视频描述框架,它是由一个多通道的视频编码器和解码器的语言生成的句子。编码功能结合使用融合层,和获得的特征输入到语言解码成一系列词汇(12]。c .张和田等人提出了一个长期和短期记忆和视觉语义网络嵌入,可以探索学习的嵌入LSTM和视觉语义(13]。姚等人提出的方法考虑了当地行动视频时生成视频的特点描述,使用用卷积神经网络提取视频的特征的局部作用特性视频,使用二维卷积神经网络提取视频的外观特征,并结合时间关注(TA)探索全球视频的时间结构(14,15]。这些视频描述方法只考虑视觉特性和忽略了丰富的视频语义信息。语义概念是高度相关的视觉内容,广泛应用于视觉识别任务。

总之,尽管视频描述研究方法取得了良好的成就,仍有许多改进的空间在视频特征提取,视频时间特性,和视频多语种文本描述。针对这一点,本文描述了排球网络视频相结合的长期和短期记忆和注意力机制。被关注的重要领域视频中,模型可以快速识别目标,有效地解决视觉信息的缺乏,和有一个良好的视频描述效果时,视觉传感器处理排球视频。

3所示。排球视频基于长期和短期记忆网络描述模型和注意力机制

3.1。长期和短期记忆网络

作为一个普通循环神经网络,改善结构的长期和短期记忆网络(LSTM)可以处理变量的输入和输出序列,可以有效地避免梯度消失的问题16]。LSTM单元输出隐藏状态的步骤t依靠输入当前步骤的t和隐藏的状态的时间t−1的前一步。LSTM单位,当前步骤的输入信息的流动和历史记忆信息控制的输入控制和忘记控制单元。计算方法如下:

的公式,是乙状结肠激活函数,是双曲正切激活函数,代表向量的乘法操作点,权重矩阵和偏移向量是可训练的参数。

针对自动生成的视频描述的问题,基于LSTM循环神经网络中,通过预测序列的特性给定的输入视频输出的条件概率词序列是

LSTM模型是基于encoder-decoder框架,及其结构如图1。在编码阶段,LSTM层编码器使用的输入序列计算中间隐藏状态 (17]。在解码阶段,条件概率预测通过LSTM层和softmax编码器的输出层。通过链接每一步的概率,条件概率给定输入的序列X和输出序列Y得到如下:

在模型训练阶段,模型的参数更新通过最大化对数似然概率,也就是说,

代表模型的参数,优化方法采用随机梯度下降的方法。

3.2。注意机制

encoder-decoder框架结合机制的关注可以学习自动校准和翻译模型的训练过程中。当生成新的目标简短的语言文字,能找到相关源的位置的话,然后解码器结合内容向量获得这些位置和生成的目标单词来预测目标单词生成(18]。这种方法的最大区别结合注意机制和基本encoder-decoder方法是,它不需要编码整个句子输入到一个固定长度的向量,但编码输入句子译成一个向量序列和动态选择的一个子集向量序列,形成一个新的内容向量解码过程的每一步生成单词在目标端(19]。动态内容向量的计算方法结合注意力机制如图2。

对于步骤我解码过程,内容向量加权的隐藏状态序列输出编码器和注意体重 :

注意重量的计算方法隐藏状态如下:

这是前馈神经网络模型计算自动对齐:

的公式,是隐藏的状态译码器的时候吗 ,和的参数更新模型和其他参数的翻译模型通过训练过程。

3.3。排球网络视频描述模型结合长期和短期记忆和注意力机制

排球视频智能任务的描述、卷积神经网络通常是用于提取图像特征,和LSTM用于提取内容向量。内容的表示能力向量通过这种方法是有限的。注意机制可以选择性地关注的视频帧序列子集产生的词描述对象或动作的子集对应的帧序列。与传统模式不同,视频智能网络描述模型结合的长期和短期记忆和注意力机制可以动态调整的上下文向量输出编码器的功能,实现自动软对齐代替卷积层和循环神经单元层与self-attention层(20.]。它的框架如图3。

从图可以看出3、视频智能网络描述模型结合的长期和短期记忆和注意力机制是基于encoder-decoder框架,主要由编码器,译码器,特征提取层底部,嵌入层、线性层,softmax层顶部。

视觉特征提取层使用代表的视觉特征提取功能;然后,连续多帧输入给定的视频

的公式, 高度,宽度,和数字频道的形象,然后呢是序列长度。每一帧的视觉特征提取,分别为:

连续帧的视觉特征序列可以获得:

的公式,是维特征。视觉特征提取层后,介绍了线性嵌入层映射合适维度的高维特征向量计算的编码器。嵌入式层的计算方法和获得,是向量维度查询的,钥匙,和价值的过程中计算self-attention重量。位置信息的编码帧层的计算方法如下:

这里是编码序列的位置信息,可以通过人为地设置规则和固定的转换功能。构造函数摘要的位置信息

这里的三角函数在相同的位置有不同的频率特性和不同维度;特性的不同位置相同的维度,他们的阶段是不同的。使用三角函数的原因是,相对位置的特征可以被描述为线性变换,所以它可以表达在一定程度上相对位置的信息,和三角函数不同频率引入多元化的表达位置信息。

在模型中,self-attention模块采用多线程机制的关注。与点积的关注相比,这种机制的特性的表达能力是更为多样化,及其计算过程(21]

的公式,h是“正面”的数量在多个正面,然后呢是可训练的参数。self-attention模块主要包括归一化、self-attention层,剩余连接。远期self-attention模块的计算过程层l可以表示如下: 在哪里是可训练的参数,将前一层的输出转换成三的查询,钥匙,和价值。LayerNorm表示归一化函数。层标准化规范化的特点。结合的缩放操作点产品的注意机制,整个计算过程的数值是更稳定的,和在训练收敛速度更快。

4所示。研究视频描述效果相结合的长期和短期记忆网络和注意力机制

4.1。数据集和评价指标

实验选择了两种常用的数据集对视频描述一代来验证模型的有效性;他们MSVD MSR-VTT数据集。微软研究院视频描述(MSVD):这个数据集包含了1970个视频剪辑。每个视频描述了一个活动,持续时间10到25个年代,平均长度约9 s [22]。本文选择数据集的前1200个视频剪辑作为训练集,接下来的100片段作为验证集,和其余670剪辑作为测试集。微软研究院视频文本(MSR-VTT):数据集包含10000个视频剪辑和20个视频类型(23]。使用公共数据集划分方法,6513年选择视频剪辑作为训练集,497片段作为验证集,和2990片段作为测试集。

为了客观地代表算法生成的文本描述的质量,本文选择四种不同的客观评价方法,测试算法的性能,BLEU@4, ROUGE-L,流星和苹果酒。测量距离之间生成的描述文本和手册描述文本,ROUGE-L指数往往计算召回率,流星指数适用于机器翻译领域,苹果酒是用来评估质量的自动图像描述(24- - - - - -27]。

4.2。探索参数添加剂的融合模块

为了验证注意融合模块的有效性,为MSR-VTT数据集,与不同的参数选择比较的性能添加剂融合模块和注重融合模块。测试结果如图4。

(一)

(b)

(c)

(d)

图4显示了该添加剂比较关注模块和融合模块根据不同的参数。评价结果表明,当参数调整到0.4,但其流星和苹果汁分数仍低于注重融合模块。因此,与固定重量比相比,引入的动态关注体重关注融合模块更灵活融合多通道特性和能产生更高质量的文本描述。

4.3。比较与LSTM模型

为了验证视频描述模型的性能相结合的长期和短期记忆网络和注意力机制,本文实现了一个基于LSTM主流视频描述模型。除了编码器和译码器的结构是不同的,评价指标比较MSVD和MSR-VVT数据集当其他参数设置接近相同的参数。本文关注机制的模型是记录为多线程模型,模型没有注意机制和BiLSTM记录。视觉提取层使用resnet记录为R - 152和使用NASNet N。评价结果如图5和6。水平和垂直尺寸图的算法模型,和垂直坐标的分数不同的模型。

从图可以看出5的流星和苹果汁分数上的多线程模型MSVD高于BiLSTM模型的数据集。这两个指标可以更好地反映质量的文本描述,表明文本描述生成的质量一直关注机制的引入后显著提高。

从图可以看出6,除了ROUGE-L得分,其他三个指标上的多线程模型MSR-VTT高于BiLSTM模型的数据集。这是因为注意力机制的引入可以使视觉特征序列和词序列的结构更加灵活,可以获得更好的视频和句子内容表示。

此外,在实验中,NASNet视觉特征提取,大大改进了MSVD数据集与resnet - 152和MSR-VTT数据集仅略有下降,这表明NASNet pretraining模型具有很强的泛化能力。

4.4。比较不同参数的聚类搜索

为了研究不同参数对多线程模型的影响,探讨了不同的光束宽度的影响k和长度的惩罚系数文本质量MSVD测试集生成的模型。首先,控制长度惩罚系数= 1.0保持不变,改变波束宽度k1、3、5、10和20日分别。评价结果如图所示7。

评价结果图7显示不同的光束宽度的影响生成的文本的质量。结果表明,生成的文本可以获得更高的评价分数与波束宽度的增加,但当超过5的波束宽度增加,获得的分数相对较小,和苹果酒分数将略有下降,这将带来更大的搜索成本。因此,波束宽度的5是用于后续实验。

评价结果图8显示不同长度的影响,惩罚系数生成的文本的质量。结果表明,当长度惩罚系数没有设置或惩罚系数很小,产生的平均句子长度很短,这是由于倾向于输出短期间候选序列搜索技术。BLEU@4分数是用来计算精度。长度惩罚系数越小,得分越高,但这没有影响其他分数. .当生成的句子很短,精度将会提高,因为有更少的4元组生成的句子。

4.5。比较的基准模型

这部分是验证的有效性多线程网络模型结合的长期和短期记忆和注意力机制模型和比较它与基准模型BaseModel MSVD MSR-VTT数据集,分别。测试结果如图9和10,分别。

从图可以看出9,静态视觉特征提取通过NASNet MSVD数据集与resnet相比大大提高了- 152。多线程模型的指数得分比BaseModel,这表明本文提出的方法具有显著改善质量的文本描述与基线相比模型。

从图可以看出10,NASNet resnet - 152 MSR-VTT数据集具有相同的性能。多线程模型的指数得分明显高于BaseModel,这表明本文提出的方法具有一定的泛化能力,极大地提高了质量的文本描述与基线相比模型。

5。结论

摘要视频传感器处理方法结合长期和短期记忆网络和注意力机制提出了排球的智能描述视频。注意机制的引入可以使模型关注的重要领域图像/视频生成句子时,快速识别目标,并有效地解决视觉信息损失的问题。通过不同模型的比较实验,结果表明,动态注意力关注融合模块引入的重量比固定重量更灵活,可以生成高质量的文本描述。LSTM和基本模型相比,多线程模型提出了结合了长期和短期记忆网络和注意力机制,各评价指标,分数高,极大地提高了排球的智能文本描述质量的视频。该模型具有很强的泛化能力和良好性能的智能描述排球视频。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了广东省自然科学基金(没有。2014 a030310430),研究技术和战术节奏模型及其形成机制的精英运动员在中国“三大球赛”。

引用

z . Chang和d .赵”审查基于深度学习的视频描述方法,”天津大学技术杂志》上,36卷,不。6,20-26,2020页。视图:谷歌学术搜索
j .你们基于视觉的语义增强视频描述的一代浙江大学的技术和产业,杭州,中国,2019。
j .徐关键技术的监控视频运动目标检测和行人结构化描述基于深度学习山东大学,济南,中国,2019。
h . y . Li Zongbo, l .挂“卷积神经网络审查,”计算机应用,36卷,不。9日,第2515 - 2508页,2016年。视图:谷歌学术搜索
g .朱研究体育视频内容分析方法基于团队成员行为的信息、哈尔滨工业大学、哈尔滨,中国,2011。
c .王、刘y和p . Wang“农业机械运动导航系统基于双目视觉检测技术,”Electrotehnica,电子,自动化,卷62,不。2、2020。视图:谷歌学术搜索
小岛,t (k .巨大,“人类活动的自然语言描述视频图像基于概念层次的行动,”国际计算机视觉杂志》上,50卷,不。2、171 - 184年,2002页。视图:出版商的网站|谷歌学术搜索
m . Rohrbach说道,w .秋和季托夫,“翻译视频内容自然语言描述,”学报2013年IEEE计算机视觉国际会议IEEE,悉尼,澳大利亚,2013年12月。视图:谷歌学术搜索
j。托马森,s . Venugopalan和s . Guadarrama”整合语言和视觉生成自然语言描述的视频在野外,”25日计算语言学国际会议的程序(科尔2014)2014年12月,爱尔兰都柏林,。视图:谷歌学术搜索
j·多纳休,l·a·亨德里克斯,s . Guadarrama长期反复卷积网络视觉识别和描述爱思唯尔,阿姆斯特丹,荷兰,2015年。
s . Venugopalan h .徐,j·多纳休”翻译视频自然语言递归神经网络,深”计算机科学,3卷,2014年。视图:谷歌学术搜索
s . Venugopalan m . Rohrbach说道,j·多纳休“序列sequence-video文本,”《IEEE 2015 IEEE计算机视觉国际会议(ICCV),页4534 - 4542,圣地亚哥,智利,2015年9月。视图:谷歌学术搜索
c . Zhang和y田”,自动通过多渠道顺序编码,视频字幕”欧洲计算机视觉的诉讼施普林格国际出版,阿姆斯特丹,荷兰,2016年10月。视图:谷歌学术搜索
y锅、t·梅和t .姚明,”联合建模嵌入和翻译桥视频和语言,”学报2016年IEEE计算机视觉与模式识别会议(CVPR)美国拉斯维加斯,NV, 2016年6月。视图:谷歌学术搜索
l .姚明,a Torabi, k .赵“描述视频利用时态结构,”《IEEE 2015 IEEE计算机视觉国际会议(ICCV),页4507 - 4515,圣地亚哥,智利,2015年12月。视图:谷歌学术搜索
k . Gre Ff, r·k·斯利瓦斯塔瓦和j . Koutnik”LSTM:搜索太空漫游”,IEEE神经网络和学习系统,28卷,不。10日,2222 - 2232年,2016页。视图:谷歌学术搜索
苏x, y, y赵“蒙古中国神经机器翻译基于编码器解码器重建框架,“计算机应用与软件,37卷,不。4、155150 - 155163年,2020页。视图:谷歌学术搜索
j . h . Wang史>,“语义关系提取LSTM基于注意机制,“计算机应用研究,35卷,不。5,143 - 146年,2018页。视图:谷歌学术搜索
m·李图像显著区域提取算法的分析和比较基于注意机制,北京交通大学,北京,中国,2020。
m . Mukhiddinov r·g·宋,j .曹”显著削减:凸区域提取基于局部自适应阈值图像信息识别的视觉障碍人士,“国际阿拉伯信息技术杂志》上,17卷,不。5,页713 - 720。视图:谷歌学术搜索
x熊和p .严,“中国集成多分类方法头自我注意力机制,“电子测量技术,43卷,不。10日,130 - 135年,2020页。视图:谷歌学术搜索
美国Guadarrama: Krishnamoorthy, g . Malkarnenkar”YouTube2Text:识别和描述任意使用语义层次和zero-shot识别活动,”《IEEE计算机视觉国际会议IEEE,哥伦布,哦,美国,2014年6月。视图:谷歌学术搜索
j .徐m t, t .姚明,“MSR-VTT:大型视频连接视频和语言描述的数据集,”《计算机视觉与模式识别会议(CVPR)美国IEEE,内华达州拉斯维加斯,2016年6月。视图:谷歌学术搜索
美国Papineni,《计算语言学协会的会议、计算语言学协会、大学公园,妈,美国,2002年6月。
j.p. Ng和诉Abrecht”,更好的总结评价词嵌入的胭脂,”2015年,https://arxiv.org/abs/1508.06034。视图:谷歌学术搜索
b Satanjeev“流星:自动度量太评价与改进的相关性与人类的判断,“ACL7卷,第231 - 228页,2005年。视图:谷歌学术搜索
苹果酒,“一致同意的形象描述评价”学报2015年IEEE计算机视觉与模式识别会议(CVPR)美国,IEEE,波士顿,MA, 2015年6月。视图:谷歌学术搜索

计算智能和神经科学

计算智能在图像和视频分析