CINgydF4y2Ba 计算智能和神经科学gydF4y2Ba 1687 - 5273gydF4y2Ba 1687 - 5265gydF4y2Ba HindawigydF4y2Ba 10.1155 / 2021/7088837gydF4y2Ba 7088837gydF4y2Ba 研究文章gydF4y2Ba 研究排球视频智能描述技术相结合的长期和短期记忆网络和注意力机制gydF4y2Ba https://orcid.org/0000 - 0002 - 9332 - 1596gydF4y2Ba 高gydF4y2Ba 昙花gydF4y2Ba 1gydF4y2Ba https://orcid.org/0000 - 0003 - 0051 - 1655gydF4y2Ba 莫gydF4y2Ba 勇gydF4y2Ba 2gydF4y2Ba https://orcid.org/0000 - 0003 - 0993 - 2608gydF4y2Ba 张gydF4y2Ba 恒gydF4y2Ba 3gydF4y2Ba https://orcid.org/0000 - 0002 - 8644 - 263 xgydF4y2Ba 黄gydF4y2Ba RuiyingydF4y2Ba 1gydF4y2Ba https://orcid.org/0000 - 0002 - 2977 - 1824gydF4y2Ba 陈gydF4y2Ba 乎gydF4y2Ba 1gydF4y2Ba 丁gydF4y2Ba 白元gydF4y2Ba 1gydF4y2Ba 广州体育大学gydF4y2Ba 广州gydF4y2Ba 广东510500年gydF4y2Ba 中国gydF4y2Ba gipe.edu.cngydF4y2Ba 2gydF4y2Ba 广东白云大学gydF4y2Ba 广州gydF4y2Ba 广东510450年gydF4y2Ba 中国gydF4y2Ba baiyunu.edu.cngydF4y2Ba 3gydF4y2Ba 英山县温泉1号中学gydF4y2Ba 湖北gydF4y2Ba 438700年鹰gydF4y2Ba 中国gydF4y2Ba 2021年gydF4y2Ba 14gydF4y2Ba 10gydF4y2Ba 2021年gydF4y2Ba 2021年gydF4y2Ba 27gydF4y2Ba 8gydF4y2Ba 2021年gydF4y2Ba 25gydF4y2Ba 9gydF4y2Ba 2021年gydF4y2Ba 27gydF4y2Ba 9gydF4y2Ba 2021年gydF4y2Ba 14gydF4y2Ba 10gydF4y2Ba 2021年gydF4y2Ba 2021年gydF4y2Ba 版权©2021昙花高et al。gydF4y2Ba 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。gydF4y2Ba

随着计算机技术的发展,视频描述相结合的关键技术在自然语言处理和计算机视觉领域,吸引了越来越多研究者的关注。其中,如何客观、有效地描述高速和详细的体育视频是视频描述的发展的关键领域。针对问题的句子错误和损失的视觉信息的生成视频描述文本由于缺少语言学习现有的视频中的信息描述方法,多线程模型相结合的长期和短期记忆网络和注意力机制提出了排球的智能描述视频。通过关注机制的引入,该模型关注的重要领域的视频在生成句子。通过不同模型的比较实验,结果表明,该模型与注意力机制可以有效地解决视觉信息的损失。LSTM和基本模型相比,多线程模型提出了相结合的长期和短期记忆网络和注意力机制,具有较高的各评价指标得分,显著提高排球的智能文本描述质量的视频。gydF4y2Ba

广东省自然科学基金gydF4y2Ba 2014年a030310430gydF4y2Ba
1。介绍gydF4y2Ba

大数据的不断发展,计算机的计算能力,和机器学习模型,视频描述技术又引发了研究热潮。视频描述技术是一个跨学科研究的问题。这是一个探索的深度学习技术领域的扩张multidata后自然语言处理领域的杰出成就,语音识别,计算机视觉gydF4y2Ba 1gydF4y2Ba]。它可以广泛应用于视频检索、智能安全、人机交互、虚拟现实、帮助盲人理解电影和视频。它具有较高的应用价值和现实意义。在所有类型的多媒体数据,视频已成为当今社会信息传播的重要载体因其大量的信息和丰富的内容gydF4y2Ba 2gydF4y2Ba]。视频传感器的快速发展,我们可以很容易地收集大量复杂的视频数据,以及如何使用自然语言来描述存储的信息已经成为一个迫切需要解决的问题。使用自然语言来描述视频的任务很简单,正常的人,但这是一个非常困难的任务计算机。它要求该方法可以跨越语义鸿沟的低级像素高级语言特性。语义鸿沟的存在带来了很大的困难,计算机自动描述视频。现有的视频描述通常是由手动标记视频数据。这种方法效率低下,常常是主观的,它很容易忽略很多细节(gydF4y2Ba 3gydF4y2Ba]。因此,具有十分重要的现实意义,找到一个有效的和客观的方法来描述视频帮助人们更快更方便地检索视频。gydF4y2Ba

深度学习的迅速发展,研究人员开始将这一技术应用于视频描述。当前研究通常使用卷积神经网络(CNN)结构编码器中提取视觉信息和短期记忆(LSTM)网络结构的译码器来预测描述句子(gydF4y2Ba 4gydF4y2Ba]。虽然这些方法在一定程度上避免人工注释的主体性,由于缺乏语言学习的深度信息和语法监督在生成描述句子,预测描述句子将句子错误,例如缺少谓词和视觉信息的损失。同时,体育视频领域占有重要位置的视频描述由于其巨大的观众。特别是,排球视频经常出现高速和详细的特点,增加了理解的困难视频传感器的智能视觉目标的描述(gydF4y2Ba 5gydF4y2Ba]。因此,视频传感器处理方法相结合的长期和短期记忆网络和注意力机制提出了排球的智能描述视频。注意机制的引入可以使模型关注的重要区域的图像/视频在生成句子,快速识别目标,并有效地解决视觉信息的损失。gydF4y2Ba

针对问题的视觉信息的缺乏,语法错误,和强烈的主体性在视频描述方法在现有的视频传感器,提出了一种方法相结合的长期和短期记忆网络和注意力机制来描述排球视频。在第一部分,研究背景和意义的视频描述简要描述。第二部分简要介绍了视频的描述视频传感器的研究现状,讨论了需要解决的问题在当前视频描述方法,并使总体介绍本文的研究工作和研究方法。第三部分首先介绍了长期和短期记忆网络和注意力机制,然后给出了应用程序在排球视频描述相结合的长期和短期记忆网络和注意力机制模型。在第四部分中,选择数据集进行训练和测试,确定评价指标模型的识别效果。然后,建立一系列的控制实验来测试注意机制模型的有效性结合长期和短期记忆网络视频领域的描述。第五部分简要总结了本文的主要结论。gydF4y2Ba

2。相关的工作gydF4y2Ba

由于传感器技术的研究和开发,嵌入式技术,机器翻译,形象的描述,和注释的扩张视频数据集近年来,视频描述的任务视频传感器也吸引了研究人员的广泛关注,和视频描述方法的研究也取得了很大的进步gydF4y2Ba 6gydF4y2Ba]。gydF4y2Ba

早期的视频描述方法主要基于预定义的模板生成的句子。句子描述视频第一次被分成几个部分,每个部分应该与视觉内容,然后是单词从视觉上发现被填充到预定义的模板。小岛等人选择了最合适的动词和对象通过检测人体姿势;然后,内容显示的操作语义对应从视频图像中提取特征,最后发现填补了句法成分为常见的情况模板(gydF4y2Ba 7gydF4y2Ba]。Rohrbach说道等人首先生成丰富的视觉内容的语义表示。他们模拟视觉输入的不同组件之间的关系通过学习条件随机场(CRF)。最后,他们表达了一代的自然语言作为机器翻译问题[gydF4y2Ba 8gydF4y2Ba]。。托马森等人获得目标的信心,行动,和场景的视频通过视觉识别系统和估计最可能的主题,动词,与因子图模型对象,并将(女性生殖器切割)gydF4y2Ba 9gydF4y2Ba]。然而,这些方法过于依赖预定义的模板和检测到的视觉元素,只能简单描述视频,缺乏表达语义的能力。gydF4y2Ba

的发展卷积神经网络在图像分类任务中,三维卷积神经网络在视频分析的任务,和循环神经网络机器翻译任务,许多研究者深层神经网络应用于视频描述的任务。多纳休等人提出了长期复发卷积网络(LRCN)模型,可直接生成词序列通过循环神经网络不考虑生成描述语句的语法问题[gydF4y2Ba 10gydF4y2Ba]。美国Venugopalan等人提出了一个基于LSTM视频描述模型,但这种方法只考虑视频帧的特征,而忽略了动力学和连续性的视频gydF4y2Ba 11gydF4y2Ba]。美国Venugopalan等人提出了一个两级视频描述框架,它是由一个多通道的视频编码器和解码器的语言生成的句子。编码功能结合使用融合层,和获得的特征输入到语言解码成一系列词汇(gydF4y2Ba 12gydF4y2Ba]。c .张和田等人提出了一个长期和短期记忆和视觉语义网络嵌入,可以探索学习的嵌入LSTM和视觉语义(gydF4y2Ba 13gydF4y2Ba]。姚等人提出的方法考虑了当地行动视频时生成视频的特点描述,使用用卷积神经网络提取视频的特征的局部作用特性视频,使用二维卷积神经网络提取视频的外观特征,并结合时间关注(TA)探索全球视频的时间结构(gydF4y2Ba 14gydF4y2Ba,gydF4y2Ba 15gydF4y2Ba]。这些视频描述方法只考虑视觉特性和忽略了丰富的视频语义信息。语义概念是高度相关的视觉内容,广泛应用于视觉识别任务。gydF4y2Ba

总之,尽管视频描述研究方法取得了良好的成就,仍有许多改进的空间在视频特征提取,视频时间特性,和视频多语种文本描述。针对这一点,本文描述了排球网络视频相结合的长期和短期记忆和注意力机制。被关注的重要领域视频中,模型可以快速识别目标,有效地解决视觉信息的缺乏,和有一个良好的视频描述效果时,视觉传感器处理排球视频。gydF4y2Ba

3所示。排球视频基于长期和短期记忆网络描述模型和注意力机制gydF4y2Ba 3.1。长期和短期记忆网络gydF4y2Ba

作为一个普通循环神经网络,改善结构的长期和短期记忆网络(LSTM)可以处理变量的输入和输出序列,可以有效地避免梯度消失的问题gydF4y2Ba 16gydF4y2Ba]。LSTM单元输出隐藏状态gydF4y2Ba hgydF4y2Ba tgydF4y2Ba 的步骤gydF4y2Ba tgydF4y2Ba依靠输入gydF4y2Ba xgydF4y2Ba tgydF4y2Ba 当前步骤的gydF4y2Ba tgydF4y2Ba和隐藏的状态gydF4y2Ba hgydF4y2Ba tgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba 的时间gydF4y2Ba tgydF4y2Ba−1的前一步。LSTM单位,当前步骤的输入信息的流动和历史记忆信息控制的输入控制和忘记控制单元。计算方法如下:gydF4y2Ba (1)gydF4y2Ba 我gydF4y2Ba tgydF4y2Ba =gydF4y2Ba σgydF4y2Ba WgydF4y2Ba xgydF4y2Ba 我gydF4y2Ba xgydF4y2Ba tgydF4y2Ba +gydF4y2Ba WgydF4y2Ba hgydF4y2Ba 我gydF4y2Ba hgydF4y2Ba tgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba bgydF4y2Ba 我gydF4y2Ba ,gydF4y2Ba fgydF4y2Ba tgydF4y2Ba =gydF4y2Ba σgydF4y2Ba WgydF4y2Ba xgydF4y2Ba fgydF4y2Ba xgydF4y2Ba tgydF4y2Ba +gydF4y2Ba WgydF4y2Ba hgydF4y2Ba fgydF4y2Ba hgydF4y2Ba tgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba bgydF4y2Ba fgydF4y2Ba ,gydF4y2Ba ogydF4y2Ba tgydF4y2Ba =gydF4y2Ba σgydF4y2Ba WgydF4y2Ba xgydF4y2Ba ogydF4y2Ba xgydF4y2Ba tgydF4y2Ba +gydF4y2Ba WgydF4y2Ba hgydF4y2Ba ogydF4y2Ba hgydF4y2Ba tgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba bgydF4y2Ba ogydF4y2Ba ,gydF4y2Ba ggydF4y2Ba tgydF4y2Ba =gydF4y2Ba fgydF4y2Ba WgydF4y2Ba xgydF4y2Ba ggydF4y2Ba xgydF4y2Ba tgydF4y2Ba +gydF4y2Ba WgydF4y2Ba hgydF4y2Ba ggydF4y2Ba hgydF4y2Ba tgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba bgydF4y2Ba ggydF4y2Ba ,gydF4y2Ba cgydF4y2Ba tgydF4y2Ba =gydF4y2Ba fgydF4y2Ba tgydF4y2Ba ⊙gydF4y2Ba cgydF4y2Ba tgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 我gydF4y2Ba tgydF4y2Ba ⊙gydF4y2Ba ggydF4y2Ba tgydF4y2Ba ,gydF4y2Ba hgydF4y2Ba tgydF4y2Ba =gydF4y2Ba ogydF4y2Ba tgydF4y2Ba ⊙gydF4y2Ba ΦgydF4y2Ba cgydF4y2Ba tgydF4y2Ba 。gydF4y2Ba

的公式,gydF4y2Ba σgydF4y2Ba 是乙状结肠激活函数,gydF4y2Ba ΦgydF4y2Ba 是双曲正切激活函数,gydF4y2Ba ⊙gydF4y2Ba 代表向量的乘法操作点,权重矩阵gydF4y2Ba WgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba 和偏移向量gydF4y2Ba bgydF4y2Ba jgydF4y2Ba 是可训练的参数。gydF4y2Ba

针对自动生成的视频描述的问题,基于LSTM循环神经网络中,通过预测序列的特性gydF4y2Ba xgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba xgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba xgydF4y2Ba ngydF4y2Ba 给定的输入视频输出的条件概率词序列gydF4y2Ba ygydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba ygydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba ygydF4y2Ba 米gydF4y2Ba 是gydF4y2Ba (2)gydF4y2Ba pgydF4y2Ba ygydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba ygydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba ygydF4y2Ba 米gydF4y2Ba |gydF4y2Ba xgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba xgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba xgydF4y2Ba ngydF4y2Ba 。gydF4y2Ba

LSTM模型是基于encoder-decoder框架,及其结构如图gydF4y2Ba 1gydF4y2Ba。在编码阶段,LSTM层编码器使用的输入序列gydF4y2Ba XgydF4y2Ba xgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba xgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba xgydF4y2Ba ngydF4y2Ba 计算中间隐藏状态gydF4y2Ba hgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba hgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba hgydF4y2Ba ngydF4y2Ba (gydF4y2Ba 17gydF4y2Ba]。在解码阶段,条件概率预测通过LSTM层和softmax编码器的输出层。通过链接每一步的概率,条件概率给定输入的序列gydF4y2Ba XgydF4y2Ba和输出序列gydF4y2Ba YgydF4y2Ba得到如下:gydF4y2Ba (3)gydF4y2Ba pgydF4y2Ba ygydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba ygydF4y2Ba 米gydF4y2Ba |gydF4y2Ba xgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba xgydF4y2Ba ngydF4y2Ba =gydF4y2Ba ∏gydF4y2Ba tgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 米gydF4y2Ba pgydF4y2Ba ygydF4y2Ba tgydF4y2Ba |gydF4y2Ba hgydF4y2Ba ngydF4y2Ba +gydF4y2Ba tgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba ygydF4y2Ba tgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba 。gydF4y2Ba

网络视频描述模型基于长期和短期记忆。gydF4y2Ba

在模型训练阶段,模型的参数更新通过最大化对数似然概率,也就是说,gydF4y2Ba (4)gydF4y2Ba θgydF4y2Ba ∗gydF4y2Ba =gydF4y2Ba argmaxgydF4y2Ba θgydF4y2Ba ∑gydF4y2Ba tgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 米gydF4y2Ba 日志gydF4y2Ba pgydF4y2Ba ygydF4y2Ba tgydF4y2Ba |gydF4y2Ba hgydF4y2Ba ngydF4y2Ba +gydF4y2Ba tgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba ygydF4y2Ba tgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba ;gydF4y2Ba θgydF4y2Ba 。gydF4y2Ba

θgydF4y2Ba 代表模型的参数,优化方法采用随机梯度下降的方法。gydF4y2Ba

3.2。注意机制gydF4y2Ba

encoder-decoder框架结合机制的关注可以学习自动校准和翻译模型的训练过程中。当生成新的目标简短的语言文字,能找到相关源的位置的话,然后解码器结合内容向量获得这些位置和生成的目标单词来预测目标单词生成(gydF4y2Ba 18gydF4y2Ba]。这种方法的最大区别结合注意机制和基本encoder-decoder方法是,它不需要编码整个句子输入到一个固定长度的向量,但编码输入句子译成一个向量序列和动态选择的一个子集向量序列,形成一个新的内容向量解码过程的每一步生成单词在目标端(gydF4y2Ba 19gydF4y2Ba]。动态内容向量的计算方法结合注意力机制如图gydF4y2Ba 2gydF4y2Ba。gydF4y2Ba

计算图的注意机制。gydF4y2Ba

对于步骤gydF4y2Ba 我gydF4y2Ba解码过程,内容向量gydF4y2Ba cgydF4y2Ba 我gydF4y2Ba 加权的隐藏状态序列gydF4y2Ba hgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba hgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba hgydF4y2Ba TgydF4y2Ba 输出编码器和注意体重gydF4y2Ba 一个gydF4y2Ba 我gydF4y2Ba jgydF4y2Ba :gydF4y2Ba (5)gydF4y2Ba cgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba TgydF4y2Ba αgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba hgydF4y2Ba jgydF4y2Ba 。gydF4y2Ba

注意重量的计算方法gydF4y2Ba 一个gydF4y2Ba 我gydF4y2Ba jgydF4y2Ba 隐藏状态gydF4y2Ba hgydF4y2Ba jgydF4y2Ba 如下:gydF4y2Ba (6)gydF4y2Ba αgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 经验值gydF4y2Ba egydF4y2Ba 我gydF4y2Ba jgydF4y2Ba ∑gydF4y2Ba kgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba TgydF4y2Ba 经验值gydF4y2Ba egydF4y2Ba 我gydF4y2Ba kgydF4y2Ba 。gydF4y2Ba

egydF4y2Ba 我gydF4y2Ba jgydF4y2Ba 这是前馈神经网络模型计算自动对齐:gydF4y2Ba (7)gydF4y2Ba egydF4y2Ba 我gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 一个gydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba −gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba hgydF4y2Ba jgydF4y2Ba 。gydF4y2Ba

的公式,gydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba −gydF4y2Ba 1gydF4y2Ba 是隐藏的状态译码器的时候吗gydF4y2Ba tgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba 和的参数gydF4y2Ba 一个gydF4y2Ba 问gydF4y2Ba ,gydF4y2Ba kgydF4y2Ba 更新模型和其他参数的翻译模型通过训练过程。gydF4y2Ba

3.3。排球网络视频描述模型结合长期和短期记忆和注意力机制gydF4y2Ba

排球视频智能任务的描述、卷积神经网络通常是用于提取图像特征,和LSTM用于提取内容向量。内容的表示能力向量通过这种方法是有限的。注意机制可以选择性地关注的视频帧序列子集产生的词描述对象或动作的子集对应的帧序列。与传统模式不同,视频智能网络描述模型结合的长期和短期记忆和注意力机制可以动态调整的上下文向量输出编码器的功能,实现自动软对齐代替卷积层和循环神经单元层与self-attention层(gydF4y2Ba 20.gydF4y2Ba]。它的框架如图gydF4y2Ba 3gydF4y2Ba。gydF4y2Ba

网络视频智能描述模型结合长期短期记忆和注意力机制。gydF4y2Ba

从图可以看出gydF4y2Ba 3gydF4y2Ba、视频智能网络描述模型结合的长期和短期记忆和注意力机制是基于encoder-decoder框架,主要由编码器,译码器,特征提取层底部,嵌入层、线性层,softmax层顶部。gydF4y2Ba

视觉特征提取层使用gydF4y2Ba fgydF4y2Ba 2gydF4y2Ba dgydF4y2Ba CgydF4y2Ba NgydF4y2Ba NgydF4y2Ba 代表的视觉特征提取功能;然后,连续多帧输入给定的视频gydF4y2Ba (8)gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 我gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba TgydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba tgydF4y2Ba ∈gydF4y2Ba ℝgydF4y2Ba hgydF4y2Ba ×gydF4y2Ba wgydF4y2Ba ×gydF4y2Ba cgydF4y2Ba 。gydF4y2Ba

的公式,gydF4y2Ba hgydF4y2Ba ,gydF4y2Ba wgydF4y2Ba ,gydF4y2Ba 和gydF4y2Ba cgydF4y2Ba 高度,宽度,和数字频道的形象,然后呢gydF4y2Ba TgydF4y2Ba 是序列长度。每一帧的视觉特征提取,分别为:gydF4y2Ba (9)gydF4y2Ba xgydF4y2Ba tgydF4y2Ba =gydF4y2Ba fgydF4y2Ba 2gydF4y2Ba dgydF4y2Ba CgydF4y2Ba NgydF4y2Ba NgydF4y2Ba 我gydF4y2Ba tgydF4y2Ba 。gydF4y2Ba

连续帧的视觉特征序列可以获得:gydF4y2Ba (10)gydF4y2Ba XgydF4y2Ba =gydF4y2Ba xgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba xgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba xgydF4y2Ba TgydF4y2Ba ,gydF4y2Ba xgydF4y2Ba tgydF4y2Ba ∈gydF4y2Ba RgydF4y2Ba dgydF4y2Ba 的壮举gydF4y2Ba 。gydF4y2Ba

的公式,gydF4y2Ba dgydF4y2Ba 的壮举gydF4y2Ba 是维特征。视觉特征提取层后,介绍了线性嵌入层映射合适维度的高维特征向量计算的编码器。嵌入式层的计算方法gydF4y2Ba (11)gydF4y2Ba xgydF4y2Ba tgydF4y2Ba 循证gydF4y2Ba =gydF4y2Ba WgydF4y2Ba imggydF4y2Ba xgydF4y2Ba tgydF4y2Ba +gydF4y2Ba bgydF4y2Ba imggydF4y2Ba ,gydF4y2Ba 和gydF4y2Ba XgydF4y2Ba 循证gydF4y2Ba ∈gydF4y2Ba ℝgydF4y2Ba TgydF4y2Ba ×gydF4y2Ba dgydF4y2Ba 模型gydF4y2Ba 获得,gydF4y2Ba dgydF4y2Ba 模型gydF4y2Ba 是向量维度查询的,钥匙,和价值的过程中计算self-attention重量。位置信息的编码帧层的计算方法如下:gydF4y2Ba (12)gydF4y2Ba XgydF4y2Ba 内附gydF4y2Ba =gydF4y2Ba XgydF4y2Ba 循证gydF4y2Ba +gydF4y2Ba WgydF4y2Ba 体育gydF4y2Ba 。gydF4y2Ba

这里是编码序列的位置信息,可以通过人为地设置规则和固定的转换功能。构造函数摘要的位置信息gydF4y2Ba (13)gydF4y2Ba WgydF4y2Ba 体育gydF4y2Ba tgydF4y2Ba ,gydF4y2Ba 2gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 罪gydF4y2Ba tgydF4y2Ba /gydF4y2Ba 10000年gydF4y2Ba 2gydF4y2Ba 我gydF4y2Ba /gydF4y2Ba dgydF4y2Ba moddgydF4y2Ba ,gydF4y2Ba WgydF4y2Ba 体育gydF4y2Ba tgydF4y2Ba ,gydF4y2Ba 2gydF4y2Ba 我gydF4y2Ba +gydF4y2Ba 1gydF4y2Ba =gydF4y2Ba 因为gydF4y2Ba tgydF4y2Ba /gydF4y2Ba 10000年gydF4y2Ba 2gydF4y2Ba 我gydF4y2Ba /gydF4y2Ba dgydF4y2Ba moddgydF4y2Ba 。gydF4y2Ba

这里的三角函数在相同的位置有不同的频率特性和不同维度;特性的不同位置相同的维度,他们的阶段是不同的。使用三角函数的原因是,相对位置的特征可以被描述为线性变换,所以它可以表达在一定程度上相对位置的信息,和三角函数不同频率引入多元化的表达位置信息。gydF4y2Ba

在模型中,self-attention模块采用多线程机制的关注。与点积的关注相比,这种机制的特性的表达能力是更为多样化,及其计算过程(gydF4y2Ba 21gydF4y2Ba]gydF4y2Ba (14)gydF4y2Ba 头gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 注意gydF4y2Ba 问gydF4y2Ba WgydF4y2Ba 我gydF4y2Ba 问gydF4y2Ba ,gydF4y2Ba KgydF4y2Ba WgydF4y2Ba 我gydF4y2Ba KgydF4y2Ba ,gydF4y2Ba VgydF4y2Ba WgydF4y2Ba 我gydF4y2Ba VgydF4y2Ba ,gydF4y2Ba 多线程gydF4y2Ba 问gydF4y2Ba ,gydF4y2Ba KgydF4y2Ba ,gydF4y2Ba VgydF4y2Ba =gydF4y2Ba ConcatgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba hgydF4y2Ba 头gydF4y2Ba 我gydF4y2Ba WgydF4y2Ba OgydF4y2Ba 。gydF4y2Ba

的公式,gydF4y2Ba hgydF4y2Ba是“正面”的数量在多个正面,然后呢gydF4y2Ba WgydF4y2Ba 我gydF4y2Ba 问gydF4y2Ba ∈gydF4y2Ba ℝgydF4y2Ba dgydF4y2Ba 模型gydF4y2Ba ×gydF4y2Ba dgydF4y2Ba 问gydF4y2Ba ,gydF4y2Ba WgydF4y2Ba 我gydF4y2Ba KgydF4y2Ba ∈gydF4y2Ba ℝgydF4y2Ba dgydF4y2Ba 模型gydF4y2Ba ×gydF4y2Ba dgydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 和gydF4y2Ba WgydF4y2Ba 我gydF4y2Ba VgydF4y2Ba ∈gydF4y2Ba ℝgydF4y2Ba dgydF4y2Ba 模型gydF4y2Ba ×gydF4y2Ba dgydF4y2Ba vgydF4y2Ba 是可训练的参数。self-attention模块主要包括归一化、self-attention层,剩余连接。远期self-attention模块的计算过程层gydF4y2Ba lgydF4y2Ba可以表示如下:gydF4y2Ba (15)gydF4y2Ba 问gydF4y2Ba lgydF4y2Ba =gydF4y2Ba LayerNormgydF4y2Ba XgydF4y2Ba lgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba WgydF4y2Ba 问gydF4y2Ba egydF4y2Ba lgydF4y2Ba ,gydF4y2Ba KgydF4y2Ba lgydF4y2Ba =gydF4y2Ba LayerNormgydF4y2Ba XgydF4y2Ba lgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba WgydF4y2Ba KgydF4y2Ba egydF4y2Ba lgydF4y2Ba ,gydF4y2Ba VgydF4y2Ba lgydF4y2Ba =gydF4y2Ba LayerNormgydF4y2Ba XgydF4y2Ba lgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba WgydF4y2Ba VgydF4y2Ba egydF4y2Ba lgydF4y2Ba ,gydF4y2Ba fgydF4y2Ba 自我gydF4y2Ba −gydF4y2Ba 丙氨酸gydF4y2Ba XgydF4y2Ba lgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba =gydF4y2Ba XgydF4y2Ba lgydF4y2Ba −gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 多线程gydF4y2Ba 问gydF4y2Ba lgydF4y2Ba ,gydF4y2Ba KgydF4y2Ba lgydF4y2Ba ,gydF4y2Ba VgydF4y2Ba lgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba WgydF4y2Ba 问gydF4y2Ba egydF4y2Ba lgydF4y2Ba ∈gydF4y2Ba ℝgydF4y2Ba dgydF4y2Ba 模型gydF4y2Ba ×gydF4y2Ba dgydF4y2Ba 问gydF4y2Ba ,gydF4y2Ba WgydF4y2Ba KgydF4y2Ba egydF4y2Ba lgydF4y2Ba ∈gydF4y2Ba ℝgydF4y2Ba dgydF4y2Ba 模型gydF4y2Ba ×gydF4y2Ba dgydF4y2Ba kgydF4y2Ba ,gydF4y2Ba 和gydF4y2Ba WgydF4y2Ba VgydF4y2Ba egydF4y2Ba lgydF4y2Ba ∈gydF4y2Ba ℝgydF4y2Ba dgydF4y2Ba 模型gydF4y2Ba ×gydF4y2Ba dgydF4y2Ba vgydF4y2Ba 是可训练的参数,将前一层的输出转换成三的查询,钥匙,和价值。LayerNorm表示归一化函数。层标准化规范化的特点。结合的缩放操作点产品的注意机制,整个计算过程的数值是更稳定的,和在训练收敛速度更快。gydF4y2Ba

4所示。研究视频描述效果相结合的长期和短期记忆网络和注意力机制gydF4y2Ba 4.1。数据集和评价指标gydF4y2Ba

实验选择了两种常用的数据集对视频描述一代来验证模型的有效性;他们MSVD MSR-VTT数据集。gydF4y2Ba

微软研究院视频描述(MSVD):这个数据集包含了1970个视频剪辑。每个视频描述了一个活动,持续时间10到25个年代,平均长度约9 s [gydF4y2Ba 22gydF4y2Ba]。本文选择数据集的前1200个视频剪辑作为训练集,接下来的100片段作为验证集,和其余670剪辑作为测试集。gydF4y2Ba

微软研究院视频文本(MSR-VTT):数据集包含10000个视频剪辑和20个视频类型(gydF4y2Ba 23gydF4y2Ba]。使用公共数据集划分方法,6513年选择视频剪辑作为训练集,497片段作为验证集,和2990片段作为测试集。gydF4y2Ba

为了客观地代表算法生成的文本描述的质量,本文选择四种不同的客观评价方法,测试算法的性能,BLEU@4, ROUGE-L,流星和苹果酒。测量距离之间生成的描述文本和手册描述文本,ROUGE-L指数往往计算召回率,流星指数适用于机器翻译领域,苹果酒是用来评估质量的自动图像描述(gydF4y2Ba 24gydF4y2Ba- - - - - -gydF4y2Ba 27gydF4y2Ba]。gydF4y2Ba

4.2。探索参数< inline-formula > < mml:数学xmlns: mml = " http://www.w3.org/1998/Math/MathML " id = " M46 " > < mml: mi >α< / mml: mi > < / mml:数学> < / inline-formula >的添加剂融合模块gydF4y2Ba

为了验证注意融合模块的有效性,为MSR-VTT数据集,gydF4y2Ba αgydF4y2Ba 与不同的参数选择比较的性能添加剂融合模块和注重融合模块。测试结果如图gydF4y2Ba 4gydF4y2Ba。gydF4y2Ba

不同的参数在融合和添加剂融合。gydF4y2Ba

图gydF4y2Ba 4gydF4y2Ba显示了该添加剂比较关注模块和融合模块根据不同的参数。评价结果表明,当参数gydF4y2Ba αgydF4y2Ba 调整到0.4,但其流星和苹果汁分数仍低于注重融合模块。因此,与固定重量比相比,引入的动态关注体重关注融合模块更灵活融合多通道特性和能产生更高质量的文本描述。gydF4y2Ba

4.3。比较与LSTM模型gydF4y2Ba

为了验证视频描述模型的性能相结合的长期和短期记忆网络和注意力机制,本文实现了一个基于LSTM主流视频描述模型。除了编码器和译码器的结构是不同的,评价指标比较MSVD和MSR-VVT数据集当其他参数设置接近相同的参数。本文关注机制的模型是记录为多线程模型,模型没有注意机制和BiLSTM记录。视觉提取层使用resnet记录为R - 152和使用NASNet N。评价结果如图gydF4y2Ba 5gydF4y2Ba和gydF4y2Ba 6gydF4y2Ba。水平和垂直尺寸图的算法模型,和垂直坐标的分数不同的模型。gydF4y2Ba

测试结果MSVD BiLSTM和多线程模型的数据集。gydF4y2Ba

测试结果MSR-VTT BiLSTM和多线程模型的数据集。gydF4y2Ba

从图可以看出gydF4y2Ba 5gydF4y2Ba的流星和苹果汁分数上的多线程模型MSVD高于BiLSTM模型的数据集。这两个指标可以更好地反映质量的文本描述,表明文本描述生成的质量一直关注机制的引入后显著提高。gydF4y2Ba

从图可以看出gydF4y2Ba 6gydF4y2Ba,除了ROUGE-L得分,其他三个指标上的多线程模型MSR-VTT高于BiLSTM模型的数据集。这是因为注意力机制的引入可以使视觉特征序列和词序列的结构更加灵活,可以获得更好的视频和句子内容表示。gydF4y2Ba

此外,在实验中,NASNet视觉特征提取,大大改进了MSVD数据集与resnet - 152和MSR-VTT数据集仅略有下降,这表明NASNet pretraining模型具有很强的泛化能力。gydF4y2Ba

4.4。比较不同参数的聚类搜索gydF4y2Ba

为了研究不同参数对多线程模型的影响,探讨了不同的光束宽度的影响gydF4y2Ba kgydF4y2Ba和长度的惩罚系数gydF4y2Ba αgydF4y2Ba tgydF4y2Ba 文本质量MSVD测试集生成的模型。首先,控制长度惩罚系数gydF4y2Ba αgydF4y2Ba tgydF4y2Ba = 1.0保持不变,改变波束宽度gydF4y2Ba kgydF4y2Ba1、3、5、10和20日分别。评价结果如图所示gydF4y2Ba 7gydF4y2Ba。gydF4y2Ba

质量的影响不同的光束宽度的文本长度点球时生成的模型系数是固定的。gydF4y2Ba

评价结果图gydF4y2Ba 7gydF4y2Ba显示不同的光束宽度的影响生成的文本的质量。结果表明,生成的文本可以获得更高的评价分数与波束宽度的增加,但当超过5的波束宽度增加,获得的分数相对较小,和苹果酒分数将略有下降,这将带来更大的搜索成本。因此,波束宽度的5是用于后续实验。gydF4y2Ba

评价结果图gydF4y2Ba 8gydF4y2Ba显示不同长度的影响,惩罚系数生成的文本的质量。结果表明,当长度惩罚系数没有设置或惩罚系数很小,产生的平均句子长度很短,这是由于倾向于输出短期间候选序列搜索技术。BLEU@4分数是用来计算精度。长度惩罚系数越小,得分越高,但这没有影响其他分数. .当生成的句子很短,精度将会提高,因为有更少的4元组生成的句子。gydF4y2Ba

不同长度的惩罚系数的影响质量的文本生成的模型时,波束宽度是固定的。gydF4y2Ba

4.5。比较的基准模型gydF4y2Ba

这部分是验证的有效性多线程网络模型结合的长期和短期记忆和注意力机制模型和比较它与基准模型BaseModel MSVD MSR-VTT数据集,分别。测试结果如图gydF4y2Ba 9gydF4y2Ba和gydF4y2Ba 10gydF4y2Ba,分别。gydF4y2Ba

测试结果MSVD BaseModel和多线程模型的数据集。gydF4y2Ba

测试结果MSR-VTT BaseModel和多线程模型的数据集。gydF4y2Ba

从图可以看出gydF4y2Ba 9gydF4y2Ba,静态视觉特征提取通过NASNet MSVD数据集与resnet相比大大提高了- 152。多线程模型的指数得分比BaseModel,这表明本文提出的方法具有显著改善质量的文本描述与基线相比模型。gydF4y2Ba

从图可以看出gydF4y2Ba 10gydF4y2Ba,NASNet resnet - 152 MSR-VTT数据集具有相同的性能。多线程模型的指数得分明显高于BaseModel,这表明本文提出的方法具有一定的泛化能力,极大地提高了质量的文本描述与基线相比模型。gydF4y2Ba

5。结论gydF4y2Ba

摘要视频传感器处理方法结合长期和短期记忆网络和注意力机制提出了排球的智能描述视频。注意机制的引入可以使模型关注的重要领域图像/视频生成句子时,快速识别目标,并有效地解决视觉信息损失的问题。通过不同模型的比较实验,结果表明,动态注意力关注融合模块引入的重量比固定重量更灵活,可以生成高质量的文本描述。LSTM和基本模型相比,多线程模型提出了结合了长期和短期记忆网络和注意力机制,各评价指标,分数高,极大地提高了排球的智能文本描述质量的视频。该模型具有很强的泛化能力和良好性能的智能描述排球视频。gydF4y2Ba

数据可用性gydF4y2Ba

使用的数据来支持本研究的发现可以从相应的作者。gydF4y2Ba

的利益冲突gydF4y2Ba

作者宣称没有利益冲突。gydF4y2Ba

确认gydF4y2Ba

这项工作得到了广东省自然科学基金(没有。2014 a030310430),研究技术和战术节奏模型及其形成机制的精英运动员在中国“三大球赛”。gydF4y2Ba

常gydF4y2Ba Z。gydF4y2Ba 赵gydF4y2Ba D。gydF4y2Ba 基于深度学习的回顾视频描述方法gydF4y2Ba 天津大学技术杂志》上gydF4y2Ba 2020年gydF4y2Ba 36gydF4y2Ba 6gydF4y2Ba 20.gydF4y2Ba 26gydF4y2Ba 叶gydF4y2Ba J。gydF4y2Ba 基于视觉的语义增强视频描述的一代gydF4y2Ba 2019年gydF4y2Ba 杭州,中国gydF4y2Ba 浙江大学的技术和产业gydF4y2Ba 徐gydF4y2Ba J。gydF4y2Ba 关键技术的监控视频运动目标检测和行人结构化描述基于深度学习gydF4y2Ba 2019年gydF4y2Ba 济南,中国gydF4y2Ba 山东大学gydF4y2Ba 李gydF4y2Ba Y。gydF4y2Ba ZongbogydF4y2Ba H。gydF4y2Ba 挂gydF4y2Ba lgydF4y2Ba 对卷积神经网络gydF4y2Ba 计算机应用gydF4y2Ba 2016年gydF4y2Ba 36gydF4y2Ba 9gydF4y2Ba 2508年gydF4y2Ba 2515年gydF4y2Ba 朱gydF4y2Ba G。gydF4y2Ba 研究体育视频内容分析方法基于团队成员行为的信息gydF4y2Ba 2011年gydF4y2Ba 哈尔滨,中国gydF4y2Ba 哈尔滨工业大学gydF4y2Ba 王gydF4y2Ba C。gydF4y2Ba 刘gydF4y2Ba Y。gydF4y2Ba 王gydF4y2Ba P。gydF4y2Ba 农业机械运动导航系统基于双目视觉检测技术gydF4y2Ba Electrotehnica,电子,自动化gydF4y2Ba 2020年gydF4y2Ba 62年gydF4y2Ba 2gydF4y2Ba 小岛gydF4y2Ba 一个。gydF4y2Ba (尽管)gydF4y2Ba T。gydF4y2Ba 的巨大gydF4y2Ba K。gydF4y2Ba 自然语言的描述人类活动从视频图像基于概念层次的行动gydF4y2Ba 国际计算机视觉杂志》上gydF4y2Ba 2002年gydF4y2Ba 50gydF4y2Ba 2gydF4y2Ba 171年gydF4y2Ba 184年gydF4y2Ba 10.1023 /:1020346032608gydF4y2Ba 2 - s2.0 - 0036843382gydF4y2Ba Rohrbach说道gydF4y2Ba M。gydF4y2Ba 邱gydF4y2Ba W。gydF4y2Ba 季托夫gydF4y2Ba 我。gydF4y2Ba 翻译视频内容自然语言描述gydF4y2Ba 学报2013年IEEE计算机视觉国际会议gydF4y2Ba 2013年12月gydF4y2Ba 澳大利亚悉尼gydF4y2Ba IEEEgydF4y2Ba 。托马森gydF4y2Ba J。gydF4y2Ba VenugopalangydF4y2Ba 年代。gydF4y2Ba GuadarramagydF4y2Ba 年代。gydF4y2Ba 将语言和视觉产生在野外自然语言描述的视频gydF4y2Ba 25日计算语言学国际会议的程序(科尔2014)gydF4y2Ba 2014年12月gydF4y2Ba 爱尔兰都柏林gydF4y2Ba 多纳休gydF4y2Ba J。gydF4y2Ba 亨德里克斯gydF4y2Ba l。gydF4y2Ba GuadarramagydF4y2Ba 年代。gydF4y2Ba 长期反复卷积网络视觉识别和描述gydF4y2Ba 2015年gydF4y2Ba 阿姆斯特丹,荷兰gydF4y2Ba 爱思唯尔gydF4y2Ba VenugopalangydF4y2Ba 年代。gydF4y2Ba 徐gydF4y2Ba H。gydF4y2Ba 多纳休gydF4y2Ba J。gydF4y2Ba 翻译视频自然语言使用深度递归神经网络gydF4y2Ba 计算机科学gydF4y2Ba 2014年gydF4y2Ba 3gydF4y2Ba VenugopalangydF4y2Ba 年代。gydF4y2Ba Rohrbach说道gydF4y2Ba M。gydF4y2Ba 多纳休gydF4y2Ba J。gydF4y2Ba 序列sequence-video文本gydF4y2Ba 《IEEE 2015 IEEE计算机视觉国际会议(ICCV)gydF4y2Ba 2015年9月gydF4y2Ba 圣地亚哥,智利gydF4y2Ba 4534年gydF4y2Ba 4542年gydF4y2Ba 张gydF4y2Ba C。gydF4y2Ba 田gydF4y2Ba Y。gydF4y2Ba 通过多通道自动视频字幕顺序编码gydF4y2Ba 欧洲计算机视觉的诉讼gydF4y2Ba 2016年10月gydF4y2Ba 阿姆斯特丹,荷兰gydF4y2Ba 施普林格国际出版gydF4y2Ba 锅gydF4y2Ba Y。gydF4y2Ba 梅gydF4y2Ba T。gydF4y2Ba 姚gydF4y2Ba T。gydF4y2Ba 联合建模嵌入和桥视频和语言翻译gydF4y2Ba 学报2016年IEEE计算机视觉与模式识别会议(CVPR)gydF4y2Ba 2016年6月gydF4y2Ba 美国内华达州拉斯维加斯gydF4y2Ba 姚gydF4y2Ba lgydF4y2Ba TorabigydF4y2Ba 一个。gydF4y2Ba 赵gydF4y2Ba K。gydF4y2Ba 描述视频利用时态结构gydF4y2Ba 《IEEE 2015 IEEE计算机视觉国际会议(ICCV)gydF4y2Ba 2015年12月gydF4y2Ba 圣地亚哥,智利gydF4y2Ba 4507年gydF4y2Ba 4515年gydF4y2Ba Gre FfgydF4y2Ba K。gydF4y2Ba 斯利瓦斯塔瓦gydF4y2Ba r·K。gydF4y2Ba KoutnikgydF4y2Ba J。gydF4y2Ba LSTM:搜索太空漫游gydF4y2Ba IEEE神经网络和学习系统gydF4y2Ba 2016年gydF4y2Ba 28gydF4y2Ba 10gydF4y2Ba 2222年gydF4y2Ba 2232年gydF4y2Ba 太阳gydF4y2Ba X。gydF4y2Ba 苏gydF4y2Ba Y。gydF4y2Ba 赵gydF4y2Ba Y。gydF4y2Ba 蒙古中国神经机器翻译基于编码器解码器重建框架gydF4y2Ba 计算机应用与软件gydF4y2Ba 2020年gydF4y2Ba 37gydF4y2Ba 4gydF4y2Ba 155150年gydF4y2Ba 155163年gydF4y2Ba 王gydF4y2Ba H。gydF4y2Ba 史gydF4y2Ba J。gydF4y2Ba 张gydF4y2Ba Z。gydF4y2Ba 语义关系提取LSTM基于注意机制gydF4y2Ba 计算机应用研究gydF4y2Ba 2018年gydF4y2Ba 35gydF4y2Ba 5gydF4y2Ba 143年gydF4y2Ba 146年gydF4y2Ba 李gydF4y2Ba M。gydF4y2Ba 图像显著区域提取算法的分析和比较基于注意机制gydF4y2Ba 2020年gydF4y2Ba 中国,北京gydF4y2Ba 北京交通大学gydF4y2Ba MukhiddinovgydF4y2Ba M。gydF4y2Ba 宋gydF4y2Ba r·G。gydF4y2Ba 赵gydF4y2Ba J。gydF4y2Ba 显著削减:凸区域提取基于局部自适应阈值图像信息识别的视力受损gydF4y2Ba 国际阿拉伯信息技术杂志》上gydF4y2Ba 17gydF4y2Ba 5gydF4y2Ba 713年gydF4y2Ba 720年gydF4y2Ba 熊gydF4y2Ba X。gydF4y2Ba 严gydF4y2Ba P。gydF4y2Ba 中国集成多分类方法头自我注意力机制gydF4y2Ba 电子测量技术gydF4y2Ba 2020年gydF4y2Ba 43gydF4y2Ba 10gydF4y2Ba 130年gydF4y2Ba 135年gydF4y2Ba GuadarramagydF4y2Ba 年代。gydF4y2Ba KrishnamoorthygydF4y2Ba N。gydF4y2Ba MalkarnenkargydF4y2Ba G。gydF4y2Ba YouTube2Text:识别和描述使用语义层次结构和zero-shot识别任意活动gydF4y2Ba 《IEEE计算机视觉国际会议gydF4y2Ba 2014年6月gydF4y2Ba 美国哥伦布,哦gydF4y2Ba IEEEgydF4y2Ba 徐gydF4y2Ba J。gydF4y2Ba 道gydF4y2Ba M。gydF4y2Ba 姚gydF4y2Ba T。gydF4y2Ba MSR-VTT:大型视频描述数据集桥接视频和语言gydF4y2Ba 《计算机视觉与模式识别会议(CVPR)gydF4y2Ba 2016年6月gydF4y2Ba 美国内华达州拉斯维加斯gydF4y2Ba IEEEgydF4y2Ba PapinenigydF4y2Ba 年代。gydF4y2Ba 蓝色;自动机器翻译评价的方法gydF4y2Ba 《计算语言学协会的会议gydF4y2Ba 2002年6月gydF4y2Ba 美国大学公园,马gydF4y2Ba 计算语言学协会gydF4y2Ba NggydF4y2Ba j . P。gydF4y2Ba AbrechtgydF4y2Ba V。gydF4y2Ba 更好的总结评价词嵌入的胭脂gydF4y2Ba 2015年gydF4y2Ba https://arxiv.org/abs/1508.06034gydF4y2Ba SatanjeevgydF4y2Ba B。gydF4y2Ba 流星:自动度量太评价与改进的相关性与人类的判断gydF4y2Ba ACLgydF4y2Ba 2005年gydF4y2Ba 7gydF4y2Ba 228年gydF4y2Ba 231年gydF4y2Ba 苹果酒gydF4y2Ba 一致同意的形象描述评价gydF4y2Ba 学报2015年IEEE计算机视觉与模式识别会议(CVPR)gydF4y2Ba 2015年6月gydF4y2Ba 波士顿,美国gydF4y2Ba IEEEgydF4y2Ba