3.1。长期和短期记忆网络gydF4y2Ba
作为一个普通循环神经网络,改善结构的长期和短期记忆网络(LSTM)可以处理变量的输入和输出序列,可以有效地避免梯度消失的问题gydF4y2Ba
16gydF4y2Ba ]。LSTM单元输出隐藏状态gydF4y2Ba
hgydF4y2Ba
tgydF4y2Ba
的步骤gydF4y2Ba
tgydF4y2Ba 依靠输入gydF4y2Ba
xgydF4y2Ba
tgydF4y2Ba
当前步骤的gydF4y2Ba
tgydF4y2Ba 和隐藏的状态gydF4y2Ba
hgydF4y2Ba
tgydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
的时间gydF4y2Ba
tgydF4y2Ba −1的前一步。LSTM单位,当前步骤的输入信息的流动和历史记忆信息控制的输入控制和忘记控制单元。计算方法如下:gydF4y2Ba
(1)gydF4y2Ba
我gydF4y2Ba
tgydF4y2Ba
=gydF4y2Ba
σgydF4y2Ba
WgydF4y2Ba
xgydF4y2Ba
我gydF4y2Ba
xgydF4y2Ba
tgydF4y2Ba
+gydF4y2Ba
WgydF4y2Ba
hgydF4y2Ba
我gydF4y2Ba
hgydF4y2Ba
tgydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
+gydF4y2Ba
bgydF4y2Ba
我gydF4y2Ba
,gydF4y2Ba
fgydF4y2Ba
tgydF4y2Ba
=gydF4y2Ba
σgydF4y2Ba
WgydF4y2Ba
xgydF4y2Ba
fgydF4y2Ba
xgydF4y2Ba
tgydF4y2Ba
+gydF4y2Ba
WgydF4y2Ba
hgydF4y2Ba
fgydF4y2Ba
hgydF4y2Ba
tgydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
+gydF4y2Ba
bgydF4y2Ba
fgydF4y2Ba
,gydF4y2Ba
ogydF4y2Ba
tgydF4y2Ba
=gydF4y2Ba
σgydF4y2Ba
WgydF4y2Ba
xgydF4y2Ba
ogydF4y2Ba
xgydF4y2Ba
tgydF4y2Ba
+gydF4y2Ba
WgydF4y2Ba
hgydF4y2Ba
ogydF4y2Ba
hgydF4y2Ba
tgydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
+gydF4y2Ba
bgydF4y2Ba
ogydF4y2Ba
,gydF4y2Ba
ggydF4y2Ba
tgydF4y2Ba
=gydF4y2Ba
fgydF4y2Ba
WgydF4y2Ba
xgydF4y2Ba
ggydF4y2Ba
xgydF4y2Ba
tgydF4y2Ba
+gydF4y2Ba
WgydF4y2Ba
hgydF4y2Ba
ggydF4y2Ba
hgydF4y2Ba
tgydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
+gydF4y2Ba
bgydF4y2Ba
ggydF4y2Ba
,gydF4y2Ba
cgydF4y2Ba
tgydF4y2Ba
=gydF4y2Ba
fgydF4y2Ba
tgydF4y2Ba
⊙gydF4y2Ba
cgydF4y2Ba
tgydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
+gydF4y2Ba
我gydF4y2Ba
tgydF4y2Ba
⊙gydF4y2Ba
ggydF4y2Ba
tgydF4y2Ba
,gydF4y2Ba
hgydF4y2Ba
tgydF4y2Ba
=gydF4y2Ba
ogydF4y2Ba
tgydF4y2Ba
⊙gydF4y2Ba
ΦgydF4y2Ba
cgydF4y2Ba
tgydF4y2Ba
。gydF4y2Ba
的公式,gydF4y2Ba
σgydF4y2Ba
是乙状结肠激活函数,gydF4y2Ba
ΦgydF4y2Ba
是双曲正切激活函数,gydF4y2Ba
⊙gydF4y2Ba
代表向量的乘法操作点,权重矩阵gydF4y2Ba
WgydF4y2Ba
我gydF4y2Ba
jgydF4y2Ba
和偏移向量gydF4y2Ba
bgydF4y2Ba
jgydF4y2Ba
是可训练的参数。gydF4y2Ba
针对自动生成的视频描述的问题,基于LSTM循环神经网络中,通过预测序列的特性gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
ngydF4y2Ba
给定的输入视频输出的条件概率词序列gydF4y2Ba
ygydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
ygydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
ygydF4y2Ba
米gydF4y2Ba
是gydF4y2Ba
(2)gydF4y2Ba
pgydF4y2Ba
ygydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
ygydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
ygydF4y2Ba
米gydF4y2Ba
|gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
ngydF4y2Ba
。gydF4y2Ba
LSTM模型是基于encoder-decoder框架,及其结构如图gydF4y2Ba
1gydF4y2Ba 。在编码阶段,LSTM层编码器使用的输入序列gydF4y2Ba
XgydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
ngydF4y2Ba
计算中间隐藏状态gydF4y2Ba
hgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
hgydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
hgydF4y2Ba
ngydF4y2Ba
(gydF4y2Ba
17gydF4y2Ba ]。在解码阶段,条件概率预测通过LSTM层和softmax编码器的输出层。通过链接每一步的概率,条件概率给定输入的序列gydF4y2Ba
XgydF4y2Ba 和输出序列gydF4y2Ba
YgydF4y2Ba 得到如下:gydF4y2Ba
(3)gydF4y2Ba
pgydF4y2Ba
ygydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
ygydF4y2Ba
米gydF4y2Ba
|gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
ngydF4y2Ba
=gydF4y2Ba
∏gydF4y2Ba
tgydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
米gydF4y2Ba
pgydF4y2Ba
ygydF4y2Ba
tgydF4y2Ba
|gydF4y2Ba
hgydF4y2Ba
ngydF4y2Ba
+gydF4y2Ba
tgydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
ygydF4y2Ba
tgydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
。gydF4y2Ba
图1gydF4y2Ba
网络视频描述模型基于长期和短期记忆。gydF4y2Ba
在模型训练阶段,模型的参数更新通过最大化对数似然概率,也就是说,gydF4y2Ba
(4)gydF4y2Ba
θgydF4y2Ba
∗gydF4y2Ba
=gydF4y2Ba
argmaxgydF4y2Ba
θgydF4y2Ba
∑gydF4y2Ba
tgydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
米gydF4y2Ba
日志gydF4y2Ba
pgydF4y2Ba
ygydF4y2Ba
tgydF4y2Ba
|gydF4y2Ba
hgydF4y2Ba
ngydF4y2Ba
+gydF4y2Ba
tgydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
ygydF4y2Ba
tgydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
;gydF4y2Ba
θgydF4y2Ba
。gydF4y2Ba
θgydF4y2Ba
代表模型的参数,优化方法采用随机梯度下降的方法。gydF4y2Ba
3.2。注意机制gydF4y2Ba
encoder-decoder框架结合机制的关注可以学习自动校准和翻译模型的训练过程中。当生成新的目标简短的语言文字,能找到相关源的位置的话,然后解码器结合内容向量获得这些位置和生成的目标单词来预测目标单词生成(gydF4y2Ba
18gydF4y2Ba ]。这种方法的最大区别结合注意机制和基本encoder-decoder方法是,它不需要编码整个句子输入到一个固定长度的向量,但编码输入句子译成一个向量序列和动态选择的一个子集向量序列,形成一个新的内容向量解码过程的每一步生成单词在目标端(gydF4y2Ba
19gydF4y2Ba ]。动态内容向量的计算方法结合注意力机制如图gydF4y2Ba
2gydF4y2Ba 。gydF4y2Ba
图2gydF4y2Ba
计算图的注意机制。gydF4y2Ba
对于步骤gydF4y2Ba
我gydF4y2Ba 解码过程,内容向量gydF4y2Ba
cgydF4y2Ba
我gydF4y2Ba
加权的隐藏状态序列gydF4y2Ba
hgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
hgydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
hgydF4y2Ba
TgydF4y2Ba
输出编码器和注意体重gydF4y2Ba
一个gydF4y2Ba
我gydF4y2Ba
jgydF4y2Ba
:gydF4y2Ba
(5)gydF4y2Ba
cgydF4y2Ba
我gydF4y2Ba
=gydF4y2Ba
∑gydF4y2Ba
jgydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
TgydF4y2Ba
αgydF4y2Ba
我gydF4y2Ba
jgydF4y2Ba
hgydF4y2Ba
jgydF4y2Ba
。gydF4y2Ba
注意重量的计算方法gydF4y2Ba
一个gydF4y2Ba
我gydF4y2Ba
jgydF4y2Ba
隐藏状态gydF4y2Ba
hgydF4y2Ba
jgydF4y2Ba
如下:gydF4y2Ba
(6)gydF4y2Ba
αgydF4y2Ba
我gydF4y2Ba
jgydF4y2Ba
=gydF4y2Ba
经验值gydF4y2Ba
egydF4y2Ba
我gydF4y2Ba
jgydF4y2Ba
∑gydF4y2Ba
kgydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
TgydF4y2Ba
经验值gydF4y2Ba
egydF4y2Ba
我gydF4y2Ba
kgydF4y2Ba
。gydF4y2Ba
egydF4y2Ba
我gydF4y2Ba
jgydF4y2Ba
这是前馈神经网络模型计算自动对齐:gydF4y2Ba
(7)gydF4y2Ba
egydF4y2Ba
我gydF4y2Ba
jgydF4y2Ba
=gydF4y2Ba
一个gydF4y2Ba
年代gydF4y2Ba
我gydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
hgydF4y2Ba
jgydF4y2Ba
。gydF4y2Ba
的公式,gydF4y2Ba
年代gydF4y2Ba
我gydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
是隐藏的状态译码器的时候吗gydF4y2Ba
tgydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
和的参数gydF4y2Ba
一个gydF4y2Ba
问gydF4y2Ba
,gydF4y2Ba
kgydF4y2Ba
更新模型和其他参数的翻译模型通过训练过程。gydF4y2Ba
3.3。排球网络视频描述模型结合长期和短期记忆和注意力机制gydF4y2Ba
排球视频智能任务的描述、卷积神经网络通常是用于提取图像特征,和LSTM用于提取内容向量。内容的表示能力向量通过这种方法是有限的。注意机制可以选择性地关注的视频帧序列子集产生的词描述对象或动作的子集对应的帧序列。与传统模式不同,视频智能网络描述模型结合的长期和短期记忆和注意力机制可以动态调整的上下文向量输出编码器的功能,实现自动软对齐代替卷积层和循环神经单元层与self-attention层(gydF4y2Ba
20.gydF4y2Ba ]。它的框架如图gydF4y2Ba
3gydF4y2Ba 。gydF4y2Ba
图3gydF4y2Ba
网络视频智能描述模型结合长期短期记忆和注意力机制。gydF4y2Ba
从图可以看出gydF4y2Ba
3gydF4y2Ba 、视频智能网络描述模型结合的长期和短期记忆和注意力机制是基于encoder-decoder框架,主要由编码器,译码器,特征提取层底部,嵌入层、线性层,softmax层顶部。gydF4y2Ba
视觉特征提取层使用gydF4y2Ba
fgydF4y2Ba
2gydF4y2Ba
dgydF4y2Ba
CgydF4y2Ba
NgydF4y2Ba
NgydF4y2Ba
代表的视觉特征提取功能;然后,连续多帧输入给定的视频gydF4y2Ba
(8)gydF4y2Ba
我gydF4y2Ba
=gydF4y2Ba
我gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
我gydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
我gydF4y2Ba
TgydF4y2Ba
,gydF4y2Ba
我gydF4y2Ba
tgydF4y2Ba
∈gydF4y2Ba
ℝgydF4y2Ba
hgydF4y2Ba
×gydF4y2Ba
wgydF4y2Ba
×gydF4y2Ba
cgydF4y2Ba
。gydF4y2Ba
的公式,gydF4y2Ba
hgydF4y2Ba
,gydF4y2Ba
wgydF4y2Ba
,gydF4y2Ba
和gydF4y2Ba
cgydF4y2Ba
高度,宽度,和数字频道的形象,然后呢gydF4y2Ba
TgydF4y2Ba
是序列长度。每一帧的视觉特征提取,分别为:gydF4y2Ba
(9)gydF4y2Ba
xgydF4y2Ba
tgydF4y2Ba
=gydF4y2Ba
fgydF4y2Ba
2gydF4y2Ba
dgydF4y2Ba
CgydF4y2Ba
NgydF4y2Ba
NgydF4y2Ba
我gydF4y2Ba
tgydF4y2Ba
。gydF4y2Ba
连续帧的视觉特征序列可以获得:gydF4y2Ba
(10)gydF4y2Ba
XgydF4y2Ba
=gydF4y2Ba
xgydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
2gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
TgydF4y2Ba
,gydF4y2Ba
xgydF4y2Ba
tgydF4y2Ba
∈gydF4y2Ba
RgydF4y2Ba
dgydF4y2Ba
的壮举gydF4y2Ba
。gydF4y2Ba
的公式,gydF4y2Ba
dgydF4y2Ba
的壮举gydF4y2Ba
是维特征。视觉特征提取层后,介绍了线性嵌入层映射合适维度的高维特征向量计算的编码器。嵌入式层的计算方法gydF4y2Ba
(11)gydF4y2Ba
xgydF4y2Ba
tgydF4y2Ba
循证gydF4y2Ba
=gydF4y2Ba
WgydF4y2Ba
imggydF4y2Ba
xgydF4y2Ba
tgydF4y2Ba
+gydF4y2Ba
bgydF4y2Ba
imggydF4y2Ba
,gydF4y2Ba
和gydF4y2Ba
XgydF4y2Ba
循证gydF4y2Ba
∈gydF4y2Ba
ℝgydF4y2Ba
TgydF4y2Ba
×gydF4y2Ba
dgydF4y2Ba
模型gydF4y2Ba
获得,gydF4y2Ba
dgydF4y2Ba
模型gydF4y2Ba
是向量维度查询的,钥匙,和价值的过程中计算self-attention重量。位置信息的编码帧层的计算方法如下:gydF4y2Ba
(12)gydF4y2Ba
XgydF4y2Ba
内附gydF4y2Ba
=gydF4y2Ba
XgydF4y2Ba
循证gydF4y2Ba
+gydF4y2Ba
WgydF4y2Ba
体育gydF4y2Ba
。gydF4y2Ba
这里是编码序列的位置信息,可以通过人为地设置规则和固定的转换功能。构造函数摘要的位置信息gydF4y2Ba
(13)gydF4y2Ba
WgydF4y2Ba
体育gydF4y2Ba
tgydF4y2Ba
,gydF4y2Ba
2gydF4y2Ba
我gydF4y2Ba
=gydF4y2Ba
罪gydF4y2Ba
tgydF4y2Ba
/gydF4y2Ba
10000年gydF4y2Ba
2gydF4y2Ba
我gydF4y2Ba
/gydF4y2Ba
dgydF4y2Ba
moddgydF4y2Ba
,gydF4y2Ba
WgydF4y2Ba
体育gydF4y2Ba
tgydF4y2Ba
,gydF4y2Ba
2gydF4y2Ba
我gydF4y2Ba
+gydF4y2Ba
1gydF4y2Ba
=gydF4y2Ba
因为gydF4y2Ba
tgydF4y2Ba
/gydF4y2Ba
10000年gydF4y2Ba
2gydF4y2Ba
我gydF4y2Ba
/gydF4y2Ba
dgydF4y2Ba
moddgydF4y2Ba
。gydF4y2Ba
这里的三角函数在相同的位置有不同的频率特性和不同维度;特性的不同位置相同的维度,他们的阶段是不同的。使用三角函数的原因是,相对位置的特征可以被描述为线性变换,所以它可以表达在一定程度上相对位置的信息,和三角函数不同频率引入多元化的表达位置信息。gydF4y2Ba
在模型中,self-attention模块采用多线程机制的关注。与点积的关注相比,这种机制的特性的表达能力是更为多样化,及其计算过程(gydF4y2Ba
21gydF4y2Ba ]gydF4y2Ba
(14)gydF4y2Ba
头gydF4y2Ba
我gydF4y2Ba
=gydF4y2Ba
注意gydF4y2Ba
问gydF4y2Ba
WgydF4y2Ba
我gydF4y2Ba
问gydF4y2Ba
,gydF4y2Ba
KgydF4y2Ba
WgydF4y2Ba
我gydF4y2Ba
KgydF4y2Ba
,gydF4y2Ba
VgydF4y2Ba
WgydF4y2Ba
我gydF4y2Ba
VgydF4y2Ba
,gydF4y2Ba
多线程gydF4y2Ba
问gydF4y2Ba
,gydF4y2Ba
KgydF4y2Ba
,gydF4y2Ba
VgydF4y2Ba
=gydF4y2Ba
ConcatgydF4y2Ba
我gydF4y2Ba
=gydF4y2Ba
1gydF4y2Ba
,gydF4y2Ba
…gydF4y2Ba
,gydF4y2Ba
hgydF4y2Ba
头gydF4y2Ba
我gydF4y2Ba
WgydF4y2Ba
OgydF4y2Ba
。gydF4y2Ba
的公式,gydF4y2Ba
hgydF4y2Ba 是“正面”的数量在多个正面,然后呢gydF4y2Ba
WgydF4y2Ba
我gydF4y2Ba
问gydF4y2Ba
∈gydF4y2Ba
ℝgydF4y2Ba
dgydF4y2Ba
模型gydF4y2Ba
×gydF4y2Ba
dgydF4y2Ba
问gydF4y2Ba
,gydF4y2Ba
WgydF4y2Ba
我gydF4y2Ba
KgydF4y2Ba
∈gydF4y2Ba
ℝgydF4y2Ba
dgydF4y2Ba
模型gydF4y2Ba
×gydF4y2Ba
dgydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
和gydF4y2Ba
WgydF4y2Ba
我gydF4y2Ba
VgydF4y2Ba
∈gydF4y2Ba
ℝgydF4y2Ba
dgydF4y2Ba
模型gydF4y2Ba
×gydF4y2Ba
dgydF4y2Ba
vgydF4y2Ba
是可训练的参数。self-attention模块主要包括归一化、self-attention层,剩余连接。远期self-attention模块的计算过程层gydF4y2Ba
lgydF4y2Ba 可以表示如下:gydF4y2Ba
(15)gydF4y2Ba
问gydF4y2Ba
lgydF4y2Ba
=gydF4y2Ba
LayerNormgydF4y2Ba
XgydF4y2Ba
lgydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
WgydF4y2Ba
问gydF4y2Ba
egydF4y2Ba
lgydF4y2Ba
,gydF4y2Ba
KgydF4y2Ba
lgydF4y2Ba
=gydF4y2Ba
LayerNormgydF4y2Ba
XgydF4y2Ba
lgydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
WgydF4y2Ba
KgydF4y2Ba
egydF4y2Ba
lgydF4y2Ba
,gydF4y2Ba
VgydF4y2Ba
lgydF4y2Ba
=gydF4y2Ba
LayerNormgydF4y2Ba
XgydF4y2Ba
lgydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
WgydF4y2Ba
VgydF4y2Ba
egydF4y2Ba
lgydF4y2Ba
,gydF4y2Ba
fgydF4y2Ba
自我gydF4y2Ba
−gydF4y2Ba
丙氨酸gydF4y2Ba
XgydF4y2Ba
lgydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
=gydF4y2Ba
XgydF4y2Ba
lgydF4y2Ba
−gydF4y2Ba
1gydF4y2Ba
+gydF4y2Ba
多线程gydF4y2Ba
问gydF4y2Ba
lgydF4y2Ba
,gydF4y2Ba
KgydF4y2Ba
lgydF4y2Ba
,gydF4y2Ba
VgydF4y2Ba
lgydF4y2Ba
,gydF4y2Ba
在哪里gydF4y2Ba
WgydF4y2Ba
问gydF4y2Ba
egydF4y2Ba
lgydF4y2Ba
∈gydF4y2Ba
ℝgydF4y2Ba
dgydF4y2Ba
模型gydF4y2Ba
×gydF4y2Ba
dgydF4y2Ba
问gydF4y2Ba
,gydF4y2Ba
WgydF4y2Ba
KgydF4y2Ba
egydF4y2Ba
lgydF4y2Ba
∈gydF4y2Ba
ℝgydF4y2Ba
dgydF4y2Ba
模型gydF4y2Ba
×gydF4y2Ba
dgydF4y2Ba
kgydF4y2Ba
,gydF4y2Ba
和gydF4y2Ba
WgydF4y2Ba
VgydF4y2Ba
egydF4y2Ba
lgydF4y2Ba
∈gydF4y2Ba
ℝgydF4y2Ba
dgydF4y2Ba
模型gydF4y2Ba
×gydF4y2Ba
dgydF4y2Ba
vgydF4y2Ba
是可训练的参数,将前一层的输出转换成三的查询,钥匙,和价值。LayerNorm表示归一化函数。层标准化规范化的特点。结合的缩放操作点产品的注意机制,整个计算过程的数值是更稳定的,和在训练收敛速度更快。gydF4y2Ba