从根本上讲,seq2seq方法是单一的输出序列,由项目已经发现的最可能的预测在每个步骤。通过使用启发式搜索算法推理过程中,进一步的信息可以从每个预测步骤被保留。这些信息可以帮助我们更好地理解黑盒模型的预测
24]。这种优化是使用定向搜索完成,最好保留几个项目数量通常称为波束宽度。科恩和贝克研究神经序列的性能退化模型时选择不恰当的波束宽度(
25]。近年来,使用定向搜索而不是传统的贪婪搜索是青睐,因为它通常提供更好的结果,尽管它是征税在运行时
26]。李etal. used a seq2seq model with beam search decoder to realize a dependency parser with a direct head prediction with promising performance [
27]。威廉姆斯等人提出了定向搜索的使用建立一个端到端的语音识别系统,它能够适应基于上下文的推理过程信号在每个预测步骤
28]。几个不同的修剪策略探讨与定向搜索使用,提高运行时(
29日]。seq2seq模型使用动态波束宽度采用Jahier Pagliari等人对嵌入式翻译系统为了提高它的效率(
30.]。束搜索算法的一个已知的缺点是它产生非常相似的输出序列在特定的用例。解决这一现象,提出了对图像字幕
31日]。
工业过程往往会产生
事件日志这些都是逻辑上组成的
事件(表示为
e
我)相关的生产、安全、运输、储存、销售、金融交易、市场营销、等。定义为事件日志
D
T数据库是一组有序的这些事件,事件排列根据开始时间的升序排序。的
D
T可以划分为数据集
序列(表示为
Φ
n),这是事件的时间顺序有序列表
Φ
k
:
=
e
1
⇒
e
2
⇒
⋯
⇒
e
k。根据不同的方面,这可以进行细分:因果联系的状态,时间分割,周期性,等。因此,一个序列
k被称为事件
k长度的序列,用
Φ
k。这些事件代表的发生
n不同的州(类型的事件)的集合
年代
=
年代
1
,
年代
2
,
…
,
年代
n。序列
Φ
k
:
=
e
1
⇒
e
2
⇒
⋯
⇒
e
k在任何部分可分为顺序吗
Φ
k
=
Φ
k
′
⇒
Φ
k
”,在那里
Φ
k
′和
Φ
k
”分别是前期和未来的状态序列(当然,
k
=
k
′
+
k
”)。以下简称“
′”和“
”“符号表示过去和未来序列或州,分别。
通常是单个或多个连接过程生成的数据分析,因果流连接各个时间的实例状态(不管数据集的类型,例如,事件、物品,交易,等等),出现的次数不同的州并不是相互独立的。因此,发生的概率
Φ
k序列
P
e
1
⇒
e
2
⇒
e
3
⇒
⋯
⇒
e
k可以通过链式法则计算条件概率的事件之间的转换根据以下方程:
(1)
P
Φ
k
=
P
e
1
×
P
e
2
|
e
1
×
P
e
3
|
e
1
⇒
e
2
×
⋯
⋯
×
P
e
k
|
e
1
⇒
e
2
⇒
⋯
⇒
e
k
−
1
。
因此,根据链式法则,一个的概率
k序列长度可以计算条件概率的乘积逐步过渡的先前的事件到现在的一个序列。条件概率的比值出现的次数越多扩展序列和短的,用的
增刊的价值序列,根据以下方程:
(2)
P
e
k
|
Φ
k
−
1
=
P
Φ
k
P
Φ
k
−
1
=
吃晚饭
p
Φ
k
吃晚饭
p
Φ
k
−
1
。
这反映出自信的是下一个状态转换概率知道先前的状态序列
Φ
k
−
1。
2.2。网络替代事件:序列树
下面的方法预测状态条件概率最高的是接受被Dorgő和Abonyi
22]。但是,底层的过程,因此,合成可以高度复杂的数据集。这种方法的最终目标是能够创建一个事件序列树描述可能的课程(所有高度可能的
Φ
k
”)根据给定的输入事件的序列(
Φ
k
′)。图
1显示详细的想法。横轴表示时间和未来可能的情况说明
k
′过去的事件命令在一个树结构。红色分支树的表示的场景,如果预测概率最高的接受每一个预测步骤,即通过使用贪婪的搜索算法。的
EOS标签显示end-of-sequence预测。
因此,接受条件概率预测模型通常与类似的概率,预测几个事件,实现定向搜索算法描述,因此不仅未来序列概率最高的被接受,但是一个场景树是正式的接受所有的预测概率事件超过一定阈值
P
用力推。因此,发生后的第一个
k
′事件,第一个未来事件的预测
e
1
”接受如果上面过渡是一个特定的信心
P
用力推限制如下:
(3)
e
1
”
|
P
e
1
”
|
Φ
k
′
>
P
用力推
。
应用方程(
3)在预测每一个步骤中,没有一个未来序列但多个序列或预计未来可能的场景如图
1。因此,正如它所描述的预测任务,
P
Φ
k
”
|
Φ
k
′条件概率是决定在所有可能的未来
Φ
k
”序列。
以注释的场景,介绍了分层注释的上标预测事件:”后的数字除以逗号
”“马克表示可能性的预测事件的预测步骤数量的可能性的预测,其中1表示最可能的未来状态。例如,标签
e
”
,
1、3、1显示,这是第三个预言未来事件(后三个数字存在”
”“马克),这是最高的事件概率的预测状态
e
”
,
1;然后接受这种预测,第二第三最高概率预测事件
e
”
,
1、3和接受前两个预测,第三预测事件概率最高预测步骤。类似地,
e
”
,
2、1未来状态的预测是第二高的概率(
e
”
,
2)第一未来事件和接受这样的预测,这是最高的预测概率预测在第二步骤。因此,不断接受最可能预测序列
e
”
,
1
⇒
e
”
,
1,- 1
⇒
e
”
,
1,1,1
⇒
⋯预计,红色箭头所反映出的图吗
1。然而,在这个序列,预测概率最高的每一步,接受整个序列的概率不会是最大的在所有情况下,自验收后不可能预测的预测步骤,以下预测事件可以高概率,然后整个序列的发生的概率可以相对较高(整个序列的发生的概率是根据方程(过渡概率的乘积
1))。
通过重复预测任务,每个节点序列树在图解释
1可能会被创建。每个预测步骤后,由会议的信心向前面定义的所有可能的事件
P
用力推概率极限,我们可以确保我们保持树的复杂性低至给定的任务所必需的。
模型的输入:图
2强调输入序列的结构。首先,end-of-sequence (EOS)结束标签附加到每个序列表示的事件系列。实现的EOS标记添加到序列的结束和处理类似于其他事件的后续步骤。此外,事件的顺序输入序列是逆转,因为根据Sutskever et al。
16),预测精度显著提高,当输入序列的开始接近预测序列的开始。
嵌入层:输入事件的描述顺序需要转换成一个数学上可控的向量的数值。因此,首先,这些符号编码为一个炎热的编码向量,
o
h
t二进制值的长度
n
d,在那里
n
d是一个炎热的编码符号的数量。在一个炎热的编码向量,只有一点相关的编码符号是解雇。详细的解释和可视化的一个炎热的编码可以在找到
34]。然后,嵌入层将一个炎热的编码向量转换成低维(
n
e使用一个)的连续值
x
t
=
W
循证
o
h
t线性变换。注意,在图
2,嵌入式形式的EOS象征是用EOS象征。
编码器和解码器层:编码器LSTM层过程的一个炎热的编码序列,然后嵌入的符号。而不是计算其输出值,将序列映射到它的内部状态。这些内部编码器层的权重表示状态的过程中,产生的事件。这些权重是用来条件译码器层,这意味着信息的传输过程中发生之前,通常意味着复制到译码器层编码器层的权重,获得相同的结构(
n
uLSTM单位)。这些重量显示译码器的预测需要层。后的输入(嵌入式)start-of-sequence象征,译码器层预测下一个事件的预测序列迭代,不断应用先前预测事件作为输入的预测下一个事件。重复这个过程,直到end-of-sequence象征预计或达到最大序列长度。
致密层:解码器后层地图输入事件
x
k
”
”成一个向量的值
h
”表示为
h
”
=
h
1
”
,
…
,
h
n
U
”,这些值用于计算事件的发生概率的使用将softmax致密层的激活函数图
2,
(4)
P
e
t
+
1
”
|
x
t
”
=
P
e
t
+
1
”
|
h
t
”
=
经验值
h
t
”
T
w
年代
,
j
+
b
j
∑
j
=
1
n
d
经验值
h
t
”
T
w
年代
,
j
+
b
j
,
在哪里
w
年代
,
j代表了
jth权重矩阵的列向量输出的致密层的网络
W
年代,
b
j表示程度的偏见。一旦每个状态的概率确定在我们的字典,所有上述预测定义的阈值
P
用力推被接受为下一个事件相关的未来场景,
(5)
e
t
+
1
”
|
P
e
t
+
1
”
|
h
t
”
>
P
用力推
。
该方法结果的概率树探索和记录以深度优先的方式(图
3)。这种方法的资源需求显著增加,有必要存储所有内部LSTM状态和之前预测的输出为每个step-depending原始数字可能的事件可能被占用很多内存。此外,增加推理运行时预计的时间需求深度优先搜索算法
O
V
+
E,在那里
V和
E站在树中顶点和边的数量,分别。的伪代码树的遍历和递归预测步骤如下所示。