复杂性 复杂性 1099 - 0526 1076 - 2787 Hindawi 10.1155 / 2021/7887159 7887159 研究文章 基于事件树的序列挖掘使用LSTM深度学习模型 https://orcid.org/0000 - 0001 - 8593 - 1493 Abonyi Janos 理查德。 https://orcid.org/0000 - 0003 - 1864 - 7315 Dorgo Gyula 法瑞斯 冈萨洛 MTA-PE Lendulet复杂系统监测研究小组 过程工程系 潘诺尼亚大学 Egyetem 10 u。 Veszprem h - 8200 匈牙利 uni-pannon.hu 2021年 16 8 2021年 2021年 10 6 2021年 31日 7 2021年 16 8 2021年 2021年 版权©2021 Janos Abonyi et al。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

在现代技术的操作系统,使用LSTM模型预测过程变量值和系统状态通常是广泛的。本文的目的是扩大LSTM-based模型的应用在基于预测的获取信息。在这种方法中,通过预测过渡概率,输出层被解释为一个概率模型通过创建一个预测序列树而不是一个序列。通过进一步分析预测树,我们可以考虑风险因素,提取更复杂的预测,并分析了是哪个事件树的不同的输入序列,也就是说,与给定状态或输入序列,即将到来的事件,其发生的概率。的在线应用程序,利用一系列的输入事件和概率树,可以预先确定随后的事件序列。演示了该方法的适用性和性能数据集通过一个事件的发生是预先确定的,并进一步用高阶决策树模型生成的数据集。简单而有效的案例研究验证的性能工具创建的结构生成树,并确定概率反映原始数据集。

匈牙利国家研究、开发和创新基金 2020 -以下4.4.1 tkp2020
1。介绍

如今,发现可能的频繁的事件序列场景已经在许多学科中一个关键任务。在大数据时代,当大量的数据被记录到日志在行业的范围4.0趋势,是很重要的工程师获得尽可能多的关于工业过程的知识( 1, 2]。通过使用频繁模式挖掘算法在事件日志,我们能够识别序列,可能导致系统状态。这个方法已经证明了自己的能力在许多应用程序和行业。陶布等人使用序列挖掘区分有效和nonefficient行动模式在他们的主题在一个基于游戏的学习环境 3]。类似的频繁模式识别方法被用来洞察到成功的学习模式使用贝蒂的大脑以计算机为基础的学习环境 4]。通用(独立于语言)为语言学的模式发现算法,特别注意在哪里支付给一个清晰的、容易理解的输出( 5]。康德等人提出了一种新的算法 MC棱镜)我min-closed序列识别评论部分垃圾网站上的内容( 6]。一个新的框架称为恶意顺序基于模式的恶意软件检测是由使用一种新的序列模式挖掘算法(摩根士丹利)认识到新的,看不见的恶意可执行文件在计算机系统( 7]。维斯使用遗传算法分析颞模式通信系统的报警数据来识别设备故障( 8]。序列模式挖掘是也用于事件预测在众多应用程序( 9, 10]。

虽然这些例子都能很好地实现了序列模式挖掘的任务,传统算法受苦受难,运行时和准确性在处理大规模数据集( 11]。频繁模式挖掘解决方案的另一个缺点是它们的输出数据证明是具有挑战性的解释和处理开采序列的数量高往往引入一个新的问题解决( 12]。代表了信息,频繁模式树被证明是更加紧凑和可行的数据结构 13]。

机器学习技术优秀的工具来处理大规模数据集。学习模式的训练序列是一个相似的任务在学习语言和频繁的事件序列的识别,使用多空词记忆(LSTM)会产生更好的效果比传统的递归神经网络(RNNs) [ 14]。为什么LSTM适合这个应用程序是使用细胞忘记门,就是能重置网络的内部状态( 15]。算法称为seq2seq学习方法是在2014年由Sutskever等人在谷歌频繁序列学习使用LSTM改善机器翻译( 16]。自从这个方法已经在许多应用程序使用。Karatzoglou等人用它来改善定位服务通过学习人类语义轨迹和更好地预测即将到来的位置( 17]。方法的功能也被证明在财政Rebane等人分析cryptocurrency价格预测的性能( 18]。seq2seq基于模型的方法被用来提高查询集中总结性能( 19]。吴等人描述了一种新颖的方法来创建、存储、和转换日志的物联网系统之后处理大数据通过他们提出seq2seq算法( 20.]。该方法也被应用于制造系统。黄等人使用该算法预测炉温基于其他流程变量与一个非常高的准确性( 21]。这种结构的一般应用程序事件预测详细描述了Dorgőet al。 22, 23]。

从根本上讲,seq2seq方法是单一的输出序列,由项目已经发现的最可能的预测在每个步骤。通过使用启发式搜索算法推理过程中,进一步的信息可以从每个预测步骤被保留。这些信息可以帮助我们更好地理解黑盒模型的预测 24]。这种优化是使用定向搜索完成,最好保留几个项目数量通常称为波束宽度。科恩和贝克研究神经序列的性能退化模型时选择不恰当的波束宽度( 25]。近年来,使用定向搜索而不是传统的贪婪搜索是青睐,因为它通常提供更好的结果,尽管它是征税在运行时 26]。李etal. used a seq2seq model with beam search decoder to realize a dependency parser with a direct head prediction with promising performance [ 27]。威廉姆斯等人提出了定向搜索的使用建立一个端到端的语音识别系统,它能够适应基于上下文的推理过程信号在每个预测步骤 28]。几个不同的修剪策略探讨与定向搜索使用,提高运行时( 29日]。seq2seq模型使用动态波束宽度采用Jahier Pagliari等人对嵌入式翻译系统为了提高它的效率( 30.]。束搜索算法的一个已知的缺点是它产生非常相似的输出序列在特定的用例。解决这一现象,提出了对图像字幕 31日]。

本文旨在创建自己的实现seq2seq学习方法定向搜索译码器,这称为seq2probTree方法。这种方法将Python环境中实现的,它可以创建一个概率树描述事件的替代网络基于一个给定的输入。显示输出的工具能够实现一个简单的解释,结构化的概率树,从而使预测的可视化和协助seq2seq模型的调试,故障分析的深层神经网络是一个任务,巨大的重要性,尤其是在对安全性要求苛刻的应用程序的情况下( 32]。

首先,在节 2,该方法将解释道。将定义必要的表情和预测任务。的LSTM深度学习模型将随着树描述创建过程。指标用于评价也将在本节中定义的。节 3、实现过程和使用工具箱将简单地介绍。然后,seq2probTree方法将测试通过以后在一阶马尔可夫链模型和一个高阶树型系统,在多大程度上能够重建树的方法检查,和必要的定义比较分数。最后,现实生活中的实用性被证实通过使用它的报警日志氢氟酸烷基化生产单位。最后,节 4使用开发的方法,研究结果和经验的总结,并在主题将提出进一步措施。

2。方法

在本节中,将详细解释了前面定义的任务。将定义一个事件序列和概率是如何计算出来的。seq2probTree方法解释的特点,创建一个整个序列树而不是只预测最有可能出现的情景。在这里,除了理论预测,还提供了基于树的事件情况代的扩展。预测的指标用于评估事件的场景也详细解释。

2.1。序列和预测任务

工业过程往往会产生 事件日志这些都是逻辑上组成的 事件(表示为 e )相关的生产、安全、运输、储存、销售、金融交易、市场营销、等。定义为事件日志 D T 数据库是一组有序的这些事件,事件排列根据开始时间的升序排序。的 D T 可以划分为数据集 序列(表示为 Φ n ),这是事件的时间顺序有序列表 Φ k : = e 1 e 2 e k 。根据不同的方面,这可以进行细分:因果联系的状态,时间分割,周期性,等。因此,一个序列 k 被称为事件 k 长度的序列,用 Φ k 。这些事件代表的发生 n 不同的州(类型的事件)的集合 年代 = 年代 1 , 年代 2 , , 年代 n 。序列 Φ k : = e 1 e 2 e k 在任何部分可分为顺序吗 Φ k = Φ k Φ k ,在那里 Φ k Φ k 分别是前期和未来的状态序列(当然, k = k + k )。以下简称“ ”和“ “符号表示过去和未来序列或州,分别。

通常是单个或多个连接过程生成的数据分析,因果流连接各个时间的实例状态(不管数据集的类型,例如,事件、物品,交易,等等),出现的次数不同的州并不是相互独立的。因此,发生的概率 Φ k 序列 P e 1 e 2 e 3 e k 可以通过链式法则计算条件概率的事件之间的转换根据以下方程: (1) P Φ k = P e 1 × P e 2 | e 1 × P e 3 | e 1 e 2 × × P e k | e 1 e 2 e k 1

因此,根据链式法则,一个的概率 k 序列长度可以计算条件概率的乘积逐步过渡的先前的事件到现在的一个序列。条件概率的比值出现的次数越多扩展序列和短的,用的 增刊 的价值序列,根据以下方程: (2) P e k | Φ k 1 = P Φ k P Φ k 1 = 吃晚饭 p Φ k 吃晚饭 p Φ k 1

这反映出自信的是下一个状态转换概率知道先前的状态序列 Φ k 1

2.2。网络替代事件:序列树

下面的方法预测状态条件概率最高的是接受被Dorgő和Abonyi 22]。但是,底层的过程,因此,合成可以高度复杂的数据集。这种方法的最终目标是能够创建一个事件序列树描述可能的课程(所有高度可能的 Φ k )根据给定的输入事件的序列( Φ k )。图 1显示详细的想法。横轴表示时间和未来可能的情况说明 k 过去的事件命令在一个树结构。红色分支树的表示的场景,如果预测概率最高的接受每一个预测步骤,即通过使用贪婪的搜索算法。的 EOS 标签显示end-of-sequence预测。

预测场景树结构(命令 EOS 标记表示end-of-sequence预测)。

到目前为止,只有最高的场景概率预测,忽略了可能发生的可能性较小,但是,高度信息和必要的子序列,表明不同场景的即将到来的事件。添加了这个方法的特性是揭开这些高度可能的序列可能产生的信息。

因此,接受条件概率预测模型通常与类似的概率,预测几个事件,实现定向搜索算法描述,因此不仅未来序列概率最高的被接受,但是一个场景树是正式的接受所有的预测概率事件超过一定阈值 P 用力推 。因此,发生后的第一个 k 事件,第一个未来事件的预测 e 1 接受如果上面过渡是一个特定的信心 P 用力推 限制如下: (3) e 1 | P e 1 | Φ k > P 用力推

应用方程( 3)在预测每一个步骤中,没有一个未来序列但多个序列或预计未来可能的场景如图 1。因此,正如它所描述的预测任务, P Φ k | Φ k 条件概率是决定在所有可能的未来 Φ k 序列。

以注释的场景,介绍了分层注释的上标预测事件:”后的数字除以逗号 “马克表示可能性的预测事件的预测步骤数量的可能性的预测,其中1表示最可能的未来状态。例如,标签 e , 1、3、1 显示,这是第三个预言未来事件(后三个数字存在” “马克),这是最高的事件概率的预测状态 e , 1 ;然后接受这种预测,第二第三最高概率预测事件 e , 1、3 和接受前两个预测,第三预测事件概率最高预测步骤。类似地, e , 2、1 未来状态的预测是第二高的概率( e , 2 )第一未来事件和接受这样的预测,这是最高的预测概率预测在第二步骤。因此,不断接受最可能预测序列 e , 1 e , 1,- 1 e , 1,1,1 预计,红色箭头所反映出的图吗 1。然而,在这个序列,预测概率最高的每一步,接受整个序列的概率不会是最大的在所有情况下,自验收后不可能预测的预测步骤,以下预测事件可以高概率,然后整个序列的发生的概率可以相对较高(整个序列的发生的概率是根据方程(过渡概率的乘积 1))。

通过重复预测任务,每个节点序列树在图解释 1可能会被创建。每个预测步骤后,由会议的信心向前面定义的所有可能的事件 P 用力推 概率极限,我们可以确保我们保持树的复杂性低至给定的任务所必需的。

2.3。的LSTM深度学习模型

seq2seq机器学习方法,所谓的多空词记忆是利用递归神经网络的选择。这个网络是专门开发处理的问题消失梯度可能最少的计算成本增加( 33]。LSTM网络著名的功能分类,处理,和预测在时间序列数据由于其相对不敏感缺口长度(滞后)离散事件之间,哪个属性是受欢迎的在给定的用例。LSTM结构如图 2

模型的输入:图 2强调输入序列的结构。首先,end-of-sequence (EOS)结束标签附加到每个序列表示的事件系列。实现的EOS标记添加到序列的结束和处理类似于其他事件的后续步骤。此外,事件的顺序输入序列是逆转,因为根据Sutskever et al。 16),预测精度显著提高,当输入序列的开始接近预测序列的开始。

嵌入层:输入事件的描述顺序需要转换成一个数学上可控的向量的数值。因此,首先,这些符号编码为一个炎热的编码向量, o h t 二进制值的长度 n d ,在那里 n d 是一个炎热的编码符号的数量。在一个炎热的编码向量,只有一点相关的编码符号是解雇。详细的解释和可视化的一个炎热的编码可以在找到 34]。然后,嵌入层将一个炎热的编码向量转换成低维( n e 使用一个)的连续值 x t = W 循证 o h t 线性变换。注意,在图 2,嵌入式形式的EOS象征是用EOS象征。

编码器和解码器层:编码器LSTM层过程的一个炎热的编码序列,然后嵌入的符号。而不是计算其输出值,将序列映射到它的内部状态。这些内部编码器层的权重表示状态的过程中,产生的事件。这些权重是用来条件译码器层,这意味着信息的传输过程中发生之前,通常意味着复制到译码器层编码器层的权重,获得相同的结构( n u LSTM单位)。这些重量显示译码器的预测需要层。后的输入(嵌入式)start-of-sequence象征,译码器层预测下一个事件的预测序列迭代,不断应用先前预测事件作为输入的预测下一个事件。重复这个过程,直到end-of-sequence象征预计或达到最大序列长度。

致密层:解码器后层地图输入事件 x k 成一个向量的值 h 表示为 h = h 1 , , h n U ,这些值用于计算事件的发生概率的使用将softmax致密层的激活函数图 2, (4) P e t + 1 | x t = P e t + 1 | h t = 经验值 h t T w 年代 , j + b j j = 1 n d 经验值 h t T w 年代 , j + b j ,

在哪里 w 年代 , j 代表了 j th权重矩阵的列向量输出的致密层的网络 W 年代 , b j 表示程度的偏见。一旦每个状态的概率确定在我们的字典,所有上述预测定义的阈值 P 用力推 被接受为下一个事件相关的未来场景, (5) e t + 1 | P e t + 1 | h t > P 用力推

图解的结构sequence-to-sequence事件情况的预测。编码器模型输入序列的状态映射到一个固定长度的基于矢量的表示。使用这些输入事件的基于矢量表示为初始状态,译码器模型决定了下一个事件。然而,使用概率计算致密层,不仅事件概率最高的记录,但事件场景预测使用上面每一个预测一个预定义的阈值。StOS和EOS标签标志着start-of-sequence end-of-sequence标签,分别。

2.4。创建和遍历概率树

预测之前,事件的顺序定义过程的状态转换到编码器层的内部状态。然后,这些内部的编码器层包含信息的历史过程转移到译码器层。的预测开始输入start-of-sequence符号(标记为StOS图 2)。译码器网络产生对未来事件的预测,这是重新引入到译码器的输入网络和应用作为输入下一个时间步。利用原始seq2seq学习方法,生成的事件不断添加到预测的事件序列。seq2probTree功能添加的方法是,在预测的第一步start-of-sequence符号后,我们不只是接受一个事件作为下一个最高的概率。然而,我们把整个输出向量并应用方程( 3),因此修剪候选人在未来可能的事件。然后,我们进一步探索替代事件的网络中每一个即将到来的事件的概率是决定(存储如果概率足够),从而实现了定向搜索算法。预测过程直到层生成end-of-sequence符号或到达之前限量的预测序列的长度在每一个场景。

该方法结果的概率树探索和记录以深度优先的方式(图 3)。这种方法的资源需求显著增加,有必要存储所有内部LSTM状态和之前预测的输出为每个step-depending原始数字可能的事件可能被占用很多内存。此外,增加推理运行时预计的时间需求深度优先搜索算法 O V + E ,在那里 V E 站在树中顶点和边的数量,分别。的伪代码树的遍历和递归预测步骤如下所示。

<大胆>算法1:< / >大胆预测前预处理。

需要: 模型 LSTM , eventseq 输入

创建根节点 事件

添加事件 eventseq 输入 事件

输入 LSTM = inputConversion ( eventseq 输入 )\(⊳\)转换的输入匹配编码器嵌入层格式

LSTM = 编码器 LSTM 预测 输入 LSTM

RecursiveDecoding ( 输入 LSTM , LSTM , 事件 )

<大胆>算法2:< /大胆> RecursiveDecoding函数。

需要: 输入 LSTM , LSTM , 事件

输出 LSTM , LSTM = 译码器 LSTM 预测 输入 LSTM , LSTM

= 0

e | P e > P 用力推 输出 LSTM < N 用力推

添加 e 事件

删除 e 输出 LSTM

如果( e EOS或 sequencelength 马克斯 达到) 然后

RecursiveDecoding ( 输入 LSTM + e , LSTM , 事件 )

=+ 1

深度优先遍历树结构。

2.5。评估和度量

模型的评价进行了使用指标测量方法的潜在的适用性。因为重点是预测系统的开发,把人的注意力吸引到了最可能的结果的过程中,三个性能指标已确定描述包含事件的序列中找到合适的每一步使用方程( 3)。因此,对于简单的符号,我们介绍 Φ ^ ,包含事件的序列只有足够的预测概率在每一步。

首先, 年代 1 的百分比吗 Φ ^ 序列,包括至少一个推测事件。数学公式, Φ 是事件发生的顺序,我们的目标是预测,在吗 Φ 是我们的预测。 N 在分析数据库中序列的数量,基数的标注是一组 ,而两个序列的公共元素标记为他们的十字路口。数学上, 年代 1 表示如下: (6) 年代 1 = n = 1 N Φ n Φ ^ n 1 N

第二, 年代 % 基于集合的相似性度量,描述了推测事件的比例已经定义了目标序列的长度。没有事件发生的顺序,和 年代 % 衡量准确地预测事件的类型, (7) 年代 % = n = 1 N Φ n Φ ^ n / Φ n N

最后, 年代 艾德 提出了,这是一个编辑,提供了基于距离的相似性度量之间的编辑距离实际(目标)和预测序列的长度的比例更扩展序列。编辑距离的收益率必须插入元素的最小数量或跳过比较序列是相同的。两个序列的编辑距离和标记 艾德 和方程( 8)从数学上描述了 年代 艾德 编辑基于距离的相似性度量, (8) 年代 艾德 = n = 1 N 艾德 Φ n , Φ ^ n N

这些性能指标计算每个序列的树,只要找到一片叶子,也就是说, EOS 预计,或达到最大序列长度。然而,为了使结果序列更加可比,他们的信心也计算。信心对于每个 Φ ^ 被定义为一个产品的支持所有包含的事件序列。的支持事件的概率是LSTM计算项目,考虑到之前的事件序列。事件的输入序列,确定了支持的值为1, (9) 信心 = = 1 k P e | Φ ^ 1

3所示。实现和结果

在本节中,总结了对该方法的实现。然后,使用验证技术是详细的,获得的结果进行评估。自实施工具是用于诊断目的,结果应该很容易复制。因此,应用该方法的例子验证是由不同的复杂性。首先,实现系统验证了一个简单的一阶马尔可夫链的方法复制序列树是检查的能力。然后,证明该方法的能力理解高阶事件之间的关系,一个更复杂的基准数据集使用基于树的生成系统。最后,该方法测试实际的生产单位。

3.1。实现seq2probTree方法

Python实现的描述方法使用世爵4集成开发环境的水蟒开源数据科学发展平台。这个平台很适合任务最必要的库是包含在默认情况下,从而最小化设置的发展过程。使用Keras的LSTM RNN实施,深度学习上运行的应用程序编程接口的TensorFlow端到端机器学习的开源平台。Keras API是著名的以其成熟的文档和高质量的例子代码,注释,便于适应这通常很好。为了减少运行时LSTM的训练过程,NVIDIA CUDA®深神经网络(cuDNN)图书馆利用。Tensorflow因为Keras之上,恰巧是一个cuDNN加速框架初始设置后,由LSTM培训所需的时间减少了十倍。这个速度增长提供的NVIDIA Geforce 1080 GTX Ti图形处理单元。

本文展示的概率树生成使用Python的工具包,它提供了一个广泛的tree-handling选项和节点注释功能与树可视化系统的输出结果树。马尔可夫链模型的代码是MathWorks MATLAB环境中创建易于导出模拟数据 .xlsx格式和将它导入到Python使用熊猫库。然而,由于训练数据集的规模巨大的三阶马尔可夫模型,用MATLAB 。m格式必须利用,可以由SciPy蟒蛇(包括方便)。

最终实现由两个例程。第一个包含所需的数据集的选择,LSTM的设置,培训过程和训练的创建历史情节。训练过程完成后,编码器和译码器模型保存,从而消除运行模式的必要性与每个后续培训会议的应用工具。第二个程序由加载LSTM模型,递归解码,和所有必要的功能指标计算和树生成和输出。

3.2。一阶马尔可夫模型验证

在本节中,将简要总结该方法是如何被实现的。缓解的验证,使用一个简单的马尔可夫链。接下来的模型由12个州在一行作为一个经验法则。唯一2异常状态4和7,打破这个规则。而过渡状态4,有一个概率为0.35,系统将“重置”,因此返回状态1。如果系统达到的状态7, 30. % 机会,系统跳过以下2个,10。这种行为可以观察到在图 4

过渡概率(a)和定向图(b)的一阶马尔可夫链。

数据集通过创建10000年成立序列利用马尔可夫链来描述。每个序列是从一个随机选择的系统状态,长度也是随机确定9和12之间。数据集的生成后,LSTM模型培训通过使用以下参数:

嵌入维数= 6

潜在的尺寸= 15

批量大小= 256

时代= 70

培训可以观察到图的准确性和损失 5。为了验证模型的性能,反复核对每个状态是由喂养作为输入编码器,因此初始化内部LSTM状态。重要的是要注意,初始化验证的编码器,不仅国家的预测开始需要用作输入还前面的两个国家;至于模型训练,每个序列数据库中分离后第三个国家作为输入和输出。然后,预测一步完成,并记录LSTM的输出。这是对每个状态,重复创建验证转换矩阵,然后与一阶马尔可夫链的转移矩阵(图(a)中的一部分 4)。在图 6,每个预测值见原来的跃迁概率的函数。这个简单的示例的计算确定系数高达0.9994。

培训一阶马尔可夫链的统计数据。

Crossvalidation一阶马尔可夫链的转移概率。

培训完成后,seq2probTree方法利用了 P 用力推 = 0.2 和给予的输入序列 1、2、3 教LSTM模型。最大输出序列长度设置为12。

7提供了有关指标的视觉教具放在每个节点概率树,而获得的结果可以观察到图 8。树的每个节点至少有三个属性: 的名字 , 支持 , 信心 (顶部和底部的值,分别)。的 EOS 节点也有三个性能指标计算给定序列: 年代 1 , 年代 % , 年代 艾德 的值,可以发现,在右列指定的顺序从上到下。例如,它可以观察到从图 7seq2probTree方法预测11子序列结束后状态10概率为0.49。此外,计算结束后的序列状态11的概率是0.5。我们也可以看到的信心 Φ k 因此,整个序列结束 EOS ——0.04。的 年代 1 值也显示了突出显示 Φ k 序列,每一个条目(1.0)从给定的输入数据库 Φ k subsequence-in这种情况下(1 2 3)——至少有一个州已经预测 Φ k 的方法。 年代 % 0.68给我们的状态预测 Φ k 发生在 68年 % 的数据库条目开始(1 2 3)。最后一个指标 EOS 节点的概率树- 年代 艾德 形式,一般编辑distance-thus的数量变化,需要匹配序列是4.49,前面提到的 Φ k

解释概率指标位于节点的树。

的输出seq2probTree一阶马尔可夫模型的学习方法。

一阶马尔可夫链的属性中可观察到的结果。这两个杰出的转换可识别,预测转移概率是在一个马尔可夫链的误差。这棵树也反映了所有可能的不同长度变异序列。

3.3。高阶树型系统上验证

随着LSTM-based深度学习网络是显式地开发捕捉数据的长期关系,高阶系统用于进一步评估。系统的行为是基于概率树,这是伪随机生成的。树的每个节点可能有三个孩子,与它所代表的系统说明和状态发生的概率也随机生成的。之和的概率状态源自相同的节点归一化到1。树的深度决定8和9-without考虑之间的随机 ( StOS ), ( EOS )节点。应用状态的数量设置为4,以便更容易理解和重建结果。然而,在这种复杂性,它已经是一个艰巨的任务。状态是由字母A, B, C, d体系的复杂性可以观察到在图 9,检查过渡probabilities-thus高亮区域可见的更透明的数据 10- - - - - - 12

完整的基于树的系统的状态转移概率。系统的复杂性很容易观察到的。

完整的基于树的系统的状态转移概率,假设[D D]历史事件。

完整的基于树的系统的状态转移概率,假设[B]历史事件。

完整的基于树的系统的状态转移概率,假设[D]历史事件。

利用seq2probTree方法,创建了一个训练数据集组成的 10000年 从模拟系统 节点和随机确定过渡probabilities-until基于路径 节点。给定的模拟得出结论后,合成数据集复制六次,在培训期间,序列分为输入和目标和这个职位,序列的分离。作为 输入 目标 是随机选择的。六次乘法的原因是切的位置之间的不同 1 6 th 在序列分离状态 输入 目标 后选中的状态。生成的数据集是用于训练LSTM模型通过使用以下参数:

嵌入维数= 2

潜在的尺寸= 15

批量大小= 64

时代= 25

在培训期间产生的数据集的仿真提出了基于树的系统,精度和损失函数也被记录下来。他们可以观察到图形式 13。重要的是要注意,在培训期间, 20. % 数据集被用来验证数据,而辍学不是LSTM层中的应用。

培训统计树系统。

LSTM模型的训练后,上述数据集,seq2probTree方法应用与输入序列数据中突出显示的区域 14- - - - - - 16- - - - - - [D], [D D], [B]。

树型seq2probTree方法系统的输出与输入序列[D]。

树型seq2probTree方法系统的输出与输入序列[D D]。

树型seq2probTree方法系统的输出与输入序列[B]。

为了尽可能最小生成树,只有最高的州组成的概率 P 用力推 被设置为较高的值为0.25。此外, N 用力推 介绍了参数的梁强度值2,代表概率是最高的,只有两个国家考虑施工的树。最大的序列长度设置为9,这些措施确保合成树的大小和适合评价来说是足够的。

通过比较获得概率树的树定义系统的行为,可见,seq2probTree方法基于LSTM模型可以捕捉的长期关系的一个系统。考虑到训练精度为0.86,获得的结果代表了原始系统是基于概率树很准确。几个预测错误是可观测的结果。这些差异可以解释,指出输入序列是相对稀缺的;因此,短模式高别人可以“误导”模型。

提出了作为seq2probTree方法作为一种工具能够在线动态过程监督,它提供的视觉信息是至关重要的。而理解预测树稀疏的输入是很艰巨的任务,作为输入序列扩展系统状态,越复杂的概率树结构。数据 16- - - - - - 21代表方法的可视化输出,而循序渐进的附加输入序列从[B] [B B D D]后最可能的路径如图 16(也最低的序列的道路 年代 艾德 度量)。结果清楚地表明如何获得概率树的复杂性减少通过扩大输入序列。推断状态序列是通过提供多元化稀缺LSTM模型的输入,和一些错误的结论。找到一个很好的例子,这种行为在图 17[B]后,输入序列,状态的预测概率 P 用力推 随着状态B,应确定过渡。

树型seq2probTree方法系统的输出与输入序列[B]。

树型seq2probTree方法系统的输出与输入序列(B B)。

树型seq2probTree方法系统的输出与输入序列[B B]。

树型seq2probTree方法系统的输出与输入序列[B B D]。

树型seq2probTree方法系统的输出与输入序列[B B D D]。

量化模型的准确性对于每个提到的输入序列,平均误差计算,可能观察到的在桌子上 1。error-just像 年代 指标是计算每个预测事件序列的概率树通过简单计算有多少元素从序列中没有发现概率树定义系统。然后确定错误平均。

计算平均误差值不同的输入序列。

输入序列 平均误差
D 3所示。5
D 2.5625
B 2.1
B一个 3.4667
一个B 2.6667
B B 0
B B D 0
B B D D 0

一个问题出现在利用seq2probTree方法是关于必要的输入序列的长度,之后被认为是合理准确的输出。表 1给了我们的想法,如果输入序列至少是研制出长,然后生成的概率树seq2probTree方法将没有差异树相比,基于系统的行为。因此,每个可能的概率树4-length输入序列生成和aAverage计算错误。因为相同的精度不能期望所有的输入序列为了comparison-an额外权重应用于计算平均误差。重量计算通过确定每个输入序列和规范他们的信心基于最高的价值。可以观察到结果加权平均误差值表 2。根据获得的结果,可以后说 4 th 输入元素,这个示例系统的预测非常准确。低信心更重要的差异观察序列,而即使在输入序列(几个)改道是可能的。

与每一个可能的预测误差统计 Φ 4 输入。

SEQ 相依。 重量 平均误差 加权a E。
B B 0.1804 1 0 0
D C一个 0.0687 0.3808 2.8889 1.1001
D C A D 0.0013 0.0074 2.25 0.0166
D C B D 0.005 0.0279 1。8 0.0503
D D D C 0.0398 0.2207 4 0.8828
D D D B 0.0487 0.2698 0 0
D D C D 0.0122 0.0674 3.3333 0.2248
D D C C 0.0984 0.5456 2.5714 1.4031
D D一 0.0702 0.3889 2.2222 0.8642
D D B 0.0468 0.2592 4 1.0370
B B B 0.0396 0.2195 1.8571 0.4077
一个D C C 0.1313 0.7277 0 0
一个D C D 0.0676 0.3749 0 0
C D 0.0879 0.4873 2.25 1.0964
一个C一个 0.1032 0.572 2.4444 1.3983

利用seq2probTree方法基于树的系统,预测高阶算法事件关系的能力与成功验证。引入了平均误差值来帮助评估结果直接比较时可能有一个原始概率树。

3.4。案例研究:警报场景的氢氟酸烷基化生产单位

该方法已应用于氢氟酸烷基化生产部门的一个警报日志检查真实的性能。可以观察到技术的工艺流程图如图 22

工艺流程图的氢氟酸(HF)烷基化生产单位。

日志用于实验的操作是由生产单位在为期4个月(121天)内,所有传入的警报和其他事件记录。未经加工的日志包含精确 200802年 条目的 30168年 消息未压制的报警事件。 8721年 这些警报被认为是重要的,因此没有搁置的运营商。事件序列的输入工具是由分组基于时间窗,同时保留他们的连续时间属性。因此,当一个 600年 证券交易委员会 差距是发现最后一个事件之后,这两个事件是不被认为是相关的,启动一个新的序列。通过使用这种策略,分为重要警报 3330年 序列。然后,通过只考虑事件序列的最小长度两个,价值序列的数量进一步减少了762人。同样重要的是要注意,这个事件数据库具有极高的独特状态数比前一例子中,序列是由354个国家组成的。由于保密原因,报警标签的名称(意思)被移除。

然后,这个序列数据库进行了分析开始频繁的事件序列。这个案例研究进行分析,四个最频繁的事件选择使用seq2probTree方法被利用。选择事件的名称和他们的出现作为第一序列表突出显示 3

出现频繁的启动事件序列的统计数据 D T

标识符 不。的出现
136711年 127年
136769年 32
137438年 31日
137272年 31日

处理事件日志后,seq2probTree方法已经应用到数据库中。从图的训练结果 23使用以下LSTM和培训所获得的参数:

嵌入维数= 5

潜在的尺寸= 25

批处理大小= 32

时代= 500

训练数据的日志的氢氟酸生产单位。

通过使用上述事件作为输入seq2probTree方法,数据的概率树 24- - - - - - 27已创建。梁的参数搜索算法 P 用力推 N 用力推 分别设置为0.065和3。分析了树木,很明显,seq2probTree方法能够学习和识别可能的事件场景。然而,由于数据集是大大diverse-especially自seq2probTree方法也是顺序position-sensitive-the个人转换的概率相当低;因此,浅 P 用力推 值是合理的。移动的低概率阈值会导致巨大的树木;因此,只有最频繁的转换中显示数据。在图 27方法的一个缺点也观察到:在更长的序列,含有或从[136711]开始,经常反复出现[361835]。这种转变是如此突出,LSTM继续用高概率预测模型。在这些情况下,只有定义最大输出序列长度参数保持seq2probTree方法创建一个日益增长的分支在树上。

输出的高频seq2probTree方法生产单位输入[136769]。

输出的高频seq2probTree方法生产单位输入[137438]。

输出的高频seq2probTree方法生产单位输入[137272]。

输出的高频seq2probTree方法生产单位输入[136711]。

24说明了不同的报警序列与脱丙烷塔。初始化树的报警信息脱丙烷塔压力[136769],可以报警级别的脱丙烷塔的船只之一[137161]或警报泵[136711]。脱丙烷塔容器上的报警后,报警脱丙烷塔压力[136769]或脱丙烷塔的饲料可以在[353848]。

警报序列图 25脱丙烷塔的另一个场景相关。可以看到,容器的温度报警器的报警信息[137438]可以通过泵报警之后再次[136711],或报警级别相同的容器[137161],流通管道,罕见的警报。

26是一个很好的例子,一个问题在底部的一部分脱模[137272]可以在连接单元产生一连串的警报(泵和级别的船)。

同样,很长的报警不同概率图生成的级联 27。正如我们看到的,报警的泵[136711]重新出现在许多序列,毫不奇怪,它可以诱发其他几个警报的存在不同的场景中出现的顺序。

4所示。结论

提出了seq2probTree方法,seq2seq学习算法的应用扩大了不仅考虑最可能的项目,也进一步探索一个事件序列的替代课程使用光束在推理搜索算法。这种方法实现了在Python环境中通过使用先进的开发工具。

繁殖能力的方法已经证明给定系统的特点,采用一阶马尔可夫链模型。提供过渡概率是相当确定,但这种方法也能够揭示独特的属性和怪癖的检测系统。假设seq2probTree方法能够探索高阶之间的关系事件已经证明和验证使用树型系统为例。此外,平均误差度量提出了帮助用户在决定输入的长度需要可靠的预测。最后,该方法的适用性研究在现实生活中的实际例子,其产生有价值的结果即使在高度多样化的情况下系统。该方法能够警报事件场景和地图的典型代表那些在视觉上可判断的方式在氢氟酸烷基化过程。

基于这一证据,它可以表示,创建的序列树seq2probTree方法正确代表网络可能的替代的事件序列。通过这种方法,可以获得必要的视觉输出高阶的理解和诊断,复杂的系统。

数据可用性

基准数据和算法开发的代码可以在GitHub概要和作者的网站( https://www.abonyilab.com/)出版后的结果。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了TKP2020-IKA-07项目资助下2020 -以下4.4.1 tkp2020主题卓越计划由国家研究、开发和创新基金的匈牙利。Gyula Dorgő支持博士生奖学金项目的合作博士项目的创新和技术从国家资助的研究,开发和创新基金。作者欣然承认的专业支持费伦茨Tandari提供宝贵的评论案例研究。

deiz D。 欧文 W。 威尔逊 G。 自动链接的过程事件数据到数据历史学家 2007年 美国专利7275062 威尔逊 i W。 Heinzelmann e·R。 一系列事件记录器用于工业过程控制环境的工具 2010年 美国专利7840285 陶布 M。 代理 R。 布拉德伯里 答:E。 使用序列挖掘,揭示了科学推理的效率在干细胞与基于游戏的学习环境学习 学习和教学 2018年 54 93年 103年 10.1016 / j.learninstruc.2017.08.005 2 - s2.0 - 85028582283 Kinnebrew j·S。 Biswas G。 识别学习行为中将微分进化序列挖掘动作特性和性能 美国教育数据挖掘(EDM)国际会议上 2012年6月 有关,希腊 贝切 N。 P。 Charnois T。 发现语言使用序列模式挖掘 《智能文本处理和计算语言学国际会议 2012年3月 新德里,印度 施普林格 154年 165年 10.1007 / 978 - 3 - 642 - 28604 - 9 - _13 2 - s2.0 - 84858331123 康德 R。 Sengamedu s . H。 库马尔 k . S。 评论垃圾邮件检测的序列挖掘 学报》第五届ACM国际会议网络搜索和数据挖掘 2012年2月 美国西雅图,华盛顿州 183年 192年 10.1145/2124295.2124318 2 - s2.0 - 84858045423 风扇 Y。 Y。 l 为自动恶意软件检测恶意序列模式挖掘 专家系统与应用程序 2016年 52 16 25 10.1016 / j.eswa.2016.01.002 2 - s2.0 - 84961351749 维斯 G。 预测从序列网络通信设备故障警报 2001年 Laxman 年代。 Tankasali V。 白色的 r·W。 流预测使用事件序列中基于频繁集的生成模型 第14届ACM SIGKDD学报》国际会议上知识发现和数据挖掘 2008年8月 美国内华达州拉斯维加斯 453年 461年 10.1145/1401890.1401947 2 - s2.0 - 65449133624 R。 Abonyi J。 时段遥测基于序列模式挖掘的报警管理系统的改进 学报2016年IEEE国际会议系统,人,控制论(SMC) 2016年10月 匈牙利布达佩斯 IEEE 003870年 003875年 10.1109 / smc.2016.7844838 2 - s2.0 - 85015775620 Belhadi 一个。 Djenouri Y。 j·c·W。 一个通用的分布式模式挖掘系统 应用智能 2020年 1 16 10.1007 / s10489 - 020 - 01664 - w d 'Aquin M。 周杰伦 N。 解释数据挖掘结果与关联数据分析:学习动机、案例研究和方向 诉讼第三国际会议上学习分析和知识 2013年4月 纽约,纽约,美国 155年 164年 El-Hajj M。 Zaiane o . R。 非递归生成频繁模式树的频繁k-itemsets表示 《国际会议上数据仓库和知识发现 2003年9月 布拉格,捷克共和国 施普林格 371年 380年 10.1007 / 978 - 3 - 540 - 45228 - 7 - _37 蒙古包 f。 Schmidhuber E。 LSTM周期性网络学习简单的上下文无关和上下文敏感的语言 IEEE神经网络 2001年 12 6 1333年 1340年 10.1109/72.963769 2 - s2.0 - 0035505385 蒙古包 f。 Schmidhuber J。 康明斯 F。 学习忘记:持续与LSTM预测 2 学报》1999年第九届国际会议在99年人工神经网络ICANN 1999年9月 英国爱丁堡 10.1049 / cp: 19991218 Sutskever 我。 Vinyals O。 问:V。 序列,序列与神经网络学习 诉讼进展的神经信息处理系统 2014年12月 加拿大蒙特利尔 麻省理工学院出版社 3104年 3112年 Karatzoglou 一个。 雅布伦斯基 一个。 Beigl M。 Seq2Seq学习方法建模语义轨迹和预测下一个位置 第26届ACM SIGSPATIAL学报》国际会议上先进的地理信息系统 2018年11月 美国西雅图,华盛顿州 528年 531年 10.1145/3274895.3274983 2 - s2.0 - 85055822145 Rebane J。 Karlsson 我。 Papapetrou P。 Seq2Seq RNNs cryptocurrency, ARIMA模型预测:比较研究 《SIGKDD Fintech 18 2018年8月 英国伦敦 Baumel T。 Eyal M。 Elhadad M。 查询集中的抽象总结:将查询相关性、多文档的报道,总结长度约束Seq2seq模型 2018年 https://arxiv.org/abs/1801.07704 P。 Z。 Q。 Bigdata日志分析基于seq2seq网络认知物联网 未来一代计算机系统 2019年 90年 477年 488年 10.1016 / j.future.2018.08.021 2 - s2.0 - 85052451301 年代。 宋ydF4y2Ba G。 J。 一种新颖的基于时间序列Seq2Seq烧炉过程中温度的预测模型 Procedia计算机科学 2019年 155年 19 26 10.1016 / j.procs.2019.08.007 Dorgő G。 Abonyi J。 学习和预测序列挖掘和深入学习操作策略 计算机与化学工程 2019年 128年 174年 187年 10.1016 / j.compchemeng.2019.06.006 2 - s2.0 - 85067193599 Dorgő G。 Pigler P。 Haragovics M。 Abonyi J。 fiedl的用于检查电子邮件地址 一个。 Klemeš J·J。 服务商 年代。 学习操作策略报警管理系统的时间模式挖掘和深入学习 《28日欧洲计算机辅助过程工程研讨会 2018年 43 荷兰阿姆斯特丹 爱思唯尔 1003年 1008年 10.1016 / b978 - 0 - 444 - 64235 - 6.50176 - 5所示 2 - s2.0 - 85049320152 卡特 B。 穆勒 J。 耆那教徒的 年代。 是什么让你这样做呢?理解黑盒的决策有足够的输入子集 《22日PMLR人工智能国际会议上和统计数据 2019年4月 日本冲绳那霸 567年 576年 科恩 E。 贝克 C。 实证分析定向搜索性能下降的神经序列模型 97年 国际会议机器学习PMLR学报》上 2019年6月 美国加利福尼亚州长滩 1290年 1299年 Scheidl H。 事业中 年代。 Sablatnig R。 定向搜索:联结主义时间分类解码算法 学报》2018年16前沿国际会议上手写识别(ICFHR) 2018年8月 尼亚加拉大瀑布,纽约,美国 IEEE 253年 258年 10.1109 / icfhr-2018.2018.00052 2 - s2.0 - 85060024418 Z。 J。 年代。 H。 Seq2seq依赖解析 美国27日计算语言学国际会议 2018年8月 美国新墨西哥州圣有限元 3203年 3214年 威廉姆斯 我。 Kannan 一个。 Aleksic p S。 Rybach D。 Sainath t . N。 上下文在端到端神经网络语音识别系统使用波束搜索 2018年Interspeech学报》上 2018年9月 海得拉巴,印度 2227年 2231年 10.21437 / interspeech.2018 - 2416 2 - s2.0 - 85054966465 Freitag M。 Al-Onaizan Y。 定向搜索神经机器翻译的策略 2017年 https://arxiv.org/abs/1702.01806 Jahier Pagliari D。 Daghero F。 Poncino M。 Sequence-to-sequence神经网络推理在嵌入式处理器使用动态波束搜索 电子产品 2020年 9 2 337年 10.3390 / electronics9020337 Vijayakumar 答:K。 Cogswell M。 Selvaraju R R。 不同波束搜索:解码从神经序列模型多样化的解决方案 2016年 https://arxiv.org/abs/1610.02424 Humbatova N。 Jahangirova G。 Bavota G。 分类法的深度学习系统的缺点 诉讼的ACM和IEEE第42软件工程国际会议 2020年6月 韩国首尔 1110年 1121年 10.1145/3377811.3380395 Sundermeyer M。 Schluter R。 奈伊 H。 LSTM语言建模的神经网络 十三学报》国际言语交际协会年会上 2012年9月 波特兰,或美国 Dorgo G。 Pigler P。 Abonyi J。 理解过程警报的重要性分析的基础上深复发性神经网络训练的故障隔离 化学计量学杂志》 2018年 32 4 e3006 10.1002 / cem.3006 2 - s2.0 - 85042098401