计算智能和神经科学

PDF
计算智能和神经科学/2020年/文章

研究文章|开放获取

体积 2020年 |文章的ID 7090918 | https://doi.org/10.1155/2020/7090918

Haoran阴,Jinxuan曹、曹Luzhe成国栋王, 中国紧急事件识别使用Conv-RDBiGRU模型”,计算智能和神经科学, 卷。2020年, 文章的ID7090918, 12 页面, 2020年 https://doi.org/10.1155/2020/7090918

中国紧急事件识别使用Conv-RDBiGRU模型

学术编辑器:何塞阿尔弗雷多Hernandez-Perez
收到了 2019年11月06
修改后的 2020年3月13日
接受 2020年5月04
发表 2020年5月21日

文摘

针对薄弱的传统事件识别方法的泛化,依赖领域专家的知识的局限性,深层神经网络训练时间越长,和梯度色散的问题,神经网络联合模型,Conv-RDBiGRU、综合剩余结构提出了。首先,由分词语料库文本预处理和停止词处理和使用嵌入形成词向量的矩阵。然后,通过卷积操作本地语义特征提取,并通过RDBiGRU深上下文语义特征提取。最后,学习功能是由softmax激活函数和识别结果输出。新奇的工作是我们剩余结构融入递归神经网络,结合这些方法和应用领域。仿真结果表明,该方法提高了识别精度和召回中国紧急事件,和F价值比其他方法好。

1。介绍

作为表现的信息,一个事件被定义为特定的人与对象的客观事实相互作用在一个特定的时间和地点1]。互联网上充满了各种各样的无序紧急事件新闻,与其它新闻,混在一起,这些其他新闻将妨碍清晰的认知用户紧急事件和相关研究者的工作分类和存储(2),因此如何实现紧急事件识别网络中是目前需要解决的问题。事件识别事件提取是一个重要的依据。事件识别是指提取信息,统一格式,结构和事件有趣的用户从非结构化文本信息,使相应事件的分类(3]。

目前,有三种主要方法的事件识别、基于模式匹配,机器学习,深入学习。模式匹配的特征模板相应的事件是事先设计的。在[4),它提出了一个新颖的Event-Adaptive概念集成算法来估计语义相关的有效性概念,分配不同的权重,并利用相关的概念是有区别地匹配为目标事件获得良好的性能。在[5),提高发现模式与语言信息(形态和POS类别)被认为是承认犯罪事件对西班牙报纸的人。在[6),一组方法提出了创建这样的词汇,比如词汇从属模型、事件触发的词汇,和一个框架元素的词汇,在俄罗斯和其他语言使用Google Books NGram语料库与俄罗斯的事件。在[7),一个事件模板提取方法,包含结构化的知识库,和这种方法优于相似的方法,不使用结构化的知识库。然而,基于模式匹配的方法依赖于专家领域知识,和模型泛化不强。在机器学习中,我们主要专注于发现和特点如何构造分类器将事件识别分类问题。在[8),变分模态分解(VMD)和新开发的加权网络顺序极端学习机(WOSELM)综合检测和分类实时电能质量事件(pq)通过使用不同的先进的分类器。在[9),它提出了一个改进TF-PDF算法识别紧急事件根据热点词汇之间的相对稳定的组合。离散标记数据训练HMM和条件随机域分类器和报告大幅提高性能的事件识别(10]。提取传统特色的基础上(11老),语义角色的特性被添加,然后控是用来识别事件。深度学习技术的发展,在该领域的紧急事件识别、人工神经网络得到了越来越多的关注,已成功应用于这一领域解决实际问题。在[12DCNNs-LSTM模型),提出了实现紧急事件识别凝聚力维吾尔族的语言。在[13),结合支持向量机的分类器与径向基函数神经网络来提高事件提出了识别结果的可靠性。在[14),复发性卷积神经网络模型与注意力机制提出了基于语言模型,主要解决了一词多义和multievent句子识别的问题。在[15),异常事件识别模型,使用intratrace和intertrace上下文向量与长期短期记忆网络克服的挑战网络异常事件识别cyber-physical系统介绍。在[16),提出了一种动态蒙面关注网络模型来捕捉丰富的上下文信息,主要实验结果得到multievent提取任务。在[17),提出了一种新颖的方法来识别基于完全连接款volcano-seismic事件。这种方法可以有效地捕捉volcano-seismic数据的复杂关系,实现更好的分类性能和更快的收敛相比古典模型。模型采用双向长期短期记忆(BLSTM)神经网络和多层次的注意机制事件提取和达到好的结果在生物医学事件识别(18]。在[19),它提供了一个hybrid-supervised DBN,结合无监督和监督学习来提高性能的事件识别,实现识别其他相关元素的事件。

在当前的事件识别领域,传统方法依赖于专家知识和人工设计的特性。这些方法在专业领域有很高的精度,但泛化能力不好的事件识别一个开放的领域。使用事件的深度学习模式识别有较高的可移植性,但有许多参数需要调整模型训练过程中,随着迭代次数的增加,训练的梯度是容易分散,和单一神经网络框架有一定的局限性。为了解决上述问题,神经网络模型Conv-RDBiGRU (Convolution-Residual深双向封闭的单位)提出了本文和整体学习方案如图1。模型中,提取当地信息功能文本通过卷积运算,获取的上下文特征信息文本语料库使用DBiGRU部分,然后用剩余结构来改变这个网络层的框架结构,数据来源只有从传统平原上一层网络。改变框架结构引入了一个设计,类似于“捷径”类型(20.]。源数据输入跳过多个隐藏层和直接添加到数据输出部分。该方法可以引入更多的参考信息的输出数据,,同时,构成的影响消失梯度随着网络加深,以提高中国紧急事件识别效果。

2.1。进行预处理

从语料库中提取文本语句使用正则表达式。事件识别这是一种常见的英语单词在句子中提取特征通过神经网络,找出现有触发词,并分类(21]。然而,对于一些语言,如汉语、中文没有自然分割,因此,首先,需要分词,分词工具用于处理文本。常见的分词工具包括jieba、斯坦福、CRF + +, thulac [22]。Word2Vec模型MIKOLOV等人提出的用于训练文本语料库分词后获得这个词向量(23]。训练方法包括Skip-Gram和CBOW(连续袋的话)24]。

2.2。卷积

有三种常见的结构,卷积层、汇聚层,和完整的连接层,在卷积神经网络(CNN)。卷积后层,最大池操作将减少捕获的维度的输出结果显著的地方特色,然后下一个过程的输出结果通过完全连接操作。然而,在这篇文章中,文本语料库是序列文本与上下文相关的信息。它将失去序列信息的相互和摧毁序列特性如果下一步采用卷积后池操作。在模型中,使用卷积操作后,下一步将放弃相关操作池层和完全连接层。当地的特性,提取卷积操作直接输入到下一层网络结构中提取更深层次的上下文语义特征。

2.3。RNN变体

理论上,RNN(递归神经网络)可以应对随机上下文序列信息的距离,但是,在实际应用过程中,传统RNN结构没有足够的能力获取长途信息功能。鲁棒性不好,不能达到预期的培训效果,在隐藏层,上述信息不断增加,产生的误差传播的数量增加。这种情况会导致梯度的问题分散和爆炸过程的训练。为了解决这些问题,RNN的单元结构产生了许多变体,包括LSTM(长期短期记忆),格勒乌(封闭的复发性单元)和蒸发器(简单的周期性单元)。

通常提到RNN模型是一个单向传导机制将前一时刻序列信息,即UniRNN的递归神经网络(单向),只能预测未来时刻的输出通过上述信息功能。然而,在实践过程中,某些时刻的信息不仅是与上面的序列信息,还与下面的序列信息。例如,有这样一个场景,“我的电脑死机了,所以我希望to__a新电脑。“如果我们只观察语句之前,下划线,不能判断下一步什么“我希望to__。“然而,显然,下一步就是“我想买一台新电脑“下划线后如果我们可以观察到的信息,所以的概率会更大的填写“买入”下划线。因此,为了解决UniRNN短缺,一个BiRNN递归神经网络(双向)提出,如图2

BiRNN由一个前进 和落后 输入层这个词向量矩阵 隐藏层包含RNN的单元结构。结构可以LSTM格勒乌,蒸发器和其他RNN变体。输出层是由两个方向RNN的输出状态。

2.4。剩余的网络

从理论上讲,神经网络,丰富的功能可以从多层抽象信息如果更多层堆叠和网络是更深层次的。然而,梯度将消失在训练过程中网络的深化使整个网络的训练时间变得更长,很难收敛和网络性能降低。为了解决这些问题,残留提出了网络结构和结构单元如图3

剩余单位通常是由两个映射,标识映射x和残差映射F(x)。为广大网络没有残余结构,它将使用F(x)作为功能激活和输出。现在,剩余结构集成,因此预计使用H(x)符合。输出结果包含的输入信息x本身,这是改变了从原始输入标识映射。这是一个丰富的信息功能。

3所示。模型

首先,原始数据文本预处理和单词是向量化,在事件识别的任务。然后嵌入矩阵输入的词,和相应的类型标签的事件是通过卷积操作和RDBiGRU。最后,紧急事件识别结果输出。模型的设计考虑到卷积神经网络提取n蟋蟀本地信息的特点,但获得全球信息的功能显然是不够的,而递归神经网络是相反的。因此,联合模型结合两个神经网络的优点。考虑到火车的时间特性学习框架是漫长而又艰难的递归神经网络的收敛。梯度分散、局部最优和过度拟合时很容易发生复发性神经网络的层数是深化提取更深层次的上下文语义信息。剩余网络结构是引入一个身份映射值融入每一层递归神经网络的输出。映射的值是当前层的输入信息。这可以引入更多的参考信息的输出数据,构成的影响消失梯度随着网络加深,并减少信息损失的影响造成的计算隐藏的神经元,以提高模型的鲁棒性和提高应急事件识别的影响。紧急事件识别基于Conv-RDBiGRU模型提出了包括四个部分:输入层、卷积层,RDBiGRU,和输出层,如图4

3.1。输入层

摘要jieba分词工具被用来进行分词处理文本语料库,并停止的话从处理文本中删除。在深度学习,输入图像数据是固定大小的矩阵,但文本语料库数据不同于二维图像数据。文本的大小并不是固定的,所以语句的长度需要固定长度的处理。让输入序列的长度单词。分割文本超过话说拦截前话说,和分割文本不到话说垫单词。

文本预处理采用Word2Vec模型训练获取嵌入这个词向量。模型使用训练有素的词向量来取代传统的一个炎热的编码方法,它可以避免稀疏向量空间和维度灾难问题,因此将向量空间转换为一个低维稠密的形式。方法采用Skip-Gram模型获得的培训n维词向量 Rn(t= 1,2,…),所以文本词向量矩阵 ,在哪里VRm×n

3.2。褶积层

在任务的事件识别、卷积层的操作计划通过滑动获得这个词向量地方特色词序列的卷积核,然后表达形式的高阶信息功能。提取词向量的过程特性通过卷积操作如图5

让输入词向量(云南、瑞丽、地震…)的句子表达 ,在哪里 Rn(= 1,2,…r)。为了获得的特性,也能进行卷积核的数量 被选中r。的结构 k×n的矩阵,即k行和n列。因此,这个词向量通过卷积操作可以表示如下: 其中“∗”操作符表示相应的元素矩阵的乘法。 代表了k×n矩阵组成的词序列向量( , ,…, V,b是偏移向量的n维度,f是非线性激活函数。自卷积操作需要输入句子的固定长度,输入句子填充或拦截,而卷积操作之后整个句子长度保持不变。卷积内核用于先后扫描这个词向量获取词向量当地整个句子的特点: 在哪里FRm×r,yt(t= 1,2,…)代表当地的特征向量,这个词向量经过卷积内核计算和激活激活函数。字的地方特征水平作为输入RDBiGRU的下一层。

3.3。RDBiGRU

事件识别任务,RDBiGRU的操作过程是局部特征向量矩阵输入周期性网络神经单元,然后每一层获得的信息特征对应时刻向前和向后传播,同时,信息功能结合剩余结构传送下一层。最后,结果输出每个时间序列的高阶特征通过特征提取层。的主要目标是获取更深层次的整个文本的上下文语义特征。流程如图6

摘要复发性神经网络单元采用格勒乌。格勒乌简化了LSTM结构。它将输入门和忘记门合并到更新门。结构简单,降低了门,如图7

RDBiGRU捕捉更深层次的上下文语义特征的步骤如下:(1)当地的特征向量yt输入到格勒乌单元和与序列信息ht−1之前的时间隐藏层。更新信号zt和复位信号rt通过更新门的操作和重置门: (2)确定h的重要性t - 1候选人内存单元rtht−1价值。的rtht−1是与yt。候选人的内存单元 通过权重 和激活双曲正切函数。候选人内存单元: (3)确定多少重量ht−1将拥有传播计算的下一个状态zt,ht−1, ,和内存单元ht的当前状态。当前内存单元: (4)上述步骤,分别执行格勒乌向前和向后格勒乌神经网络单位,所以BiGRU。的 通过使用向前格勒乌计算上述特性信息的时间吗t,而 获得通过使用一个向后格勒乌计算下列特征信息的时间吗t。因此,信息可以获得输出特性ot= ( , 在这个时候。而ot (t= 1,2,…),yt是复杂的r×2×h卷积核的形状是1×r成为一个向量 , R1×(r×2×h)(5)让当前的网络层h。添加ot 得到 连接 每一刻,形成特征向量矩阵O= ( , ,…, ),并采取矩阵O作为输入的下一层BiGRU。(6)让网络堆栈深度d。最后,输出结果深上下文语义特征年代通过递归神经网络堆栈d层数和矩阵年代作为输入的下一层。

在哪里 , , 表示权重;σ和双曲正切是激活函数;“∗”运营商代表矩阵元素乘法;“[]”表示向量concat;O ,年代

3.4。输出层

输出层的具体操作步骤如下:(1)输出的结果年代上一层的被激活函数softmax计算,分别得到相应的输出特性,和事件类型的概率分布P通过计算得到: 代表了重量,b足球俱乐部代表偏移向量; R(r×2^dc,b足球俱乐部Rc,P= (p1,p2、…p、…pc)(∈(1,c),c紧急事件的类数)。(2)在培训的过程中,采用crossentropy成本函数作为损失函数。让学习速率是LR和损失价值损失。优化器亚当是用于执行随机梯度下降法: (3)arg_max函数中使用模型的训练和测试的过程中,通过使用这个函数,索引值的概率最大p获得在事件类型的概率分布P,索引值与实际的事件类型的标签:

4所示。实验和讨论

为了验证的有效性Conv-RDBiGRU模型提出了紧急事件识别,识别结果优于其他模型的方法,执行多个比较实验,包括hyperparameters调整优化模型,和其他文件不同的紧急事件识别模型相比,在不同的数据集和测试。事件识别结果的分析采用绩效评估的常用方法,和引用标准是一样的12- - - - - -19,25- - - - - -36),包括精度、召回和F价值。

4.1。紧急事件数据集

本文采用语料库的CEC(中国紧急语料库)建立了上海大学的语义智能实验室,和获得的数据通过网络爬虫。语料库数据都来自新闻报道的紧急事件在互联网上和国家语委数据,其中包含五个类型的紧急事件:地震、火灾、交通事故、恐怖袭击、和食物中毒。CEC的总数是332条短信。数据通过履带48267条短信,他们加起来43851年清洁重复的文本。在这篇文章中,两种数据集,分别进行了实验和随机选择的训练集,验证集和测试集,这些数据集分为7:2:1。

4.2。训练阶段

在训练阶段,具体操作步骤如下:(一)本文中使用开源语料库和原文本语料库是XML格式的,也就是说,可扩展标记语言。冗余的XML元素的文本语料库清洗通过正则表达式提取文本的主体。通过jieba分词工具,语料库的文本分割,并消除了冗余的停止词的分词后的文本,如结构粒子,“时间”,“日期”和标点符号。(b)Word2Vec模型采用训练文本预处理,并采用Skip-Gram获得的词向量空间n维向量,代表每个单词分割。数分词的数量。如果分词的文本比话说,文本将被拦截,如果分词文本小于话说,文本将由使用零向量。因此,输入词向量矩阵×n二维矩阵V(c)r卷积核 是谁的形状k×n矩阵。输入矩阵V就变成了×r矩阵卷积操作之后,下一步特征矩阵F利用非线性激活函数f(d)让堆栈深度RDBiGRU网络d,目前数量的隐藏层h(h= 1,2,…d),神经元节点的数目是r×2h−1在格勒乌隐藏层。F矩阵作为RDBiGRU层获得的输入×(r×2d)特征向量矩阵年代(e)类型的紧急事件是地震、火灾、交通事故、恐怖袭击、和食物中毒。因此,类型设置的数量c,c= 5。(f)采用Crossentropy成本函数作为损失函数获得损失值,让学习速率LR是1e−3。亚当优化器采用执行随机梯度下降法最小化损失值,这样整个模型可以训练收敛。

4.3。测试阶段

在测试阶段,具体操作步骤如下:(一)数据预处理和字嵌入向量是一样的在训练阶段。处理过的测试集是输入到Conv-RDBiGRU模型训练收敛。(b)通过操作卷积层和softmax RDBiGRU和激活函数,预测概率值P紧急事件类型。(c)通过arg_max函数操作,索引值的概率最大p在事件类型标签向量P是与实际的类型标签的紧急事件,即标签= arg_max (p),然后匹配结果的输出。

4.4。Hyperparameter决心

词向量训练后,最优分类模型需要由hyperparameter调整。hyperparameters不同于重量参数模型本身并不能优化的梯度下降的方法。这些参数的不同选择将大大影响整个模型的性能。在这篇文章中,这个词向量维度,辍学值,残余网络堆栈层数,和纪元时报hyperparameters调整。最优hyperparameters将通过实验确定数据集爬行的讨论和分析。

4.1.1。词向量维度

为了测试不同词向量的影响维度Conv-RDBiGRU模型的识别结果,Word2vec用于,分别训练的词向量50,100,150,200,250,和300维,和这些向量作为输入不同维度的预处理。比较实验结果如表所示1


P(%) R(%) F(%)

50 68.54 70.39 69.45
One hundred. 72.45 71.14 71.79
150年 74.13 70.84 72.45
200年 75.25 71.53 73.34
250年 70.21 69.71 69.96
300年 71.33 69.65 70.49

从表可以看出1,这个词向量的不同维度有一定影响的事件识别率和性能模型。当这个词向量维数是200,识别模型的效果是最好的,F值达到73.34%。然而,随着维度的不断增加,该模型在评价指标呈下降趋势。表明,维数太高所以这个词文本的向量空间太大,和特征矩阵变得稀疏,减少模型的泛化能力和结果的减少识别效果。因此,这个词向量维度设置为200。

10/24/11。辍学

为了说明辍学的影响价值的识别结果Conv-RDBiGRU模型,得到了不同的辍学值神经网络处理和相应的测试集的结果比较,如图8

从图可以看出8辍学值为0.15 - -0.25时,该模型取得了良好的识别效果。而辍学的值超过0.25时,模型的整体性能呈现出下降的趋势。在深层神经网络,辍学的应用可以减少学习过程中节点之间的相互依赖通过随机零位调整隐层的部分权重或输出,从而实现神经网络的规则化,减少结构性风险,解决过度拟合的问题,梯度在一定程度上消失。一组应该是合理的;否则,它将减少模型的性能。因此,辍学的值设置为0.25实现更好的事件识别性能。

4.4.3。堆项ResNet

为了比较不同网络结构的影响Conv-RDBiGRU模型的识别结果,堆放层数不同的评估在深残余网络结构,并得到了相应的网络结构的识别效果,如表所示2


深度 P(%) R(%) F(%)

2 75.81 72.06 73.89
3 74.69 71.76 73.20
4 76.93 71.98 74.37
5 74.42 71.51 72.94
6 71.89 69.83 70.85
7 73.01 69.40 71.16

从表可以看出2,当堆栈深度为4层,模型达到最佳的识别效果。当堆栈深度不断加深,模型的识别性能开始下降。它表明,残余的堆栈深度网络应该适度,如果堆栈层太深,它并不一定优化模型。因此,剩余的堆栈深度网络设置为4层。

4.4.4。时代

模型的学习过程中,所有样本在训练集训练一次,这意味着识别模型的准确性得到有关当前对应的时代。图9显示情况变化相关的索引模型中当时代1 - 20。

从图可以看出9当时代14日,测试集的识别精度达到最优值。当时代超过14,虽然模型的准确性在火车仍在改进,测试集的精度有明显下降的趋势,表明模型过度拟合。需要手动调整的迭代的数量深层神经网络训练和迭代的数量可以根据不同的任务正在处理。一方面,如果迭代次数太少,模型不会聚合到一个局部最小值。模型将导致underfitting。另一方面,如果迭代次数太多,模型的训练时间将会延长,和模型将面临过度拟合的问题,从而失去其泛化。因此,时代值设置为14本文取得更好的事件识别性能。

4.5。结果分析

本文进行多次试验,包括CNN,格勒乌,BiGRU Conv-BiGRU和关节模型,CNN-BiGRU Conv-DBiGRU, Conv-RDBiGRU。紧急事件识别的结果相比,在其他论文不同的模型。CEC的实验比较结果如表所示3


模型 P(%) R(%) F(%)

支持向量机(37] 79.30 59.90 63.70
Conv-DBiGRU 72.31 63.51 67.62
美国有线电视新闻网 72.73 64.00 68.09
格勒乌 69.70 66.67 68.15
DCFEE [28] 68.07 70.85 69.43
BiGRU [38] 71.10 69.00 70.00
Conv-BiGRU 73.02 69.70 71.32
Doc2EDAG [33] 73.49 70.31 71.87
转移(34] 74.09 70.48 72.24
CNN-BiGRU 74.24 71.01 72.59
Conv-RDBiGRU 78.79 69.33 73.76
学会(35] 71.08 79.72 75.15

因为CEC的结构化处理的XML语言格式,文本特征依然明显,容易提取和训练后进行预处理,以便它相对削弱的优越性卷积层局部特征的提取方面。这是一般性的损失。相反,中国几乎没有数据,这可能会导致模型训练不足,不能反映模型的泛化能力,因此,实验需要执行比较实验的非结构化数据信息,是国家语委的互联网上爬。实验对比结果如表所示4


模型 P(%) R(%) F(%)

支持向量机(37] 78.23 54.51 64.25
格勒乌 71.02 61.06 65.67
美国有线电视新闻网 71.72 65.58 68.52
DCFEE [34] 72.46 69.05 70.72
BiGRU [38] 75.14 69.61 72.27
转移(28] 77.91 70.64 74.10
Doc2EDAG [33] 76.42 72.33 74.32
Conv-DBiGRU 76.86 73.41 75.10
CNN-BiGRU 78.75 72.79 75.65
学会(35] 73.51 81.37 77.24
Conv-BiGRU 82.04 75.45 78.60
Conv-RDBiGRU 81.36 78.15 79.72

从实验结果可以看到,传统的机器学习方法,采用支持向量机模型,提取事件(37的表34实现精度高,但较低的召回。事件识别的影响而言,深度学习方法是更有效的比传统的机器学习方法,和整体F价值比支持向量机,这表明深度学习可以提取更抽象的特征进行训练。CNN采用卷积神经网络来执行事件识别和格勒乌采用单向封闭的复发性单位。的F值略高于格勒乌的CNN,表明上下文信息被格勒乌更有利于识别紧急事件。Conv-DBiGRU模型表的影响34不好,这表明简单地深化的整体深度网络事件不一定提高识别效果,但是效果获得表吗4相对比,在桌子上吗3拟合效果,这表明更大的数据集的深层神经网络训练好。在表3,马等。38)采用BiGRU模型和F值达到了70.00%,这是近2%高于格勒乌,表明双向递归神经网络通过获取上下文信息的特点比单向,在紧急事件识别的性能。在表4Conv-BiGRU的识别性能优于CNN-BiGRU,表明,在一个更大的数据集,池运行模型可以放弃了获得更好的识别性能。在表3,转移模型比Doc2EDAG DCFEE,但在表4,F价值Doc2EDAG略高于转移,表明该方法使用转移学习有更好的识别效果。Doc2EDAG更高F比DCFEE值,表明改进的基础上DCFEE这样multievent句子只有一个序列标签模型可以合理处理来获得更好的识别结果。在学会模型中,提出了一种方法,关节嵌入文字和标签的文本分类。在表3、学会达到很好的识别效果。也许CEC数据集是一个结构化的公共数据集和学会注意力机制纳入模型,提高了结构化信息的可解释性,使它达到更高F价值,但精度不高。在表4,非结构化国家语委数据作为数据集。Conv-RDBiGRU可以提取更抽象的语义特征通过深层神经网络架构。经过反复训练,得到了更好的识别结果。递归神经网络的基础上叠加双向Conv-DBiGRU, Conv-RDBiGRU介绍了残余网络结构,使原始输入信息集成到输出信息处理的隐藏神经元和更丰富的功能梯度教给我们的更新。对于深层神经网络,梯度消失的问题可以在一定程度上得到缓解。与Conv-DBiGRU相比,Conv-RDBiGRU大大提高和更高的性能F价值。

Conv-RDBiGRU联合模型提出了执行与其他方法的比较。的精度和召回都取得了良好的结果,F价值优于其他方法,表明,在当地捕获的事件特性,提取深上下文语义特征,火车和泛化的整体模型,神经网络模型结合卷积运算,复发和残余结构可以实现良好的改善效果。它能改善中国紧急事件识别的性能。

5。结论和未来的工作

在任务中国紧急事件的识别,Conv-RDBiGRU神经网络模型提出了。首先,由分词语料库文本预处理和停止词处理和使用嵌入形成词向量的矩阵。通过DBiGRU深上下文信息特征提取,同时,引入DBiGRU残余结构,集成了一个身份映射到输出特性,提取价值每层神经网络模型有更完整的参考信息在火车模型梯度下降法,可以学习更多丰富的特征信息,以减少信息损失的影响,因为计算隐层神经元,并缓解消失梯度在火车模型的问题。通过这种方式,该模型具有更好的学习能力和泛化特性。实验结果表明,该方法是可行的和有效的紧急事件识别。

考虑到该方法可能与一个更大的数据集,测试文本的语义信息可以进一步扩大,信息模型缺乏可解释性的特性,具有不同程度的重要性。下一步将与一个更大的数据集测试,集成更多的语义特征的研究来丰富词嵌入向量的维度在输入层,并尝试添加其他网络结构来提高模型的可解释性特性的不同信息,提高模型的泛化,以提高应急事件识别的性能。

数据可用性

使用的数据来支持本研究的发现已被存入https://github.com/shijiebei2009/CEC-Corpus

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了中国国家重点研发项目(2016 yfb0801100和2018 yfc0823200)和基础研究基金PPSUC中央大学(2019 jkf108)。

引用

  1. d . w . Li Cheng l .他和金x, y . Wang”联合事件从FrameNet提取基于分层事件模式,”IEEE访问7卷,第25015 - 25001页,2019年。视图:出版商的网站|谷歌学术搜索
  2. x燕、l .他和y,“识别网络突发事件的研究基于规则和统计方法的组合,”图书馆和信息服务的新技术,10卷,第69 - 65页,2010年。视图:谷歌学术搜索
  3. z中,l·金和z,”字体印刷汉字识别使用multi-pooling卷积神经网络”国际会议文档的程序分析与识别2015年8月,班加罗尔,印度。视图:谷歌学术搜索
  4. l .姚明,x, z . Li k .詹j .太阳和h·张,“通过event-adaptive Zero-shot事件检测相关性挖掘概念”,模式识别卷,88年,第603 - 595页,2019年。视图:出版商的网站|谷歌学术搜索
  5. j . a . Reyes-Ortiz m·布拉沃,“增强模式与语言信息犯罪事件识别,”《智能与模糊系统,34卷,不。5,3027 - 3036年,2018页。视图:出版商的网站|谷歌学术搜索
  6. 诉Solovyev诉伊万诺夫,“知识事件提取在俄罗斯:基于语料库的语言资源,”计算智能和神经科学卷,2016篇文章ID 4183760, 11页,2016年。视图:出版商的网站|谷歌学术搜索
  7. a . Romadhony d·h·Widyantoro, a . Purwarianti”利用结构化的知识库在开放的基于IE的事件模板提取,”应用智能卷,49号1,第219 - 206页,2019。视图:出版商的网站|谷歌学术搜索
  8. 萨哈尼m和p . k .破折号“变分模式分解和加权在线连续极端学习机电能质量事件模式识别,”Neurocomputing卷。310年,10-27,2018页。视图:出版商的网站|谷歌学术搜索
  9. x z姚明和徐”,研究发现突发事件新闻报道的在线信息,“图书馆和信息服务的新技术4卷,52-57,2011页。视图:谷歌学术搜索
  10. s a·优素福·d·j·布朗,a·麦金农”应用声波定向数据音频事件识别通过嗯/ CRF在周界监视系统中,“机器人和自治系统卷。72年,15-28,2015页。视图:出版商的网站|谷歌学术搜索
  11. 李z,刘,x鑫,“中国事件识别基于语义角色,”计算机工程与科学,35卷,不。4、181 - 185年,2013页。视图:谷歌学术搜索
  12. h .倪l . Yu,田,“维吾尔紧急事件extracton基于DCNNs-LSTM模型”,《中文信息处理,32卷,不。6日,52 - 61年,2018页。视图:谷歌学术搜索
  13. 江z . k . Liu, j . et al .,“合并事件识别方案使用混合动力特性在分布式光纤振动传感系统,”IEEE访问7卷,第105616 - 105609页,2019年。视图:出版商的网站|谷歌学术搜索
  14. z和j·陈,“事件检测通过反复和卷积网络语言模型的基础上,“厦门大学学报(自然科学),卷。58岁的没有。3、442 - 448年,2019页。视图:谷歌学术搜索
  15. 问:h·马哈茂德·o·m·Ezeme, a . Azim“梦想:深度递归的异常检测模型在内核事件,“IEEE访问7卷,第18870 - 18860页,2019年。视图:出版商的网站|谷歌学术搜索
  16. x黄”,通过动态事件提取蒙面的关注,“计算机应用研究37卷,1 - 6,2019页。视图:谷歌学术搜索
  17. m .铁托,答:好,c·贝尼特斯,”深神经网络的方法来自动识别系统volcano-seismic事件,“IEEE选择杂志的主题应用地球观测和遥感,11卷,不。5,1533 - 1544年,2018页。视图:出版商的网站|谷歌学术搜索
  18. x x l·李,他的歌,d·黄和f . Ren,“基于多层次注意BLSTM神经网络提取生物医学事件,“IEICE交易信息和系统,卷102,不。9日,第1850 - 1842页,2019年。视图:出版商的网站|谷歌学术搜索
  19. Y.-J。张,Z.-T。刘和w·周”事件识别基于深层信念网络,”《电子学报》,45卷,不。6,1415 - 1423年,2017页。视图:谷歌学术搜索
  20. y高和w·郑学习和TensorFlow方言深,中国机器出版社,北京,中国,2019。
  21. h·林、陆y和x汉,“金块建议网络对中国事件检测,1卷,第1574 - 1565页,2018年,https://arxiv.org/abs/1805.00249视图:谷歌学术搜索
  22. m .你x刘,刘,自然语言处理与Python核心技术和算法,中国机器出版社,北京,中国,2018。
  23. t . Mikolov i Sutskever, k .陈”的分布式表示单词和短语及其组合性,神经信息处理系统(少量)基金会,”诉讼的损害太浩湖,页3111 - 3119年,NV,美国,2013年12月。视图:谷歌学术搜索
  24. g . t . Mikolov k . Chen拉和j·迪恩,“有效评估词表示的向量空间,”2014年,http://arxiv.org/pdf/1301.3781.pdf视图:谷歌学术搜索
  25. j . y . s . Chan嘉年华h .秋和b . Min,“快速定制事件提取”学报》第57届计算语言学协会的年会:系统演示,3卷,页31-36,佛罗伦萨,意大利,2019年8月。视图:谷歌学术搜索
  26. 黄d, l . h .霁,j .汉“生物医学知识tree-LSTM事件提取基于”NAACL-HLT学报》2019年6月,明尼阿波利斯,美国。视图:谷歌学术搜索
  27. c . y . Chen, t·李et al。”命名实体识别从中国药品不良事件报告与词法特性基于BiLSTM-CRF tri-training,”生物医学信息学杂志,第96卷,第103252页,2019年。视图:出版商的网站|谷歌学术搜索
  28. h·杨,y, y, k . Liu和j .赵”DCFEE:文档级中国金融事件基于自动标记的训练数据,提取系统”ACL学报》2018年,系统演示,4卷,页50 - 55,墨尔本,澳大利亚,2018年7月。视图:谷歌学术搜索
  29. y陈,“多层生物医学事件触发识别与传递学习”BMC生物信息学,20卷,不。1,p。459年,2019。视图:出版商的网站|谷歌学术搜索
  30. g . Sourek和f . Zelezny从NetFlows高效提取网络事件类型,”安全性和通信网络卷,2019篇文章ID 8954914, 18页,2019年。视图:出版商的网站|谷歌学术搜索
  31. f . Kunneman和a . Van Den博世“Open-domain提取从Twitter未来的事件,”自然语言工程,22卷,不。5,655 - 686年,2016页。视图:出版商的网站|谷歌学术搜索
  32. 张x刘、h·黄和y,“开放域事件提取使用神经潜变量模型,”学报》第57届计算语言学协会的年度会议,1卷,页2860 - 2871,佛罗伦萨,意大利,2019年7月。视图:谷歌学术搜索
  33. 郑,w .曹、w .徐和j .扁”Doc2EDAG:端到端的文档级框架对中国金融事件提取”学报2019年会议上实证方法在自然语言处理和第九届国际联合会议上自然语言ProcessingEMNLP / IJCNLP,1卷,页337 - 346,香港,中国,2019年11月。视图:谷歌学术搜索
  34. l .黄h .霁k .赵达冈,里德尔,和c·沃斯,“Zero-shot学习事件提取、转移”美国第56计算语言学协会的年度会议,1卷,页2160 - 2170,墨尔本,澳大利亚,2018年7月。视图:谷歌学术搜索
  35. 王c . g . Wang, w . et al .,“联合嵌入文字和标签的文本分类,”美国第56计算语言学协会的年度会议,1卷,页2321 - 2331,墨尔本,澳大利亚,2018年7月。视图:谷歌学术搜索
  36. h .阴j .曹y Du et al .,“中国突然事件识别基于CBiGRU-Att模型。”IOP会议系列:材料科学与工程,2020卷,782年。视图:出版商的网站|谷歌学术搜索
  37. x宣、廖t和b高,“中国事件触发词,自动提取”计算机与数字工程,3卷,第461 - 457页,2015年。视图:谷歌学术搜索
  38. 马c、x陈和w·王,“中国事件检测基于递归神经网络Netinfo安全5卷,第81 - 75页,2018年。视图:谷歌学术搜索

版权©2020 Haoran阴等。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。


更多相关文章

PDF 下载引用 引用
下载其他格式更多的
订单打印副本订单
的观点330年
下载296年
引用

相关文章