文摘
事件提取技术的一个重要研究领域的信息提取,帮助人们准确地检索、查找、分类,总结有效的信息从大量的信息流。本文采用神经网络混合模型识别触发词和事件类别的法律领域知识图事件,提取感兴趣的事件从大量的自由文本,并将它们显示在一个结构化的格式。首先,原始文本预处理,然后,分布式语义词向量是结合相关的句法结构和位置属性创建一个语义表示一个向量的形式。合并后的深度学习模型用于提取激活的话,长期记忆循环神经网络使用时间语义提取深度特性,和收敛的神经网络完成提取激活词汇和事件类别。最后,实验结果表明,该神经网络混合模型的事件提取精度设计本文已达到77.1%,召回率已经达到了76.8%,大大提高了与传统模式相比。
1。介绍
近年来,人工智能,计算机领域发展,逐渐成长为技术和媒体。自谷歌2012年推出“知识图”的概念,知识图的范围已经覆盖了几十个垂直领域如法律、金融、军事、教育、医疗、和技术,但目前正在迅速扩张与一个明确的发展趋势。从知识地图中提取事实的法律领域的研究焦点提取法律信息。由于高知识图的数据集成功能,信息提取方法,推理机制,知识可视化研究知识图在各种困难和容易研究垂直操作环境。在法律行业,知识图可以显示在两种格式:图和频谱。通过澄清和推理相关的实体,链接预测可以实现;推断出点拥有或理解的知识实体,比较知识分的重量和知识的困难点,并推断出度和重要性,重量比,和反馈控制状态。
图的知识指的是一组实体,概念和实体之间的关系。知识图可以应用于各种自然语言处理技术,和事实萃取技术中起着非常重要的作用在知识的建筑图。例如,连接的损失事件新闻文本的马来西亚航空公司MH370使用事件出口技术自动出口成员和角色等相关事件显示,受害者,和位置。知识图的崛起伴随着机器学习技术的相关概念领域的人工智能。关键是要收集大量的结构化或非结构化数据,分析和基于领域知识模型的数据,并从中找到法律通过机器计算。机器可以识别和学习的模式。创建计算规则的相关数据后形成。如今,许多综合事件提取机制取得了好的结果知识图的问题事件提取在法律领域。然而,与其它地区相比,合规和召回率普遍偏低,仍存在的主要问题和改进的余地。域事件提取系统的可扩展性和可移植性不理想。 Most of the current studies are based on MUC or ACE and only focus on a specific field or a few types of events. The application of the system is limited by the field, and it cannot be easily and quickly transplanted or extended with the change of the field.
小波和神经网络混合模型算法的模型)比ANN模型显示了更好的性能。此外,该算法的模型已经发展到预测单个位置的波高过去波高数据可以获得。为了应对这些问题,哦,Suh结合经验正交函数分析和小波分析和神经网络建立一个混合模型(称为EOFWNN模型)。过去的波高数据的多个位置和周边地区的过去和未来天气数据包括波站作为输入数据。然而,其准确性下降随着时间的增加,因为他们不认为波高和气象变量之间的关系(1]。雷等人提出了一种分层框架结合卷积神经网络(CNN)和隐马尔可夫模型(HMM)。CNN-HMM模型训练使用嵌入式维特比算法和数据用于训练CNN被迫调整。做一个注释。然而,使用的时间模型来提取特征并没有太大的区别的一个模型,但它需要更多的培训时间,这是没有意义的(2]。混合预测方法可以显著提高风电预测的准确性。东等人开发了一种新的集成策略来处理数据集和选择适当的输入集的结构。传统的局部线性neurofuzzy模型被搜索者优化算法优化。研究结果证明混合模型比传统的方法。然而,设计神经网络混合模型的性能不是解释,和实际的性能模型不能被理解(3]。卡瓦尔康蒂等人提出了一个混合的分析,error-correction-based神经网络模型预测路径损耗在郊区的800 MHz和2600 MHz。模型结合经验传播模型、ECC-33爱立信9999年时候哈塔,和3 gpp的TR 36.942,前馈人工神经网络(ANN)。混合模型的性能比较与传统的经验模型和一个简单的神经网络,使用输入参数常用的相关工作。结果与测量得到的数据进行联邦大学附近的北里奥格兰德(UFRN)在纳塔尔,巴西。最后,混合神经网络获得RMSE指数最低。除了几乎均衡分布的仿真和实验数据,这也验证了研究的有效性。然而,他们的研究过于复杂,计算容易出错,,很难在现实中应用4]。Yazdani等人提出了一个快速、新颖的非线性滤波方法称为相对能量(Rel-En)从生物医学信号提取健壮的短期事件。短期和长期的能量信号可以提取,和一个系数向量可以提供信号相乘增强感兴趣的事件。算法已经彻底评估在不同的生物医学应用程序三个基准数据集,即心电图QRS综合检测,脑电图K综合检测和成像photoplethysmic脉搏波(iPPG)峰值检测。Rel-En成功地识别这些设置的事件。与现有技术相比,QRS波群波和K复杂波检测获得更好的或类似的结果。iPPG峰值检测,该方法被用作固定阈值算法的预处理步骤,大大提高了整体的结果。虽然设计的事件抽取方法很容易定义和计算,智能提取短期事件不能做长期事件(5]。传统的事件提取是通过两种方法实现:管道和联合提取方法。管道的方法使用触发字识别确定事件,进一步实现事件提取,这是容易错误级联。联合提取方法深度学习适用于实现分类任务的完成触发词和争论的角色。联合提取方法的研究主要采用CNN或RNN网络结构。然而,在事件提取的情况下,更深入地理解复杂的上下文是必需的。现有的研究并没有充分利用句法关系。玉等人提出了一个新的事件提取模型,基于与syntactic-related Tree-LSTM网络和Bi-GRU网络信息。该方法使用Tree-LSTM和Bi-GRU获取候选人的代表事件的句子和确定事件类型,这有助于主动学习和更多的信息,更准确地选择训练数据,最终提高了实验时间提取的性能。然而,他们的研究有一定的局限性,限制使用解释文本发现技术来识别不同的文本载体的相同类型的事件(6]。
这个工作的创新实现完整的过程从最初的数据集提取激活词,检查和替换原始样本,并创建规则描述在建议的水平。人体执行初步特征提取得到一个向量矩阵模型可以训练。使用循环神经网络模型的长期记忆和短期记忆,时间特征的句子训练输出的积极和消极的方面。最后,收敛的神经网络模型用于火车前面派生深特性来完成分类,即提取激活词汇和事件类别。此外,本研究使用了一个混合的各种神经网络算法研究进展顺利。
2。设计的方法,从法律的知识地图中提取事件域基于神经网络的混合模型
2.1。在法律领域知识图
图的知识和许多实体是一个复杂的语义网络,它以图形方式显示实体,相关的属性中包含的实体,实体之间的关系(7,8]。这个角色是使用定向推理实体之间的关系来提高用户的检索质量,它在数据结构交换中起着重要作用,知识计算,和知识推理(9,10]。
在法律领域知识地图是完全不同于其他领域的知识地图由于其独特的性质11,12]。法律知识图,有很多专业术语相关的实体,中英文混合的概念,和知识之间的密切关联点使我们有必要定义本体框架,优化实体和属性提取方法,并建立一个新的更新补充建设过程中法律知识图。整个算法,虽然知识图的范围很大,和实体关系是复杂多样的,但基于知识的可伸缩性,图的知识需要不断更新和维护(13,14]。
现代信息技术是促进司法系统的一个主要转变。“智能法院大楼”专注于人工智能法院应用,电子诉讼,法院大数据与司法体制改革并行的。人工智能智能发展情况下,预测的判断结果,自动生成判断。这可以应用于这篇文章。法院判决的基本事实的理论本质上是符合法律的人工智能生成和可以作为深层神经网络学习的基础,分词,和知识图设计和前端理论补充道。的特定应用程序路径连续实现层次解构基本事实的基础上,应用程序的解构各级的案例知识的数据,和法律专家的层次实现的逐步实现。这提供了机器学习形成large-scale-labeled法律知识地图。
2.2。神经网络混合模型
2.2.1。神经网络的定义
人工神经网络是一个技术复制的生物神经网络在一个特定的简化的意义。相应的学习算法模拟人类大脑的某些智能活动和技术上复制到解决实际问题15,16]。人工神经网络是由许多基本的神经加工设备。神经元的输出层总是连接到输入的 直到最终的输出层的神经元。人工神经网络的结构主要由三个元素组成:神经元、网络拓扑结构和网络学习算法。
设置输入数据 ,连接重量是 ,神经元的计算公式
代表了当前状态的神经元,代表输出数据,代表了偏见。
这个函数称为激活函数,它可以将输出转换为指定的时间间隔。这是一个广泛使用的非线性函数,也称为乙状结肠函数,定义为
严格单调递增,连续可微的函数,与一个值在0和1之间。
2.2.2。神经网络训练
输入层和隐层完全连接。隐藏层节点,连接到隐层之前的一刻。权重矩阵连接隐藏层使用随机数据准备隐藏层(17,18]。
输入信号的正向传播过程,输入隐层的第n个节点,然后:
其中,隐层的激活函数,是隐藏的偏差矢量单元。
输出在th隐层的节点:
其中是激活功能,输出的偏差向量层。
输入在th输出层的节点:
输出在th输出层的节点:
首先,计算输出值与期望值之间的区别的输出电平,也称输入错误(19,20.),计算每一层的误差,误差的权重之和,使神经网络的输出尽可能接近期望值(21,22]。
二次误差准则函数为每个样本是
总误差函数系统的训练样本是
根据错误的一步还原法,每一层的重量和抵消补偿网络计算,然后,每个神经元的权重和偏移量在网络更新,直到误差减少到一定程度上或达到最大训练次数。
2.3。模型设计
2.3.1。卷积神经网络
卷积神经网络是一种前馈神经网络,包括卷积计算和深层结构,深度学习的代表算法之一。卷积神经网络是一种创造性的研究成果由指生物视觉神经系统的结构原理和改进人工神经网络。与多层前馈神经网络相比,卷积神经网络模型参数少的优点,同时特征学习和分类、全局优化和较强的泛化能力。现在,它已成为当前研究热点领域的计算神经科学。卷积神经网络的操作可以被看作是卷积的产品操作内核和输入矩阵。卷积核继续输入矩阵获取特征矩阵序列的输入向量。如果选择多个卷积核,输入矩阵可以得到23,24]。
卷积神经网络用于选择重要的部分功能卷积层学习的信息。卷积神经网络将拥有数以亿计的神经元连接,导致大量的参数。然而,地方卷积神经网络操作和共享权重,这意味着同样的权重将被应用到所有的输入,这大大降低了参数,提高计算速度。传统的工程方法过多的手动功能设计。卷积神经网络不依赖于先验知识的领域,与传统的算法不同,他们需要手动设计复杂的特性。
2.3.2。递归神经网络
不同于循环卷积神经网络,神经网络使用句子序列作为模型的输入句子的序列化(25]。复发性神经网络记忆,parameter-sharing,图灵完备。在确定每个单词的事件类型进行测试,不仅当前单词的信息被测试的信息也将使用单词之间的单词进行测试(26]。本文后提取的基本语义特征生成的输入向量,首先使用递归神经网络进一步提取的时间序列特征的句子,然后,使用获得的深度特性作为卷积神经网络的输入。
2.3.3。神经网络混合模型
这里使用一个递归神经网络的长期和短期记忆(LSTM)结构。系统由两个相反的周期平行的网络,然后,这两个网络的输出是拼接获得最后一个句子的深层特征。这样一个循环机制使每个节点获得所有句子的第一个词的语义特征与当前的词,但这些特性还不够判断事件触发词和事件的元素。获得一个完整的上下文特征,还必须知道单词后当前词影响当前词的语义(27,28]。为了解决这个问题,有必要培养第二个递归神经网络来获取当前词后的语义信息。这个递归神经网络具有相同的结构递归神经网络作为第一,除了反向培训从每个句子的最后一句话,直到句子的第一个词,和隐藏的特性。最后,还有一个连接层,连接两个网络的隐藏层训练的功能需要。神经网络混合模型的结构如图1。
许多基本的网络拓扑结构是由神经元处理单元。这些神经元连接在一个特定的方式形成一个网络结构,叫做神经网络拓扑结构。它通常是由一个输入层、隐藏层和输出层。目前,主要有以下两个网络拓扑结构:第一个是网络。神经元之间的连接只是从在这个结构。反馈的结构连接网络更加复杂,它可以接收输入或发送。其他神经元输出,所以有反馈。
上述步骤后,句子的深层特征。语料库中每个句子对应于一个深刻的特性,和每个单词对应一个特征向量,向量对应一个词。在触发字提取阶段,触发字识别的问题被视为multiclassification任务。有九个事件类别,加上共有十类也不足,所以十标签分类结果。候选人触发字字典上面取得的语言。触发字提取过程是遍历每个候选人触发字的每个句子,然后判断当前候选词是句子的触发字。培训是基于句子,深特性和这个职位以前的候选词作为模型的输入向量。卷积和池的模型后,一双上下文特征提取,最后,将softmax分类器是用于多个分类。如果nonpiece标签分类结果,当前候选词不是一个触发字。卷积神经网络的训练过程包括卷积、池、和分类。池,也称为downsampling,本质上是一个数据的减少。如何从一个数组中提取特征的像素是什么卷积神经网络(29日,30.]。
2.4。事件提取
2.4.1。相关的句法结构特点
当使用机器学习模型事件extraction-related问题,事件特性通常是先提取。这些特性将帮助模型在一定程度上理解文本,但它们局限于句子的一部分,不能充分利用文本的语法。结构,缺乏把握整体结构的句子。相关的句法结构分析是自然语言处理的一个关键任务。它可以识别和分析主题、谓词、对象,明确,状语,句子中补结构和找到句子中的每个组件的依赖关系。依赖关系对应于两个词,一个关键字和一个相关的词。每个句子只有一个的部分是独立的,和其他单词取决于另一个组件,每个组件都是占主导地位的,相互依存的。使句子的语义协会摆脱实际的词的干扰的位置,和更容易被提取。因此,依赖句法结构具有重要意义的模型来理解文本的语义和把握句子的整体结构。
除此之外,还有两种模式的结合,以及各种衍生方法的统计方法、机器学习等方法。也有大量的优秀系统不同的领域。不同的系统都有自己的喜好不同的关注点。因此,不同的语法分析程序在一定程度上也会影响提取性能。
2.4.2。词向量
词向量是指分配一个字空间向量,使用向量来代表这个词,和执行后续的计算模型。这个词的空间距离向量(例如欧几里德距离和余弦距离)可以用来判断两个词的语义是否关闭。向量与单词相对应的空间距离越小,越接近两个词的语义。对于每个单词进行测试,首先总结相应的矢量的词表,并输入输入层。卷积层可以捕获出生的意义水平和压缩特性图。
2.4.3。事件元素识别
触发字提取确定句子中事件的数量,以及每个事件的触发词和事件的范畴,和事件元素提取是基于已知的触发词,每个事件的参与元素和其相应的作用。识别并构成一个完整的生物医学事件。本章完成事件的提取元素,作为事件元素的检测提取的关系问题,按顺序确定触发字之间的关系和句子中的每个实体和触发字,和确定当前的单词是一个事件元素根据对应关系类别和对应于事件中所扮演的角色的元素。
2.4.4。事件类型相对应的元素类型
在元素识别阶段,本文不区分事件类型。每个句子的候选人词汇包含实体和触发词在同一时间。候选人词汇是遍历,关系触发的话是判断一个接一个。对于简单的事件,只有两种类型的主题关系,没有关系,和两人的关系只能触发word-entity;对于复杂的事件,有主题的关系,目标的关系,没有关系,两人的关系可能会触发word-entity和words-trigger的话。识别所有成对的关系后,根据关系的类型和数量对每个触发字,不排序成简单的事件,事件,和复杂的事件。最终,所有类型的事件是合并形成事件的集合。元素提取的过程中,有必要使用触发字注释在前一章和层特性获得代表原始的语料库和使用动态multipooling卷积神经网络模型对提取的关系。卷积神经网络模型的结构是一样的使用在前面的章节中,包括卷积的过程、池、和分类,这里的分类是确定触发字之间的关系已被确定在前面的句子,每个单词有共存的话题。有三种类型的关系,目标的关系,和无关紧要。
3所示。事件提取实验的知识图在法律领域基于神经网络模型
3.1。判断事件类型的法律领域知识图基于神经网络模型
作为一个重要的任务领域的自然语言处理(NLP),事件抽取任务具有较高的应用价值。更成熟的最大熵和条件随机场领域的方法提取用于事件提取。通过选择最优特征,尽可能地提高识别的准确性,这一部分的工作是作为两个比较标准(基准系统)深度学习。因为常用的功能包含更少的语义信息和泛化能力差,本章引入了深层语义特征,改善传统方法的事件提取功能。
由于不平衡数据速率分布,传统的事件抽取方法有一个可怜的召回率。原因是身体出口样品的数量是非常小的随着时间的推移,和事件类型的分布极其不平衡。一些例子的事件类型和不平衡方差训练时往往会导致错误的机器学习模型。如果学习模型没有充分训练,这将导致更多类型的学习偏差。这种类型的偏差通常会导致召回的问题。
本文提出了一种基于关联的事件类型识别方法,旨在传播事件信息在相关文档测试文档中,以便提高事件测试文档的搜索速度。事件的分布也可能是一致的,尤其是在文档描述相关问题。在此基础上,相关的事件信息显示在文档是用于补充出口文档进行测试的结果。在许多情况下,可以获得基本的出口单位的一部分。图2是事件的框架提取决策神经网络混合模型的方案。
3.2。实验参数
词向量维数的参数设置为400维,循环神经网络的序列长度是32,批量大小是256,迭代的数量是100000,卷积核卷积圣经网络的窗口大小是5,和卷积核的数量是200。迭代10000次。参数估计的隐层和输出层的激活函数如表所示1。
表1显示之间存在显著差异的误差神经网络的隐层和输出层的误差。
3.3。实验数据集
本实验使用的WN11子集和WN18净。和自由基和FB15K FB13子集的数据集是专用的数据和知识图的结构。数据集包括一对一、一对多、多对一和多对多的实体关系类型。有总WN11和WN18 11岁到18岁的关系。一对一、一对多、多对一的关系并不存在。有11个和18 n n的关系类型,分别。总共有13个在FB13实体关系,其中有一种n - 1和12种n n关系的关系。FB15K共有1345实体关系。的关系类别的数据集如表所示2。
这两个数据集,本文通过500次遍历所有的训练元组。数据参数的选择、相关实验的优化选择标准反式E用于参考。
4所示。提取结果的法律领域知识地图事件基于神经网络的混合模型
4.1。网络性能分析的神经网络混合模型
事件抽取任务是一个重要的和具有挑战性的信息提取的任务,旨在发现事件触发词和确定其事件类型。现有的传统方法主要是使用人工设计的功能集,提取和这些特性往往是通过文本分析和语言知识。一般来说,功能可分为两类:词汇特征和上下文特征。词法特性包括词性和形态学特征(例如,单词本身和茎),它可以捕获这个词的意义和背景知识进行测试。
传统的功能工程学方法的泛化能力是不够的。在训练语料不足的情况下,模型得到充分监督学习改为其他的测试集,和性能明显下降。字嵌入包含丰富的词汇和语义信息具有更好的泛化能力。神经网络模型需要词向量作为输入,不需要复杂的过程工程的特性,同时也减少了误差传播的问题。神经网络模型本身有很强的学习能力,然后使用词向量作为输入,经过训练的模型将取得更好的性能。模型的学习效率和输出结果的准确性明显提高。
随机选择100个事件作为训练样本和测试样本的输入和目标向量。向量的设置如表所示3。
经过多次实验,使用现有的网络函数和训练样本数据来分析样本的提取结果事件。
神经网络的网络性能测试结果混合模型图所示3。
从图中,我们可以看到,预测精度保持样本的百分比达到100%,和网络性能很好。同时,预测精度训练样本和测试样本的百分比也保持在一个较高的水平,说明模型的预测准确率相对较高。
4.2。事件抽取的结果知识地图的法律领域基于神经网络混合模型
图4显示了事件触发词识别和事件的结果类型分类的神经网络混合模型。多层感知器包含两个隐藏层时,事件触发词识别和事件类型分类的性能是最优的,值分别为60.86%和55.52%。当执行事件识别和分类、事件识别的性能(值)并不会增加随机层数增加。当隐层增加一层一层1到2,事件类型分类的价值增加,但当隐层增加图层2,价值变得越来越小。分析可能的原因是,当隐藏层的数量小,层数越多,越强的学习或表示神经网络的性能;但是,当层数的增加,一方面,层次越多,越需要训练参数。另一方面,很难通过残留误差反向传播算法的隐藏层,这可能会导致模型的underfitting。
趋势线的模型训练精度图所示5。
图5表明,复杂的神经网络模型的准确性与迭代次数增加。
本文设计的神经网络混合模型识别事件类型在同一时间触发词识别。神经网络混合模型作为触发字识别分类的任务,包括9定义事件类型和大事,共有十个类型。实验的准确率、召回率和价值系统的图所示6。
可以看出,该系统具有良好的识别效果触发字提取简单的事件。的价值基本上是80年左右,但混合事件的识别效果很差。后,混合事件的特点将总结改善识别效果。
与传统的机器学习方法的结果比较图所示7。
比较本文方法与传统的方法,在相同的环境条件下,可以清楚地看到,本文中使用的模型的准确性达到77.1%,召回率达到了76.8%,这是一个大大改进了传统模型。
5。结论
提出了一种神经网络混合模型来提取事件知识地图的法律领域,具有一定的进步深入挖掘功能。同时,结合是合法的领域特点,制定合理的规则,优化识别方法,实现一个完整的法律事件抽取机制。此外,这个话题和迭代收敛的优点结合神经网络提出一种模型提取事件为常见的收敛和双向迭代神经网络。实验结果表明,与传统方法相比,混合神经网络模型提供了显著的性能改进。事件抽取是一项具有挑战性的研究方向。在提取过程中,没有复杂事件处理结果在贫穷的最终识别复杂的事件;postrule处理链接,虽然部分识别过滤掉错误的结果,一些事件的触发词或部分元素正确认识,但是元素识别是不完整的。在本文的事件识别阶段,神经网络是用于提取触发词和候选词之间的关系,以及所有成对的关系推导同时,然后,简单和复杂事件创建完成。根据类型的关系,最后,使用不同类型的事件。事件定义用于排除违规事件。 Traditional event extraction also removes a large number of correctly derived activation words, but the event data is exported for free, which reduces the recall rate. Therefore, in order to improve the recognition results, it is also necessary to design more accurate rules. The neural network hybrid model used in this paper fully extracts the time and environmental characteristics of the body and obtains highly recognizable results. However, it cannot be used for complex events. From the results, the results of simple event recognition are much better than complex events, whether it is activation word recognition or event data recognition. Therefore, how to design the function of complex events is a problem that needs further research. In the subsequent research, we will continue to research and improve these problems to further improve the extraction effect.
数据可用性
没有数据被用来支持本研究。
的利益冲突
在这项研究中没有任何潜在的利益冲突。