从非结构化的句子提取实体和关系是一种最自然语言处理领域的有关任务。然而,大多数现有工作流程的实体和关系信息在一定秩序和遭受误差迭代。在本文中,我们介绍一个关系三联体联合标签网络(RTJTN),分为联合实体和关系标记层和关系三联体判断层。在联合标记层,而不是单独提取实体和关系,我们提出一个标记方法,同时允许模型提取实体和关系在非结构化的句子以防止误差迭代;,为了解决重叠的关系问题,我们提出一个关系三联体判断网络判断正确的三元组群相同的三元组关系中一个句子中去。在实验中,我们评估我们的网络英语公共数据集《纽约时报》和中国公共数据集DuIE 2.0厘米。的F1得分模型提高了1.1,6.0,和5.1与纽约时报上最好的基准模型相比,DuIE 2.0,分别和cm数据集。深入分析模型的重叠问题的表现和句子复杂性问题表明,我们的模型在所有情况下都有不同的收获。
联合提取实体和关系是不可或缺的工作处理非结构化文本信息和构建知识图,旨在提取文本中的所有关系三胞胎。的形式关系三胞胎是(<我t一个l我c> 主题,<我t一个l我c> 关系,<我t一个l我c> 对象),例如(首都华盛顿,美国)。
早期的工作使用管道萃取法(
正常的例子,EntityPairOverlap (EPO) SingleEntiyOverlap(搜索引擎优化)和RelationOverlap (RO)。红色的重叠的实体和关系掩盖了。
为了解决重叠的实体和关系的问题,许多研究人员提出解决方案。因此,出现了许多优秀的模型来解决重叠的问题。例如,曾庆红et al。
在本文中,我们提出一个新的实体和关系标记方法,可以在一个标签标记所有实体和关系信息。我们的标记方法可以将实体和关系的提取模型转换为一个简单的序列标签模型和实体和关系所有信息可以输出一次。给出一个句子,我们用一个新的标签,标记每个单词分为5个区域:课题的负责人(h),主体的尾巴(s - t),(地)的对象,对象的尾巴(水果),和虚无区域(O)。每个地区的标签,我们的灵感来自于二进制标记模型添加预定义关系信息,每个地区无足轻重的词以外的地区,使用二进制0,1代表歧视的结果。这种标记方法促红细胞生成素和搜索引擎优化问题是一个很好的解决方案。
除了促红细胞生成素和搜索引擎优化的问题,我们的论文正式讨论了RO问题(见图
总之,这项工作的主要贡献如下:
我们提出一个联合标记方法实体和关系的句子。这种方法不仅使实体信息和关系信息的完整的集成还地址促红细胞生成素和热点问题。
我们评估模型使用重叠的关系问题,这是多个三胞胎在一个句子首次共享相同的关系;我们现在关系三联体判断网络罗依的问题。我们的模型取得了好结果的数据集的问题。
在实验中,我们评估模型在英国数据集《纽约时报》(
关系三胞胎的提取一直是自然语言处理领域的一项重要任务。它不仅可以从非结构化文本中提取知识,还为许多重要的任务提供先验知识的人工智能,像问答系统,知识图,和机器翻译。
在早期的工作,关系三联体提取的问题主要是通过管道来解决方法,首先识别文本中的实体然后确定所有任意两个实体之间的关系。Nadeau和关根身上
为了解决重叠的实体和关系的问题,论文提出了许多解决方案。傅和Ng (
在本节中,我们将介绍我们的关系三联体联合标签网络。首先,我们将详细说明联合实体和关系标记方法,可以联合提取实体和关系转化为一个序列标签问题,并输出结果。我们的标记方法可以很好地解决欧洲专利局和搜索引擎优化问题。然后我们将介绍罗依的关系三联体判断网络问题,可以将句子的信息,实体语义信息和位置信息来判断是否联合的三元组标签是正确的。
为了消除实体提取之间的误差和关系抽取,我们设计一个联合实体和关系的标记方法,使模型输出的所有信息在同一时间,而不是单独对其进行处理。我们把实体和关系的任务联合提取作为一个序列标签任务。对于一个句子,每个单词对应一个标签与实体信息和关系信息(见图
联合实体和关系的标记方法。每个单词的标签分为五个区域,和其他四个地区除O地区分为标签的数量关系。
为了解决反渗透问题,我们提出一个关系三联体判断网络(见图
概述三联体判断网络与实体和关系联合标记。在这个例子中,两个关系三胞胎有重叠(RO)的关系问题。
编码器可以从句子中提取特征信息<我nl我ne-formula>
在这里我们简要回顾伯特的概述。伯特是一个语言表征模型组成的多层双向变压器(
的相对位置是很重要的信息判断主体和客体是否在同一个三联体。一般来说,实体之间的相对位置距离的长度在同一关系三联体是短于相对位置的距离与其他实体。但并不是所有的主题和对象在同一个三联体关闭。为了解决这个问题,受到相对位置表示在机器翻译
注意机制的基础上,我们把主体和客体之间的相对位置信息。具体地说,为了获得更全面的职位信息,我们使用两个向量来表示每个单词和学习之间的相对位置编码的相对位置信息实体人物等级,计算主体和对象的注意。我们使用向量<我nl我ne-formula>
通过实体和关系的共同标签和相对位置的关注,我们可以得到所有句子的主体和客体的相对位置信息和关系信息。为了提取实体的功能尽可能的全面,我们提取每个主体和客体通过两个进程池平均和最大池;,实体嵌入融合的全球特征的句子而不是特征周围的话说,我们将从伯特(CLS)句子嵌入到实体嵌入。然后,我们列举所有可能的组合的主体和客体的关系,判断是否正确的组合。具体操作如下:
我们的模型分为两个阶段。在第一阶段,我们使用BECWithLogits丧失学习的共同标签实体和关系。为了减少稀疏标签模型学习的影响,我们广场的概率值输出模型结果平滑。在第二阶段,关系三联体判断网络使用CrossEntropy损失。这两个阶段的损失一定比例添加在一起,共同训练。
在这项工作中,我们设计了三个实验来评估我们的网络。首先,我们使用整个测试集来评估模型,以反映模型的性能处理常见问题的能力。然后,为了评估模型的性能在处理复杂的句子,我们测试了该模型在测试集重叠问题和不同数量的三倍。
与之前的模型相比,我们选择一个最流行的数据集:纽约时报。证明我们的模型具有良好的性能在多种语言,我们也评估模型对中国数据集:DuIE 2.0厘米。显示三个数据集之间的差异,我们分析和比较(见表
统计的数据集。
| 数据集 | 火车。 | 有效的。 | 测试。 | 重叠模式 | 数量的三胞胎 | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| 搜索引擎优化 | 促红细胞生成素 | 罗依 |
|
|
|
|
|
||||
| 纽约时报 | 56195年 | 5000年 | 5000年 | 1297年 | 978年 | 690年 | 3244年 | 1045年 | 312年 | 291年 | 108年 |
| DuIE 2.0 | 173108年 | 20674年 | 50583年 | 8009年 | 2652年 | 3734年 | 12242年 | 4488年 | 1603年 | 1019年 | 1322年 |
| 芝加哥商品交易所 | 14339年 | 3585年 | 4482年 | 2161年 | 67年 | 1805年 | 1380年 | 779年 | 433年 | 312年 | 681年 |
我们的模型是使用PyTorch实现和优化网络的框架是AdamW [
我们选择高级模式近年来在这一领域进行比较。(1)NovelTagging [
当三联体模型输出的一模一样的标签,我们判断是正确的结果。我们使用精密(Prec),回忆起(Rec), F1分数作为评价模型的指标。
从表中所示的结果
结果在《纽约时报》的数据集。
| 模型 | 前的 | 矩形 | F1 |
|---|---|---|---|
| NovelTagging | 62.4 | 31.7 | 42.0 |
| CopyRE | 61.0 | 56.6 | 58.7 |
| GraphRel | 63.9 | 60.0 | 61.9 |
| CopyMTL | 75.7 | 68.7 | 72.0 |
| ETL-Span | 84.9 | 72.3 | 78.1 |
| WDec |
|
76.2 | 84.4 |
| RSAN | 85.7 | 83.6 | 84.6 |
| CasRel | 89.7 |
|
89.6 |
| RTJTN | 92.5 | 89.0 |
|
结果DuIE 2.0 cm数据集。
| 模型 | DuIE 2.0 | 芝加哥商品交易所 | ||||
|---|---|---|---|---|---|---|
| 前的 | 矩形 | F1 | 前的 | 矩形 | F1 | |
| CasRel | 70.2 | 70.0 | 70.1 | 56.8 | 46.7 | 51.3 |
| RTJTN |
|
|
|
|
|
|
我们分析的原因RTJTN可以获得更好的性能,总结了以下几点:(1)虽然SOTA模型CasRel取得了令人兴奋的结果,它本质上是一个两阶段模型。提取实体的误差直接影响提取的结果关系。我们的模型结合了实体提取和消除误差的迭代关系提取到一个阶段。(2)CasRel模型没有明显的特性区别RO关系三元组的问题,但只有通过模型的自学习达到目标。与我们的模型相比,为了区分之间的特性关系三元组,与相对位置添加关注信息。(3)模型的性能改进DuIE 2.0数据集和cm数据集远高于《纽约时报》的数据集。我们分析发现的数量DuIE 2.0数据集和cm数据集之间的关系远远超过纽约时报和平均句子长度也比《纽约时报》的句子更长时间的数据集。我们相信,有三重句子中的信息越多,是CasRel遭受的迭代误差就越大。相反,我们的模型没有这个缺点。
为了评估的每个部分的贡献模型结果,我们执行一个消融研究《纽约时报》的数据集。从完整的模型,我们每次删除部分的结构模型,观察这个结构对结果的影响,见表
烧蚀研究纽约时报数据集。
| 模型 | 前的 | 矩形 | F1 |
|---|---|---|---|
| RTJTN | 92.5 | 89.0 | 90.7 |
| 位置关系的关注 | 91.7 | 89.0 | 90.5 |
| 信息的句子 | 91.4 | 89.1 | 90.2 |
| Maxpooling和平均分担 | 91.2 | 88.5 | 89.8 |
| 三联体判断网络 | 87.1 | 89.5 | 88.3 |
实体和关系的重叠问题影响传统标记方法和有一个伟大的对最终结果的影响。为了证明我们的模型可以有效地解决重叠的问题,我们分别评估模型的三个数据集重叠问题。我们将重叠问题划分为三种类型,EntityPairOverlap (EPO) SingleEntiyOverlap(搜索引擎优化),和RelationOverlap (RO),并提取这三种情况下的数据从纽约时报,DuIE 2.0,芝加哥商品交易所的数据集。我们比较我们的模型与三种情况最好的基准模型和结果如图所示
关系提取句子相互重叠问题。F1 (a)在《纽约时报》的数据集。(b) F1 DuIE 2.0数据集。(c) F1 cm数据集。
RO问题数据集上测试时,基准模型的性能比测试完整的数据集的结果,也证明了RO问题可以有负面影响的性能模型。结果在图
的数量关系三胞胎在文本中也有一个巨大的影响的结果提取的任务。一般来说,越是关系三胞胎的数量在一个句子,越难提取正确的关系三胞胎。为了评估我们的模型的性能在句子中提取不同数量的三胞胎,我们在《纽约时报》把句子,DuIE 2.0 cm数据集分成五类,表示句子包含1,2,3,4,≥5三胞胎的句子。结果如表所示
用不同数量的三胞胎F1的句子。
| 模型 | 数量的三胞胎 | ||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 纽约时报 | DuIE 2.0 | 芝加哥商品交易所 | |||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| CasRel |
|
90.3 |
|
94.2 | 83.7 | 68.5 | 66.9 | 68.3 | 70.2 | 72.1 |
|
45.2 | 47.9 | 49.5 | 54.6 |
| RTJTN |
|
|
91.2 |
|
|
|
|
|
|
|
44.4 |
|
|
|
|
在本文中,我们提出一个关系三联体联合标签网络(RTJTN)包含一个联合实体和关系的标签,关系三联体判断网络。而不是单独提取实体和关系的非结构化的句子,我们标记方法完全结合实体提取和关系提取到一个任务,有效地解决了问题,热点和促红细胞生成素。因此,我们的模型可以有效地避免错误比基准模型迭代和获得更好的性能。此外,我们使用RO问题作为一个指标的评价模型首次和我们关系三联体判断层RO问题取得了优秀的成果。评估的纽约时报,DuIE 2.0,和芝加哥商品交易所的数据集,我们的模型也使性能显著改善。我们的模型的结果也优于基准模型的实验与各种重叠的问题和不同数量的三胞胎。
使用的数据来支持本研究的结果包括在本文中。
作者宣称没有利益冲突有关的出版。