RTJTN:关系三联体联合标签网络联合提取实体和关系

文摘

从非结构化的句子提取实体和关系是一种最自然语言处理领域的有关任务。然而,大多数现有工作流程的实体和关系信息在一定秩序和遭受误差迭代。在本文中,我们介绍一个关系三联体联合标签网络(RTJTN),分为联合实体和关系标记层和关系三联体判断层。在联合标记层,而不是单独提取实体和关系,我们提出一个标记方法,同时允许模型提取实体和关系在非结构化的句子以防止误差迭代;,为了解决重叠的关系问题,我们提出一个关系三联体判断网络判断正确的三元组群相同的三元组关系中一个句子中去。在实验中,我们评估我们的网络英语公共数据集《纽约时报》和中国公共数据集DuIE 2.0厘米。的F1得分模型提高了1.1,6.0,和5.1与纽约时报上最好的基准模型相比,DuIE 2.0,分别和cm数据集。深入分析模型的重叠问题的表现和句子复杂性问题表明,我们的模型在所有情况下都有不同的收获。

1。介绍

联合提取实体和关系是不可或缺的工作处理非结构化文本信息和构建知识图,旨在提取文本中的所有关系三胞胎。的形式关系三胞胎是(主题,关系,对象),例如(首都华盛顿,美国)。

早期的工作使用管道萃取法(1,2)分别提取实体和关系。但管道方法忽略了实体提取和提取的关系之间的联系。因此,近年来大量的工作集中在联合提取实体和关系,像方法基于人工构造的特性3- - - - - -5)和神经网络方法(6- - - - - -8]。随着深度学习的发展和应用pretrained模型,提取实体和关系已达到一个新的水平的性能(9,10]。但共同提取使任务复杂,许多新的问题出现,像EntityPairOverlap (EPO) SingleEntiyOverlap(搜索引擎优化),和RelationOverlap (RO)(见图1)。

为了解决重叠的实体和关系的问题,许多研究人员提出解决方案。因此,出现了许多优秀的模型来解决重叠的问题。例如,曾庆红et al。11)提出了一个联合实体和关系基于seq2seq方法提取模型;Nayak和Ng (12)应用encoder-decoder实体和关系联合提取框架;和魏et al。8)提出,从主体,客体是一种可习得的关系公式。这些模型有良好的结果提取实体和关系,但他们有一个共同的缺点:人为地分解提取实体和关系到多个的子任务。他们仍然提取实体和关系分解为几个子任务在端到端模型。这种方法的问题是,实体提取任务和关系抽取任务只是交换少量的信息通过人工设计和实体提取任务提取的误差将直接影响关系。

在本文中,我们提出一个新的实体和关系标记方法,可以在一个标签标记所有实体和关系信息。我们的标记方法可以将实体和关系的提取模型转换为一个简单的序列标签模型和实体和关系所有信息可以输出一次。给出一个句子,我们用一个新的标签,标记每个单词分为5个区域:课题的负责人(h),主体的尾巴(s - t),(地)的对象,对象的尾巴(水果),和虚无区域(O)。每个地区的标签,我们的灵感来自于二进制标记模型添加预定义关系信息,每个地区无足轻重的词以外的地区,使用二进制0,1代表歧视的结果。这种标记方法促红细胞生成素和搜索引擎优化问题是一个很好的解决方案。

除了促红细胞生成素和搜索引擎优化的问题,我们的论文正式讨论了RO问题(见图1)第一次。RO问题,多个关系三胞胎是共享同一关系。然而,多个三胞胎的关系也有类似的情况下,导致实体嵌入的三胞胎也变得非常相似。因此,在反渗透问题,模型难以确定主体和对象在同一个三联体。RO问题忽略了以前的工作。大多数只能使用启发式方法结合最近的主体和客体(11,13]。对于解决反渗透问题,我们提出一个关系三联体判断网络区分相同的主体和对象关系。

总之,这项工作的主要贡献如下:(1)我们提出一个联合标记方法实体和关系的句子。这种方法不仅使实体信息和关系信息的完整的集成还地址促红细胞生成素和热点问题。(2)我们评估模型使用重叠的关系问题,这是多个三胞胎在一个句子首次共享相同的关系;我们现在关系三联体判断网络罗依的问题。我们的模型取得了好结果的数据集的问题。(3)在实验中,我们评估模型在英国数据集《纽约时报》(14和中国数据集DuIE 2.0厘米。我们的模型优于之前的三个数据集模型。

关系三胞胎的提取一直是自然语言处理领域的一项重要任务。它不仅可以从非结构化文本中提取知识,还为许多重要的任务提供先验知识的人工智能,像问答系统,知识图,和机器翻译。

在早期的工作,关系三联体提取的问题主要是通过管道来解决方法,首先识别文本中的实体然后确定所有任意两个实体之间的关系。Nadeau和关根身上1)和Zelenko et al。2)使用管道来确定实体和关系在文本第一次;但管道方法忽略了两个任务之间的联系和共同优化不发挥作用。为了解决这个问题,许多论文提出了联合提取模型的实体和关系。任等。5),李和霁4],古板和佐佐木15]提出联合提取模型的实体和关系基于人工构造的功能;但是人工特色建设是困难和模型性能是不稳定的。郑et al。16]LSTM网络用来实现实体和关系的联合开采和使用的启发式原理接近结合解决RelationOverlap的主体和客体(RO)的问题。曾庆红et al。(11)提出,实体和关系的提取模型需要解决重叠的问题,EntityPairOverlap (EPO)和SingleEntiyOverlap(搜索引擎优化),在第一次。

为了解决重叠的实体和关系的问题,论文提出了许多解决方案。傅和Ng (17)添加了图卷积网络联合提取模型的实体和关系。Nayak和Ng (12)添加的想法encoder-decoder联合提取模型的实体和关系。Bekoulis et al。18)提取实体和关系的任务变成了多线程选择任务。Yu et al。19)添加了一个span-based标记策略和分层的解码策略联合提取任务。刘等人。20.)提取实体基于条件随机域和判断基于多线程self-attention监管的关系。魏et al。8)提出,从主体关系构造成一个函数对象。尽管这些方法使用端到端整合实体提取方法和关系抽取成一个整体,分为几个子任务的实体和关系模型。我们共同的实体和关系标记方法完全可以合并实体提取和关系提取到一个任务。

3所示。关系三联体联合标签网络

在本节中,我们将介绍我们的关系三联体联合标签网络。首先,我们将详细说明联合实体和关系标记方法,可以联合提取实体和关系转化为一个序列标签问题,并输出结果。我们的标记方法可以很好地解决欧洲专利局和搜索引擎优化问题。然后我们将介绍罗依的关系三联体判断网络问题,可以将句子的信息,实体语义信息和位置信息来判断是否联合的三元组标签是正确的。

3.1。标签层联合实体和关系

为了消除实体提取之间的误差和关系抽取,我们设计一个联合实体和关系的标记方法,使模型输出的所有信息在同一时间,而不是单独对其进行处理。我们把实体和关系的任务联合提取作为一个序列标签任务。对于一个句子,每个单词对应一个标签与实体信息和关系信息(见图2)。实体信息,我们把每个单词的标签分为五个区域:课题的负责人(h),主体的尾巴(s - t),(地)的对象,对象的尾巴(水果),和实体的虚无的话(O)。在每一个三个一组,我们只标签实体的脑袋和尾巴和标签的其他部分与O .实体关系的信息,我们将除O地区之外的其他四个区域划分为标签的数量关系。换句话说,每个单词对应的标签的长度 ,在哪里是预定的数量关系。我们也受二进制标记法(8]。当网络识别关系的主题,我们标签的位置对应关系- h和s - t地区为1,当对象被公认,我们地做出相同的标签和水果区域。由于每个实体可以在多个关系三胞胎或主体和客体,可能有多个标签的值为1的每个词,像达芬奇在(莱昂纳多·迪卡普里奥,行动,杰克)和(莱昂纳多·迪卡普里奥,Work_in,《泰坦尼克号》)(见图2)。换句话说,每个单词的任务标记是一个multiclassification任务。这种标记方法可以促红细胞生成素和搜索引擎优化问题的一个很好的解决方案。

3.2。关系三联体判断网络

为了解决反渗透问题,我们提出一个关系三联体判断网络(见图3)。首先,我们提取话语主体和对象编码pretrained模型结果的基础上联合实体和关系标签。然后,我们使用相对位置关系嵌入的言语主体和客体的相对位置信息。我们结合主题和对象成对并添加句子的信息,以确定主体和对象是一个三联体。

3.2.1之上。伯特编码器

编码器可以从句子中提取特征信息和转换成一个字嵌入。输出字嵌入可用于预测和标签的后续模块。我们使用伯特(21,22)编码器从句子中提取特征信息。

在这里我们简要回顾伯特的概述。伯特是一个语言表征模型组成的多层双向变压器(23编码器。通过self-supervised培训大量无名全集,伯特模型包含丰富的语言知识。在培训过程中,伯特学习词汇的深度表示随机掩蔽或代替一些单词和预测通过上下文和在多个任务取得了令人惊讶的结果。我们表示伯特模型和表示伯特模型的每一层。伯特的操作过程可以表示为每一层的操作伯特可以表示为在哪里是单词分割嵌入,是位置嵌入,是句子分割嵌入,是一个炎热的嵌入输入单词,是一个炎热的嵌入由伯特存储。

3.2.2。相对位置的关注

的相对位置是很重要的信息判断主体和客体是否在同一个三联体。一般来说,实体之间的相对位置距离的长度在同一关系三联体是短于相对位置的距离与其他实体。但并不是所有的主题和对象在同一个三联体关闭。为了解决这个问题,受到相对位置表示在机器翻译24),我们添加一个关注层与可学的相对位置嵌入编码器的输出层。

注意机制的基础上,我们把主体和客体之间的相对位置信息。具体地说,为了获得更全面的职位信息,我们使用两个向量来表示每个单词和学习之间的相对位置编码的相对位置信息实体人物等级,计算主体和对象的注意。我们使用向量和代表之间的相对位置信息主体和对象o .的相对位置向量和增加了计算过程的键和值的注意,分别。具体操作如下: 在哪里 , ,和代表查询的权重矩阵、键和值的注意机制,分别。和这个词代表嵌入在主题实体和对象实体,分别。我们设定一个限制的相对位置;也就是说,当这个词的相对距离超过最大长度,我们把它当作最大距离。我们组的最大距离是50。具体操作如下: 在哪里是我们的最大距离。

3.2.3。实体特征提取

通过实体和关系的共同标签和相对位置的关注,我们可以得到所有句子的主体和客体的相对位置信息和关系信息。为了提取实体的功能尽可能的全面,我们提取每个主体和客体通过两个进程池平均和最大池;,实体嵌入融合的全球特征的句子而不是特征周围的话说,我们将从伯特(CLS)句子嵌入到实体嵌入。然后,我们列举所有可能的组合的主体和客体的关系,判断是否正确的组合。具体操作如下: 在哪里和分别是主体和客体。和字嵌入在一个主体和一个对象,分别。是输出向量在伯特(CLS)。

3.3。损失函数

我们的模型分为两个阶段。在第一阶段,我们使用BECWithLogits丧失学习的共同标签实体和关系。为了减少稀疏标签模型学习的影响,我们广场的概率值输出模型结果平滑。在第二阶段,关系三联体判断网络使用CrossEntropy损失。这两个阶段的损失一定比例添加在一起,共同训练。在哪里输出的结果吗n批量大小,的标签吗n批量大小,和的比例是附加的损失函数;我们将它设置为0.001。

4所示。实验

在这项工作中,我们设计了三个实验来评估我们的网络。首先,我们使用整个测试集来评估模型,以反映模型的性能处理常见问题的能力。然后,为了评估模型的性能在处理复杂的句子,我们测试了该模型在测试集重叠问题和不同数量的三倍。

4.1。数据集

与之前的模型相比,我们选择一个最流行的数据集:纽约时报。证明我们的模型具有良好的性能在多种语言,我们也评估模型对中国数据集:DuIE 2.0厘米。显示三个数据集之间的差异,我们分析和比较(见表1)。纽约时报是英语新闻领域的数据集,它包含25个类型的关系。DuIE 2.0是一位中国将军领域数据集包含54个种类的关系。芝加哥商品交易所是中国医学领域数据集包含43种关系。我们也分析了重叠问题,三元组在每个数据集的数量。这三个数据集有不同的特征,可以全面评估模型的性能。


数据集	火车。	有效的。	测试。	重叠模式			数量的三胞胎
数据集	火车。	有效的。	测试。	搜索引擎优化	促红细胞生成素	罗依	N= 1	N= 2	N= 3	N= 4	N≥5

纽约时报	56195年	5000年	5000年	1297年	978年	690年	3244年	1045年	312年	291年	108年
DuIE 2.0	173108年	20674年	50583年	8009年	2652年	3734年	12242年	4488年	1603年	1019年	1322年
芝加哥商品交易所	14339年	3585年	4482年	2161年	67年	1805年	1380年	779年	433年	312年	681年

4.2。实现细节

我们的模型是使用PyTorch实现和优化网络的框架是AdamW [25]。模型参数而言,我们所有的实验是20批大小,学习速度从0到0.0003,然后减少到0作为培训数量的增加,最大序列长度为256,这个词的范围将被忽略。为了获得更准确的信息在第二阶段的模型中,我们训练分别为10时代在第一阶段,然后共同训练。我们使用特斯拉V100训练为50时代我们的模型和评估模型的验证集。我们选择最好的模型和输出测试集上的最终结果。《纽约时报》的数据集上训练时,我们使用BERT-base pretrained模型。DuIE 2.0和cm数据集上训练时,我们使用pretrained模型是BERT-wwm-ext。

4.3。基线和评价指标

我们选择高级模式近年来在这一领域进行比较。(1)NovelTagging [16]提出的实体和关系的联合标记方法第一次,但这并没有解决重叠的问题。(2)CopyRE [11)首次提出使用encoder-decoder结构提取实体和关系的任务。(3)GraphRel [17)使用图卷积网络把所有单词的特点优化模型的性能。(4)ETL-Span [19)添加了策略与跨信息提取模型。(5)WDec [12)使用seq2seq生成词序列。(6)CopyMTL [26)使用多任务学习框架结合提取实体和关系。(7)RSAN [13)提出了一个关系专用关注网络解决重叠的问题。(8)CasRel [8]提出的概念关系的函数对象。

当三联体模型输出的一模一样的标签,我们判断是正确的结果。我们使用精密(Prec),回忆起(Rec), F1分数作为评价模型的指标。

4.4。实验结果和分析

4.1.1。主要结果

从表中所示的结果2在《纽约时报》,我们可以发现我们的模型数据集超过所有基线模型综合指数F1分数;和表3显示了我们的模型的评价结果和中国最好的基准模型数据集DuIE 2.0厘米;我们的模型在F1仍然是最好的得分。测试结果证明我们的模型的综合性能优于所有基线模型。与最好的基准模型相比,模型的F1值提高了1.1在《纽约时报》的数据集上,6.0 DuIE 2.0数据集,和5.6 cm数据集;这三个数据集的实验也证明我们的模型的性能并不局限于单一的语言和多语言测试下的最佳效果。


模型	前的	矩形	F1

NovelTagging	62.4	31.7	42.0
CopyRE	61.0	56.6	58.7
GraphRel	63.9	60.0	61.9
CopyMTL	75.7	68.7	72.0
ETL-Span	84.9	72.3	78.1
WDec	94.5	76.2	84.4
RSAN	85.7	83.6	84.6
CasRel	89.7	89.5	89.6
RTJTN	92.5	89.0	90.7


模型	DuIE 2.0			芝加哥商品交易所
模型	前的	矩形	F1	前的	矩形	F1

CasRel	70.2	70.0	70.1	56.8	46.7	51.3
RTJTN	76.6	75.6	76.1	61.8	51.8	56.4

我们分析的原因RTJTN可以获得更好的性能,总结了以下几点:(1)虽然SOTA模型CasRel取得了令人兴奋的结果,它本质上是一个两阶段模型。提取实体的误差直接影响提取的结果关系。我们的模型结合了实体提取和消除误差的迭代关系提取到一个阶段。(2)CasRel模型没有明显的特性区别RO关系三元组的问题,但只有通过模型的自学习达到目标。与我们的模型相比,为了区分之间的特性关系三元组,与相对位置添加关注信息。(3)模型的性能改进DuIE 2.0数据集和cm数据集远高于《纽约时报》的数据集。我们分析发现的数量DuIE 2.0数据集和cm数据集之间的关系远远超过纽约时报和平均句子长度也比《纽约时报》的句子更长时间的数据集。我们相信,有三重句子中的信息越多,是CasRel遭受的迭代误差就越大。相反,我们的模型没有这个缺点。

10/24/11。烧蚀研究RTJTN

为了评估的每个部分的贡献模型结果,我们执行一个消融研究《纽约时报》的数据集。从完整的模型,我们每次删除部分的结构模型,观察这个结构对结果的影响,见表4。(1)位置的关系的关注可以有效地提供主体和客体之间相对位置信息。(2)信息的句子使字嵌入信息更丰富的语义信息。(3)我们取代了原来的Maxpooling和平均池直接拼接与实体嵌入这个词,和F1评分显著下降。(4)我们只删除关系三联体判断网络和保持关节的F1分数标记层实体和关系,这表明,我们的网络是解决RO问题很大的帮助。加入关系三联体判断网络训练后,我们共同的实体和关系的F1分数标签也从88.28增加到83.34,表明关系三联体判断网络不仅有助于最终结果还有助于关节的训练标记层。


模型	前的	矩形	F1

RTJTN	92.5	89.0	90.7
位置关系的关注	91.7	89.0	90.5
信息的句子	91.4	89.1	90.2
Maxpooling和平均分担	91.2	88.5	89.8
三联体判断网络	87.1	89.5	88.3

4.4.3。分析重叠的情况下

实体和关系的重叠问题影响传统标记方法和有一个伟大的对最终结果的影响。为了证明我们的模型可以有效地解决重叠的问题,我们分别评估模型的三个数据集重叠问题。我们将重叠问题划分为三种类型,EntityPairOverlap (EPO) SingleEntiyOverlap(搜索引擎优化),和RelationOverlap (RO),并提取这三种情况下的数据从纽约时报,DuIE 2.0,芝加哥商品交易所的数据集。我们比较我们的模型与三种情况最好的基准模型和结果如图所示4。从结果在图中,我们可以看到,我们的模型超过基线模型在所有三个重叠的问题。

(一)

(b)

(c)

RO问题数据集上测试时,基准模型的性能比测试完整的数据集的结果,也证明了RO问题可以有负面影响的性能模型。结果在图4表明,当罗依问题的模型预测的句子,我们的模型的负面影响显著小于最好的基准模型。这证明我们的模型能更好地预测关系三胞胎RO问题。

4.4.4。分析不同数量的关系三胞胎

的数量关系三胞胎在文本中也有一个巨大的影响的结果提取的任务。一般来说,越是关系三胞胎的数量在一个句子,越难提取正确的关系三胞胎。为了评估我们的模型的性能在句子中提取不同数量的三胞胎,我们在《纽约时报》把句子,DuIE 2.0 cm数据集分成五类,表示句子包含1,2,3,4,≥5三胞胎的句子。结果如表所示5。从结果表中,我们可以发现,当句子包含少量的三胞胎,两种模型的性能没有太大的不同,但是当三胞胎数量的增加,我们的模型的结果比基线模型。因此,我们的模型比其他模型更好地提取复杂的三胞胎。

模型

数量的三胞胎

纽约时报

DuIE 2.0

芝加哥商品交易所

N= 1

N= 2

N= 3

N= 4

N≥5

N= 1

N= 2

N= 3

N= 4

N≥5

N= 1

N= 2

N= 3

N= 4

N≥5

CasRel

88.2

90.3

91.9

94.2

83.7

68.5

66.9

68.3

70.2

72.1

46.0

45.2

47.9

49.5

54.6

RTJTN

88.2

90.6

91.2

95.1

90.3

76.1

74.1

74.6

77.0

78.2

44.4

49.3

56.3

58.4

64.6

5。结论

在本文中,我们提出一个关系三联体联合标签网络(RTJTN)包含一个联合实体和关系的标签,关系三联体判断网络。而不是单独提取实体和关系的非结构化的句子,我们标记方法完全结合实体提取和关系提取到一个任务,有效地解决了问题,热点和促红细胞生成素。因此,我们的模型可以有效地避免错误比基准模型迭代和获得更好的性能。此外,我们使用RO问题作为一个指标的评价模型首次和我们关系三联体判断层RO问题取得了优秀的成果。评估的纽约时报,DuIE 2.0,和芝加哥商品交易所的数据集,我们的模型也使性能显著改善。我们的模型的结果也优于基准模型的实验与各种重叠的问题和不同数量的三胞胎。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突有关的出版。

引用

Nadeau和d s“关根身上,命名实体识别和分类的调查。”Lingvisticæ调查。语言学和语言资源的国际期刊,30卷,不。1,3-26,2007页。视图:出版商的网站|谷歌学术搜索
处长d Zelenko c .优质,a . Richardella“内核关系提取方法,”机器学习研究杂志》上,3卷,第1106 - 1083页,2003年。视图:谷歌学术搜索
x Yu和w·林”,共同确定实体和百科全书文本提取关系通过图形化模型的方法,”2010年美国科尔:海报,第1407 - 1399页,北京,中国,2010年8月。视图:谷歌学术搜索
问:李和h .霁”增量联合提取实体提到和关系”美国52计算语言学协会的年度会议马里兰州巴尔的摩,页402 - 412,美国2014年6月。视图:谷歌学术搜索
吴任x, z, w .他et al .,“共型:联合提取与知识基础类型的实体和关系,”学报》第26届国际会议在万维网上澳大利亚珀斯,页1015 - 1024年,2017年4月。视图:谷歌学术搜索
p•古普塔h . Schutze, b . Andrassy”表填充递归神经网络多任务联合提取实体和关系,”美国科尔2016年,第26届国际会议在计算语言学:技术论文大阪,页2537 - 2547年,日本,2016年12月。视图:谷歌学术搜索
a . Katiyar和c的羊毛衫,向前一跃:联合提取实体提到和没有依赖关系树,”学报55的计算语言学协会年度会议(卷1:长论文)加拿大温哥华,页917 - 928,2017年7月。视图:谷歌学术搜索
z, j . Su y, y, y . Chang,“一种新型级联二进制标记框架关系三提取,”2019年,https://arxiv.org/abs/1909.03227。视图:谷歌学术搜索
他吴和y,“丰富pre-trained语言模型与实体信息分类、关系”学报》第28届ACM国际会议信息和知识管理,第2364 - 2361页,北京,中国,2019年11月。视图:谷歌学术搜索
张y和j·杨,”中国使用点阵LSTM尼珥,”2018年,https://arxiv.org/abs/1805.02023。视图:谷歌学术搜索
x曾庆红,d .曾庆红,s .他k . Liu和j .赵”提取关系事实与复制机制,通过端到端的神经模型”《第56计算语言学协会年会(卷1:长论文)澳大利亚墨尔本,页506 - 514,,2018年7月。视图:谷歌学术搜索
t . Nayak h·t·Ng,“有效的联合建模encoder-decoder建筑实体和关系抽取,”人工智能学报AAAI会议,页8528 - 8535,纽约市中心希尔顿,纽约,美国,2020年2月。视图:谷歌学术搜索
y元,周x,锅,问:朱,z的歌,和l .郭”关系专用关注网络联合提取实体和关系,”人工智能国际联合会议20204060年,页4054 - 2020年11月,日本横滨。视图:谷歌学术搜索
美国里德尔,l .姚明,a . McCallum”建模关系和他们提到没有标记文本,”《欧洲联合机器学习与知识发现会议在数据库中西班牙巴塞罗那,页148 - 163,,2010年9月。视图:谷歌学术搜索
m .古板和y佐佐木,“建模联合提取实体和关系表表示,”学报2014年会议上实证方法在自然语言处理(EMNLP)1869年,页1858 -多哈,卡塔尔,2014年10月。视图:谷歌学术搜索
郑,f . Wang h·鲍,y,周p, b .徐,”联合提取实体和关系基于一本小说标签计划,”2017年,https://arxiv.org/abs/1706.05075。视图:谷歌学术搜索
T.-J。傅,林志信。李,W.-Y。马,“GraphRel:建模提取文本作为联合实体关系图和关系,”学报》第57届计算语言学协会的年度会议1418年,页1409 -佛罗伦萨,意大利,2019年7月。视图:谷歌学术搜索
g . Bekoulis j . Deleu t Demeester, c . Develder”联合实体识别和提取的关系作为一个多头选择问题,“专家系统与应用程序卷。114年,34-45,2018页。视图:出版商的网站|谷歌学术搜索
x z . b . Yu张蜀et al .,“联合提取实体和关系基于小说的分解策略,”2019年,https://arxiv.org/abs/1909.04273。视图:谷歌学术搜索
j . s . j . Liu, b . Wang, n . Li和t .徐,“关注关系:学习监督关系提取的多头self-attention”美国29日国际人工智能联合会议2020年7月,日本横滨。视图:谷歌学术搜索
j·德夫林,硕士。Chang k·李,和k Toutanova,”伯特:训练的语言理解的深度双向变形金刚,”2018年,https://arxiv.org/abs/1810.04805。视图:谷歌学术搜索
a·雷德福k·纳史木汗,t . Salimans Sutskever,“提高生成训练的语言理解,”2018年,https://s3 -我们-西方- 2. - amazonaws.com/openai - assets/research covers/language unsupervised/languageunderstanding纸。视图:谷歌学术搜索
答:Vaswani: Shazeer: Parmar et al .,“注意你所需要的,”2017年,https://arxiv.org/abs/1706.03762。视图:谷歌学术搜索
j . p . Shaw Uszkoreit, a . Vaswani Self-attention相对位置表示,“2018年,https://arxiv.org/abs/1803.02155。视图:谷歌学术搜索
即Loshchilov和f . Hutter解耦体重衰变正规化,”2017年,https://arxiv.org/abs/1711.05101。视图:谷歌学术搜索
d曾庆红,h·张,刘问:“Copymtl:复制机制与多任务学习,共同提取实体和关系”人工智能学报AAAI会议,页9507 - 9514,纽约市中心希尔顿,纽约,美国,2020年2月。视图:谷歌学术搜索

计算智能和神经科学