基于知识的注意和词嵌入的双重CNN关系抽取

摘要

关系抽取是文本理解的基础关键任务。然而，现有的方法在实例选择和实体识别背景知识方面存在不足。本文提出了一种基于知识的注意模型，该模型可以充分利用来自知识库的监督信息来选择实体。我们还设计了一种双卷积神经网络(CNNs)的方法，考虑到单个训练工具限制了每个单词的嵌入。提出的模型结合了CNN和注意机制。该模型将单词嵌入和知识库中的监督信息插入到CNN中，进行卷积和池化，并在全连接层将知识库与CNN结合。基于这些过程，该模型不仅获得了更好的实体表示，而且借助丰富的背景知识提高了关系抽取的性能。实验结果表明，该模型具有较好的性能。

1.介绍

关系提取(RE) [1- - - - - -3.]是高等自然语言处理应用的基础，已广泛应用于信息检索等重要领域[4，5]、知识图、表示学习和文本理解。正则可以简单地看作是一个多类分类问题:给定两个实体的句子文本，区分两个实体之间的关系。对于一对实体和，两个实体之间的关系可以通过三个元组来形式化，在这关联类型。例如，给定一个包含实体关系的简单句子，例如:比尔·盖茨是微软的创始人，“实体之间的语义关系”比尔盖茨”和“微软“是”创始人。”

近年来，深度学习在自然语言处理方面取得了良好的成绩;因此，大量算法采用深度学习方法进行特征提取和RE。2012年，Socher等[6]提出使用递归神经网络(RNN)来解决关系分类问题，并通过RNN获得句子向量的表示来进行关系分类。Zeng等[7]使用了卷积神经网络(CNN) [8，9，结合词嵌入和位置信息来提取关系。CNN可以从词向量表示的句子中提取局部敏感信息，获得高级特征，并有效地应用于关系分类和提取。目前，大多数用于RE的CNN模型使用的是直接从单个训练模型获得的句子中的单词向量作为输入和提取特征。为了消除单词向量训练模型的语料库丰富度限制，我们将实体背景知识作为另一个CNN输入，然后结合词向量嵌入和实体背景知识表示，构建一个双CNN结构。

注意机制[10，11]首次应用于图像处理，它可以在处理图像数据时将神经网络集中在重要的目标任务信息上。在自然语言处理中，注意机制可以有效提高机器翻译、特定目标情感分析等任务的效果。在RE中，句子中的每个单词对特定的任务都有不同的影响;例如，在这个句子中，这部电影是本年度最好的电影之一，句子中“最好”一词对于说明句子的整体情感是积极的起着关键作用，其重要性大于句子中其他词语。基于注意机制的神经网络模型应该识别句子中哪些信息是重要的，并将注意力集中在这些信息上。注意机制在顺序到顺序任务中表现优异，在句子建模中取得了良好的效果。Lin等[12]提出了一个句子级注意模型，以减少RE模型中虚假标签引起的噪声问题。采用注意权矩阵进行高级语义表示，提高了句子表示的准确性。然而，这些方法在描述句子中实体的局部和全局信息方面仍然存在不足。在我们的方法中，通过基于知识的注意机制，我们得到当前句子中实体对之间的关系的表示，以及当前句子中实体对之间的其他关系的表示。这些关系帮助我们理解当前句子中实体对之间的关系。

同一对实体对知识库中不同句子的影响程度不同。例如，比尔盖茨”和“微软在知识库中创始人“关系标签”创始人"与句子的相关性更高"比尔·盖茨是微软的创始人，“比句”比尔·盖茨继续在微软董事会担任关键发展项目的顾问因此，本文通过在知识库中引入实体表示的注意机制，可以丰富语义背景知识，提高检索效果。

正则的主要目的是识别文本中的实体，并提取实体之间的语义关系。目前主流的RE技术分为监督学习方法和基于深度学习的方法。有监督的正则系统通常需要人工标记大量的训练数据，并自动从训练数据中学习相应的提取模式。郑等[13]提出了一种基于核函数的方法。Poria等[14]提出了一种基于7层深度卷积神经网络的方法，将固执己见的句子中的每个词分别标记为方面词或非方面词。Mintz等人[15]提出了远程监督方法，并将《纽约时报》新闻文本与包含7300多个关系和9亿多个实体的大规模知识图Freebase进行了对齐。随后，许多研究者从不同的角度提出了对远程监控技术的改进。Chen等[16]提出了一个联合推理框架，利用这种全局线索来解决局部预测之间的分歧。Riedel等[17增强了远距离监督的假设。高松等[18]改进了实体对齐技术，降低了数据噪声，提高了正则的整体效果。以上的远程监控技术假设一个实体对只对应一个关系。然而，许多实体有多个关系。因此，Hoffmann等人[19]提出了一种多实例多标签方法来建模正则并描述实体对之间的多种关系。Surdeanu等人[20.]，并提出了RE. Taghva的多实例多标签方法和贝叶斯网络[21]描述了形式概念分析(FCA)来识别和提取人名和关系，FCA可以使用隐马尔可夫模型使用的Viterbi算法对文本序列进行解码。

最近，许多研究人员开始将深度学习技术应用于RE [22，23］．Socher等[6]提出使用rnn解决RE问题;该方法首先解析一个句子，然后学习语法树上每个节点的向量表示。通过RNN，该方法可以从句法树最低端的词向量开始，并根据句子的句法结构迭代合并这些向量。最后，得到句子的向量表示，并用于关系分类[24- - - - - -26］．该方法能有效地考虑句子的句法结构信息，但不能同时考虑句子中两个实体的位置信息和语义信息。Zeng等[27]使用单词向量和单词的位置向量作为CNN的输入，通过卷积层、池化层、非线性层得到句子表示。通过考虑实体的位置向量和其他相关的词汇特征，句子中的实体信息可以用于RE. Bollegala等人[28]也为RE提出了一种新的CNN，该CNN使用了新的损失函数，可以有效提高不同关系类别之间的可区分性。Luo等[29]提出了一种结构新颖的深度学习模型，并利用注意机制对网络结构中的关键问题进行权重分配。Lin等[12]提出了一种基于句子级注意机制的神经网络模型。该方法可以根据特定的关系为实体对中的每个句子分配权重。通过不断的学习，有效的句子被赋予更高的权重，而嘈杂的句子被赋予更低的权重。目前，神经网络的正则主要用于预置关系集。然而，开放的面向领域的关系抽取仍然是一种相对传统的基于模板的方法。因此，在我们的方法中，我们试图在关系抽取中引入一个知识库作为背景知识，以便自动发现新的关系和实体。

3.方法

3．1.以知识为基础的注意模型

镍等[30.]引入了表示知识库的术语，知识库使用RDF(资源描述框架)三元组表示，形式为主题,关系,和对象）;例如，考虑图中所示文本中的知识库片段和实体的表达1，其中节点表示实体，关系显示为有向标记边。为简洁起见，我们用，在这和分别表示主体实体和客体实体。

对于"比尔·盖茨是微软的创始人，“我们只能获得实体对”比尔盖茨”和“微软"和关系"创始人"他们之间的关系，但我们无法获得关于"微软"和"美国然而，在知识库中，这些实体之间的关系被简单而清晰地表达出来。因此，我们的目标是在模型输入中包含知识库中实体关系的表示。为了查找文本中提到的实体，我们首先使用Stanford Named entity Recognizer (NER) [31］．每个文档可以被分割成句子，每个标记可以被NER标记器分为四类。我们将共享同一类别的连续token视为单个提到的实体，然后将文本中提到的实体与知识库中的实体关联起来。为了组合文本信息，我们还使用Stanford Dependency Parser来表示文本，如图所示2,在这表示名义主体，介词修饰语是，and是介词的宾语。

我们使用CNN从知识库中提取这些实体关系的特征信息。在向量表示层中，我们使用单词嵌入和位置嵌入作为网络的输入。单词嵌入是单词的分布式表示，它将文本中的每个单词映射到一个可以由Word2vec训练的低维向量[32或GloVe [33］．位置嵌入是RE的重要特征;它们表示实体对与关系之间的距离。数字2显示相对距离;与单词"的相对距离创始人”到“比尔盖茨”和“微软“是”3.”和“2。”

基于知识的注意旨在从句子或文本中识别和挖掘关系;在我们的模型中，我们嵌入了单词级和关系表示。如图1，“founder_of”作为单个token，同时，“founder”和“of”的词嵌入将关系作为一个词的序列。在本文中，我们定义作为候选关系链，其中为候选关系链中的关系数。因此，我们将单词嵌入和关系表示结合起来作为输入。同样，“Microsoft”和“United States”之间的关系“company_of”表示为“company”和“of”的单词嵌入，以及来自知识库的关系“company_of”，我们希望通过这些与当前实体相关的关系为当前关系识别提供更多的信息。关系表示更侧重于上下文的全局信息。然而，关系表示经常受到数据稀疏性的负面影响，因为一些关系可能很少出现在我们的数据中。在词嵌入之后，将“一次性表示”转换为 -维词向量以及关系嵌入向量，在哪里和分别为知识库中的词汇量和关系数。然后将嵌入层的输出发送到CNN的卷积层进行特征提取。数字3.描述了CNN的架构。实际上，在知识库中有许多与当前实体相关的关系，如“father_of”和“place_of_birth”。这里，我们只使用关系“company_of”作为示例。在第一层，每个词及其位置信息通过嵌入矩阵映射到一个连续的表示嵌入这个词转换为向量使用以下公式:

在隐层中，我们通过权值向量得到隐层特征，一个偏差向量，还有一个激活函数，如公式所示: 在哪里表示当前的词嵌入向量和和分别表示当前单词前后的单词嵌入向量。

基于知识的注意模型可以挖掘当前实体对的关系表示，并获取知识库中与当前实体相关的其他实体的关系信息。如图1，除了获得比尔盖茨”和“微软，“我们还可以得到比尔盖茨"和"美国年代”和“微软"和"美国这些关系可以向输入文本中添加关于实体对的额外信息。

３．２．双CNN模型

节3．1，我们引入了基于知识的注意模型，该模型可以获得知识库中输入实体对的附加信息。为了获得输入文本中的单词嵌入信息，我们使用另一个CNN来识别句子特征。我们采用Zeng等人设计的分段CNN (PCNN) [27，来预测这种关系。网络结构类似于上面描述的基于知识的注意力模型。找出句子中的词的重要性,我们计算句子中的每个单词之间的相关系数及其上下文向量和使用向量和这个词上下文向量作为卷积输入的单词与一个更大的系数关系句话说句子中得到越来越多的重视。

假设一个句子的长度为；这个词是向量的表示吗对应于单词在句子中。让的上下文向量；由多个词向量的加权和得到，公式如下: 在哪里为softmax函数得到的权值，公式如下: 在哪里分数函数用来计算两个单词之间的相关系数，用来衡量单词之间的相关性，定义如下公式: 在哪里和为训练参数。

考虑到句子中两个词之间的相关性随距离的增加而减弱，则采用距离衰减因子可引入公式(5)，可转换为如下公式: 在哪里和。当接近0时，两个词之间的相关性几乎不受距离因素的影响，当方法1，两个词之间的相关性取决于距离因素。

通过单词向量以及上下文向量，得到最终的字向量表示，并用于后续的卷积运算，如下式所示:

在图4，我们用"比尔·盖茨是微软的创始人以举例说明网络结构。这个词的分量创始人，句子中的其他词则表示为，然后是上下文向量的与其向量表示相结合，作为卷积层的输入。

我们将上述两个网络合并，构建双CNN关系提取模型;每个网络都有自己的输入层、卷积层和池化层。然后，各层合并成完全连接的层。双CNN架构如图所示5。

在传统的关系抽取任务中，不可避免地会引入错误标签，从而产生噪声关系抽取。本文在知识库中引入实体对作为关注机制。我们通过充分挖掘知识库中实体对与预测句子语义信息之间的相关性来降低噪声。为一组对于包含相同实体对的句子，句子的数量为；也就是说, 。计算输入句子之间的关联度和的关系，通过计算知识库中句子向量与实体对对应向量的内积，得到注意矩阵。权值矩阵计算公式如下: 在哪里为加权对角矩阵，对应的预测关系的实体对的向量表示吗在知识库中，和是通过列车过程中的随机初始化得到的。为了给关系向量相关度越高的句子赋予更大的权重，将对应实体对的句子表示为:

最后，关系标签句子的是由所有关系集预测的吗通过使用softmax分类器: 在哪里为偏差向量，表示当前句子向量，和表示实体对属于关系标签的概率在现在的句子中。

3．3．优化策略

我们采用交叉熵代价函数作为目标函数，其定义如下: 在哪里表示模型和中的所有参数表示句子集的数量，然后，亚当优化器用于参数更新。

为防止模型过拟合，在每次前向传播中，正则化约束采用dropout方法，随机丢弃部分隐含层节点特征;即权重更新不依赖于固定节点之间的交互。另外，本文采用L2正则化，并乘以一个因子迭代时小于1，以减少参数的值。正则化操作减少了数据偏移对结果的影响，增强了模型的抗干扰性，避免了过拟合。

4.实验

4．1.数据可用性

用于支持本研究结果的实验数据已保存在GITHUB存储库中https://github.com/mrlijun2017/Dual-CNN-RE。

为了评估双重CNN注意RE模型，我们使用了Riedel等开发的数据集[172010年)。数据集是由Freebase知识库和纽约时报(https://catalog.ldc.upenn.edu/LDC2008T19)文本集[34]，采用启发式对齐方法，该方法在正则检索中应用广泛。本文以语料库中2005-2006年的句子作为训练数据，测试数据与2007年对齐。数据集包含53个关系("NA表示实体对之间没有关系)，训练集中的实体数为281,270，测试集中的实体数为96678。

平均精度(P@N)及精确召回(P-R)曲线来评估我们方法的有效性。通过比较上面的算法的精度来评价算法N条款和覆盖范围P-R曲线。

为了验证我们的模型在句子关系分类中的表达能力，我们使用了三个开放数据集(http://cogcomp.cs.illinois.edu/Data/QA/QC/)、SST-1、SST-2和TREC进行实验。这三个数据集的相关信息如表所示1。


数据集	平均句子长度	数量的句子	测试集中的句子数

SST-1	18	11855	2210
SST-2	19	9613	1821
TREC	10	5952	500

4．2．实验结果与分析

4.2.1。准备距离衰减对模型的影响

距离衰减的引入是对单词间相关系数计算的扩展。它可以表达单词之间的距离因素对相关性的影响，更准确地描述两个单词之间的相关性。距离衰减因子的选择决定了单词之间的距离因子。关联的大小在一定程度上影响句子关系分类的效果。为获得每个数据集模型的合适值，公式()中指数距离衰减对句子相关性计算的影响程度6)是有限的;是使用错误率选择的吗作为评价指标。实验结果如图所示6。

(一)

(b)

(c)

在图6，我们可以看到的影响对于不同任务的数据集，模型的泛化能力不一致。对于SST-1、SST-2和TREC数据集，当分别为0.09、0.09、0.12，则该模型的泛化能力最好。对于平均句子长度较长的SST-1和SST-2数据集，引入适当的距离衰减，可以使模型训练得到更准确的词与词之间的相关系数，从而提高分类性能。对于平均长度较短的TREC数据集，句子中单词之间存在较强的相关性，距离衰减因子为0或较小值时，可以达到较好的分类效果。然而，由于引入的距离衰减是指数级的，随着，距离因素对单词间相关性的影响会迅速增加。每个词附近对应的词向量往往在上下文向量中获得更多的关注权重，导致模型的泛化能力逐渐下降。

4.2.2。注意对模型的影响

在本节中，我们首先介绍实验中的一些参数设置，参数设置参考Ji等人的经验[35］．我们选择词嵌入的维度其中[1和300]，位置嵌入的维数在{5,10,20}中。在我们的实验中，我们设置和，批量大小为50，学习率为，正则化超参数是。

为了验证基于知识的注意模型对正则的改进，我们比较了词嵌入模型和基于知识的注意机制模型的结果。表格1显示两个模型对前100、前200和前300提取的关系实例的准确性。在表2，可以看出，与单词嵌入模型相比，知识库注意机制模型提高了正则的准确性。


精度(%)	前100名	前200名	前300名	平均

字嵌入	0.74	0．72	0.64	0.70
以知识为基础的注意模型	0.83	０．７９	0．72	0.78

此外，还选择了其他五种已发表的方法进行比较。明茨由Mintz等人提出[15并使用所有实例来提取特征。Hoffmann等人[19]采用了多实例学习的方法，称为MultiR。Surdeanu等人[20.提出了多实例多标签调用的方法MIML。PCNN_ATT由Lin等人提出[12，将句子注意机制添加到模型中。带注意的门控循环单元(GRU_ATT)是Cai等人提出的一种新方法。36］．在性能方面，我们的方法比GRU_ATT方法产生了更好的结果。对比使用GRU获得的句子向量，我们认为CNN在提取局部特征方面优于GRU。

我们通过相关论文中的方法和数据集重新实现了这一部分的实验，并与我们的方法进行了比较。数字7显示了我们的方法和其他之前的方法的总精度/召回曲线。在图6，可以看出，我们的方法优于其他方法，召回率达到0.34，高于GRU_ATT的0.32。总体而言，该方法的精度曲线优于其他方法。

我们也比较的性能模型PCNN_ATT和GRU_ATT和我们的模型= SST-1 SST-2 TREC的数据集,这是一个句子关系分类、任务的目的是直接使用词向量和知识库中关系的关注会影响句子的分类关系。该任务的输入是词向量和句子的关系表示，输出是关系标号。实验结果如图所示8。

与其他两种模型相比，我们的模型将每个词向量单独卷积和池化，并在更高的层次上进行特征融合，避免了单词向量训练模型的特征限制，提取的特征更加丰富。同时，在模型中引入了词向量注意机制，使得从句子中提取关键信息更加容易。我们的模型结合了注意机制和双CNN的优点，进一步提高了句子关系分类的准确性。

5.结论

我们使用知识库的词嵌入和实体嵌入作为CNN的输入，提出了一种基于基于知识的注意机制的双CNN RE模型。实体嵌入可以提供更多的背景知识来预测关系，而词嵌入由于注意机制可以获得更多的句子特征。实验表明，本文提出的模型优于以往的方法，适用于实体RE任务。我们也将我们的模型用于句子分类任务，并且我们的模型也有更好的性能。在未来，我们将尝试使用多类模型来表示句子向量，改进注意机制，并将该模型应用于其他文本理解任务。如何从现有的神经网络模型中快速学习新的关系和实例也是一个值得探索的实际问题。

数据可用性

用于支持本研究结果的实验数据已保存在GITHUB存储库中https://github.com/mrlijun2017/Dual-CNN-RE。

的利益冲突

作者声明他们没有利益冲突。

致谢

基金资助:国家自然科学基金资助项目(no. 201430430429);桂林电子科技大学认知无线电与信息处理教育部重点实验室资助项目(no. 61662012);CRKL150105)。

参考文献

李振华，“一种基于上下文感知的关系提取方法”，《中国科学:信息科学》，2014年第1期。IEEE知识与数据工程汇刊第26卷第2期4, pp. 836-849, 2014。视图:出版商的网站|谷歌学者
D.-T。Vo和E. Bagheri，“特征丰富的矩阵分解用于关系提取”，信息处理与管理第56期3, pp. 424-444, 2019。视图:出版商的网站|谷歌学者
J. a . Balazs和J. D. Velásquez，《意见挖掘与信息融合:一项调查》，信息融合， vol. 27, pp. 95-110, 2016。视图:出版商的网站|谷歌学者
C. D. Maio, G. Fenza, M. Gaeta, V. Loia和F. Orciuoli， "紧急发展支助事务的知识基础框架"，以知识为基础的系统，第24卷，第2期8, pp. 1372-1379, 2011。视图:出版商的网站|谷歌学者
“基于word2vec、doc2vec和textrank的短文本关键词抽取”，李军，黄刚，范灿，孙哲，朱海涛，“基于word2vec、doc2vec和textrank的短文本关键词抽取”，土耳其电气工程与计算机科学杂志第27卷第2期3，第1794-1805页，2019。视图:出版商的网站|谷歌学者
R. Socher, B. Huval, C. D. Manning，和Y. Andrew，“递归矩阵-向量空间的语义组合”，在2012年自然语言处理与计算自然语言学习经验方法联合会议论文集，第1201-1211页，济州岛，韩国，2012年7月。视图:谷歌学者
刘凯，周国栋，“基于卷积深度神经网络的关系分类”，《计算机科学与技术》第25届国际计算语言学会议论文集，第2335-2344页，都柏林，爱尔兰，2014年8月。视图:谷歌学者
李鹏、毛凯，“面向知识的卷积神经网络用于自然语言文本的因果关系提取，”专家系统与应用，第115卷，第512-523页，2019。视图:出版商的网站|谷歌学者
郑松，郝元，陆道辉等，“基于混合神经网络的联合实体与关系提取”，Neurocomputing， vol. 257, pp. 59-66, 2017。视图:出版商的网站|谷歌学者
A. Vaswani, N. Shazeer, N. Parmar，和J. Uszkoreit，“注意力是你所需要的。第31届神经信息处理系统会议论文集，页5998-6008，美国加州长滩，2017年12月。视图:谷歌学者
Zhou p, Xu J.， Qi Z.， Bao H.， Chen Z.， and B. Xu .，“基于层次选择性注意的关系抽取的远程监督”，神经网络，第108卷，240-247页，2018。视图:出版商的网站|谷歌学者
Lin Y.， Shen S.， Liu Z.， luh .， and M. Sun，“Neural relation extraction with selective attention over instances”，in chinese, 2007会议语言学协会第54届年会论文集，页2124-2133，德国柏林，2016年8月。视图:谷歌学者
Zheng S.， Xu J.， Zhou P.，“neural network framework for relationship extraction: learning entity semantic and relationship pattern .”，2017，中国科技大学学报(自然科学版)以知识为基础的系统，第114卷，第12-23页，2016。视图:出版商的网站|谷歌学者
S. Poria, E. Cambria，和a . Gelbukh，“深度卷积神经网络的观点挖掘方面提取”，以知识为基础的系统，第108卷，第42-49页，2016。视图:出版商的网站|谷歌学者
M. Mintz, S. Bills, R. Snow，和D. Jurafsky，《没有标记数据的关系提取的远程监督》，刊于第47届ACL年度会议和第四届AFNLF自然语言处理国际联合会议论文集，页1003-1011，新加坡，2009年8月。视图:谷歌学者
陈磊，冯玉峰，罗斌，“基于编码的隐式关系需求提取:一种联合推理方法”，人工智能，第265卷，第45-66页，2018。视图:出版商的网站|谷歌学者
S. Riedel, L. Yao，和A. McCallum，“建模关系和他们没有标签文本的提及，”数据库中的机器学习和知识发现， vol. 6323, pp. 148-163, 2010。视图:出版商的网站|谷歌学者
S. Takamatsu, I. Sato，和H. Nakagawa，“减少关系提取的远程监督中的错误标签”，在计算语言学协会第50届年会论文集，页721-729，济州岛，韩国，2012年7月。视图:谷歌学者
张志强，张志强，张志强，“基于知识的重叠关系信息提取的弱监督”计算语言学协会第49届年会论文集，第541-550页，美国波特兰，2011年6月。视图:谷歌学者
M. Surdeanu, J. Tibshirani, R. Nallapati，和C. D. Manning，“用于关系抽取的多实例多标签学习”，在2012年自然语言处理与计算自然语言学习经验方法联合会议论文集，页455-465，济州岛，韩国，2012年7月。视图:谷歌学者
K. Taghva，《具有形式概念分析的姓名识别和提取》，国际机器学习与控制论杂志，第8卷，第2期1，页171-178,2017。视图:出版商的网站|谷歌学者
“基于选择性注意和对称方向实例的神经关系分类方法”，《中国科学(d辑)》，对称，第10卷，第5期。9, pp. 357-369, 2018。视图:出版商的网站|谷歌学者
陈强，向阳，“基于排序方法的关系抽取的远程监督”，熵第18卷第2期6、pp. 204-220, 2016。视图:出版商的网站|谷歌学者
徐凯，冯玉峰，黄树华，“基于简单负抽样的卷积神经网络语义关系分类”，《中国科学(d辑)》2015年自然语言处理经验方法会议论文集，第536-540页，葡萄牙里斯本，2015年9月。视图:谷歌学者
李磊，张军，金磊，郭锐，“基于分布式元学习的中文实体关系抽取系统”，Neurocomputing，第149卷，第1135-1142页，2015。视图:出版商的网站|谷歌学者
沈勇，“基于注意力的卷积神经网络的语义关系抽取”第26届国际计算语言学会议论文集，第2526-2536页，大阪，日本，2016年12月。视图:谷歌学者
刘凯，陈宇宇，“基于分段卷积神经网络的关系提取的远程监督”，《计算机科学与技术》2015年自然语言处理经验方法会议论文集，第1753-1762页，葡萄牙里斯本，2015年9月。视图:谷歌学者
D. Bollegala, Y. Matsuo, M. Ishizuka，“使用潜在关系映射的最小监督新关系提取”，IEEE知识与数据工程汇刊，第25卷，第2期2，页419-432,2013。视图:出版商的网站|谷歌学者
罗兴国，周伟，王伟，朱勇，邓杰，“基于双向门控循环单元和公路网的地质数据分析中的注意关系提取”，IEEE访问，第6卷，5705-5715页，2018。视图:出版商的网站|谷歌学者
M. Nickel, K. Murphy, V. Tresp，和E. Gabrilovich，“知识图的关系机器学习综述”，IEEE论文集，第104卷，第104号1，第11-33页，2016。视图:出版商的网站|谷歌学者
J. Finkel, T. Grenager，和C. Manning，“通过吉布斯抽样将非本地信息纳入信息提取系统”，刊于计算语言学协会第43届年会论文集，第363-370页，Ann Arbor, MI, USA, June 2005。视图:谷歌学者
T. Mikolov, I. Sutskever, K. Chen, G. Corrado, J. Dean，“单词和短语的分布式表征及其组合”，发表于神经信息处理系统研究进展，第1-9页，2013。视图:谷歌学者
J. Pennington, R. Socher，和C. D. Manning，《手套:词表示的全局向量》，收录于2014年自然语言处理经验方法学术会议论文集，第1532-1543页，卡塔尔多哈，2014年10月。视图:谷歌学者
e . Sandhaus纽约时报注释语料库，语言数据协会，费城，宾夕法尼亚州，美国，2008。
纪光，刘凯，何士生，赵建平，“基于句子级注意和实体描述的关系抽取的远程监督”，出版于第三十一届AAAI人工智能会议论文集，第3060-3066页，旧金山，加州，美国，2017年2月。视图:谷歌学者
蔡强，郝建军，曹军，李海华，“基于多级注意机制的关系抽取研究”，中文信息处理学报， vol. 32, pp. 96-101, 2018。视图:谷歌学者