文摘
关系的任务是提取提取实体之间的语义关系一个句子中去。它是一个重要的组成部分,一些自然语言处理任务,如信息提取,提取知识,人口问题回答,知识库。本研究的主要动机源于缺乏关系提取的数据集在波斯语言以及从日益增长的海量数据中提取知识的必要性在波斯语言为不同的应用程序。在本文中,我们提出“PERLEX”作为第一个波斯提取数据集的关系,这是一个expert-translated版本的“semeval - 2010 -任务- 8”数据集。此外,本文地址波斯关系提取利用最先进的语言无关算法。我们雇佣关系提取的六种不同的模型提出了双语数据集,包括非神经模型传播有关(基线),三个神经模型和两个深度学习模型由多语种伯特语境词表示。实验结果的最大F1-score 77.66%(由BERTEM-MTB方法)的国家关系提取在波斯的艺术语言。
1。介绍
关系提取(重新)的任务是识别语义文本实体和关系是最重要的任务之一在自然语言处理(NLP)。在再保险,实体是字符串中标记的句子。此外,再保险的目标是检测有限数量的预定义的文本的关系。例如,假设在一个信息提取系统,目的是提取公司位于德黑兰从文本。再保险的任务需要使用“位于”谓词执行和“伊朗”的对象的关系,使这些信息来提取。稀土的应用的另一个例子是在问答中的应用。例如,回答一个问题的原因事件可以被认为是一个再保险的任务是“因果”和对象的关系是“事件”。
知识库人口是再保险的应用程序之一。一个知识库包含一组实体和它们之间的关系。英语有许多可用的知识库,如Yago [1],Freebase [2],DBpedia [3],Wikidata [4]。然而,第一个波斯语言知识库是最近开发(5),这是本研究的动机之一。
首先,第一个数据集介绍了波斯再保险。然后,五个语言无关的方法的任务,和方法的结果与基线相比。
尽管已经有标准数据集用英语,比如semeval - 2010 -任务- 8(多路分类语义关系对共通性)(6],TACRED [7],王牌20058),没有数据集用于波斯语言。因此,在本文中,我们提出“PERLEX”,这是一个expert-translated版本的semeval - 2010 -任务- 8数据集。
评价和比较选择的方法是使用PERLEX1数据集。这是合理调整现有最先进的语言无关的方法与我们的目标语言,即。波斯,重新实现。我们用5神经再保险模型,包括基于卷积神经网络模型,两个模型基于递归神经网络,和两个BERT-based模型。
在引入伯特(之前9),BLSTM-LET (10模型是最好的模型提出了任务。应用双向LSTM网络Entity-Aware关注使用潜在的实体类型(BLSTM-LET)方法的任务被认为是其中一个最先进的语言无关的方法。BLSTM-LET优于以前的最先进的方法不使用定制的语言特征,虽然它仅仅依赖词嵌入(11)功能。
随着伯特,NLP已经进化的许多任务。伯特(9)是一个上下文的文本表示模型,实现先进的结果显示在11个不同的NLP的任务。与之前的词表示,每个单词有一个固定的嵌入,词语在不同的上下文中有不同的嵌入与伯特。目前,BERTEM-MTB [12]模型表明,semeval - 2010任务- 8和TACRED数据集,它是艺术的状态的任务。
本文的其余部分组织如下。部分2提供了一个总结相关文献的任务。节3我们精心设计的数据集,提出PERLEX。部分4介绍了实验结果以及结果的进一步分析。最后,在节5,我们总结本文并提出未来可能的研究的延伸。
2。背景
在下一节中,我们首先提供一个简短的回顾一下著名的数据集。然后,我们把最先进的再保险算法分成两个不同的类别:deep-learning-based方法和non-deep-learning-based方法。这些模型PERLEX数据集上的性能报告部分4。
2.1。数据集
再保险数据集可以分为两类:冷淡地监督数据集,数据集上手写。
在数据集上手写,每个关系提到的标签是由人类专家。因此,创建这样的数据集是耗时和昂贵的。数据集像王牌8],semeval - 2010任务- 8 [6],TACRED [7],FewRel [13)属于类别上手写。
当一个知识库是可用的,遥远的监督是一种合理的方法生成标签的数据集。如果问题的知识库是一个特定的领域知识库,可以产生特定领域数据集。同时,如果一个通用领域知识库,可以生成通用领域数据集(14]。然而,标签的关系提到冷淡地监督数据集确定的对应关系提到对知识库。最广泛使用的冷淡地监督数据集在明茨等人提出的方法。15]。此外,NYT-10 [16),是应用最广泛的冷淡地监督相吻合的数据集实体在《纽约时报》语料库在Freebase实体。
冷淡地监督数据集有一些优势上手写的。例如,人类专家不需要注释冷淡地监督数据集的耗时的过程。此外,冷淡地监督数据集可以使用标签已经在知识库中使用,这使得这些数据集的理想knowledge-base-related知识库人口等任务。这些数据集的主要缺点是他们嘈杂的标签。有许多方法提出应对嘈杂的标签的问题,例如多实例学习(16- - - - - -18),强化学习(19- - - - - -21),使用知识库信息(22,23),和注意力机制(24,25]。在波斯语言,FarsBase [5]特别是使用一个冷淡地监督方法提取知识库的三元组。
2.2。Non-Deep-Learning-Based方法
出现之前的深度学习模型,NLP任务依赖于特定的NLP工具如依赖解析器和POS涂画者进行特征提取。这些模型不能与深度学习模型由于昂贵的手工制作的功能和资源的性质。然而,这些功能一般由NLP提取工具,虽然有些错误可能是由自己造成的。这些方法使用分类器,如支持向量机和最大熵(MaxEnt)。再保险的最先进的方法是通过溜冰场和Harabagiu26]semeval - 2010任务- 8数据集在2010年使用一个支持向量机与几个手工制作的功能和资源包括词汇资源,依赖,PropBank, FrameNet,上义词,NumLex-Plus, NGrams, TextRunner [27]。他们的模型是最好的non-deep-learning-based模型。但是,后来,它被deep-learning-based表现模型如CNN和RNN方法。
LightRel [28)是另一个non-deep-learning-based方法,这是一个快速、轻量级的逻辑回归分类器。在这种方法中,提到的关系表现为一系列的令牌。该方法的主要思想包括将这些序列转换成固定长度的向量,这样每个令牌(或文字)表示只有四个特性,包括这个词本身,它的形状(一个固定数量的基于字符的功能),这个词的集群id从外部知识库中提取,和词的固定大小的嵌入。这时,一个逻辑回归训练分类模型来预测类使用特征向量。
2.3。Deep-Learning-Based方法
本节礼物和描述的一些基本特征用于再保险deep-learning-based模型。这些模型是最先进的,但不久之后,被下一个模型表现。
卷积神经网络(cnn)最初用于计算机视觉从图像中提取特征,但是他们最近被应用于各种NLP任务。曾庆红et al。(29日cnn)用于从句子和提取特征分类的关系。
以双向长期短期记忆网络(Att-BLSTM)周是一个再保险模型提出的et al。30.],它能够超越许多先进的模型不依赖NLP为特征提取工具或词汇资源。注意层的功能,顾名思义,表示更高的权重与更高的重要性,导致区分别人的更重要的单词。例如,“”这个词不太有用的比一个词如“引起”确定因果关系一个句子中去。
双向LSTM Entity-Aware注意使用潜在的实体类型(BLSTM-LET)李等人提出。10)利用self-attention引入Vaswani et al。31日)和潜在的实体类型产生更好的代表词。此外,一个双向LSTM用于分类。
最近BERT-based模型应用领域的再保险和能够获得最好的结果到目前为止和比以前的方法。
与上下文无关的模型,如word2vec相比,双向编码器陈述变压器(BERT) [9)是一种无监督上下文相关的语言表征模型。
丰富Pretrained语言模型与实体信息(R-BERT)是一个最近提议的模型由吴和他(32伯特],它用于再保险的任务,是最好的方法semeval - 2010 -任务- 8数据集。编码两个实体之间的关系的一个句子使用伯特,R-BERT添加特殊符号“$”之前和之后的第一个实体和另一个特殊符号“#”之前和之后的第二个实体在一个给定的句子。R-BERT还增加了另一个特殊令牌”(CLS)“每个句子的开头。每个关系计算的最终表示连接三个隐藏的状态向量,包括隐藏的状态向量对应的平均值(CLS)令牌和隐藏的状态向量对应于第一和第二实体标记。
BERTEM匹配的空白(BERTEM-MTB)是最近和当前最先进的方法,这是一个BERT-based模型和R-BERT很类似。该方法提出了苏亚雷斯et al。12]。类似于R-BERT, BERTEM-MTB方法添加特殊令牌之前和之后的实体。与R-BERT不同,令牌之前和之后的每个实体在BERTEM-MTB方法不同。关系表示在这个模型是连接隐状态的特殊令牌在每个实体。然后使用这些关系表示每个句子的关系进行分类。这个方法还增加了另一个训练步骤在微调的架构关系表示伯特通过取代实体”[空白]“特殊令牌在句子的实体对是相似的。
我们总结一下在这一节中描述的所有模型在表1。
3所示。建设PERLEX双语数据集
波斯语言与英语和其他语言丰富的资源,没有适当的资产可供再保险。在英语语言中,任务semeval - 2010 - 8的挑战是其中一个最著名的再保险数据集,利用在很多研究中得到验证。这个数据集包含10717例句及其对应关系类型,从培训8000人,2717人进行测试。在这种挑战,每个关系提取算法要求确定的九个预定义的关系在这个数据集的实体中指定的每个句子。九个预定义的关系是“因果”、“Component-Whole”,“内容”,“Entity-Destination”,“Entity-Origin”,“Instrument-Agency”,“Member-Collection”,“消息主题”,“产品生产商,”和“其他”的关系,以防没有证实这两个实体之间的关系。语料库中每个关系的频率见表2。注意,每个关系的部分恰恰是一样的semeval - 2010显示的数据集。原来每个句子(英语)语料库,e1总是出现在e2,而他们之间的关系有一个方向,可以从e1, e2,反之亦然。例如,因果(e1, e2)或因果(e1, e2)可能在语料库中看到。每个句子在PERLEX波斯语翻译原句。由于性质不同的语法比英语,波斯e1和e2序列可能不会保持在PERLEX在某些情况下。换句话说,与原来的语料库,e1之前总是e2,在某些情况下,PERLEX包含e2出现在e1的句子。最后一列的表显示的数量这样的句子。或者,我们可以重命名e2 e1和e1, e2在这些句子和扭转方向的关系。然而,成本不匹配关系PERLEX及其对应的句子在原始的语料库。
PERLEX并行翻译的例子semeval - 2010 -任务- 8数据集。使用这种方法,句子选择取消的成本。另一方面,这个数据集是由一个原始的和广泛使用的数据集。因此,它是可能的隐式实现再保险方法的比较结果与英语数据集的数据集。表3说明了统计相关PERLEX和原始的语料库。与翻译相关的原因,一些统计两个语料库之间的不同。句子在PERLEX超过8语料库semeval - 2010任务。此外,虽然在某些情况下,波斯短语的翻译文字比原来的英语短语,单词的总数的实体PERLEX不仅仅是单词的总数的原始语料的实体。
4所示。实验和分析提取的关系
本节实验设置和分类结果报告的六种不同的模型:基线,CNN, Att-BLSTM, BLSTM-LET R-BERT, BERTEM-MTB。
4.1。实验装置
在PERLEX,我们改编的9个数据集类似semeval数据集- 2010 -任务- 8节中提到的2。每个类有两个指定位置变化的主体和客体的句子。例如,因果类拥有两个变体:因果(e1, e2)和因果(e1, e2)。
一般来说,有三种方法来评价分类结果:(1)考虑到这两种变体的每个类(总共18类)。(2)只使用每个类的一个变异(并考虑方向性)。(3)只使用每个类的一个变异(忽略方向)。
此外,有两个方法来衡量F1-score,即micro-averaging和macro-averaging。此外,对实体没有落入任何主要的九类标记为“其他”的数据集,不参与评估。我们采用的官方评价方法semeval - 2010 -任务- 8数据集,这是(9 + 1)方法分类与macro-averaging F1-score测量而方向考虑。这(9 + 1)方法意味着我们使用九个主要类+“其他”在训练和测试,但“其他”忽略计算F1-scores。在所有non-BERT-based实验中,我们使用300 -维字嵌入pretrained Poostchi et al。(33),利用训练集作为开发设置的10%。
4.2。整体结果
图1说明了官方F1-scores每个模型。正如我们所料,结果较低的波斯语言与英语相比。这个缺点是由于处理的许多挑战波斯语言作为free-word-order和更模棱两可的语言。波斯语言有一些特定的功能,它可以生成一些挑战。这些规格如下(34]:(我)异常的词序(2)异常紧张和之间的协议方面的动词(3)被verb-final或主要head-initial(iv)作为一个派生和生成语言(v)不成文的短元音在大多数情况下(vi)缺乏明确的文章为名词(七)没有女性/男性代词的区别(八)语义对称和省略短语(第九)没有规则出现不可数名词的单数形式
此外,还有许多挑战波斯语言理解(35]。类似于英语,BERTEM-MTB的性能克服了所有其他的五个方法在波斯语言。此外,BERTEM优越的方法在所有九类波斯语言。注意字嵌入和伯特模型用于文本语料波斯语言实验是pretrained小于pretraining英语使用的语料。
4.2.1。准备基线
我们使用功能训练逻辑回归分类器(领头和L2R_LR的基线解算器波斯语言,如词汇id(每个单词的惟一id数据集),词性(POS),标签对于每一对实体,两个实体之间,两个实体之间的POS标记的单词,依赖连续两个实体之间的关系和他们的方向,两个实体之间的POS字标签,袋子里的单词。
根据结果,逻辑回归的官方F1-score PERLEX数据集是57.42%。应该注意,我们报告逻辑回归LightRel基线的方法(28英语的结果。
4.2.2。美国有线电视新闻网
CNN模型,我们使用四个不同的内核长度:2,3,4,5。然后,我们将这些内核的输出。我们设置内核的数量为每个长度为128。我们也使用辍学36)和L2正规化,防止过度拟合。在这个实验中使用的所有hyperparameters被发表在表4。根据结果,CNN的官方F1-score PERLEX数据集是69.28%。
4.2.3。Att-BLSTM
我们使用一层的双向LSTM和隐藏状态的大小设置为100。为了防止过度拟合,我们用L2正规化,经常性的辍学,和定期的辍学生。在这个实验中使用的所有hyperparameters被发表在表5。根据结果,官方F1-score Att-BLSTM PERLEX数据集是69.61%。
4.2.4。BLSTM-LET
我们使用四注意头多头注意层和设置层大小50头。隐藏状态的LSTM设置为300。像前面的模型、经常性和定期辍学L2正规化,。在这个实验中使用的所有hyperparameters被发表在表6。根据结果,官方F1-score BLSTM与实体类型(BLSTM-LET) PERLEX数据是70.79%。
4.2.5。R-BERT
我们调整的基本伯特pretrained模型方法。其他hyperparameters表中可以看到7。根据结果,官方F1-score BLSTM与实体类型(BLSTM-LET) PERLEX数据是75.31%。
4.2.6。BERTEM-MTB
我们调整的基本伯特pretrained模型方法。其他hyperparameters表中可以看到7。根据结果,官方F1-score BLSTM与实体类型(BLSTM-LET) PERLEX数据是77.66%。
4.3。结果每个类
最终结果为个体类表中可以看到8。可以看到,F1 BERTEM-MTB模型的测量高于其他模型的所有类。在几乎所有课程,F1的价值已从最低的基线R-BERT最高。然而,模型的行为不一样的Instrument-Agency类,这意味着除了BERTEM-MTB基线模型比所有模型。这是由于基线模型使用依赖连续两个实体之间的关系和他们的方向为了这个目的,而其他的模型不使用这些信息。句子包含Instrument-Agency关系类非常类似的依赖关系树。因此,基准模型,它使用依赖树信息,学会了如何检测这种关系通过观察一个类似的模式。请注意,一些研究针对特定领域文本(37,38]。尽管SemEval包含通用域文本,杰克逊et al。39)评估BioBERT语料库。然而,这些模型是受过专门训练的生物医学和科学文本在英语和不能直接使用波斯文本。此外,我们所知,没有类似的模型可以在波斯语言。
5。结论
本文提取的关系(重新)任务在波斯语言是第一次进行。为此,我们最初提出的双语版本semeval - 2010 -任务- 8数据集,称为PERLEX。然后,调查了最先进的语言无关的方法英语中,我们适应和波斯语言定制其中的一些方法。此外,逻辑回归算法采用句法和语义特征作为一个基准。虽然我们最好的开源工具用于POS和依赖解析在波斯语言在基线的方法中,在未来,我们将为这些任务开发一些新的工具基于最先进的方法,从而为其他语言。获得的实验结果double-proved BERT-based模型的优越性在基线和其他深度学习模型和证明可比性用英语类似的最先进的方法。然而,由于在波斯语言的处理特别的挑战,如free-word-order有ambiguity-prone自然与英语相比,波斯的定制方法的性能低于他们的表现在英语。
作为本研究的未来的工作,更准确的波斯字嵌入可以提出并应用于改善non-BERT-based模型的结果。此外,通过设计训练步骤根据波斯语言特性,小说BERT-based再保险模型可以提出了波斯语言。
数据可用性
PERLEX数据集用于支持这项研究的结果已经存入以下库:http://farsbase.net/PERLEX.html。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
我们承认·赛义德·阿里·Hossayni博士和先生的积极协作Kamyar Darvishi,请与我们在这学习。