文摘

最近,许多深度学习模型存档高导致问答任务与总体F<年代ub>1分数高于0.88数据集。然而,许多这些模型都很低<年代ub>1分数所述。这些F<年代ub>1分数范围从0.57到0.7阵容v1.1发展集。这意味着这些模型更适合提取比所述似是而非的问题的答案。所述被要求解释时是必要的。这些解释可能是参数或者只是主观的意见。因此,我们提出一个方法来找到问题的答案用话语分析和自然语言推理。在我们的方法中,自然语言推理应用于确定隐式参数在句子层面。它也应用于句子相似度的计算。语篇分析应用于确定明确的论点和意见在句子层面上的文档。这两种方法的结果答案候选人被选为每个问题的最终答案。我们还实现一个系统的方法。为什么我们的系统能提供一个答案,一个文档作为阅读理解测试。 We test our system with a Vietnamese translated test set which contains all why-questions of SQuAD v1.1 development set. The test results show that our system cannot beat a deep learning model in F<年代ub>1分数;然而,我们的系统可以回答更多的问题(回答率为77.0%)比深度学习模型(回答率为61.0%)。

1。介绍

回答问题是信息检索的一个分支。许多早期的问答系统使用命名实体提取模型提取回答候选人从检索到的文档;然后,他们选择最好的五个候选人对每个问题的回答。这些系统的设计,解决了似是而非的问题;因此,他们的回答通常是名义上的短语的地方,时间,人的名字等等。这些系统没有回答为什么因为所述的答案并不总是名义短语。回答所是一个大问题不仅许多早期的系统,而且最近深度学习模型。结果显示微软亚洲研究院R-NET +(整体)模型(1),阿里巴巴iDST NLP SLQA +(整体)2),新加坡管理大学的Match-LSTM(边界+合奏)(3),和谷歌的人工智能语言的伯特(整体)4队发展)模式设置v1.1发表在球队网站(https://rajpurkar.github.io/SQuAD-explorer/),我们计算了为什么F<年代ub>1分数的这些模型如表所示1。我们可以看到,F<年代ub>1分数低于所述的所有问题的23%在所有模型。我们利用球队v1.1数据集,发现样品的数量和为什么在训练集只有大约2700。这意味着这些模型大多是受过训练的回答似是而非的问题。

为什么回答是一个有趣的问题。像什么问题或定义问题,回答所需要的不同的方法应用在信息检索结果信息提取的方法。所述的答案通常发生在形式的解释。解释可能的参数或观点。重要的一个论点和意见的区别是,一个论点是真或假,意见是一个表达式是什么人认为(5]。除此之外,很多参数都可能面对相同的修辞结构(6)的意见。例如,“<我>书的价格正在上升,因为我们需要支付50美元的时候上周40美元”是一个论点,因为我们可以判断它是真或假,而“<我>我喜欢这本书因为它的封面是好的“只是一个意见,我们不能判断它。根据我们的调查,研究为什么回答提出了表2

Verberne为什么回答方法是早期研究修辞结构的方法(7- - - - - -12]。根据这种方法,为什么是检索的有关文件;然后,所有文本跨越相关问题选择答案的候选人。这些候选人将有额外的分数,如果他们提出了一个六修辞结构命名为背景,环境,目的,结果,原因,和动机(13]。在初步研究为什么回答[11,12),Verberne表明修辞结构文档回答选择中起着重要的作用。然而,完整的修辞解析的文档是不容易获得;因此,一系列线索词被使用(9,10修辞功能。该方法的输出是一个列表的文章,因为它是发现问题的答案可能是一个通道。Verberne MRR@150分数的方法0.34测试集包括187所。

研究的问题回答为日本,Higashinaka和矶的方法也是一种修辞结构的方法(14]。在这种方法中,Higashinaka和矶使用分类器识别哪些句子或段落有因果关系问题。然后,最高的是选为最终的答案。使用因果分类器因为有很多因果结构,不使用任何线索词。换句话说,可能错过许多因果提示基于特征结构。因此,作者收集了一个因果关系的数据集(15]训练SVM分类器不依靠线索词。这种方法的MRR@20得分0.339日本为什么测试集。这个结果不能与Verberne相比的结果,因为它们不是相同的评估与测试集。

因果关系的分类也哦等人的方法为什么回答[16- - - - - -19]。在早期的工作哦et al。18),作者解决问题的因果关系识别作为一个序列标签问题。他们使用5个标签,即c,我,抵扣,i, O,注释因果的开始部分,因果部分,影响部分的开始,影响部分,分别在文本跨度和外部。因果关系识别,作者训练CRF(条件随机场)分类器,用它来预测的因果效应部分因果关系。提取的因果部分答案候选人,他们选择选择最终的答案。这个方法可以找到答案的精密P@1分数41.8%开发名为WhySet数据集。这个结果还不能比较Higashinaka和Verberne的结果,因为他们使用不同的测试集和评估措施。在研究改善为什么回答,哦,等人也使用这种因果关系识别器来构建一个大训练集问答改善的性能分类器(17]。这个问题回答分类器是用于reranking答案的候选人。在[17),系统使用这个reranking方法精度P@1分数的50%,高于此前WhySet数据集。在[19),作者还使用因果关系识别器中提取因果关系的碎片从40亿个网页。这些片段是参考评估候选答案的相关性问题。作者使用多列CNN(卷积神经网络)模型称为CA-MCNN [19)的输入是一个包含为什么four-tuple,答案的候选人,答案的因果关系碎片候选人,因果关系的引用片段答案是最合适的候选人。该方法精度P@1 WhySet数据集分数的54%。的最新工作哦等人提出了一个GAN-like神经网络架构,这是灵感来自生殖敌对的网(GAN) [20.),回答分数计算。这个网络接收通道和为什么作为输入。然后,它生成紧凑的回答表示,问题的表征和通道。之后,计算答案的段落使用紧凑的表示答案,为什么,通道(16]。哦等人使用这个GAN-like why-QA系统神经网络具有F<年代ub>1分数54.8% WhySet数据集。这个框架应用到英语问答时,F<年代ub>1分数从49.9%到65.3%,新兴市场(精确匹配)分数从42.9%到59.7%在许多英语数据集包括TriviaQA [21]。这些数据集包含许多问题类型包括所述。

上述作品展示,为什么回答需要一种不同的方法的回答似是而非的问题。合理的方法是选择答案的段落的答案从修辞结构解析。然而,一个段落或文档的解析完整的修辞结构仍然是一个大问题;因此,这些方法专注于识别因果关系关系答案的段落和使用该识别结果作为reranking回答通道的特性。因此,我们提出我们为什么回答方法强调五种修辞关系类型,也就是说,原因,结果,目的,环境,和动机13),文档中存在的参数选择的答案为什么在越南。认识到这五个类型的话语关系,我们分析回答文章的修辞结构intersentence水平五个修辞关系通过使用话语标记和连接词。识别参数现有的文档不承认使用话语标记,我们使用NLI基础模型来检查是否一个暗含的关系的两个文本跨越。NLI基础模型匹配的问题,我们也使用一个文本的简单规则匹配的问题,如果这意味着这个问题。我们的工作有三个主要贡献问题回答系统。首先,我们定义的答案为什么使用显式列出的原因关系概念的情况下,我们可以找到问题的答案。其次,我们提出一个discourse-argument混合方法为什么回答问题找到答案为什么是我们的答案的定义。在这个方法中,我们分析文本的话语结构和修辞结构理论(RST) [6)识别部分的五种修辞关系类型的原因,我们也确定原因部分通过构造简单参数中所述的内容的结论。第三,我们提出一个越南为什么回答模型与我们用最合适的方法和实现技术。在这个模型中,我们提出一个问题使用NLI模型匹配方法。

本文将介绍我们的工作对构建一个越南discourse-argument越南为什么回答的混合动力系统。我们的系统是第一个系统整合文本论证和话语分析识别的参数和解释文本回答选择。构建我们的系统,我们首先提出原因关系的定义和问题的回答阅读理解上下文的定义为基础的回答选择。然后,我们应用最先进的模型在连续的标签和自然语言推理解决问题在intersentential参数生成和话语分析的水平。最后,我们提出我们的系统架构回答阅读理解越南所述上下文。我们的贡献是首先介绍为什么回答问题论证和话语的角度来看,这两个主要问题提出解决方案在此方法中,并最终提出argumentation-discourse混合系统对越南为什么回答阅读理解上下文。我们的论文提出了六个部分。部分1介绍我们的方法在问题回答和展示了我们的方法和现有方法之间的差异。部分2提出了一种背景与RST话语分析,NLI的,参数生成问题。部分3描述我们的问题,解决这个问题的方法,我们提出了为什么回答方法。部分4介绍我们的系统模型实现为什么回答的方法。部分5描述了数据集的设置我们的系统评价。然后,一些结论和未来的发展方向所示部分6

2。背景

2.1。RST-Style解析

修辞结构理论(RST) [13]视图文件集的修辞文本单位称为基本话语单位之间的关系(edu) [22]。这些edu独立子句。他们是不重叠的文本范围,不可能在文档分成更小的单位。edu可以结合在一定关系使更大的话语单位,参数,或意见23]。因此,RST-style解析理解文本文档级别非常重要。我们可以确定论证的前提和结论的原因和索赔的意见容易如果我们有一个高效的RST-style解析器。Delmonte为什么回答的例子RST结构如图1:“<我>枫糖浆来自糖枫树。一次,枫糖浆是用来制造糖。这就是为什么树叫做“糖”的枫树。“这文本片段解释提供了一个参数名称”<我>糖枫”。我们可以很容易的认出这个论点和识别的前提和结论探索其RST结构。这意味着我们可以找到答案为什么RST结构。

RST-style解析旨在识别文档的话语结构根据修辞结构理论(13]。有两种方法在RST-style解析。基于规则的解析器(22,24- - - - - -26)依赖于话语标记、连接词和动词词汇语义定义在一个网络或一个本体来识别话语解析树。报道最高的基于规则的解析器的表演都很低<年代ub>1分数在EDU分割和文档解析的水平,分别为70.35%和35.44% (26]。Machine-learning-based解析器(27- - - - - -32EDU)采用顺序标记和多级分类方法分类和识别话语关系。machine-learning-based解析器的性能高于基于规则的。最高的F<年代ub>1许多这些机器学习解析器(93.8%32在EDU分割和59.9%在文档级别解析27]。虽然机器学习解析器有更好的性能,他们必须被训练在大RST-style话语树图资料库是罕见和昂贵的特别是在资源缺乏的语言。

2.2。通过类比论证

论证旨在研究论证模式生成有效的参数或考虑参数的有效性。人们使用参数在所有活动中类比参数是非常受欢迎的33]。在类比论证研究,沃尔顿et al。5]介绍了许多论证方案,一个人可以有效的参数;然而,这些参数方案很难实现在计算机程序,因为每个参数方案独立指导只是被人类所理解。Juthe [34)提出了一种论证方案可能是用于使有效参数。图2中引用(34),说明Juthe的论点。

Juthe的论证方案,Assigned-Predicate∗(目标)是一种论点的有效性应考虑和Assigned-Predicate(模拟)是一个有效的论点。如果Assigned-Predicate的每一个元素都有对应的元素的Assigned-Predicate∗, Assigned-Predicate和Assigned-Predicate∗有相同的确定关系,然后Assigned-Predicate∗是一个有效的论点。在这个方案中,一个元素及其相应的必须是类似的(34]。这意味着他们必须具有相同的重要角色属性或参数。许多关系,确定关系是一种偶然性,因果,truthmaking相关性、推论等。34]。Juthe的论点计划有一个重要的优势;也就是说,如果我们可以计算两个文本跨越的相似性,我们可以应用这个论证方案论证有效性计算。

2.3。伯特架构

双向编码器表示从变压器(BERT) [4)是一种多层神经网络结构,在这种结构中,每一层都是一个编码器(35]。图3说明了伯特的架构。伯特架构是用来训练神经语言模型有两个任务:蒙面下句子语言建模和预测。这些模型,称为伯特pretrained模型,产生一个输出向量<我>V<年代ub>令牌对每个输入令牌和一个输出向量<我>V<年代ub>CLS整个输入文本。从字嵌入这些向量计算,位置嵌入,段嵌入在每个编码器输入令牌一次层。字嵌入的代表词汇语义分布语义。位置嵌入和段嵌入代表令牌上的立场的影响其他标记的输出向量,所以他们可能认为是语法功能。因此,伯特pretrained模型可以计算每个令牌的输出向量与语义和语法功能。许多研究[36- - - - - -38]表明,伯特架构计算上下文向量的每个输入令牌与句法和语义方面。伯特pretrained模型被用在很多自然语言处理(NLP)下游任务通过微调具体训练数据。调整模型显示他们的先进的结果在许多NLP任务(4]。

在伯特模型,输入长度<我>米编码器的层<我>l,输出向量的维数<我>H,注意正面的数量<我>一个对下游任务产生重大影响。这些参数将选择由于计算能力的训练,微调和推理。Devlin伯特模型(4)有两个设置。伯特<年代ub>基地输入令牌的数量吗<我>米=512,编码器层<我>l=12,输出向量的维数<我>H=768,注意正面的数量<我>一个=12。伯特<年代ub>大输入令牌的数量吗<我>米=512,编码器层<我>l=24日输出向量的维数<我>H=1024,注意正面的数量<我>一个=16。PhoBERT模型(39),越南pretrained伯特模型,也有两个设置伯特模型;然而,PhoBERT模型只有输入令牌的数量<我>米=256,这意味着我们可以分析短输入文本。这两个设置的表演PhoBERT略有不同(39];因此,我们应该选择PhoBERT<年代ub>基地在越南微调下游NLP的任务。

伯特pretrained模型是用来为每个输入令牌生成特征向量;因此,我们需要一个分类器的伯特架构为每个特定的任务。每个令牌的输出<我>V<年代ub>词或整个输入<我>V<年代ub>CLS将分类器的输入。在微调步骤中,该分类器将训练会同伯特模型微调时代的数量从2到4,以避免过度拟合4]。因此,构建一个NLP模型通过微调伯特pretrained模型是一种有效的方法。

3所示。我们的方法

我们的方法是定义一个给定的答案为什么文本内容的特色。然后,我们提出的方法寻找答案的文本内容和模型回答为什么在阅读理解问题提供必要的技术实现一个越南问题回答系统。

3.1。为什么回答一个文档

上述问题回答的方法(8,14,16- - - - - -19]研究了信息检索的一个任务。他们发现答案在两个阶段:通过检索和答案排名。这些方法关注答案排名确定候选答案的段落和计算这些候选人的相关性。最近,许多深模型已经在球队数据集,提出了回答问题,这些模型来确定给定问题只有一个答案和上下文。这些模型的结果显示在球队网站(https://rajpurkar.github.io/SQuAD-explorer/)。这意味着候选人中提取具有关键作用问题的答案回答,我们关注答案提取,而不是通过检索。因此,我们的问题是找到答案<我>一个对于一个给定的问题<我>问和上下文<我>D

所述提出,当人们需要的原因。原因可能是发现参数或解释。有一个重要的论证和解释之间的区别。根据约翰逊和布莱尔(40),一个观点是主张和支持这种说法的原因,一个解释是提供信息来源,原因,意义,或一个事件或现象的重要性。当在自然语言,论证和解释可能使用类似的句子结构。例如,“<我>这个产品的价格正在上升,因为它的原材料成本上升“一个论点,”<我>她买了很多衣服,因为它是她的偏好”是一个解释。这两个句子连接复合句相关的“<我>因为”。这种特性已经在一些研究利用为什么回答。然而,如果我们建立一个文本分类器的训练它在自动建立数据集识别文本是否跨越是一个问题的答案,这个分类器可能不会有效,因为自动建立数据集可能包含解释和参数,这两种类型是不同的。

在我们的方法中,我们将分析话语识别的文档结构参数和解释,我们计算的蕴涵关系的一对文本跨越识别参数包含一个前提和一个结论。解释可能从话语关系的五种类型命名的原因,因此,目的,动机,和环境8,41]。我们以同样的方式使用这两个参数和解释为什么当找到答案,因为它们都是用来提供一个事件或现象的原因。我们将会找到答案通过处理这些参数和解释。

3.2。定义

我们定义的答案<我>一个为什么的<我>问="<我>为什么C ?“鉴于上下文<我>D正式回答识别。我们定义的回答为什么使用关系概念,定义如下的原因。

定义1。(原因关系的两个文本跨越)。
鉴于文本跨越sp<年代ub>1和sp<年代ub>2在自然语言中,两个文本跨越sp关系的原因<年代ub>1和sp<年代ub>2,表示为sp<年代ub>1> sp<年代ub>2是一个二元关系定义如下:<年代pan class="equation_break" id="EEq1">
在这里,<年代pan class="list">(我) 意味着<年代vg height="9.77657pt" id="M3" style="vertical-align:-3.65256pt" version="1.1" viewbox="-0.0498162 -6.12401 16.6072 9.77657" width="16.6072pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"> 是前提,<年代vg height="9.77657pt" id="M4" style="vertical-align:-3.65256pt" version="1.1" viewbox="-0.0498162 -6.12401 16.6072 9.77657" width="16.6072pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"> 是一个类比论点的结论(2) 意味着<年代vg height="9.77657pt" id="M6" style="vertical-align:-3.65256pt" version="1.1" viewbox="-0.0498162 -6.12401 16.6072 9.77657" width="16.6072pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"> 是卫星和<年代vg height="9.77657pt" id="M7" style="vertical-align:-3.65256pt" version="1.1" viewbox="-0.0498162 -6.12401 16.6072 9.77657" width="16.6072pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"> 的核事业关系(意志导致或Nonvolitional导致)[22](3) 意味着<年代vg height="9.77657pt" id="M9" style="vertical-align:-3.65256pt" version="1.1" viewbox="-0.0498162 -6.12401 16.6072 9.77657" width="16.6072pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"> 是卫星和<年代vg height="9.77657pt" id="M10" style="vertical-align:-3.65256pt" version="1.1" viewbox="-0.0498162 -6.12401 16.6072 9.77657" width="16.6072pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"> 核的结果关系(意志的结果或Nonvolitional结果)22](iv) 意味着<年代vg height="9.77657pt" id="M12" style="vertical-align:-3.65256pt" version="1.1" viewbox="-0.0498162 -6.12401 16.6072 9.77657" width="16.6072pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"> 是卫星和<年代vg height="9.77657pt" id="M13" style="vertical-align:-3.65256pt" version="1.1" viewbox="-0.0498162 -6.12401 16.6072 9.77657" width="16.6072pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"> 是一个目的的核关系(22](v) 意味着<年代vg height="9.77657pt" id="M15" style="vertical-align:-3.65256pt" version="1.1" viewbox="-0.0498162 -6.12401 16.6072 9.77657" width="16.6072pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"> 是卫星和<年代vg height="9.77657pt" id="M16" style="vertical-align:-3.65256pt" version="1.1" viewbox="-0.0498162 -6.12401 16.6072 9.77657" width="16.6072pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"> 是动机关系的核22](vi) 意味着<年代vg height="9.77657pt" id="M18" style="vertical-align:-3.65256pt" version="1.1" viewbox="-0.0498162 -6.12401 16.6072 9.77657" width="16.6072pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"> 是卫星和<年代vg height="9.77657pt" id="M19" style="vertical-align:-3.65256pt" version="1.1" viewbox="-0.0498162 -6.12401 16.6072 9.77657" width="16.6072pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"> 的核环境的关系(22]关系定义中定义的原因1有两个属性如下:<年代pan class="list">(我)自反性:给定文本单位sp<年代ub>1和sp<年代ub>2在自然语言中,<年代pan class="inline_break"> (2)传递性:给定文本单位sp<年代ub>1,sp<年代ub>2,sp<年代ub>3在自然语言中,如果<年代pan class="inline_break"> 和<年代pan class="inline_break"> ,然后<年代pan class="inline_break"> 直觉上,我们可以检查这两个属性是否正确。自反性,这显然是真的,一切都是自己的原因,虽然这并不提供任何进一步的有价值的信息。传递性,如果sp<年代ub>1sp的原因吗<年代ub>2和sp<年代ub>2sp的原因吗<年代ub>3,那么我们可以说,sp<年代ub>1sp的深层原因是什么<年代ub>3因此sp<年代ub>1sp的原因吗<年代ub>3了。
我们在定义定义一个问题的答案2提出我们的解决方案的基础在越南为什么回答问题。根据这个定义,为什么的答案应该选择从一个文本的话语结构和隐式参数。话语结构中包含很多解释而争论的内容为什么结论是可能不会出现在话语结构。Verberne的方法7- - - - - -12),Higashinaka和矶14,哦,et al。16- - - - - -19)试图用分类器识别部分的原因。因为解释和参数不同,话语中给出的解释可能是显式结构,参数需要确定真实世界的知识,他们不能准确识别与一个分类器。因此,定义1和定义2构成一个新颖的方法寻找问题的答案。

定义2。(为什么的答案)。
给定一个文档<我>D和一个为什么<我>问="<我>为什么C ?“在自然语言,<我>一个={sp<年代ub>1,sp<年代ub>2,sp…<年代ub>k}是问题的答案<我>问根据文档<我>D如果满足下列条件:<年代pan class="list">(我) ,sp<年代ub>是一个不重叠的文本跨越<我>D(2) (3) , 这意味着两个任意文本跨越的答案一个不要让一个关系的理由。换句话说,一个不包含任何多余的文本。

3.3。找到问题的答案

我们发现给定问题的答案和文档定义2。在我们的方法中,我们把文档分割成edu改善F<年代ub>1分数,因为EDU是最小的独立子句。尽管一些在球队所述数据集(42,43)与名词短语可能回答,答案比这些短语条款更正式。我们的答案<我>一个是一组edu {sp吗<年代ub>1,sp<年代ub>2,sp…<年代ub>k}令人满意的定义2

识别原因关系文档<我>D,我们将采用一个句子水平RST解析器来识别五种话语关系类型描述的定义1和一个生成器生成论点的论点在文档包含一个前提和一个结论<我>D。我们的观点发电机需要很多前提暗含有效参数识别。NLI基础模型,当培训或调整其参数将修改为单独的从其他关系的蕴涵关系。这意味着它能有效的编码参数和计算一对文本跨越的类比和有效的参数。因此,我们建议使用NLI基础模型来构建一个发电机的论点。

从原因的关系,我们可以建立一个直接原因图的顶点edu和边缘的原因文档的关系。优势是反向的对应关系的理由。我们会找到问题的答案<我>问="<我>为什么C吗?”通过确定最合适的EDU,命名<我>年代的问题<我>问。这意味着的关系<我>年代和<我>C暗含的是最高的分数。然后,我们找到所有顶点{sp<年代ub>}连接到<我>年代通过广度优先搜索。最后,我们选择顶点{sp<年代ub>j}没有其他路径的顶点。<我>一个={sp<年代ub>}是问题的答案<我>问根据定义2

3.4。越南RST-Style解析Intersentence水平

根据许多RST解析器的结果,我们将不会建立一个完整的解析器在文档级别,但我们会建立一个限制RST解析器在intersentence水平五个话语关系,原因、结果、目的、动机、和环境。RST解析方法,我们部分文档edu,然后应用基于规则的解析器来识别这五个关系三个层次,名叫inner-EDU水平,inner-sentence水平,intersentence水平。在intersentence层面,我们只是认识到连续两个句子之间的关系。我们的方法的结果是许多话语关系可能不会连接到其他人形成话语解析树因为我们不承认其他话语关系。

3.4.1。EDU分割

我们调整PhoBERT<年代ub>基地(39]pretrained模型,称为UNISeg,识别edu的界限。首先,我们创建一个EDU边界带注释的数据集通过利用9046解析树NIIVTB树图资料库(44]。我们确定所有独立子句在每个解析树和注释用一个简单的规则;即所有单词的开头一个独立子句都贴上“<我>公元前”,所有剩下的单词都贴上“<我>O”。这个注释一个EDU始于标记”一词<我>公元前“结束之前”这个词<我>公元前“标记词或句子的最后一个词。我们使用伯特顺序标记架构(4]微调PhoBERT<年代ub>基地pretrained EDU分割数据集模型。我们使用UNISeg模型的预测结果与基于跨段句子成edu F<年代ub>1得分为0.8。UNISeg模型的细节已经提出了一个研究文章发表。

3.4.2。Intersentence原因解析器

我们解析器识别五个通过inner-EDU话语关系,inner-sentence, intersentence水平的内容,并将它们转换成关系根据定义的理由1。它首先确定inner-EDU话语关系水平;因为一个EDU是一个独立的条款,它可能包括话语关系,如果我们不承认这些关系,他们可能会错误地认识在inner-sentence水平。这也是为什么我们的方法识别话语intersentence前inner-sentence水平层面上的关系。我们构建基于规则解析器在2阶段。第一阶段是确定两个上下文无关文法(CFG)<我>G1=<<我>说,<我>NΣ,<我>P1>和<我>G2=<<我>说,<我>NΣ,<我>P2分别> inner-sentence和intersentence解析。的组件<我>G1和<我>G2如下:<年代pan class="list">(我)是一个原始的象征,它将生成其他符号。(2)N<我>={<我>ReasonNS,<我>ReasonSN,<我>ReasonNN,<我>ReasonTM,<我>P,<我>词}是一组非终结符号。<我>ReasonNS,<我>ReasonSN,<我>ReasonNN,<我>ReasonTM意思是原因与原子核在左边,在右边,在左派和右派和关系被公认的原因,分别。<我>P意味着一个文本跨越包括一些文本和话语标记。词是指话语标记。(3)Σ是一组终端符号。终端符号<我>与形式,一些话语标记<<我>discourse-marker>,<我><标点>”、“角色。(iv)P1是一组生产inner-sentence解析规则。(v)P2是一组生产intersentence解析规则。

符号<我>Σ组是一个文本的表示跨度不包括任何”、“字符或话语标记。这意味着<我>不包含任何话语关系。我们的解析器识别终端符号的字符串;因此,一个EDU之前必须转化为一系列终端符号通过解析器。终端符号转换始于话语标记识别。我们认识到话语标记与相应的正则表达式模式。我们使用话语标记的列表(45),指定每个话语标记的识别模式。然后,我们把EDU和话语标记”、“字符。最后,我们替换分割文本、话语标记,和”、“字符<我>符号,相应的<我>符号,<<我>标点>符号,分别。

这两组<我>P1和<我>P2包含上下文无关的生产规则,建立考虑文本片段(45]。这些碎片可能是句子或双连续的句子。<我>P1手动设置包含inner-sentence话语关系识别规则,从每个句子中提取。在<我>P1可能发生的生产规则,话语标记的开始或中间的EDU或一个句子。如果一个话语关系的五个关系是公认的,我们将确定话语标记,细胞核,和卫星;然后,我们根据这话语关系转换成原因关系的定义1在将其添加到<我>P1集。<我>P2识别规则集包含intersentence话语关系。这些规则提取连续两个句子使用话语标记。五种话语关系类型,话语标记intersentence关系通常发生在开始的第二句,很少发生在第一个句子的结束。我们也认识到他们并将其转换为理由根据定义关系1之前将它们添加到<我>P2集。在这个建筑的语法<我>G1和<我>G2,我们应用话语关系模式见表3。我们的完整列表包含64模式。

为了说明,假设”<我>ly做赵quy tắc sốđong la nguy cơxungđột lợi我曹va / hoặc tranh quyền lực tuyệtđối”(英文:“<我>多数决定原则的原因是利益冲突的高风险和/或避免绝对的权力”)是一个句子中提取规则。我们认为这个句子解释的原因”<我>quy tắc sốđong”(英文:“<我>多数决定原则”),原因是“<我>nguy cơxungđột lợi我曹va / hoặc tranh quyền lực tuyệtđối”(英文:“<我>利益冲突的高风险和/或避免绝对的权力”);因此,“ly做曹”(英文:“<我>的原因”)和“<我>拉”(英文:“<我>是”)是话语标记。因此,我们注意到模式”<我>ly曹N拉”其原因关系和添加这些规则”<我>ReasonSN⟶<<我>lydocho><我>P<<我>拉><我>P”、“<我>词⟶<<我>lydocho>,"和"<我>词⟶<<我>拉>”<我>P1。在这些规则中,<<我>lydocho>和<<我>拉>话语标记”<我>ly做赵”和“<我>拉”,分别。<我>P2是建立在相同的方式吗<我>P1

第二阶段是提出一个算法识别intersentence水平原因关系的五个话语关系类型。算法1认识到从每个EDU和语法关系的原因<我>G1,然后从每个句子的语法<我>G1用语法,然后从多个句子<我>G2。在算法1,每一个EDU终端符号的转换成字符串解析之前,和解析结果转换成文本解析后跨越。在该算法中,我们使用的功能<我>年代entDetect ()分裂一个文本到句子,函数<我>EDU年代egment ()分割一个句子edu,函数<我>ConvertToSymbol ()转换为一个自然语言文本符号的字符串和一个查找表对符号和文本跨越功能<我>Earley ()获取包含最多的解析树的原因之间的关系很多解析树从一串符号,和功能<我>GetRelation ()得到原因关系解析树。

(我) 输入:文本<我>,一个文本解析。UNISeg<我>,越南EDU分割模型。模式<我>,列表模式识别话语标记和符号用于语法<我>G1和<我>G2。G1<我>,CFG inner-sentence识别原因关系水平。G2<我>,CFG intersentence识别原因关系水平。输出:跨越,列表的文本跨越edu或部分edu从输入文本。rel,原因关系的列表形式(<我>我,<我>j),<我>我是文本跨越索引文本跨越索引的原因吗<我>j
(1) 索耶⟵SentDetect(文本)
(2) LookupTable⟵{}
(3) TextSyms
(4) 为sent_id = 1 |会派|
(5) edu⟵EDUSegment派[sent_id])
(6) SentSyms⟵[]
(7) 为edu_id = 1 | edu |:
(8) ConvertToSymbol (edu (edu_id)、符号、查找)
(9) LookupTable.append(查找)
(10) 树⟵厄(符号,G1)
(11) SentSyms.append (tree.childNodes ())
(12) 树⟵厄(SentSyms G1)
(13) TextSyms.append (tree.childNodes ())
(14) 树⟵厄(TextSyms G2)
(15) 子树⟵tree.childNodes ()
(16) base_index⟵0
(17) rel⟵[]
(18) 为subt_id = 1 | |子树
(2) rel⟵GetRelation(子树(subt_id) base_index)
(19) Rels.append (rel)
(20) | base_index + = | subt.leaves ()
(21) 跨越⟵LookupTable.values ()
(22) 返回跨越,rel

评价,我们使用这个解析器识别原因关系从250年文本片段。结果表明,它可以识别这些原因关系的78% 250文本片段。

3.5。参数代

定义1显示的参数也是原因的关系。因此,我们使用NLI解决争论。NLI基础模型来验证我们的方法是建立一个如果一对文本跨越文本蕴涵关系。NLI基础模型,这个我们可以生成参数通过选择两个edu<我>P和<我>H,在这<我>P是前提和<我>H是假设,然后预测他们的关系。如果是暗含的预测关系,我们有一个论点<我>P<年代vg height="7.88973pt" id="M28" style="vertical-align:-0.6370101pt" version="1.1" viewbox="-0.0498162 -7.25272 7.75925 7.88973" width="7.75925pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"> H。根据类比(Juthe的研究论证34),如果<我>P和<我>H类似于一个有效论点的前提和结论,然后呢<我>P<年代vg height="7.88973pt" id="M29" style="vertical-align:-0.6370101pt" version="1.1" viewbox="-0.0498162 -7.25272 7.75925 7.88973" width="7.75925pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"> H也是一个论点。NLI的模型可以被认为是一个函数计算的类比<我>P和<我>H许多论证的前提和结论。这些参数是暗含在训练样本数据集,也和训练过程编码这些NLI模型的参数作为参数。

我们使用伯特架构(4NLI基础模型)来构建我们因为这个架构可以计算输入文本的句法和语义信息(36- - - - - -38]。我们应用转移到学习方法构建模型。NLI基础数据集,首先,我们构建一个越南称为VSupMNLI,结合越南版本的MultiNLI数据集(46)与XNLI数据集(47)和VSupNLI数据集。我们的VSupNLI数据集是一个越南本地数据集。我们把这两个数据集丰富的越南版MultiNLI与越南本地VSupNLI样本数据集。VSupNLI还提供了许多样本的训练模型不能学习一些分前提或假设预测没有关系的语义相似度计算对。然后,我们调整PhoBERT<年代ub>基地pretrained模型vNLI VSupMNLI和构建模型。我们vNLI模型精度的0.7658和0.9665对越南XNLI测试集和越南vs上测试集,分别。

vNLI模型,我们可以从一个文档生成参数与一个简单的过程。生成的参数只有一个前提和结论只有一个,因为我们可以编码一个前提和结论只作为伯特模型的输入文本。中给出的参数生成过程的算法2。在该算法中,我们使用的功能<我>我年代Entailment ()为验证<我>P<年代vg height="7.88973pt" id="M30" style="vertical-align:-0.6370101pt" version="1.1" viewbox="-0.0498162 -7.25272 7.75925 7.88973" width="7.75925pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"> HNlI基础模型是有效的。

输入:edu<我>,生成的edu参数的列表。vNLI<我>,一个越南NLI的模型。输出:参数,一个参数列表(<我>我,<我>j)的意思<我>我<年代up>thEDU前提和<我>j<年代up>thEDU的结论。
(1) Args←[]
(2) 为<我>我=1|edu |−1
(3) 为<我>j=<我>我+ 1 | edu |
(4) 如果isEntailment (edu (<我>我],EDU(<我>j】,vNLI)
(5) Args.append ((<我>我,<我>j))
(6) 如果isEntailment (edu (<我>j],EDU(<我>我】,vNLI)
(7) Args.append ((<我>j,<我>我))
(8) 返回参数

4所示。越南Discourse-Argument混合QA系统

我们提出新颖的越南discourse-argument混合QA系统基于我们的新方法。我们的系统是第一个系统运用话语分析和论证解决为什么回答问题。如图4,我们的系统有三个关键组件(话语解析器、论点发生器和答案选择器)和一个简单的组件(句子变压器)。给定一个文档<我>D和一个问题”<我>Tại圣C吗?”(英文:“<我>为什么C吗?”),edu的话语解析器生成一个文件列表和intersentence原因关系的文档的列表<我>D虽然句子变压器转换的疑问形式肯定的形式问题”<我>Tại圣C吗?“然后,edu和rel列表的列表传递给答案选择器和o edu列表传递给发电机的论证。论证生成器选择有效的参数中有一个前提,一个结论使用前提。这些参数也传递给答案选择器。答案选择构建一个原因文档中的图并选择最佳答案<我>D的问题”<我>Tại圣C吗?”这些组件的具体流程如下所述。

vNLI模型,我们可以从一个文档生成参数与一个简单的过程。生成的参数只有一个前提和结论只有一个,因为我们可以编码一个前提和结论只作为伯特模型的输入文本。中给出的参数生成过程的算法2。在该算法中,我们使用的功能<我>我年代Entailment ()为验证<我>P<年代vg height="7.88973pt" id="M31" style="vertical-align:-0.6370101pt" version="1.1" viewbox="-0.0498162 -7.25272 7.75925 7.88973" width="7.75925pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"> HNlI基础模型是有效的。

4.1。话语解析器

话语的过程解析器呈现在图5。该组件是文档的输入d .句子分割检测步骤<我>D{成句子<我>年代<年代ub>}。EDU标签的步骤,对于每一个句子<我>年代<年代ub>预计,EDU标签的所有单词<我>安<年代ub>在句子中使用一个EDU分割模型。将每个句子的EDU细分步骤<我>年代<年代ub>在edu {<我>EDU<年代ub>}使用标签预测结果。在那之后,每个<我>EDU<年代ub>一个句子会在每一个EDU识别所有原因的解析关系,然后每个的解析结果<我>EDU<年代ub>一个句子将识别句子内的所有原因关系的解析与解析步骤,它返回一个edu{列表<我>EDU<年代ub>}和{原因关系的列表<我>Rel<年代ub>每个句子的}。最后,句子的解析结果将被解析intersentence层面认识intersentence原因关系在intersentence原因关系解析步骤。该组件是一个edu列表的结果和原因关系的文档的列表<我>D

4.2。论点发电机

发电机的过程参数,算法的实现2呈现在图6。该组件是一个列表的输入edu。在第一步中,该组件选择所有成对的前提和结论。这些对可能不是参数;因此,该组件使用前提是编码在我们vNLI模型计算参数的有效性在第二步。结果该组件是一个有效的参数列表中,有一个前提,一个结论。

4.3。回答选择器

回答选择器提出了图的过程7。在第一步中,该组件构建一个原因从一个EDU列表,图一个参数列表,和一个rel列表。图的顶点edu的文档<我>D,其定向边缘识别参数列表和rel列表。每条边都有对应的参数或关系,在选点的前提或细胞核和out-vertex是结论或卫星。在这个图中,树显示链解释,树的根顶点在哪里索赔和树的叶子顶点按照定义它的原因2

在第二步中,因此,它选择一个EDU,命名<我>年代,这是最合适的内容<我>C的问题<我>问。适当的衡量一个订单对(<我>年代,<我>C)是F的总和<年代ub>1分数的<我>年代在<我>C树的节点数量<我>年代暗含,分数的含义<我>发送⟶<我>C使用前提,实现为vNLI模型。<我>发送是这个句子包含<我>年代。我们使用暗含的暗示<我>发送⟶<我>C因为EDU年代可能没有足够的上下文信息;因此,暗含的含义S⟶C可能虽然很低<我>年代是最合适的<我>C。树中的节点数量<我>年代是一个启发式的数字即为选择合适的添加edu,因为并不是所有的edu原因关系一个句子中去。更大数量的原因意味着更好的解释。F<年代ub>1分数也暗含增加分数。的蕴涵关系<我>发送和<我>C可能有较低的分数与vNLI模型在实践中因为vNLI模型预测时可能不会关注重叠词有不同的职位吗<我>发送和<我>C

在第三个步骤中,该组件通过深度优先搜索找到了原因<我>年代顶点识别与根的树<我>年代在图的原因。然后,所有的叶子<我>年代树提取答案<我>一个。如果许多edu有相同的适当措施<我>年代,该组件将确认所有的树木和提取它们的叶子让答案吗<我>一个

5。评价

我们评估模型通过实现一个系统,作为一个黑盒测试。我们使用一个越南为什么数据集,每个示例包含一个为什么,一个上下文,答案进行评估。我们的系统预测F计算每个样本的答案<年代ub>1得分。我们也比较我们的结果与一个句子检索模型的结果,伯特问答的模型,模型实现基于哦等人的方法(19)来显示我们的模型的优点和缺点。

5.1。数据集
5.1.1。训练集

我们使用一个越南小队v1.1训练集的机器翻译版本,叫做viSQuAD,微调PhoBERT-YQA模型。该训练集包含74532份样品,因为我们已经删除了许多样本的翻译答案没有出现在翻译语境。

我们建立一个数据集,称为VNCE,通过提取因果关系的句子从越南新闻培训一个因果关系识别模型。我们使用因果关系模式中定义的正则表达式和许多话语连接词(45),如“<我>六世”或“<我>bởi_vi”(英文:“<我>因为”)和“<我>để”(英文:“<我>为”或“<我>为了”)。我们应用这些模式来越南POS标记的句子提取14930句。这些句子会自动标记与标记集包含五个标签”<我>c”、“<我>我”、“<我>抵扣”、“<我>我”和“<我>O“哦中描述等。18]。我们选择13437注释1493带注释的句子句子为训练集和测试集。

我们也建立一个训练集,称为VNANS,培训回答选择模型。建立了VNANS VNCE数据集的因果关系的句子。每一个因果关系的句子可能是转化为一对为什么,回答问题的部分答案是因果部分的影响;因此,我们使用因果关系的句子做出积极的样本。用于创建负样本,我们交换的问题和答案从正样本的重叠词两个问题不是名词或动词。创建负样本后,VNANS有一个包含13930份正样本和97510年负样本训练集和测试集包含1000正样本和7000年负样本。因此,我们复制积极在VNANS训练集样本的平衡。因此,VNANS训练集有208950个样本。

我们使用VnCoreNLP [48为越南分词和词类在构建上述数据集。

5.1.2中。测试集

我们使用一个越南人力翻译版本的阵容v1.1开发集,称为VnYQA,进行测试。这个测试包含100个样本集仅包含所述。我们使用这个翻译测试组,因为许多人群样本选择工人;因此,这些样本可能不同。这组与VnCoreNLP预处理[48分词)。我们的测试集的数据如表所示4。测试样本可以分成三组。容易组样本的回答是一个句子的上下文包含几乎为什么的言语。答案简单样本可能容易识别,因为我们可以很容易地选择他们使用重叠词的数量问题。中度组,答案的一个示例是一个句子的上下文包含一些问题的话。温和的样本,TF-IDF分数不确保答案的句子选择,因为有些句子不包含答案可能TF-IDF有更高的分数。硬组样本的答案是一个句子的上下文不包含任何词为什么或不能确定使用我们vNLI模型及其数量的重叠词的问题。回答问题的这一组,模型必须有某种类型的推理技术,因为它不能依靠词匹配。这些团体的利率在我们的测试如表所示5

5.2。评价设置
5.2.1。VSY-QA模型

我们与向量空间模型实现句子检索,VSY-QA命名。选择答案为什么从上下文(“<我>Tại圣C吗?”),VSY-QA将语境分为句子和计算每个句子的TF-IDF得分<我>C。然后,它选择句子TF-IDF得分最高。

5.2.2。PhoBERT-YQA模型

我们从PhoBERT微调伯特问答模式<年代ub>基地pretrained模型(39),名叫PhoBERT-YQA,使用神经网络架构提出Devlin et al。4]。我们用拥抱脸库来实现这一任务。对于答案的选择,我们选择有效的开始位置和有效的结束位置,这些位置的得分的总和最大。当预测的开始和结束位置伯特问答模式,之后的上下文附加问题的输入;因此,预测可能出现在开始和结束位置问题,或令牌的数量之间的开始和结束的位置太大了。有效的开始和结束位置意味着这些位置是在上下文中跨度以及它们之间的令牌数量是适当的。这个数字是15令牌在我们的设置。我们调整PhoBERT-YQA模型viSQuAD 4时代并选择最佳检查点F<年代ub>171.26%的越南版的XSQuAD测试集(49]。

5.2.3。OH-YQA模型

我们实现了一个问题回答系统,名叫OH-YQA<年代ub>因果哦等人回答后,选择方法(19),因为该方法P@1的54%,而他们的最新方法16]P@1为54.8%,略高于前一个。在OH-YQA系统中,我们替换的CNN模型伯特调整模型因为BiLSTM注意力模型比CNN模型在文本分类任务中所示(50),而伯特调整模型比BiLSTM注意力模型所示(4]。我们建立一个因果关系识别模型微调PhoBERT<年代ub>基地VNCE pretrained模型训练集,微调PhoBERT答案选择模型<年代ub>基地VNANS pretrained模型训练集。我们选择因果关系识别模型和答案选择模型的最佳检查点微调时完成了4个时期。因果关系识别模型的基于标记的准确性93.58% VNCE测试集,和答案选择模型<年代ub>1分数的78.16%,选择正确的答案。

我们还实现一个问题回答系统,名叫OH-YQA<年代ub>句子。这个系统只有一个从OH-YQA差异<年代ub>因果;也就是说,OH-YQA<年代ub>句子从上下文选择答案的句子;它不提取因果选择答案的一部分。

5.2.4。DA-YQA模型

我们构建我们的系统,名叫DA-YQA,在我们的模型中描述的部分4。我们用拥抱脸库实现vNLI和UNISeg模型。从PhoBERT vNLI和UNISeg微调<年代ub>基地pretrained模型提出的适当架构德夫林(4]。

5.2.5。模型调整成本

我们使用NVIDIA Tesla M40 12 gb GPU来调整所有必要伯特模型为我们的实验模型。调整成本如表所示6

5.3。结果

我们测试实验系统与NVIDIA Tesla GPU M40 12 gb VnYQA数据集。执行时间和这些模型的GPU内存大小如表所示7。结果在表7表明我们的系统需要更多的资源,它比其他系统消耗更多的时间,因为它使用了两个伯特EDU分割和自然语言推理,调整模型和两阶段的RST解析inner-sentential和intersentential水平。然而,其结果在越南为什么回答是有前途的。

实验系统的测试结果如表所示89。在表8,回答率列显示的数量系统包含黄金回答的答案。一般来说,一个系统可以选择一个答案比黄金的答案包含更多的信息;因此,其F<年代ub>1分数会很低。因此,我们使用回答率作为一个额外的标准比较。结果在表8表明我们的系统DA-YQA有更好的F<年代ub>1分数比VS-YQA OH-YQA<年代ub>因果,OH-YQA<年代ub>句子系统,但它有一个较低的F<年代ub>1分数比PhoBERT-YQA系统。然而,我们的系统有最好的回答率为77.0%。这意味着我们的系统可以更有效地识别答案比系统PhoBERT-YQA OH-YQA<年代ub>因果,OH-YQA<年代ub>句子使用其他深层神经网络模型。

9显示了我们的系统的效率比四个系统VS-YQA PhoBERT-YQA OH-YQA<年代ub>因果,OH-YQA<年代ub>句子。我们可以看到这些结果图8。虽然我们的系统不能识别所有答案简单样本VS-YQA系统,它可以识别更多的答案比温和的和硬的四个系统样本。特别是,我们的制度是最好的制度确定的答案在困难样本。这些结果可能表明我们的系统比其他四个系统有更好的推理能力。我们的系统有较低的F<年代ub>1分数比PhoBERT-YQA因为我们的系统比PhoBERT-YQA标识不再回答,和许多黄金答案是名词短语,而我们的系统的答案通常条款。这也是为什么OH-YQA<年代ub>因果具有较高的F<年代ub>1分数比OH-YQA<年代ub>句子。的OH-YQA<年代ub>因果系统比OH-YQA回答率低<年代ub>句子因为有因果关系认识错误导致错误导致回答候选人提取。

结果OH-YQA<年代ub>因果和OH-YQA<年代ub>句子系统是最低的,因为答案选择模型并不是有效的<年代ub>1分数的78.16%,选择正确的答案。此外,识别因果的方法在因果关系的句子需要改进的部分,因为它无法识别因果的部分在一个句子包含两个嵌套的因果关系。例如,句子”<我>这个模型是有效的,因为它可以运行在低资源配置因此我们应用在我们的解决方案”“<我>这个模型是有效的“这是一个因果部分以及部分产生影响。因此,在因果顺序标记可能不是一个好的选择提取一部分。此外,我们的训练数据回答选择问题不是很大。这也是为什么我们的OH-YQA没有实现预期的结果。

5.4。讨论

我们探索实验系统的困难问题的答案更多的细节。表10显示所有困难的问题回答的一个实验系统和他们的特点来解释的方式系统可以找到答案。

根据表10DA-YQA系统从话语关系和一个答案选择四个正确答案从话语与自然语言推理的关系。DA-YQA使用vNLI模型匹配问题;因此,可以推断出适当的句子为什么与相关单词。然后,DA-YQA选择相关的话语EDU集团是最适当的问题;因此,它可以选择edu原因关系作为答案。然而,越南测试集vNLI模型是有效的,但它不是有效的XNLI测试集或在我们的越南为什么回答测试;因此,DA-YQA系统并不在许多情况下,选择正确的答案。OH-YQA系统不选择正确答案在许多情况下也因为答案选择模型并不是有效的。另一个原因是,OH-YQA系统不能分析intersentential话语关系除了inner-sentential因果关系关系;因此,它没有选择正确的答案。

6。结论和未来的工作

在本文中,我们要提出我们的工作学习discourse-argument混合模型回答为什么越南和实施一个系统使用此模型进行评估。我们的模型旨在解决为什么阅读理解的问题。为解决这一问题,我们考虑问题的答案的特点,然后定义的答案为什么使用原因关系的概念也在本文中定义。我们的理性关系的组合参数,用于展示的五种话语关系类型的解释或参数。通过使用原因的关系,我们的模型可以找到77.0%正确的答案而PhoBERT问答模型可以找到61.0%正确的答案在我们的测试集。这意味着我们的模型具有更好的推理能力比PhoBERT问答调整模型。然而,我们的模型有较低的F<年代ub>1分数(46.49%),因为它返回EDU-based答案通常超过黄金的答案。

目前,我们的模型可以识别的参数有一个前提,一个结论,和话语intersentence水平关系的五种类型命名的原因,因此,目的,环境,和动力。这些限制的计算限制来自PhoBERT pretrained模型可计算两个句子的语义相似度和缺乏大型越南RST话语银行。然而,我们的模型仍然发现答案从硬样本的33.3%,这表明结合语篇分析和论证的方法生成的问题回答是一种很有前途的解决方案。

目前,我们的参数生成方法和理性关系解析intersentence水平有限;因此,我们的模型不能找到答案很多温和的和艰苦的样本。在未来,我们将改善这些重要方法研究模型,该模型可以计算参数包含许多前提和结论的有效性和研究话语的解析模型,解析文档完整的话语关系水平。我们相信,这两个方法将大大提高我们的模型的性能。

数据可用性

数据用于支持本研究的发现没有可用的,因为他们是在一个正在进行的研究中使用。

的利益冲突

作者宣称没有利益冲突。