文摘
近年来多次反射问答已经吸引了广泛的研究,因为人类的出现带注释的数据集和相关游戏排行榜。最近的研究显示,问题回答系统学会利用注释工件和其他偏见在当前数据集。因此,模型具有较强的解释能力不仅要预测最终答案,但更重要的是找到支持的事实的句子必须回答复杂的问题,也称为证据的句子。大多数现有的方法预测最终答案和证据的句子按顺序或同时,抑制了模型预测的路径推理的能力。在本文中,我们提出一种双通道推理架构,两个推理通道预测最终答案和支持事实”的句子,分别在共享上下文嵌入层。在两个频道可以使用相同的推理结构没有额外的网络设计。通过实验分析基于公共问题回答的数据集,我们证明了该方法的有效性
1。介绍
的一个自然语言处理(NLP)的长期目标是使机器能够理解自然语言和文本数据进行推断。许多应用程序,如对话系统1,2),推荐系统(3- - - - - -5],问答[6,7),和情绪分析8),旨在探索机器理解文本数据的能力。问题回答,缩写为QA,已成为自然语言处理的一个重要任务,因为它提供了一种量化的方法来评估一个NLP系统的能力在语言理解和推理和实际应用的商业价值。
大多数作品都聚焦于问题回答只从一个单独的段落,称为单跳QA (9]。尽管最近的进步QA和机器阅读理解(MRC)已经超过人类表现在一些单跳数据集(10,11从真实世界的场景),这些数据集有差距。在现实世界中,有很多复杂的问题需要回答通过多个步骤的推理通过聚合信息分布在多个段落,名叫多次反射QA (12]。
江和邦萨尔13指出,因为例子包括推理的快捷方式,一些模型可以直接通过词匹配问题找到答案句子的上下文。复杂的问题“什么是卡斯帕的父亲舒梅切尔投票是在1992年被IFFHS吗?。“这个句子上下文包含”彼得Bolesław舒梅切尔……并被评为IFFHS世界上最好的门将在1992年和1993年。”这个时候,模型可能会发现正确答案“世界上最好的门将“通过简单的词匹配,但并不推断彼得Bolesław舒梅切尔是卡斯帕的父亲舒梅切尔。因此,为了提高模型的可解释性,避免通过推理快捷方式回答复杂的问题,我们的研究认为,除了预测正确的答案,同样重要的是提取证据的句子。然而,大多数现有的只能专注于改进模型的准确性回答复杂的问题,但很少注意的能力模型预测推理路径。
从一个例子HotpotQA如图1。给出十个段落来回答复杂的问题(“持有的政府职位是什么女人描绘的威廉姆森阿切尔在影片中亲吻,告诉?”);模型首先需要确定通道2 (P2)和通道6 (P6)以上相关段落正确回答这个问题。
第一句句子P6和P2的证据,导致跳段和预测答案。然而,它是比较困难的模型来预测正确和完整的句子比证据来回答复杂的问题,因为这个问题经常不包含中间的回答信息,如“秀兰·邓波儿”(绿色字体)图1。
大多数现有的方法(14- - - - - -16]预测最终答案,同时支持序列或事实,以及这些方法的体系结构主要是为了预测正确的答案。在本文中,我们提出一种新颖的双通道推理架构复杂的问答。这个词具体、复杂的问题和文件通过嵌入层和上下文嵌入层。此后,上下文嵌入层的输出是输入的两个推理通道:一个用于预测答案跨度或答案类型,预测和其他证据的句子。
我们的贡献可以概括如下:(1)我们建议双通道推理架构,这是一个小说架构复杂的问答任务。实验结果表明,该双通道推理架构适用于多种现有的神经网络模型,如基于模型。(2)我们多次反射QA数据集上执行综合实验,我们提出的方法优于以前的方法在复杂的问题,尤其是在句子提取证据的任务。我们进行了一次详细的视觉分析的基准模型和双通道架构中的两个渠道,进一步探讨注意力热图的差异分布的几个模型。
2。相关工作
2.1。多次反射问答知识基础
知识问答(KBQA)计算基于知识库的自然语言问题的答案。除了传统的方法,定义模板和规则,KBQA方法主要可以分为两个分支:语义解析(SP)和基于信息检索(IR)。语义解析方法专注于将复杂的自然语言问题转换成可执行的查询图在知识库中。局域网和江17)提出了修改了查询图生成方法,允许更长的关系路径。太阳et al。18)提出了一个新颖的骨架语法使用BERT-based解析算法改善下游fine-semantic解析。为了避免产生嘈杂的候选查询,Chen等人。19]建议的抽象查询图(空气质量准则)来描述查询结构。中提到的想法模型首先提取主题实体问题和链接到知识库中(20.]。然后,子图集中在主题实体提取和子图中的所有节点选为候选答案。陈等人。21)用小说双向注意力记忆网络模拟之间的双向交互流问题和知识基础。徐et al。22)增强KV-MemNNs模型通过一个新的查询更新策略来执行复杂的问题可判断的理由。
2.2。在文本多次反射问答
目前,有两个主流分支复杂的问题回答在文本数据。之前第一个方向是应用神经网络单跳QA任务成功的多次反射QA任务。提出的双向关注流(Bi-DAF)网络搜索引擎优化et al。23取得了最先进的成果在单跳QA数据集。杨et al。12HotpotQA]提出了多次反射数据集和使用Bi-DAF模块为核心的模型是作为基准模型的数据集。钟等。24]提出的模型组合粗粒度的阅读和细粒度的阅读。query-focused器模型提出的Nishida et al。16)作为证据提取哈贝马斯query-focused总结任务并查询每一跳。由于多次反射问题的语义QA任务更复杂,很难Bi-DAF模块完全理解语义。分钟et al。25)解决HotpotQA通过将其多次反射问题分解为多个单跳subquestions实现更好的性能和可解释性。江和邦萨尔26)提出了一个自组装的模块化模型进行多次反射推理和支持选择更多的解释。然而,他们的模型需要训练通过使用大量的手动带安全标签的数据时,这无疑是昂贵的。因为复杂问题的答案需要聚合来自多个段落的信息和伯特不能编码所有文档,Bhargav et al。27)提出了半透明的回答预测体系有效地捕获当地环境和全球之间的相互作用的句子。
另一个方向是基于神经网络图(卫星系统)进行28]。图是一种有效的方式来表示实体之间的复杂关系和获得关系信息。丁等。29日)使用隐式提取模块和显式推理模块构建推理过程分为认知图。灵感来自于人类的一步一步的推理行为,邱et al。15)提出了一个动态融合网络图可以预测在每个推理步骤动态子图。多级网络图可以更详细地表示上下文中的信息。方提出的分层图网络(HGN)等。14]捕捉线索,从不同的粒度级别和编织异构节点为一个统一的图形。
3所示。任务的制定
假设我们有一组训练数据{C我,问我,一个我,吃晚饭我},其中每个上下文C我是由许多文档{P1P2P…n}相关问题,被认为是一个连接的文本C我= {x1,x2…xT},问我= {问1,问2…问J}被认为是一个复杂的查询;上下文C我和查询问我有T单词和J话说,分别。
的目标任务是设计模型来预测一个我和吃晚饭我。一个我包括答案类型一个T并回答字符串一个年代;答案类型一个T被选中的候选人回答,比如“是的/不/。“答案字符串一个年代上下文是一个短,是由预测的位置开始索引和结束索引时没有足够的回答候选人回答吗问,<表达的开始我,最后我>。吃晚饭我被认为是证据的句子,和支持的事实包括超过一个句子吗C我,表达了> <句子段落标题、索引。
4所示。解决方案方法
4.1。过程概述
在本节中我们描述了双通道推理架构。我们建议的模型由四个组件的输入模块,上下文模块、推理模块、预测模块。为了测试建议的体系结构的适用性,输入模块,上下文模块,和推理模块,分别采用不同的当前主流的神经网络。整个双通道推理架构如图2。
4.2。输入模块
一个输入的问题问我= {问1,问2…问J}和上下文C我= {x1,x2…xT}表示为字嵌入和字符嵌入的序列,分别。字符和字嵌入向量的连接传递给高速公路网络,和高速公路网络的输出是两个矩阵X1∈上下文和问1∈查询的d1是这个词的维度融合后嵌入和字符嵌入。此外,输入模块还可以使用一个pretrained模型,伯特。查询问我和上下文C我连接,通过生成的序列pretrained伯特模型获得表征X2∈上下文和问2∈查询的d2伯特的大小隐藏状态。
4.3。上下文模块
模型颞词上下文和之间的相互作用问题,双向长期短期记忆(Bi-LSTM)网络应用上面的输入模块。Bi-LSTM的输出表示U∈和H∈ ,在2d1表示输出尺寸。图的神经网络方法,识别支持实体和文本的潜在答案伯特的输出作为节点图。无向边定义根据每个节点的位置属性。
4.4。推理模块
推理模块包括context-query交互层和模型层。的典型实现是Bi-DAF context-query交互层。Bi-DAF负责连接和集成信息的上下文和查询词。最后,上下文模块输出和向量计算context-query交互层组合收益率G: 在哪里是瓦T*在列,从而使∈ ,(;是行向量连接,年代相似矩阵,和代表的输出context-to-query注意力和query-to-context关注,分别。输出context-query交互层作为模型的输入层,它编码的query-aware表示上下文词语。我们使用一层的双向格勒乌捕获之间的交互上下文词语条件查询。因为多个文档包含成千上万的话说,长距离依赖性问题是显而易见的,所以self-attention模块添加到缓解这个问题。
图的神经网络方法,图关注网络,图复发性网络,和图卷积网络,他们的变异可以传播消息在不同的实体节点图和更新的向量表示原来的实体。
4.5。预测模块
预测模块由四个均匀Bi-GRU和线性层。对应通道用来预测答案是三套Bi-GRU和线性层,和他们有三个输出维度,包括(1)答案的开始索引,(2)结束索引的答案,和(3)答案类型。预测模块对应句子的证据提取通道输出支持句子的预测模型。
5。实验
5.1。数据集
HotpotQA最近推出了多次反射QA数据集有113 k Wikipedia-based问答对。HotpotQA有两个基准设置,即错误选择设置和完整的wiki。错误选择的设置,为每一个例子中,有两个黄金段相关复杂问题和八个不相关的人。两枚段落和八个干扰重组之前美联储到模型中。完整的wiki设置需要给出的模型来回答这个问题所有维基百科文章的第一段,没有指定的黄金段。在这里,我们专注于HotpotQA数据集下的错误选择设置挑战模型来找到真正的支持在噪声的存在的事实。完整的wiki设置所有维基百科文章给出作为输入,我们认为瓶颈是信息检索,因此我们不包括完整的wiki设置在我们的实验。在HotpotQA,只有训练和验证数据是公开的,而测试数据是隐藏的。进一步分析,我们只报告上的性能验证集,我们不想频繁提交调查看不见的测试集。根据我们的实验观察结果和以前的作品,验证分数与测试成绩。
5.2。模型比较
我们比较结果与三个类别的模型。第一类是交互框架模型,遵循特性,如模型与Bi-DAF核心组件,具体来说,NMN能否,等。第二类是基于图神经网络推理模型,如KGNN和DFGN。第三类是pretrained模型,如伯特。
5.2.1。基线
基线模型提出了在原始HotpotQA纸。背景和问题的网络体系结构是由嵌入层,上下文嵌入层建模层、和预测层从底部到顶部。
5.2.2。NMN能否
多次反射QA NMN能否是一个自组装的模块化模型。四个原子神经模块设计,即发现,搬迁,比较,和等待,四个神经模块动态组装进行多次反射推理和支持选择更多的解释。
5.2.3。KGNN
KGNN神经网络是一个丰富知识图(KGNN),执行推理在多个段落。
5.2.4。DFGN
DFGN融合图是一种动态的网络,可以动态地预测子图查询和更新每个推理步骤。
5.2.5。伯特
在许多NLP伯特已被证明是成功的任务,和最近的论文还研究了复杂的QA使用伯特模型。
. 5.2.6。粗粒度分解策略
来解决这个问题,原来Bi-DAF模块不能获得正确query-aware上下文表示为复杂问题,曹和刘6)提出了粗粒度分解策略,名叫CGDe策略。CGDe负责复杂问题分解并生成一个新的问题包含的语义中间答案出现在文本在一定程度上。
5.2.7。细粒度的互动策略
曹和刘6)提出了细粒度的交互策略来解决不足的香草Query2Context,名叫FGIn策略。softmax马克斯池操作,而是用于关注矩阵的每一列,然后,文档向量是点缀着每一列的重量。该方法获得J向量矩阵的大小(T,2d),J是单词的数量问题。最后,J矩阵添加获取输出矩阵与原始Query2Context相同大小的模块。全面的实验表明,FGIn策略预测证据的句子更准确的数量比基线。
5.3。实现细节
证明我们的模型组件和模型架构绝对基准模型的性能优势,我们重新实现架构描述了在杨等人的作品。12和秋等。15]。
5.3.1。HotpotQA基线模型的数据集
我们使用标准的300 -维pretrained手套字嵌入。维度Bi-GRU的隐状态设置为d= 80。优化器使用亚当,minibatch大小32和0.01的初始学习速率,早期停止采用策略,耐心= 1。
5.3.2。动态图融合网络
我们也用一个pretrained伯特模型编码器,d是768。所有隐藏的状态维度设置为300使用亚当优化器和一个初始学习速率为0.0001。
5.4。主要结果
HotpotQA多次反射的性能测试是评估通过使用精确匹配(EM)和F1作为答案的两个评价指标预测和句子提取证据。精确匹配(EM)意味着答案或证据模型预言的句子是完全一样的金色的标签。联合EM是1只如果答案字符串和支持的事实都是严格正确的。联合的计算公式F1是
验证的一般适用性双通道各神经网络推理模型,我们应用双通道推理架构交互框架模型和基于模型的特性,分别。相应地,我们选择杨等人提出的基准模型。12)和DFGN模型提出的邱et al。15),Baseline-Dual模型和DFGN_Dual模型在表1,分别。
我们整合CGDe策略和FGIn策略提出的曹和刘6到双通道架构。CGDe策略有利于找到答案,所以预测答案的通道双通道体系结构使用CGDe策略,和其他推理通道使用基线推理模块。同样,FGIn有利于提取证据的句子,和FGIn策略用于支持事实预测渠道,这意味着FGIn-Baseline双通道体系结构。
我们比较我们的方法与一些先前发表的模型和现在我们的结果在表1,在那里代表了我们的重新实现模型的结果。如表所示1,我们所有的结果提出模型优于基准模型,特别是在支持事实预测任务,EMsup和F1sup都有很大的提高。值得注意的是,虽然我们的模型不使用任何pretrained伯特等语言模型编码,它优于伯特所使用的方法,如DFGN DFGN /伯特和伯特+支持事实预测任务。
5.5。烧蚀研究
本文设计了一种双通道推理架构复杂的问答。研究双通道结构的贡献和这两个策略的性能我们的模型,我们对HotpotQA执行一个消融实验数据集。
如表所示2双通道,这三个模型推理架构都优于单通道模型支持的预测任务的所有指标(见表的底部2)。表2只显示,当基线执行回答预测或支持的事实预测任务,EM和F1指标高于模型,同时执行回答预测和支持预测。这表明当采用单通道的推理结构,这两个任务不仅不相互促进,也减少了模型提取证据的能力。使用双通道的推理结构,这两个任务相互促进和支持事实”提取任务更高的分数比复杂的方法,使用神经网络图和pretrained语言模型。在CGDe-Baseline架构中,有一个显著的改善在答案预测指标任务,而支持事实预测任务上的表现略有下降。曹、刘(6]的结论是,CGDe模型预测能力的支持是有限的事实,因为新的问题生成包含中间回答第一subquestion所需,所以支持句子回答的第一个问题可能不是预测作为一个支持的事实。CGDe-Baseline架构,支持事实预测任务的性能也受到影响,这也进一步证明,有一个柔软的双通道的两个推理通道之间的交互推理架构。
5.6。分析和可视化
在本节中,我们进行了一系列的视觉分析使用我们的方法使用不同的设置。
更直观的分析,HotpotQA验证集,我们评估杨等人提出的基准模型。12),双通道的逻辑模型,该模型只执行回答预测任务或支持事实预测任务。同时,注意矩阵的热图这些模型生成。模型的热图,只执行答案(图预测任务3)所示,“阿切尔描绘的威廉姆森在电影亲吻,告诉?”用来描述约束的复杂问题相关文档中所有单词较低(图中红框内的一部分)。这意味着该模型只回答了部分问题,而复杂的问题是错误地认为是简单的问题。类似于图3,“阿切尔描绘的威廉姆森在电影亲吻,告诉?“在数据4和5也低与文档中的词的相关性,但相关图吗4比图吗3和相关图5比图吗4。
的原因高相关性的图中相应的位置4是基线模型还提取证据预测答案的句子,使用一个单通道的推理结构。相应的单词的相关性如图5进一步优于如图4,表明支持事实预测任务对答案有更大影响预测在双通道推理架构。值得注意的是,尽管新兴市场答和F1答——模型的值略高于基线模型,这可能是因为——模型错误地认为复杂的问题简单的问题和发生在找到正确答案用推理快捷指出江和邦萨尔(13]。
所示的注意力热图的数字6和7不再是非常稀疏的相应部分“谁描述的威廉姆森阿切尔在影片中亲吻,告诉?”,表明该模型进一步捕获的短语的语义。这是非常重要的为模型来提取证据的句子,因为“他描绘的威廉姆森阿切尔在影片中亲吻,告诉?”是一个约束的复杂问题。
之间的主要区别在双通道模型和单通道推理模型是支持的事实预测任务。图8表明高EM和F1的原因是双通道的推理模型(baseline-baseline)很少提取太多支持的事实。也就是说,它预测的数量证据句子比基线模型更准确。此外,图8显示双通道推理模型具有相似的分布模型,只有执行支持事实预测任务,图的左半部分,后者的数量普遍高于前者,在图的右半边,正好相反。这种情况表明,双通道推理模型往往比only-sup模型预测更多证据的句子。
进一步探索双通道的优点推理模型,我们计算肯德尔的τ相关性证据句子的三个模型预测的数量和黄金证据的句子。如图9改善EM,双通道的逻辑模型吃晚饭F1吃晚饭、精密、召回和肯德尔τ。
我们还介绍了两种策略CGDe FGIn到双通道推理架构。同样,数据10和11分别显示的数量预测-黄金句子的几个模型的数量和分数的评价指标。
在支持事实预测任务,最好模型与FGIn策略执行;模型与CGDe策略执行略低于其他两个模型。这一结果的原因是CGDe分解复杂的问题,因此很容易忽视证据的句子,虽然FGIn可以更好的代表每个单词在多个文档。相比之下,答案包含CGDe策略模型的预测能力明显强于其他两个模型。最后,不受影响的双通道推理模型的差异这两个培训的比例共同优化两个任务时的损失。
唐et al。30.)使用神经分解模型(25]为多次反射问题解释生成subquestions问答系统的推理过程来回答复杂的问题。为了能够进一步评估我们的提出的双通道推理架构的能力来执行真正的多次反射的推理,我们评估了双通道推理模型,单道推理模型,只回答模型subquestion唐等人提出的数据集。
如表所示3,复杂的问题分解成两个subquestions。唐et al。30.]HotpotQA验证复杂的问题分成两个subquestions和提取subquestion 1的答案从原始文本。然后,他们保存答案subquestion 1, subquestion 1,和所有上下文Dev_sub1 JSON文件,他们保存答案subquestion 2(也最终答案原来复杂的问题),subquestion 2,所有上下文Dev_sub2 JSON文件。使用HotpotQA模型训练数据集和测试三个验证集(Dev_ori、Dev_sub1 Dev_sub2)来评估不同模型回答subquestions的能力。
如表所示4在前三列,正确的回答正确,代表模型错误的代表模型回答不正确。例如,第六行表明,模型正确答案第一subquestion但第二subquestion复杂的问题和错误答案。对所有实验中,我们测量EM得分问题,问题sub1,问题sub21000年human-verified例子。当答案预测的模型是一样的正确答案(包括起始索引和结束索引正确预测),比分是1。最后三列在表4在相应的情况下显示例子的数量。举个例子,例子的数量的双通道模型所有复杂问题的答案和subquestions正确是282。
如表所示4双通道模型最多的例子,可以正确回答复杂的问题和subquestions。模型最少的例子当只有一个subquestion可以正确回答,和复杂的问题仍是回答正确,因为这种情况是不符合常识。
6。结论和未来的工作
在本文中,我们提出一种双通道推理架构复杂的问答。双通道推理架构应用于功能交互框架和基于模型验证其适用性。在实验中,我们表明,模型显著和持续超越基准模型,特别是在支持预测任务。后更详细的实验分析,证明了双通道推理结构具有较强的一步一步的推理能力比单通道的逻辑结构。在未来,我们认为以下问题值得研究。双通道的推理结构,两个渠道之间的交互策略,如均匀神经网络的软参数共享组件的两个渠道,值得进一步研究。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者在合理的请求。
的利益冲突
作者宣称没有利益冲突。
确认
这项研究是由中国国家重点研究和发展计划(批准号2018 yfc0832304)和中央大学基础研究基金(批准号2020 yjs012)。