文摘

机器理解非结构化文本是一项具有挑战性的任务,因为它涉及到理解文本和回答问题。在本文中,我们研究了基于MC任务阅读理解多项选择题测试数据集和中国阅读理解数据集,其中中国阅读理解数据集是由我们自己。观察上述的训练集,我们发现“句子理解”比“理解”一词在多项选择题更重要的任务,因此我们建议文句上的神经网络模型。模型首先使用LSTM网络和组合模型学习作曲的向量表示句子然后火车能注意语句模型获取句子之间的能注意语句嵌入在文档和可选的句子嵌入点积。最后,达成共识的注意力获得通过合并个人关注和合并功能。实验结果表明,我们的模型明显优于各种最先进的基线为多项选择题阅读理解数据集。

1。介绍

阅读理解是阅读文献的能力,理解它们的含义,并回答问题。当机器需要理解文本,他们需要了解非结构化文本,做推理基于文本(1- - - - - -3]。这是一个重大的任务领域的自然语言处理和机器学习。

最近,机器阅读理解(MC)越来越关注和几家大型阅读理解数据集也被释放。发布的几个数据集,任务越来越艰巨(从CNN /每日邮报数据集队,然后TriviaQA)与系统性能迅速提高每个新发布的数据集。CNN /每日邮报数据集[4]是一个cloze-style阅读理解任务,旨在理解给定文档,然后根据给定的文档,回答问题,每个问题的答案是一个字的内部文档。队(5]阅读理解是一个答疑任务,进一步限制了答案经常包括虚无和更长的短语的连续subspan文档。显然,目前的任务是更加困难比cloze-style任务。TriviaQA [6]阅读理解的任务,也是一个答疑但是TriviaQA的任务比国家队的任务更加困难,因为答案TriviaQA是独立的证据和属于不同的类型。

不同于上面的,任务根据特定数据集(3]是一个多项选择题阅读理解,每个相关的例子包括一个文档和四个问题,每个问题给出了四个候选答案,只有一个答案是正确的。在本文中,我们关注这样的问题回答多项选择题的问题的文件,同时,我们也发布中国阅读理解数据集等多项选择题的任务。据我们所知,中国数据集是第一个阅读理解这样的数据集和更复杂的比其特定的数据集。这样的例子数据集包含一个文档和一个相关的问题,给出了5个候选人的回答。这个数据集的具体细节部分2。坦白地说,多项选择题阅读理解任务仍相当具有挑战性。首先,回答的形式一个可选的句子通常不会出现在文档;另一方面,找到给定问题的正确答案需要跨多个句子推理。因此,句子理解比单词理解在更重要的任务选择题阅读理解。

句子理解的任务,我们提出一个能注意语句模型主要受关注模型Cloze-style阅读理解(7,8]。但是,与Cloze-style注意力模型,选择题答案是可选的句子。卡尔等人。9)火车encoder-decoder模型编码一个句子成固定长度的向量和随后解码下列句子。他们还表明,嵌入低维向量用于其他任务。Pichotta et al。10)能LSTM语言模型为脚本语句推理。结果表明,该模型用于预测丢失信息文本。类似于上面的模型中,我们还提出一个句子表示模型,使用LSTM网络学习向量表示句子。此外,我们使用句子成分模型来表示句子向量,因为模型可以表达层次从单词,短语,句子和句子。为了留住更多信息两种句子表示模型,我们采用连接方法组合最后一句向量。然后,我们训练一个句子注意文档中可选的句子和句子之间的模型。机器能够学习文档之间的关系引起神经网络和可选的句子。

实验结果表明,我们的方法可以有效地提高性能的多项选择题阅读理解的任务。在以下文本,中文阅读理解数据集,相关的工作,我们的模型的细节,和实验将被描述,,后来,我们的实验将进行分析。

2。中文阅读理解数据集

在本文中,我们集中在多项选择题阅读理解任务。类似于其特定的数据集,每个示例包含一个文档和一个相关的问题。和每个问题给了5个候选人的回答。然而,比其特定数据集数据集比较复杂,它是一个文学阅读理解数据集从测试材料在高中期末考试。盒子1中国阅读理解数据集显示了一个示例。

数据集,描述的问题基本上是固定的,在下面:“问题”。因此,问题是忽略的角色在中国阅读理解任务。任务的目标是理解个人文档并选择最一致的选项与文档的含义。因此,中国阅读理解可以被描述为一个三: 在哪里D是文档,C表示选择,一个是一组的每个元素被标记为0或1根据文档的意义(如果选择是符合文档的含义,它是标记为1;否则它是标记为0)一个可以被描述为以下:

问题:“请选择两个错误的选项根据文档的内容:“答案:C E(回答标签):(1 1 0 1 0)

在训练阶段,我们选择一个769 -文学-阅读理解数据集收集从测试材料在高中期末考试。在测试阶段,数据集包括三个部分:13北京高考论文(BCEETest), 12个模拟材料(SBCEETest1)是由iFLYTEK公司和52测试材料的期末考试在北京高中(SBCEETest2)。收集的数据集都是山西大学的中文信息处理组。训练和测试数据的统计数据如表所示1

机器理解目前机器学习社区内的一个热门话题。在本节中,我们将侧重于表现最好的模型应用于特定轴和CNN /英国《每日邮报》根据两种阅读理解任务。

3.1。多项选择题阅读理解

现有的模型大多是基于手动为特定设计功能(11- - - - - -13]。这些工程特性模型是非常有效的。然而,这种研究往往需要大量的努力辅助工具来提取特征及其泛化能力是有限的。

阴et al。14)提出了一种分层引起卷积神经网络为多项选择题阅读理解任务。模型考虑多级粒度,从单词到句子层次,然后从句子片段。这个模型在特定表现很差。一个可能的原因可以解释这是稀疏数据集。然而,神经模型可以解决提取的特征问题,所以它吸引了越来越浓的兴趣选择题阅读理解任务。递归神经网络对序列数据,通常使用。我们提出一个多项选择题阅读理解递归神经网络模型。我们的模型使用双向LSTM句子的上下文表示。

3.2。Cloze-Style阅读理解

赫尔曼et al。4]发表了CNN /每日邮报新闻语料库的内容是由新闻文章和摘要。同时,崔et al。7]发布HFL-RC PD&CFT中国阅读理解的数据集,其中包括人们每日新闻数据集和儿童童话故事的数据集。这些数据集,提出了许多神经网络模型对Cloze-style阅读理解任务。赫尔曼et al。4)提出了细心和耐心的读者。细心的读者使用双向文档和查询编码器计算一个注意力和注意力在读者没有耐心,计算查询的文档在阅读每一个字。陈等人。1)提出了一种新的神经网络架构Cloze-style阅读理解。细心的读者相比,关注权重模型的计算与双线性项,而不是简单的点积。Kadlec et al。15)提出了关注和读者,它使用注意直接选答案从上下文。模型使用注意指针在文档上下文中离散的令牌,然后直接和这个词在所有事件的关注。崔et al。7]介绍了共识引起神经网络,即共识和读者的关注,并发布中国阅读理解的数据集。模型计算一个关注每一个时间片的查询,使达成共识的注意在不同的步骤。崔et al。8)也提出了attention-over-attention神经网络,即attention-over-attention读者。模型提供了一个机制,注意的地方另一个关注的主要关注,表明每个关注的“重要性”。Dhingra et al。16)提出了gated-attention读者对文本的理解。注意机制的模型集成了一个多次反射架构基于乘法之间的交互查询递归神经网络嵌入和中间状态的文档阅读器。

总而言之,都是引起RNN模型已被证明是非常有效的句任务。在每个时间步,这些模型将一个单词作为输入,更新一个隐藏的状态向量,并预测答案。在本文中,我们提出多项选择题阅读理解文句上的注意力模型。我们的工作主要是受关注模型Cloze-style阅读理解。

4所示。能神经网络读者语句

在本节中,我们将介绍我们的文句上的神经网络模型为多项选择题阅读理解任务,即字面意思读者的关注。我们的模型主要是出于崔的et al。7),旨在直接估计答案能注意语句的可选的句子而不是计算的实体答案句的注意。的层次结构模型图所示1。首先,文档分为几个句子 和句子嵌入计算通过嵌入层。其次,我们使用双向LSTM获取的上下文表示句子,每个句子的表达是由连接前后隐藏状态。第三,能注意语句是由句子之间的内积计算嵌入在文档和可选的嵌入。最后,关注的个体关注合并到一个共识合并功能。下面将给一个正式的描述我们提出的模型。

4.1。句子表示

我们的模型的输入文档中的句子,选择,和每个句子由单词序列。这个句子译成句子嵌入通过嵌入层,这是由LSTM句子模型和句子成分模型(17)见图的嵌入层1。LSTM句子模型是一个bi-LSTM层平均池层紧随其后。bi-LSTM层是用于获取的上下文表示单词和平均池层是用来将词向量合并到句子向量。另一方面,我们使用了句子成分模型组成句子向量。句子向量训练神经网络模型相结合,训练有素的单个单词和短语组成的三重矢量(三( ))。句子成分模型如图2。我们表示p作为最后一个句子向量。为了留住更多信息两种句子的表达模型,我们采用多层神经网络组成最后一句向量, ,在那里 是LSTM句子的句子向量模型, 是句子成分的句子向量模型, 是一个参数矩阵。

除了上述表示的句子,句子的上下文对推断答案也很重要。所以句子的嵌入在文档中输入到bi-LSTM层上下文表示。在我们的模型中,双向LSTM用作RNN的实现。

最后,我们把h表示句子的上下文表示。 表示选择嵌入的句子,d表示选项的数量。

4.2。能注意语句

在关注层,我们直接使用的点积hhc_s计算文档中每个句子的“重要性”对于每一个选项。我们使用将softmax函数得到一个概率分布。为每个文档中的句子,“关注”计算如下。 在变量 关注体重吗t在文档。

合并层的共识的注意力由合并计算函数,如下所示。 在哪里 是最关注重量和数量

4.3。输出层

最后,答案是估计将softmax函数。 在哪里 表明将softmax层和权重矩阵 是答案的一个概率分布。预测答案的标签(如“1 1 0 1 0”)得到的概率。图1显示了该神经网络架构。

5。实验

在本节中,我们评估我们的模型在mct和我们的中国阅读理解数据集。我们发现,尽管模型简单,实现对这些数据集先进的性能。

5.1。实验的细节

我们使用随机梯度下降法与AdaDelta更新规则18),它只使用一阶信息自适应更新学习速率随着时间的推移,最小的计算开销。训练模型,我们负对数似为目标函数最小化。批处理大小设置为5和迭代次数设置为25。

词向量我们使用谷歌公开嵌入(19),7万是谁的训练数据集文学论文。的维数字嵌入被设置为200。当我们能注意语句实现读者,很容易overfit训练数据。因此,我们采用辍学方法(20.)为正则化目的和处理过度拟合问题。的辍学率是中国阅读理解数据集0.1和0.01在其特定的数据集,分别。实现我们的模型都是用theano [21]。

答案是预测根据选项是否符合文档的意义对于多项选择的任务,所以我们只评估系统性能方面的精度( = right_options / sum_options)。

5.2。结果在特定数据集

来验证我们提出的模型的有效性,我们首先测试模型在公共数据集。表2礼物的性能特性工程和神经特定测试集上的方法。第一个四行代表特性工程方法和最后四行神经的方法。我们可以看到特性工程方法明显优于神经的方法。一个可能的原因是,患有神经方法训练数据的相对缺乏。所以我们要分析相关特性并将它添加到我们的神经网络模型在未来的工作。

为神经方法,细心的读者4)实现词表示水平和深度模型与成千上万的参数,所以它特定轴上表现很差。神经reasoner [22)有多个推理层和所有临时推理影响最终答案表示。HABCNN-TE [14是卷积网络架构。它可以减少参数的数量,但不能提供足够的上下文表示。我们的方法解决上述问题的方法。首先,复发性架构网络还减少了参数的数量和它在句子层面上可以提供上下文表示。然后,我们使用max + avg方法减少所有片段的影响。实验结果也表明,我们的方法执行比其他三个神经的方法。

5.3。结果中国阅读理解的数据集

我们有四个中国阅读理解的基线数据集。一个是HABCNN-TE方法是最优的方法对特定数据集和其他三个如下。

(我)第一个基线是灵感来自崔et al。7]。我们使用共识引起神经网络(称为CAS读者)词的文档和选择。模型计算的注意每个文档直接的话,在时间t对每个选项的单词。最后的共识的注意选择合并计算的函数。

(2)第二个基线使用滑动窗口和火柴一袋字由文档和选项,分别(称为匹配读者)。这个基线是灵感来自Zhang et al。23]。

(3)第三个基线是句子相似度测量模型(称为SM读者)。之间的相似性提出了余弦相似文档句子和句子。这句话表示来自大et al。24]。实验结果给出了表3

结果在三个测试集能注意语句表明我们的读者给竞争结果在各种最先进的基线。我们可以观察到的准确性BCEETest优于其他测试集。可能的原因是,高考更标准化的模拟。同时,我们注意到,文句上的性能模型比句模型。例如,在BCEETest集,SM的读者(字面意思)优于匹配读者(句)3.4%,能注意语句的读者(字面意思)优于CAS读者(句)4.9%精度,分别。

在试验我们发现相关句子的数量选择是非常重要的。所以我们也评估不同的合并函数作为中科院读者。结果如表所示4。从结果中,我们可以看到,avg和求和方法比最大值的方法。一个可能的原因是马克斯方法相当于一个句子的文档而不是原始文档和信息丢失。然而,这样做达到最佳性能,所有的句子在文档中使用的模型。为了测量它,我们也使用max + avg方法合并功能。“马克斯”表示 句子和“avg”表示的平均值 的句子。与平均方法相比,max + avg方法的准确性增加了约2%在三个数据集。这结果与误差分析部分是一致的5。5。我们怀疑一些句子干扰最终答案是负面因素。图3显示的是实验前 我们随机选择5个选项来做实验从13北京高考论文(BCEETest)。我们可以看到,周围的注意力不会继续增加10。所以 在我们的模型中设置为10。如框所示2。大胆的词表示选择最相关的句子 ;斜体词有点关系的选择 ;“……“没有关系。

5.4。句子表示模型分析

在本文中,我们使用两个模型的句子表示,LSTM句子和句子成分模型和模型(17]。因此,我们已经测试了两种模型的贡献到最终模型,分别。结果如表所示5

结果在三个测试集显示融合模型的精度优于任何单一模型。因此,我们使用能注意语句在神经网络融合模型。

5.5。误差分析

为了更好的评估建议的方法,我们执行一个错误的定性分析。两个主要错误是由我们的分析显示,我们将在下面进行讨论。

(我)定位功能词(如“第二段…”)通常出现在选项。进一步分析我们的模型的定位属性,我们也检查的准确性依赖定位功能词。和所有的句子都被相关句子定位功能词的文档。精度提高了约3%,这三个数据集。我们使用的定位功能词如下所示。

[论文的结束;第二段;结束段落;论文的结束;第一段)

根据上面的描述,我们将考虑增加更多的功能,如位置的特性,我们在未来的工作模型。

(2)我们的模型可能犯错误当与情感表达的选项(如“本文不仅包含古迹,而且渗透到现实的关注和表达作者的渴望提高民族的文化素质。”)。很难计算出文档选项之间的关注情感和情绪。正确处理这类案件,我们的模型会考虑未来工作中的情感功能。我们有超过500的情感功能的话,像“发人深思的”,“直接表达人的大脑”,等等。

6。结论

在本文中,我们引入一个字面意思神经网络模型来处理中国多项选择题的阅读理解问题。实验结果表明,我们的模型给出了一个最先进的精度评估数据集。我们也使用max + avg方法合并功能和max + avg方法的准确性增加了约2%。此外,我们分析了定位功能词和发现的准确性增加了约3%。

未来的工作将在以下几方面进行。首先,我们想扩展我们的汉语阅读理解数据和释放它。第二,我们要分析情感特性并将其添加到我们的神经网络模型。

数据可用性

中国阅读理解数据用于支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了国家自然科学基金(61772324号,61673248),中国山西省自然科学基金(没有。201601 d102030),山西省联合培养人才项目研究生培训基地(2018号。2017 jd05 jd01)。