文摘

语篇连贯与文本质量密切相关,使自然语言生成和理解很重要。然而,现有的一致性模型侧重于测量个人方面的一致性,如词法重叠,实体集中,修辞结构、测量等,缺乏语义的文本。在本文中,我们提出一个话语连贯性分析方法结合句子嵌入和维网格,我们通过深度学习获得文句上的向量表示,我们引入一个一致性模型,抓住了细粒度语义转换文本。我们的工作是基于假设每个维度中嵌入向量就是分配一个确定性和特定的语义。我们把每一个维度作为平等的网格和计算其转移概率。文档特征向量也丰富了模型的一致性。最后,实验结果表明我们的方法实现两个coherence-related任务性能优良。

1。介绍

一个编写良好的文本确实是严格的逻辑流。编写良好的文本,句子结构来传达作者的目的,并确保每个新块可将前面的上下文,也就是所谓的“连贯性。“造型文本连贯性一直是一个重要的问题随着multidocument总结(MDS)和摘要问答(QA),目前,它已与论文评分(1,2)和文本自动生成(3,4]。给定一个文本组成的句子,我们的目标是评估其合理性和确定质量一致性。

据我们所知,以前的工作模型一致性质量主要使用两种方法:一种是降维技术,如潜在语义分析(LSA),另一个是实体网格基于马尔可夫理论及其扩展模型。LSA的本质是奇异值分解)。奇异值分解后,document-term矩阵转化为三个矩阵,document-topic关系矩阵,主题关键词关系矩阵,keyword-term关系矩阵。一旦我们执行计算,同形异义词和文本分类可以在同一时间完成。然而,一些值,特别是底片,在生成的矩阵缺乏人工解释,一词多义和词序不能妥善处理。因此,实体网格模型(5),这是解释和拥有强大的理论基础,研究人员逐渐采用的方法。实体网格是一个统计模型基于集中理论(6),模型的文本通过关注句法角色的转变的重要实体和计算概率通过重复的文本转换过程。

虽然实体网格已经流行了它的简单性和实用性,仍有一些问题不能妥善处理:(1)它缺乏模糊性的实体网格是弱在处理类似的句子。例如,假设句子 下面的句子 是连贯的句子 ,当地的一致性 会判断是一致的。但是,如果我们现在替代品 与类似的句子 相似的实体 但不是一样的,当地的一致性 不会判断作为相干根据其刚性实体转换计算。(2)它只考虑语法水平的一致性,而不是语义。实体网格是基于集中理论,考虑到只有实体词;即句子表示只有实体词的语法作用。这导致偏差,如果句子有相同的实体和实体具有相同的句法角色,他们的连贯性应该是相同的。考虑两种不同的情况下,如图1

目前,深度学习已被广泛应用于文本研究并取得了一些不错的性能。文本单元(例如,单词,句子和段落)总是转化为低维向量,然后用于后续计算。在这篇文章中,我们表示深刻的学习工具生成的文本与分布式表示(sentence2vec,即。”,句子向量”)。然后,灵感来自于实体网格,利用这些分布表示建立模型。很少有实质性改善实体模型框架。提出了一个扩展的原始方法,变化的理论基础。

自从,22 et al。5,7)提出了实体网格,许多扩展方法出现。聂et al。8)提出了一个基于cluster-adjacency方法为multidocument总结任务顺序的句子。他们总结的句子映射到一个主题在源文件,以及对句子的邻接从源文档是基于集群,它们所属的邻接。然后,总结的句子的顺序可以使用第一句话。Elsner et al。9,10)改变一个实体词的选择方法通过考虑一个修饰词词的影响,包括网格中的所有实体构建模型。Burstein et al。2]实体网格模型应用到学生论文,表明,结合实体特征与特征相关的语法错误和用词,可以极大地提高自动化的性能一致性预测为不同人群对学生论文。Zhang et al。11)提出一个event-enriched模型缓解IR-style文本处理语义不足问题,把它应用到句子排序multidocument新闻摘要。排序算法是建立在事件和实体的一致性,在本地和全球。林等。12)计算出连贯的质量通过分析话语转换关系。Yannakoudakis和电话13]分析几种方法来评估一致性自动评估(AA)框架下通过测量对性能的影响与一个AA系统相结合,实现竞争的结果。Sukumar和Gayathri14)使用WordNet同义词集来确定句子之间的语义关系暗含一个总结,并构建一个模型,推断的逻辑关系。图形方法用于排名的句子,在节点代表句子和边缘代表的偏好值在另一个句子一个句子。林等。15]提出一种层次化建模语言递归神经网络模型文档。后建立一个RNN捕获文档中句子之间的连贯性,他们的模型集成了这个词的句子历史信息水平RNN预测cross-sentence上下文信息的词序列。Zhang et al。16)使用基于模型和外部知识获取语义相关度,然后他们把这个语义相关度作为附加功能的实体模型。陈等人。17)收集一个大型语料库的学术文本和获得一个数据驱动的方法来分析一致性的问题。Ermakova [18)使用相邻句子之间的相似度来衡量文本连贯性,和他们的工作表明,该方法基于词的相似之处与人类的判断具有非常高的协议。李和Jurafsky19]用歧视和生成模型区分连贯和不连贯的话语和生产一致的文本。Logeswaran et al。20.)提出一个端到端的无人监督的深度学习方法基于set-to-sequence框架模型的结构一致的文本。他们的工作表明,适当表示文本可以有效顺序的句子。胡和王21提出一个近端政策优化基于强化学习,和方法可以用于语义和语篇连贯性的认可。

本文的贡献可以概括如下:(1)我们把尺寸的网格单元,减少了从大型实体大小粒度细粒度的单维度。此外,我们使用所有的尺寸计算,考虑一个句子的所有信息提供和促进一致性评估到语义层面的语法水平。(2)计算的转变在一个维度和在不同的维度将考虑更多的有关信息。此外,我们计算网格集群转移概率的维度转变成对和使用集群维度转变对所属职业比例代表的概率,使模型代表模糊语义。此外,我们使用文档基于不同的转换条件概率作为特征向量排列模型,丰富的功能空间。

3所示。方法

在本节中,我们介绍了话语的一致性分析方法结合句子嵌入和网格尺寸。句子中嵌入包括实体电网建设和word2vec / sentence2vec表示。维网格包含维网格模型建设和文档特征向量提取。

3.1。实体电网建设

,22 et al。5,7]提出的实体网格捕捉文本的局部一致性方法。在方法中,文档被表示为一个矩阵行句子和列的实体。它是基于集中理论(6),主要指出文本可能是由一些重要的名词;如果两个相邻的句子包含相同的名词,他们更有可能一致。

条目 表示矩阵描述实体的句法作用 在句子 ,有四个标记的句法角色分配给实体: 为主题, 为对象, 对其他角色, 没有出现的一个实体。然后,句法角色转换的概率(例如, )计算在相邻的句子。给定一个具体的实体,可以估计其转移概率计算的比例不同的实体过渡类型在一个文本。这些概率值并将其用作特性来构建一个一致性模型。,22还使用特征选择(即。,年代yntax, coreference, and salient) to tag an entity in a text. After these processing steps, they use the document representations as vectors to input into SVM-rank to build a rank model. Figure2显示了增强与语法注释摘要网格计算。此外,图3演示了一个片段的实体网格构造图的文本2

3.2。Word2vec和Sentence2vec表示

Word2vec是一个自然语言处理(NLP)工具由托马斯Mikolov et al。22,23)的谷歌在2013年可以通过使用神经网络可以vectorize的单词和霍夫曼树。我们也叫它向量化嵌入过程词,结果是一个分布式表示,区分它和传统的一个炎热的表示一个词描述只使用串口0或1。Word2vec有两种训练方法:CBOW skip-gram。CBOW,上下文词汇是用来预测一个特定的词,skip-gram,用来预测一个特定的单词上下文词语。一次训练后获得的分布式表示使用一个足够大的语料库,我们可以方便地测量词汇和获得的结果之间的关系如“王”−“女王”≈“男人”−“女人”。

word2vec的成功后,Mikolov集团提出vectorizing句子然后sentence2vec提议。Sentence2vec word2vec某种程度上的扩展,促进了嵌入的单词句子水平水平。不同于word2vec,他们加入了段ID来识别每一个句子。段ID和这个词向量然后连接训练和预测句子向量。此外,在sentence2vec CBOW和skip-gram也。

实际应用验证了这些向量的可靠性。我们建议的模型的前提,一旦向量长度设置,每个维度是分配与规定的确定性和特定的语义,尽管我们无法解释人类语言。这些确定性是稳定的,我们关注的焦点。

3.3。维网格模型

在这篇文章中,有几个训练语料和模型。为了避免混淆,我们尽力清楚地解释每一个培训过程。首先,我们开着一个足够大的火车sentence2vec语料库,维基百科,获取句子嵌入模型;然后,任何句子都可以嵌入继续下面的计算。注意,语料库刚刚提到的用于培训和获得sentence2vec的语料库,一旦sentence2vec模型训练,这语料库是无用的,可能会被丢弃,因为嵌入模型所需要的。此外,训练语料,包括文档,每个文档包含句子连贯性计算。我们引入一个随机文档训练语料库的相干计算,和其他文件可以以同样的方式处理。假设有文档和sentence2vec生成句子n维向量的每个句子,那么这个文档可以表示为一个二维矩阵 ,这里我们表示Val矩阵。

我们计算整个跃迁概率通过计算详细的跃迁概率从句子的每个维度 每一个维度的下一个句子 注意,在实体网格方法中,只有4例( , , , )对于每个实体,每个案例的比例在一定程度上永远是一个正常的分数。使用这些分数每个实体的转移概率从一个句子下进行以下计算。然而,对于分布式表示,维度值的范围是整个真实空间。如果我们仍然使用传统方法计算的过渡,将会出现一个新的问题,那就是分母会太大,由于大量的数对。此外,分子是单数,因为即使值差异小于0.0001,两个数字将仍然被认为是不同的,对数量将被认为是更多的不同。这将导致下溢因为分数值会太小了。计算转移概率的算法1,算法的输入文档集 ,其中包含所有 文档。每个文档的 是一个列表的句子,每个句子由 维句子向量。的跃迁概率算法的输出 维度的 尺寸在一个集群中 表示为 更多的细节下面的伪代码所示。

输入文档设置T包含所有h文档
输出的转移概率T
(1) 文档生成矩阵,瓦尔(][j]= docs·get ()[j]
(2) 生成坐标Val的列表,
林后[j][k)追加(Val [][j],Val [+ 1][k])
(3) 集群每个坐标,设置数量的集群R,p= [][][]
集群在软木(j][k),获得R集群
num_r=数分簇,
在软木(num_all =数分j][k]
p(j][k][r]= num_r/ num_all
(4) 返回p

因此,我们设计一个方法来计算一对过渡的可能性。从一维过渡的句子 一维的下一个句子 ,这个值可以被视为一个点在一个二维坐标系统。也就是说,两个数字值上的坐标值X设在和Y设在。因此,坐标系统因为有 类型的转换,为每一个坐标系统,都有 点投影。这只是对一个文档,我们分析相干计算的训练语料库中的其他文件以同样的方式,以新的值对为坐标点和连接上述坐标系统。

具体来说,我们是一个坐标系统 ,表明坐标系中包含的信息的过渡 维度的 维度的训练文本。开始的 句子在文档 ,我们提取 维度的价值 句子 维度的价值 句子 形成一个点 ,和这一点会投影坐标系统 句子的末尾一个文档,我们将迭代项目 点坐标系统 然后,我们可以获得坐标系统 、… , ,…, ,在总 坐标系统与点投射到它们。基于坐标系统构造,新未来的其他文档连接到相应的坐标系统。

假设预计的所有文档 坐标系统和有总年代在每一个坐标系统。然后执行聚类为每个坐标系统,集群的数量统一为所有系统设置;也就是说,所有坐标系统使用相同数量的集群 为集群。对于每一个坐标系统,我们记录聚类结果,包括集群的数量 ,每个集群的标签 其中心观点 ,点的数量 ,和坐标系统中所有的点的数量 ,作为我们的训练参数。在集群的比例 占总分的坐标系统 用于表示中包含的点的转移概率 ,表示为 通过这种方式,我们将执行相对应的聚类过程 坐标系统。所有这些统计信息存储为执行以下计算模型。

3.4。文档特征向量

更有效的方法来表示文本,我们设计文档特征向量相比完全不同的实体网格。在这里,我们定义了文档向量是由每个坐标系统的转移概率。也就是说,对于一个培训文档 ,其特征向量是 在哪里 从坐标系计算迭代 ,和每个 的跃迁概率 在过渡坐标系对应的下标。

我们现在讨论如何获得 给定一个培训文档 使用sentence2vec句子,我们首先获得句子向量,然后这些向量进一步 ,表示为一个矩阵是什么 行和 列,最后一章中描述。开始的 句子中 ,我们获得 并找到它属于集群的坐标系统 在这里,假设 属于集群 在坐标系统 ,我们分配转移概率 作为其概率。在这里,我们只考虑的过渡 维度的 维度为例。我们分析整个文档和总结所有的转移概率 然后,我们正常结果和使用结果的文档转移概率 在坐标系统 也就是说,我们指定一个归一化的结果 文档特征向量是通过算法2,我们使用 代表 然后,我们可以计算出其他维度 以同样的方式。算法的输入是一个文档 的句子,每句话为代表 维句子向量。的训练文档集的转移概率 维度的 尺寸在集群 表示为 , 表示训练的坐标系统。算法的输出文档的特征向量

输入文档doc_已doc_. length句子;
输出文档特征向量φ(doc_)。
(1) 通用矩阵的医生,瓦尔(][j]= doc_. get ()[j]
(2) 通用文档的特征向量,
dist (r)=集群中心的距离r点(Val [][j],Val [+ 1][k])
r′= argmin dist (r)
p=p+ PTr(j,k)(r′)
(3) 正常化,
p=p/ (doc·长−1),
(4) 返回φ(doc_)

使用这种方法,任何文档可以表示成一个特征向量。然后我们使用这些向量训练rank-SVM。注意,现在的训练数据用于rank-SVM和略不同于原来的培训文档,因为一些self-permutation文件生成。我们重新排列句子在最初的培训文档,获取每个候选集由一个源文档和排列的句子,我们使用这种方法将它们转换成特征向量。我们假设原始文档比它的任何更连贯的排列,也就是说, ,这是约束训练rank-SVM。测试时,测试文档的排列。如果 ,这意味着预测是正确的。

4所示。实验和分析

这部分可能是除以副标题。它应该提供一个简洁而精确的描述实验结果及其解释,以及实验可以得出结论。

4.1。环境设置

实验是部署在一台电脑配置如下:一个8核处理器速度的3.2 GHz, 32 GB的内存,1 TB硬盘,Ubuntu 16.04(64位)操作系统。sentence2vec,我们使用它的Python实现提供GITHUB (https://github.com/klb3713/sentence2vec),PyCharm Python运行环境。我们建议的模型是使用Java来实现的,月亮的运行环境是Eclipse 4.4版。

首先,我们使用维基百科语料库(https://dumps.wikimedia.org/jawiki/latest/)[24),大约14 GB,训练sentence2vec。当执行句子嵌入,维度的数量设置需要仔细考虑。设置影响二次数量级上的计算复杂度,极大地影响下面的过程,因为有好几遍历计算过程。如果尺寸设置的数量等于或大于100,10 k会出现更多的中间结果,这将导致维灾难和大大增加工作量;因此,我们这个句子嵌入维度的数量设置为50减少计算成本。Sentence2vec包含word2Vvec过程,所以大部分的训练时间当我们训练Sentence2vec定于word2vec。我们获得sentence2vec模型后,任何句子都可以表示为一个向量50维度。当执行聚类,我们使用Weka (https://www.cs.waikato.ac.nz/ml/weka/)[25)API作为聚类工具,数据转换为Weka接受飞机救援消防的格式。Weka是一个机器学习包用Java编写的,我们可以使用它的API来方便地运行算法。在这里,k选择聚类方法,则和集群的数量设置为5,10、15、20、25、30。

4.2。句子排序实验

第一个实验包括排名替代文档的句序,,22和Lapata提出的(5Elsner]和[9]。

4.2.1。准备实验数据

在这里,我们使用相同的句子排序语料库[5)的实体网格。该语料库包含2类文章:事故和地震。对于训练集,事故的文章包含关于事故的100篇文章,每篇文章20随机排列,2200双(原文件的副本,文章也包含在排列)。此外,文章还包含100篇文章关于地震,地震20随机排列的每一篇文章,2135对。这些细节的训练集和测试集以同样的方式形成的。最后,对在测试集的总数是2087和2056。

4.2.2。结果和分析

以下基线用于比较。实体网格。实体网格(5)开始为造型文本网格方法,许多grid-related模型后。实体网格使用NLP技术,如指称相同分辨率,富有表现力的句法信息,salience-based特性获得最好的性能。嗯。隐马尔科夫方法(26]寻求集群模型转移概率在连贯的上下文中使用的语法功能。句子需要提前集群,集群的数量作为一个参数。我们直接把路易和Nenkova的论文和报告的结果最好的结果在不同的组合参数和功能设置。图。图的方法(27]扩展实体网格模型两偶图来表示文本和计算的本地一致性两偶图的实体过渡。这种方法优于原来的实体功能设置方法。窗口网络。窗口网络方法(28)两种神经网络的方法,适用于复发和递归网络,这个句子排序的任务。自动学习语法和语义表达的句子,并在句子排序性能优良的任务。

12结果显示我们的方法与他人相比。我们可以看到实体网格模型提出了一种强烈的基线上的事故数据集。我们的方法的性能是最优的簇的数量设置为20。事故数据集上的实验结果为我们的方法略优于实体网格模型。此外,在地震数据集,我们的模型优于实体网格和图方法以绝对优势取胜,执行本级HMM和窗口(复发)方法,并执行不如大约0.02的窗口(递归)方法。总之,整体效果达到一个优秀的性能在两种类型的数据。

进一步验证算法的效率,我们比较不同模型的训练时间和响应时间在两个数据集,和结果在图所示45至少,这表明我们的算法训练时间和响应时间在两个数据集。

4.3。总结一致性评价实验

为了测试我们的模型的有效性,总结相干评级也进行实验。为此,我们从,22和Lapata(使用相同的语料库5]。这个数据集账户不仅对文本的连贯性,也对其他维度的总结:内容选择、流畅,等。从一对总结,一个稍微比另一个连贯的,我们的目标是要两个总结根据当地连贯性。

4.3.1。实验数据

不同于上面的句子顺序的实验中,这个数据集来自文档了解会议5 (29日)(DUC 2003)。数据集包含16个文档集群,每5机器生成的摘要和1人类书面总结;因此,总共有6×16 = 96总结,每6总结包含相同的信息和变化。96总结评判得分在177年无偿志愿者都以英语为母语,和评级得分范围从1到7为每一个总结。每2总结6内形成一对总结,在上面的句子排序实验;因此,有240个成对排名。通过消除一些成对的总结人类总结分数相同,我们获得144成对排名的培训,80成对排名进行测试,6发展成对排名。即使所有的总结都是大约相同的长度(平均114.2的话),句子长度可能会有很大差别。事实上,更连贯的摘要倾向于有更多的句子和包含更少的实体。

4.3.2。结果和分析

基线选择这里是实体网格和图方法中引入句子排序实验,和数字67的比较几种方法的准确性和召回,分别。横坐标表示kk——我们设置为5,10、15、20、25岁或30岁。

我们的方法的准确性会略微下降当集群数量的增加从5到10。原因在于,不同于之前的数据集的文档对包含相同的句子但是不同句子订单,汇总的数据集生成一致性评价实验从不同的角度,也就是说,不同的摘要可能使用不同的表情来表达同样的事情。虽然5小于10,它提供了更好的模糊性和包容性。总的来说,实现最佳的性能当集群的数量是15,它平衡了包容性的语义模糊性和文档的丰富特性。一方面,我们设置的群集的数量越小,越一个集群包含语义,语义模糊性。另一方面,集群影响文档特征向量的数量,因为数量大的我们,每个转移概率空间就越大,也就是说,丰富的文档特征向量。因此,在这个实验中,15是一个平衡的点,一旦超过这个点,增加集群的数量并不能提高的结果。

5。结论

我们提出一个维度网格的方法,包含句子嵌入表示,模型文本连贯性。每个维度的句子作为网格细化语义粒度、和模糊聚类方法应用于提高公差的计算语义跃迁概率。关键的一点是,我们改变的基本理论,是原始的实体网格的基础方法;我们考虑所有网格,而不是一些突出的因素。可靠性验证和良好的性能是通过实验。本文涉及到更多的统计计算和更少的NLP技巧;因此,在未来的研究中,NLP技术,如指称相同分辨率和特征选择可以合并,和不同的聚类方法对结果的影响研究。我们相信这项工作给其他灵感coherence-related诸如文本生成、QA系统,multidocument总结,论文得分。

数据可用性

实验数据用于支持这项研究的结果已经存入GITHUB库(https://github.com/mrlijun2017)。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是由中国国家自然科学基金(没有。62066009),博士的基础研究项目(没有启动。UF20034Y),中年和青年教师的基本能力促进广西项目(没有。2021 ky0222),中国博士后科学基金会的广西(没有。C21RSC90SX03)。