利用神经注意模型对上下文句子进行文本分类

抽象的

我们探讨了几种方法，将关于文本分类的深度学习框架中的上下文信息合并，包括基于不同的神经网络设计不同的关注机制，并通过传统方法从文本中提取一些附加功能作为表示的一部分。我们提出了两种分类算法：一个是基于卷积神经网络融合上下文信息，另一个基于双向长时间内存网络。通过在句子级别和字级别设计注意结构和字级别，我们将上下文信息集成到最终特征表示中，这增加了特征信息的分集。我们在两个数据集上的实验结果验证了两种模型的优点，而在时间效率和准确性方面与具有基本架构的不同型号相比。

1.介绍

文本分类应该是自然语言处理(NLP)中最常见的应用，如自动文章分类、自动邮件分类、垃圾邮件识别和用户情感分类[1那2］．因此，它引起了许多研究者的关注。20世纪90年代以后，互联网在线文本的数量和机器学习学科的兴起，逐渐形成了一套解决大规模文本分类问题的经典解决方案。这一阶段的主要程序是人工特征工程+浅分类模型。

特征工程分为三个部分:文本预处理、特征提取和文本表示，其最终目标是将文本转换为计算机可理解的格式，并封装足够的信息进行分类。其中，文本表示是决定文本分类质量的最重要的部分。传统方法常用的包词(BOW) [3.］．然而，这种方法遭受了高纬度和高稀疏性[4.那5.］．弓模型通常通过特征项选择减少维度，即，根据评估指数独立地排序原始功能项目（术语）[6.］．

此外，通过特征权重计算增加了密度，主要基于经典术语频率 - 逆文档频率（TF-IDF）方法及其扩展方法[7.］．主要思想是，单词的重要性与类别内的单词的频率成比例，并与所有类别的出现次数成反比。获取文本表示后，指定文本分类器，例如逻辑回归和支持培训模型的向量机[8.那9.］．传统方法最大的缺点是忽略上下文，不能表达语义信息和词与词之间的独立性。

深度学习在图像和语言方面取得了巨大的成功。一个重要的原因是图像和语音的原始数据不仅是连续的，而且具有密集的局部相关性。目前，应用深度学习解决大规模文本分类问题是文本表示领域的重中之重。其方法是利用卷积神经网络(CNN)或循环神经网络(RNN)等网络结构自动获取特征表达能力，去除复杂的人工特征工程，然后端到端解决问题[10那11］．此外，作为最成功的概念，分布式表示的基本思想是将每个单词表示为一个n维密集的连续实向量，它有助于学习算法获得更好的性能。

CNN最近在许多域中实现了非常成功的结果。在NLP中，CNN利用1D卷积来执行特征映射，然后在时间步维上应用1D最大池操作，以获得作为句子表示的固定长度输出[10那12］．RNN可以通过首先将包括每个文本的令牌转换为viectors来利用单词的分布式表示，这可以形成矩阵[13］．该矩阵包括两个维度：时间步长和特征向量维度。然后，该模型可以利用1D最大池或基于关注的操作，其提取最大值或在矩阵的时间步骤中生成加权表示，以获得固定长度向量[12那14那15］．

在深度学习中，大多数基于CNN或RNN的文本分类方法都没有考虑句子的上下文。但是，如果一个句子没有上下文，即使是人也很难找到对应的范畴。因此，有必要利用上下文或顺序信息来帮助对当前句子进行分类。例如，在对话行为(DA)分类任务数据集中，如果前面的话语是一个问题，那么下一个话语最有可能是一个答案。这些上下文信息已经在前面的一些方法中得到了研究，如隐马尔可夫模型(HMM)、条件随机场(CRF)等[16那17］．利用上下文信息的主要思想是将输入句子扩展到符合当前句子的序列中，该句子将被分类。

然而，在分类任务的不同情况下，上下文句子和当前句子应该具有不同的重要性;否则，它可能会增加当前句子信息的丢失。显然，注意机制（AM）非常适合解决这个问题。灵感来自AMS的表现，我们在基于CNN和LSTM的模型中使用AMS在不同层次中探讨了不同的方式，以消除无效信息并获得更准确的上下文交互信息，最后提高性能。

首先，本文探讨了利用自适应向量机学习上下文表示，作为一种融合上下文、突出关键信息、忽略不重要部分的文本分类方式。特别地，我们设计了一个特征选择架构，以获得附加的特征，并将其表示作为更高层次的多层感知器的输入。因此，我们的贡献总结如下:（1）本文提出了利用上下文句子进行文本分类的模型。我们设计了两种AMs来实现模型，一种是基于CNN的句子级考虑，简单但不准确;另一种是基于LSTM的词级考虑，复杂但更有效和创新。（2）为了保留原始功能和高阶功能，我们将神经网络层与本文中的传统方法相结合。也就是说，我们通过神经网络通过人工结构和特征提取和语义特征获得最终特征表示。（3）最后，我们利用时间和准确率对所提出的模型进行评价，并从对话行为分类任务的结果分析各自的优点。对话行为描述了基于语用、语义和句法标准的对话中的话语。至关重要的是，对话行为是连续的和上下文相关的。实验结果表明，该方法在时间和准确率方面都有较好的分类性能。

2.1。传统方法

文本分类对自然语言处理系统具有重要意义;此外，在这方面也有大量的研究。一种简单有效的文本分类方法是先用BOW表示句子，然后再训练线性分类器。有一些特征选择方法可以降低弓的维数;即选取得分最高的特征项，过滤掉剩余的特征项[6.那18那19］．常见的特征选择算法包括Chi-Square测试（Chi），差距（或）和Gini指数（Gini）[13］．然而，最基本的问题是BOW忽略了单词和语义的顺序信息。在这种情况下，N-gram模型是另一种流行的表达句子的方法，这种方法通常表现最好。单词或字符被投射到一个低维空间，这些嵌入被合并以获得输入句子的固定尺寸表示，然后作为分类器的输入。然而，N-gram模型仍然存在数据稀疏性问题[20.］．

２.２.深度学习的方法

基于深度学习的神经网络模型在文本分类任务方面取得了很大的进步。近年来，深度神经网络和表示学习为解决数据稀疏性问题提供了新的思路，并提出了许多用于学习单词表示的神经模型[21那22］．因此，一些基于神经网络的方法学习短语和句子表征遵循这些方法。

RNN的主要思想是将先前隐藏单元的数据和输入单元的数据组合，以递归地实现“循环”效应。然而，这种结构使RNN更适合于加工短序数据而不是长序数据，因为它会导致梯度爆炸或渐变消失[23］．作为RNN的扩展，长短时间内存（LSTM）网络通过引入门的概念来解决这个问题[24］．Tang等人。[25]开发了目标相关的LSTM，其中自动考虑目标信息。泰等。[23研究了LSTM到Tree-LSTM，其中每个LSTM单元从它的子单元获得信息。对于某些任务，在进行预测时，如果我们能同时考虑从左边(过去)到右边(未来)的两个单词，将是有效的。这正是双向长短时间记忆(BLSTM)网络所做的，它由两个lstm组成。一层从左到右向前，另一层从右到左向后[26］．本文也采用了这种结构。

一种基于CNN的较浅神经网络用于句子分类的方法[10]：一个带有多个宽度和滤波器的一个卷积层，然后随着时间的推移。最终的分类器使用一个完全连接的图层，辍学。Kalchbrenner等。[27]提出了一个使用更深层次的类似系统。一个重要的区别是动态K.介绍了-MAX汇集机制。这允许检测K.句子中最重要的特征，不管它们的具体位置，都保持它们的相对顺序。为了探究架构组件对性能的影响，Zhang和Wallace [28]对CNN和Yin and Schutze进行了层敏感性分析[29]引入多通道嵌入和无监督预训练来提高分类精度。文中还对递归网络和卷积网络的结合进行了研究。Zhou et al. [30.]利用CNN训练了一个模型，得到作为LSTM一层输入的文本的高级特征。

在文本分析的改进中，最早应用于图像处理的AM也逐渐应用于自然语言处理领域。在NLP中使用AMs的第一个工作是由Bahdanau等人解决神经网络机器翻译(NMT)。18］．梁及曼宁[31继上一篇论文之后，又写了一篇具有代表性的论文。他们的工作告诉我们如何在RNN中扩展注意力。在本文中，他们提出了两种注意机制，一种是全局机制，另一种是局部机制。提出了一种基于层次注意网络的文档分类方法，首先对文档中的句子进行注意，然后对句子中的单词进行注意[32］．殷等人[33]提出了在CNN中使用注意力的三种方法，这是CNN对注意力的早期探索工作。双向注意流网络引入了一个相对复杂的AM。双向注意流网络是一种分层的多级体系结构，用于在不同粒度级别上对上下文段落的表示进行建模[34］．在本文中，我们在设计基于LSTM的注意机制时，我们还借用了这个想法。

DA分类的任务是将一种类型的预定义DA归因于每个给定的话语。因此，DA分类也被视为文本分类。很少有基于深度学习方法的论文建议利用上下文作为帮助句子分类的潜在知识。Kalchbrenner和Blunsom [35]使用CNN和RNN模型的混合物在DA数据集上。CNN用于从每个话语中提取本地特征，并且使用RNNS来创建整个对话框的一般视图。李和达恩顿科特[36]提出了一个由两部分组成的模型。第一部分利用CNN或RNN生成一个句子向量;第二部分对当前句进行了分类，并利用了几个语境。

3.模型

我们的模型是分层多级过程，由四层组成。第一层是使用预先灌注的单词嵌入地将每个单词映射到向量空间的字嵌入层。第二层是表示CNN以获得矢量或LSTM以获得矩阵以表示每个句子的表示层，然后使用不同的注意方法耦合上下文和当前句子表示以产生关于句子的最佳表示。第三层是附加功能层，探讨了传统方法的使用，以提取作为最终表示的一部分的特征。第四层是输出层，其提供句子分类的结果。

３.１.字嵌入层

Word嵌入层负责将每个单词映射到高维向量空间，这些空间可以捕获单词的语义和句法信息。矩阵的每列存储相应单词的单词嵌入。让表示输入句子中的单词序列。首先，我们使用word2vec预训练的词向量[21]为了获得每个单词的固定字嵌入，然后我们在训练中微调这些向量。通过此图层，句子表示为矩阵：那其中m单词的维数是和吗T.是句子的长度。

３．２．表示层

在本模块中，我们将首先讨论CNN/LSTM如何实现单句表示，然后利用基于am的CNN/LSTM探索考虑上下文的复杂模型的表示方法。如图所示1，我们使用CNN网络或LSTM网络在前一层提供的嵌入之上来建模句子表示。

(一)

(b)

3.2.1之上。CNN-Based表示

在文本分类任务中，将CNN与多层感知（MLP）组合以学习表示是一种常见的方法，以便我们通过使用此方法获得基本模型，如图所示1（a）．由于我们想使用上下文来对当前句子进行分类，因此我们模型中的输入应该是连续多个句子。首先，我们使用CNN获取每个句子的表示，该句子在具有一组不同的过滤器的输入矩阵上执行离散卷积。卷积操作涉及过滤器那哪个应用于窗口K.单词产生新的特征。例如，一个特性从T.- 词是在哪里是一个需要学习的偏见术语，表示矩阵乘法，和F是一个非线性激活函数，如整流线性单元(RELU)，它允许网络自身引入稀疏性，同时大大提高训练速度。这个操作被应用到句子中每个可能的单词窗口，以生成一个特征图那其中．为了简化模型，我们只使用一个尺寸的卷积核心。然后，我们通过特征映射应用最大池操作，以捕获最重要的功能。此外，N将使用不同的过滤器来执行卷积操作，并且所有特征映射都连接到一个向量那也可以是句子的表现形式。

(1)基于cnn的注意机制．上下文句子可以为当前句子提供语言环境，以便在句子不独立时分类，可用于分析因果，时间和继承关系。显然，这些关系可以为当前句子提供额外的有用信息，并促进当前句子类别的判断。由于我们的目标是找到一种方法来整合上下文信息，因此更简单的方法是使用句子级别的注意机制来过滤不需要的信息，并且仅保留重要信息。让是N-维表示，由CNN架构给出T.- 话语。我们使用我的连续话语表示学习如图所示2．在该模块中，对于每个输入向量在时间步在一个对话框,T.当前时间步长和注意力权重是多少的计算方法如下: 在哪里F为评分函数，那那和C是一个要学习的隐藏矢量。在某种程度上，学习结果相当于对初始输入句子的高层次语义理解，即注意权重。为了便于后续处理和计算，需要进行标准化操作，将其转换为概率形式。与此相关，softmax函数取一个非归一化向量并将其归一化成概率分布。也就是说，在应用softmax之前，一些向量元素可以是负的或大于1的，并且可能不等于1，但在应用softmax之后，每个元素都可以在间隔[0,1]，和．

输出你表示层是输入序列的加权和。这里，代表elementwise乘法;即当标量和非标量相乘时，非标量输出中的每个元素都是标量输入和非标量输入中相应元素的乘积。

获得序列表示的另一种方法是将加权输入拼接成一个向量它保留订单信息。

在这个词里，可以用不同的方法得到相似的结果。

3.2.2。LSTM-Based表示

首先由Schuster和Paliwal提出LSTM [26来克服RNN的梯度消失问题。其主要思想是引入一种自适应门机制，该机制决定了前一状态的维持程度，并记住当前数据输入的提取特征。因此，我们在表示层中使用LSTM网络对单词之间的时间交互进行建模，从而解决单词之间的长期依赖问题。我们在两个方向上放置一个LSTM，并将两个LSTM层的输出连接起来。因此,我们获得来自单词向量X．请注意，每列H是二维的，因为前向LSTM和后向LSTM的输出是串联的，每个输出都是d维的。为T.- 句子中的词，LSTM将作为输入那那并产生那基于以下公式：在哪里为当前时间步长的输入; 那权重矩阵;偏差向量;一世那F，和O.是输入门激活，忘记门激活，输出门激活;为当前单元格状态;这些符号和指s形激活函数和双曲正切函数;和表示矩阵乘法。

(2)基于lstm的注意机制．为了获取更多的信息，该模块的输入是当前的话语表示和前面的（）或跟随话语( ）的代表C．与基于CNN计算每个句子对分类的贡献不同，基于blstm的词级上下文注意机制的主要思想是考虑上下文句子中每个词相对于当前句子中每个词的重要性分布，更新上下文表示。句子中的每个单词都对应一个上下文特征向量。最后，将最终的语义特征向量与当前句子矩阵进行拼接，得到最终的语义特征向量。从这个角度出发，在本模块中，我们首先分别计算当前句到上句，再到下句的注意事项。下面将讨论的基于注意的BLSTM是由两个相似矩阵推导而来的，和．表示两者之间的相似性一世- 目前话语的词j- 前面话语的词，和表示两者之间的相似性一世- 目前话语的词K.- 跟随话语的词。如图所示3 (b)，相似性矩阵由计算在哪里φ是对两个输入向量之间的相似性进行编码的函数，是一世-th柱矢量C那是j-th柱矢量P.，和是K.-th柱矢量L.．我们选择在哪里是可训练的权向量和是矩阵乘法。现在，我们使用m和N获取当前句子到前后句子的注意向量，更新上下文的表示。

(一)

(b)

当前对上句的注意是指前一句中每个词对当前句中每个词的重要性分布。让以前一句话的单词代表注意力一世当前句子的词，对所有一世．注意力权重是由那随后，每次参加前一句的表现都是如此如图所示3 (b)前面话语的重要信息是什么一世- 目前话语的词。因此，是一个由i组成的二维矩阵，其中包含当前话语中整个单词的前一句向量。

与当前句对上句的注意一样，当前句对下句的注意表示下句中哪些词与当前句中的每个词最相关。注意力权重由那最后由每个参加的人代表接下来的句子一世当前句子的词是．因此，是一个二维矩阵，包含整个当前句子的下列句子向量。

最后，将当前句子矩阵和包含上下句子部分信息的注意向量组合在一起生成G，其中每个列向量都可以被认为是当前句子中每个单词的上下文感知表示。我们定义G经过在哪里是一世th列向量。然后，我们需要捕捉当前句中以前后句为条件的单词之间的互动。我们使用两层双向LSTM，输出大小为D.对于每个方向。最后，我们从最后一列得到一个向量作为语义特征的最终表示。

CNN与基于lstm的AM的区别在于，CNN的注意使用一个随机向量作为参考来学习最终表示中每个句子的权重;基于lstm的注意以当前句子为参考，更新前后文句子的表示，保留最重要的部分。

３．3.附加功能层

在特征重要度选择方面，传统文本分类方法中通过特征工程提取的少数特征比神经网络提取的特征更有优势。因此，我们也使用一些传统的方法得到一些统计值，这些统计值可以表示为附加的特征，并与CNN或LSTM特征表示相连接。这样就相当于将传统的特征选择从神经网络的训练过程中分离出来，最后将两部分的特征融合在一起。这种融合方法不仅可以充分发挥传统施工方法和神经网络的优点,也避免减少的问题模型的泛化能力通过人为设置的数量特征在传统功能施工方法,使文本分类模型可以更好的和更快地为文本选择最有意义的特性，避免大量冗余特性。我们还可以保留原来的低阶特征，同时利用高阶特征。附加功能主要包括以下几个部分:（1）第一部分是传统分类方法中常用的统计特征。为了确保模型的简单性，这里只使用文本的长度。本文认为，它可以提高模型的性能。例如，较短的句子最有可能是回答“嗯耶”。在这种情况下，句子的长度2是附加特性的值。（2）第二部分是通过特征选择得到的低阶特征，它只作用于当前待分类的句子。首先用BOW表示句子，然后用TF-IDF得到特征权重。最后，通过CHI进行降维，提取最相关的特征[13]，一种特征选择方法。我们使用培训和测试中的单词的统计特征进行比较，以捕获更多信息。（3）第三部分是概率特征，也就是说，与该模型不同的分类器用于对当前文本进行分类，并且分类结果的概率值被视为附加功能。在本文中，使用简单的逻辑回归（LR）模型用作基本分类器以获得概率分布特性。例如，如果数据集有10个类别，则在使用基本分类器之后将获得包含10个值的概率分布，这将是附加功能层的一部分。这种设计的原因是我们希望使用集合的想法来增强模型的多样性，并通过引入其他简单的分类器来减少过度装备的可能性。本文将分析该方法在实验中的适用性。

注意，当使用预测时，我们需要经过以下步骤:（1）培训Logistic回归模型并使用它来生成当前句子的预测，用于培训数据和测试数据。（2）使用特征提取和概率获得的值拼接当前句子的长度，用于在训练集中添加培训集中的其他功能以培训本文提出的模型。（3）将当前句子的长度与特征提取得到的值以及在测试数据中添加额外特征的概率进行拼接，并应用这些新模型。

最后，我们可以得到矢量由我们提出的模型获得的表示组成，统计功能如TF-IDF，概率和句子的长度，以及C是类别的数量。

3.4。输出层

输出层将带有附加特征和输出的句子表示作为输入：

最终的输出Z.表示该组的概率分布K.课程。

4.数据和实验设置

在本节中，我们进行实验并证明我们的模型可以提高文本分类的性能。我们首先介绍实验数据集，然后我们描述了我们实验中的交叉验证确定的参数设置。最后，我们将我们的结果与其他作品进行比较。

4．1.数据

我们使用以下数据集评估DA分类任务的模型：(我)SWDA（交换机对话框法案语料库[16]）：2扬声器对话的对话框(2)MRDA（ICSI会议录音机对话框法案[37]）：多党会议的对象语料库

这些集合已广泛用于社区以进行DA分类。在该集合上的列车，验证和测试拆分是如[36];摘要统计显示在表中1．


数据集	C	V.（k）	火车（k）	验证（k）	测试（k）

SWDA	43	20.	193	23	5.
MRDA.	5.	12	78	16	15

C是课程的数量;V.就是词汇量。训练/验证/测试表示所有对话中的话语数量。

4．2.结果与讨论

对于所有模型，大多数实验参数的选择都是基于文献或我们在其他基于dnn的文本分类任务中的经验[28那29那38］．我们使用网格搜索来选择最佳参数。在所有的实验中，我们都使用相应的嵌入来初始化嵌入层。此外，我们申请dropout [39到单词嵌入。在我们的实验中，我们利用AdaGrad作为优化器，并获得了我们的最佳结果的三个语境话语的SWDA和MRDA。

在所有的结果表中，我们都使用精度(%)和历元时间(s)作为评价指标。我们使用符号“/”来隔离不同数据集的结果。符号左边表示SWDA的结果，右边表示MRDA的结果。

4.2.1。基线模型

我们定义了两个模型作为基线，如图所示1:一个是基于CNN，另一个是基于BLSTM。而且，他们的输入都是一次没有任何上下文信息的单一话语。表格2给出我们的超参数选择。


hyperparameter.	选择	实验值

学习率	0.01	0.1,0.01,0.001
LSTM输出尺寸	One hundred.	50、100、150
LSTM方向	Bidir	Unidir, bidir
LSTM汇集	去年	意思是，最后一个
CNN过滤数据	One hundred.	100 300 500 700
CNN滤波器高度	3.	1 2 3 4 5
词向量维度	200.	100、200、300

表格3.在没有上下文信息、没有注意和没有附加特征的情况下，显示两个数据集上的分类结果。我们可以看到，当不使用预先训练的嵌入时，两个数据集的性能都下降了1-2.5%。此外，在没有上下文信息的情况下，CNN模型优于BLSTM模型。


楷模	精度	时间

CNN没有预先训练过的嵌入	68.9/75.4	121/100
CNN与佩带的嵌入式	71.1/78.3	110/89
BLSTM没有预先训练的预埋	68.2 / 75.0	587/450
Blstm与佩带的嵌入式	70.6/77.1	571/423.

4.2.2。CNN / BLSTM +注意机制

如本节所述3．2，结合上下文信息的方法是利用注意机制在基于CNN或BLSTM的表示层上的前述和电流和跟随话语。对于这两种型号，我们将与基本模型部分除以学习速率的基本模型部分保持相同的型号参数，这应该通过网格搜索更改为0.1。表格4.总结了基于情境信息和注意机制的模型的研究结果。我们发现:(1)利用上下文信息进行DA分类是非常有效的，两种模型都显著优于基线。这证明了引入上下文信息为语义理解提供上下文的有效性。(2)上下文信息和AM都可以极大地改进基于blstm的模型。然而，在基于cnn的模型中，AM的作用相对较小。也就是说，在此背景下，本文设计了两种AMs;基于BLSTM的方法更有效。(3)虽然基于CNN的准确率相对较低，但是在时间效率上有很大的优势。


楷模	精度	时间

CNN上下文信息	72.3/81.8	310/260
CNN与上下文信息和AM	72.6/82.4	346/287
LSTM具有语境信息	72.5/82.1	923/700
LSTM与上下文信息和我	73.6/85.4	1050/794.

基于CNN，如部分所述3．2，简单的级联或上下文的平均值在我们的实验中实现了类似的性能，这是因为这些方法相当于对所有话语采取相同的权重。然而，使用AM学习三种话语的不同权重可以了解哪种话语更加有意义，因此结果可以在SWDA上提高0.3％的精度和MRDA 0.6％。此外，由于注意计算的简单性，它具有更大的时间效率优势。

在引入上下文句子时，基于BLSTM的模型通常比两个数据集中的基于CNN的模型更好，这表明对于多个连续句子，通过融合多个BLSTM编码器的输出而获得的向量可以很好地描述句子之间的语义关系。此外，在引入从前一行和后面的话语中捕获有用信息后，我们的基于BLSTM的结果一直有所改善，然后将它们添加到图中描述的当前话语3.．这充分说明了这种从待分类句子的词向量开始的注意方法，计算每个单词最相关的上下文内容表示，并根据单词的权重进行融合，在引入上下文相关的语义信息的同时可以有效过滤无用的单词信息。这种注意机制可以增强上下文中的关键词信息对分类结果的影响，从而有效缓解无效词信息对分类结果有一定影响的问题，显著提高文本分类效果。

从每个模型所需的历元时间来看，基于cnn的模型的实验时间通常较短。这是因为每个BLSTM编码器学习的参数更多，基于BLSTM的注意机制计算过程复杂。因此，基于CNN融合上下文信息的注意机制可以在一定程度上提高模型的效果，具有更高的效率;基于BLSTM的注意机制可以极大地提高分类模型的效果，但由于计算的复杂性，牺牲了一定的效率。

4.2.3。CNN/LSTM +附加功能

如本节所述3．3，另一种更好的表示方法是提取一些额外的特征，如话语长度、TF-IDF值和概率。表格5.显示了CNN和BLSTM模型中不同设置的结果，以评估不同特征的影响。


楷模	精度	时间

参加长度+ TF-IDF（CNN）的表示	72.7/83.1	379/310.
有问题的出席代表(CNN)	72.8/83.0	396/321
与probs +长度+ TF-IDF（CNN）的参加表达	73.0/83.4	412/335.
参加长度+ TF-IDF（BLSTM）的表示	73.7/85.6	1084/905
有问题出席代表(BLSTM)	73.6/85.7	1107/918
有问题表示+长度+ TF-IDF (BLSTM)	73.9/85.9	1141/924

从表格5.我们可以看到，使用其他功能对DA分类的模型表示是有效的，两种模型都显着优于两个数据集上的基本模型。它还表明，就参加的表示而言，使用统计特征（长度，TF-IDF）和概率特征分别实现了类似的性能。这表明传统的特征选择方法和概率特征可以弥补无法通过深度学习捕获的更重要的特征，并且可以在整体分类模型中发挥一定的辅助作用。虽然使用其他功能并不像上午那么多得多，但它仍然有效。原因是在AM获得更有用的特征之后，并且原始统计特征仅发挥支持作用。

从迭代时间来看，可以看出，不同特征组合的引入不会对整个时间效率产生重大影响，这完全证明了本文提出的特征融合方法的有效性和效率。

4.2.4。与其他作品进行比较

表格6.将我们的结果与其他作品进行比较。据我们所知，[38]是DA分类中最新的研究，即表格中的CR-PHONSIGN模型6.．在该研究中，提出了一种基于两层LSTM和注意力的模型。总的来说，无论从准确性或时期时间都有，我们的模型显示出更好的结果。虽然我们培训基于LSTM的模型，但我们的最佳模型对现有技术产生了可比的结果，73.9％以73.9％的SWDA，85.9％对MRDA的84.3％。此外，最先进的模型比我们的最佳模型更复杂，这需要更长的时间，因为它首先使用LSTM来获取话语的每个表示，然后使用LSTM获取高级功能，最后利用我要学习最终代表。显然，这种模型需要更多的功能来学习，其训练速度显然比我们的训练速度慢。我们的模型是多模组的;如果您希望模型更简单，我们可以删除附加功能模块;毕竟，我们的模型仍然可以获得更好的结果，在SWDA上73.6％和MRDA的85.4％，只使用LSTM +注意力。 So, our model is more scalable and effective.


楷模	精度	时间

我们基于CNN的最佳型号	73.0/83.4	412/335.
我们的最佳模型基于LSTM	73.9/85.9	1141/924
CR-attention	73.8 / 84.3.	1320/1182
CNN + FF.	73.1 / 84.6	732/620
LSTM + FF	69.6/84.3	940/762
嗯	71.0 / -	210 / -
CA-LSTM	72.6 / -	1026 / -

5.结论

在本文中,我们探索几种方法结合上下文信息的深度学习DA分类框架,包括扩大设计一种以向量为CNN以及一种关注BLSTM系统矩阵,使用句子长度,概率,和TF-IDF值作为表示层的附加特征。与基线相比，使用CNN或BLSTM，当输入是一个话语时，我们的模型可以有效地利用上下文信息和原始特征，取得显著更好的性能。提出的基于BLSTM的分类模型，利用矩阵计算注意值并更新句子表示，是一种非常有效和新颖的分类模型。此外，我们的结果代表了在SWDA和MRDA数据集上的DA分类在时间和准确性方面的最新水平。本文阐述了AMs和上下文信息在类似任务中的使用。

我们相信未来的研究可以侧重于引入其他网络，如GRU，以改善我们的表征。我们还将探索设计其他AMs来提高精度，并探索更多的数据集来改进我们的模型。

数据可用性

用于支持本研究结果的SWDA数据已经储存http://compprag.christopherpotts.net/swda.html．

的利益冲突

作者声明他们没有利益冲突。

致谢

该工作得到了国家重点研究和发展计划的主题（2018YFC0831502）的支持。

参考文献

S. Deerwester, S. T. Dumais, G. W. Furnas, T. K. Landauer, R. Harshman，“潜在语义分析的索引”，美国信息科学学会杂志号，第41卷。6，第391-407页，1990。查看在：谷歌学者
B. PANG和L. LEE，“意见采矿与情感分析”信息检索的基础和趋势，第2卷，第2期1-2，页1- 135,2008。查看在：谷歌学者
T. Joachims，“与支持向量机的文本分类：学习许多相关功能，”欧洲机器学习会议论文集，页137-142，开姆尼茨，德国，1998年4月。查看在：谷歌学者
F.Sebastiani，“自动文本分类中的机器学习”，ACM计算调查，卷。34，没有。1，pp。1-47,2002。查看在：谷歌学者
T. Joachims，学习使用支持向量机分类文本:方法，理论和算法，Kluwer，Norwell，马，美国，2002年。
H.周，J. Guo和Y. Wang，“基于术语分布的特征选择方法”springerplus.，第5卷，第5期。1, p. 249, 2016。查看在：谷歌学者
陈凯，张志明，龙建军，“文本分类中词汇权重的转换，”专家系统与应用，第66卷，第245-260页，2016。查看在：谷歌学者
G. Ifrim, G. H. Bakir，和G. Weikum，“基于变长n -g的文本分类的快速逻辑回归”第十四届美国计算机学会SIGKDD知识发现与数据挖掘国际会议论文集，pp.354-362，拉斯维加斯，内华达州，美国2008年8月。查看在：谷歌学者
C. Cortes和V.Vapnik，“支持 - 传染媒介网络”，机器学习，第20卷，第2期。3，页273-297,1995。查看在：谷歌学者
Y. Kim，“句子分类的卷积神经网络”，2014，https://arxiv.org/abs/1408.5882．查看在：谷歌学者
M. Sundermeyer和H. Ney，“从前馈到递归LSTM神经网络用于语言建模”，IEEE/ACM音频、语音和语言处理汇刊，第23卷，第2期。3, pp. 517-529, 2015。查看在：谷歌学者
刘克勤，“基于递归卷积神经网络的文本分类”，《计算机科学与技术》第二十九届AAAI人工智能会议论文集，pp.2267-2273，奥斯汀，德克萨斯州，美国，2015年1月。查看在：谷歌学者
J.刘，林，林，吴，吴，J.张，“特点选择，基于质量的信息，”神经古脑， vol. 225, pp. 11-22, 2017。查看在：谷歌学者
Zhou P. Qi Z.， Zheng S.， and J. Xu， " improved Text classification based on improved LSTM with 2d max pooling . "， in chinese, 2011集中的诉讼程序，第3485-3495页，大阪，日本，2016年12月。查看在：谷歌学者
周鹏，史伟，田建平等，“关系分类的双向长短期记忆网络”，《心理学报》第54届计算语言学协会第54次年会的诉讼程序，页207-212，德国柏林，2016年8月。查看在：谷歌学者
A. Stolcke, N. Coccaro, R. Bates等人，“会话语音自动标注和识别的对话行为建模”，计算语言学，卷。26，不。3，pp。339-373,2000。查看在：谷歌学者
M. Zimmermann，“联合分割和分类对话行为使用条件随飞机场”INTERSPEECH会议记录，第864-867页，布莱顿，英国，2009年9月。查看在：谷歌学者
D. Bahdanau, K. Cho和Y. Bengio，“通过联合学习对齐和翻译的神经机器翻译”ICLR的程序，圣地亚哥，加州，美国，2015年5月。查看在：谷歌学者
S. Goswami, A. K. Das, A. Chakrabarti，和B. Chakraborty，“基于特征选择技术的特征集群分类”，具有应用的专家系统，第79卷，第76-89页，2017。查看在：谷歌学者
Y. Bengio, R. Ducharme, P. Vincent, C. Janvin，《神经概率语言模型》，机床学习研究，卷。3，pp。1137-1155,2003。查看在：谷歌学者
T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, J. Dean，“单词和短语的分布式表征及其组合”，发表于神经信息处理系统进展，页3111-3119，太浩湖，内华达州，美国，2013年12月。查看在：谷歌学者
T. Mikolov, K. Chen, G. Corrado, J. Dean，“向量空间中单词表示的有效估计”，2013，https://arxiv.org/abs/1301.3781．查看在：谷歌学者
K. S. Tai, R. Socher，和C. D. Manning，“树状结构长短期记忆网络的改进语义表征”，2015，https://arxiv.org/abs/1503.00075.．查看在：谷歌学者
S. Hochreitor和J. Schmidhuber，“长期内存，”神经计算，第9卷，第5期。8，第1735-1780页，1997。查看在：谷歌学者
D. Tang，B. Qin，X. Feng和T. Liu，“目标依赖情绪分类与长期记忆”，2015年，https://arXiv.org/abs/1512.01100．查看在：谷歌学者
M. Schuster和K.Paliwal，“双向经常性神经网络”，IEEE信号处理汇刊第45卷第5期11, pp. 2673-2681, 1997。查看在：谷歌学者
N. Kalchbrenner，E. Grefenstette和P.Blunsom，“一个用于建模句子的卷积神经网络”计算语言学协会第52届年会论文集，第655-665页，马里兰州巴尔的摩，美国，2014年6月。查看在：谷歌学者
张颖和B. Wallace，“基于卷积神经网络的句子分类的敏感性分析(practitionersâăş指南)，”2015，https://arxiv.org/abs/1510.03820．查看在：谷歌学者
W. Yin和H. Schutze，“句子分类的多通道变量卷积”，2015年，https://arXiv.org/abs/1603.04513．查看在：谷歌学者
C. Zhou，C. Sun和Z. Liu，“文本分类的C-LSTM神经网络”，2015年，https://arXiv.org/abs/1511.08630．查看在：谷歌学者
M. Luong和C. D. Manning，《基于注意力的神经机器翻译的有效方法》EMNLP的诉讼程序，第1412-1421页，葡萄牙里斯本，2015年9月。查看在：谷歌学者
杨振宇，“文献分类的层次注意网络”Naacl-HLT的诉讼程序，pp.1480-1489，圣地亚哥，加州，2016年6月。查看在：谷歌学者
W. Yin，H.SchÃTze和B. Xiang，“ABCNN：基于关注的卷积神经网络，用于建模句对”，“2015年，https://arxiv.org/abs/1512.05193．查看在：谷歌学者
M.Seo，A. Kembhav，F. Ali和H. Hajishirzi，“机器理解的双向注意力”ICLR的程序，土伦，法国，2017年4月。查看在：谷歌学者
N. Kalchbrenner和P.Blunsom，“用于话语合作性的经常性卷积神经网络”CVSC研讨会的诉讼程序，第119-126页，保加利亚索菲亚，2013年8月。查看在：谷歌学者
J. Y. Lee和F. Dernoncourt，“基于递归和卷积神经网络的序列短文本分类”，发表于NAACL-HLT北美分会论文集，计算机语言学协会-人类语言技术，第515-520页，圣地亚哥，加州，美国，2016年6月。查看在：谷歌学者
J. Adam, D. Baron, J. Edwards等，“ICSI会议文集”，刊于IEEE INT'L会议上的课程，语音，信号处理（ICASSP-2003），第364-367号，香港2003年4月。查看在：谷歌学者
D. Ortega和N.T.VU，“基于神经的语境表示学习对话法案分类，”第18届年度索赔会议关于话语和对话的诉讼程序，pp。247-252，德国萨尔布吕肯，德国，2017年8月。查看在：谷歌学者
N. Srivastava，G. Hinton，A. Krizhevsky，I. Sutskever和R. Salakhutdinov，“辍学方式：防止神经网络过度装备的简单方法”JMLR，第15卷，第5期。1，页1929-1958,2014。查看在：谷歌学者
s。沈和H.-Y。李，“序列分类的神经注意模型:关键词提取和对话行为检测的分析与应用”国际言语传播协会第十七届年会(INTERSPEECH ' 16)论文集，旧金山，加州，美国，2016年9月。查看在：出版商的网站|谷歌学者