文摘

作为新一代的搜索引擎,自动问答系统(QAS)变得越来越重要,已经成为计算机应用研究的热点之一,自然语言处理(NLP)。然而,随着QAS不可或缺的一部分,问题分类的作用是一个理解的系统。针对这一点,进一步使问题分类的性能更好,特征提取和分类模型进行了探讨。现有CNN的研究,研究一种改进的基于装袋CNN模型集成分类(简称“W2V + B-CNN”)提出并应用于分类问题。首先,我们把短的文本的特点,使用Word2Vec工具将单词的特征映射到某个维度,并组织问题的句子变成一个二维矩阵的形式类似于图像。然后,使用训练有素的词向量作为输入CNN的特征提取。最后,装袋集成分类算法来取代将Softmax分类传统CNN的分类。换句话说,好的W2V + B-CNN模型的优点是,它可以利用CNN和装袋集成分类在同一时间。总的来说,新模型不仅可以使用强大的CNN提取特征提取能力的潜在特性还自然语言问题,但使用好数据集成分类算法的分类功能特性分类的同时,可以帮助提高W2V + B-CNN的准确性问题分类的应用。比较实验结果证明W2V + B-CNN的效果明显优于CNN和其他分类算法的分类问题。

1。介绍

在互联网时代,信息爆炸了。面对大量的零碎的信息,人们希望快速获得准确和简洁的信息越来越紧迫,和QAS出现了历史性的时刻。与传统的搜索引擎,QAS是一种高层次的信息检索,这已成为一个热点领域的专注当前自然语言。它允许用户用自然语言来描述问题,可以找到或推断回答用户的提问大规模异构数据,然后将它们提交给用户。例如,对于一个问题“中国人的皮肤是什么颜色的”,系统将直接给答案为“黄色。“这极大地提高了用户的查询效率和更好的满足用户的需求。QAS一般包括三个主要部分:问题分析、信息检索和答案抽取(1),每个部分相互配合有效地获取目标用户所需要的信息。如果问题分析QAS的基石,那么问题分类不仅是问题分析的关键部件之一,但也QAS不可或缺的模块。它不仅有助于优化系统的性能,如减少候选答案的搜索空间和时间去找到答案的正确位置,但也有助于制定答案提取策略。可以看出,问题分类的结果可以提供有用的指导信息系统的其他模块,及其精度将直接影响整个QAS的质量。因此,可以说,问题分类研究具有重要的现实意义,对改善有积极影响QAS的质量和性能。

问题分类是确定问题的类型与特征相关的语义信息或问题的答案在一个特定的分类标准。目前,持久的成熟和完善的研究,它还吸引了太多的关注领域的NLP。问题分类的本质是短的文本分类。当前的研究通常基于文本分类的概念并结合问题分类本身的特点。但不同于普通的文本分类、问题分类包含独特的词特征信息。如何充分挖掘这些信息是分类的关键问题。有两种类型的传统问题分类方法:基于规则的方法和统计机器学习方法。早期的基于规则的方法主要是使用人工分析句法结构中提取规则,然后判断问题类型(2,3]。这种方法有许多优点。例如,它相对容易实现,不需要大量的训练数据,分类速度快。但缺点是这些方法更多地依赖于专家和是主观的。此外,分类决策的专家很容易受影响的分类系统,这使得它更灵活。随后,基于统计学习的方法显示出良好的分类效果,强大的多功能性的优势,容易移植,和扩张4,5]。基于统计的机器学习模型常用的问题分类的贝叶斯方法(6),支持向量机(7,8,然而,9,10),我11),等等。然而,统计学习方法的缺点是,其分类精度仍容易受到语法分析的准确性。

最近,与深度学习技术的广泛应用领域的NLP,其特征不依赖于复杂的工程特性和充分挖掘自然语言的特性信息吸引了大量学者的兴趣。他们开始使用深度学习的方法对问题进行分类。因此,问题分类方法基于深度学习技术。不同于之前的分类方法,款模型在表示和特征提取问题具有显著的优势。多层网络结构可以句子原来的问题抽象为一个高级向量表示,特征向量的维数变得更高,大大提高了分类精度。与此同时,随着词向量技术的广泛研究和深层神经网络技术,人们有更多新思想NLP的任务。深层神经网络应用于NLP的任务中,最常用的是RNN和CNN。其中,CNN是一个典型的空间深层神经网络。它在特征提取有显著优势,是self-extraction擅长特性,可以在一定程度上减少特征提取困难的问题分类,提高分类的准确性。在此基础上,它激发了研究人员利用CNN的一个应用程序中常用的体系结构深度学习在问题分类。 Many methods based on CNN have been proposed and a large number of research results have emerged [12,13]。因此,仍有很多研究空间与深度学习问题分类,这是值得深入的研究。

2.1。问题分类

问题分类的目的是将问题划分为相应的语义分类根据回答的类型。问答系统的关键环节,它有一个后续答案抽取模块的重要指导作用,也具有非常重要的意义的QAS [14]。所谓的问题分类意味着,在一个特定的分类系统,对问题不标记一个类,系统自动分类的相关类的问题根据内容的问题。这信件可以抽象为一个数学意义上的映射过程,可由下面的映射函数(15]: 在哪里 表示一组样本和问题 代表一组问题类。 负责映射问题吗 未知的类的类 根据一定的规则或一定的分类算法。

然而,目前基于问题分类研究方法通常利用文本分类的想法。它们之间的不同之处在于,常用单词如“什么”和“是”在文本分类经常被忽视,但这些话可能被用作停止在问题分类词往往是非常重要的。这也是问题分类的特点之一。两人的共同点是他们都分析文本中包含的信息,并结合问题分类的特点进行分类的问题类别。基于文本分类的思想,问题分类过程可以被描述为图所示1,具体包括分工的训练集和测试集,预处理,特征提取,分类器训练,分类预测,和其他人16]。对于中文文本,数据预处理包括中文分词、词性标注和停止,字删除。特征提取的优势是,它有助于减少复杂性和提高问题分类的准确性通过提取更好的特征信息从原始样本。常见的方法包括TF-IDF计算、语法,Word2Vec, LDA。自问题分类通常是一个多级模型,机器学习通常使用像贝叶斯方法,资讯,支持向量机分类。问题分类过程的流程图如图1

2.2。基于深度学习的问题分类

深度学习的概念第一次被提出的辛顿和Salakhutdinov172006年)等。它刺激人类大脑的机制,可以从原始数据中提取特征,一层一层地。在很大程度上,它有助于解决问题的费时,费力,可怜的有效性通常发生在传统的机器学习方法需要定制特征提取规则。近年来,随着深度学习技术的不断发展,其在图像处理领域的应用价值(18),模式识别(19],NLP是不言自明的。对于问题分类任务,可以使用深度学习积极分析和学习隐含在句法和语义特征的问题。这可以帮助我们分析的语义特征结构问题在更深的层次上,进行特征提取,使分类更准确的问题。与传统的机器学习方法,深度学习不需要手动提取问题的特点的句子,这大大减少了人力成本和时间成本。它可以自动获得基本特征,然后结合这些基本特征为复杂特性,最后火车模型来判断语义特征和问题类之间的关系。因此,该方法基于深度学习更快的数据处理能力和强大的自适应深度学习的能力。与此同时,其容错和噪声电阻相对较高,非常适合问题分类。

目前,最具代表性的模型在深度学习问题分类是CNN模型中,长期短期记忆网络(LSTM)模型和Bi-LSTM模型。更重要的是,大量的相关研究成果也出现了。金等人介绍了一个句子用卷积神经网络分类方法在2014年基于词向量。他们用CNN英语问题,把问题的句子划分成词向量(20.]。之后,张等人进一步提高金的模型,提出了一种新颖的低模型称为CNN-BiGRU [21]。他们介绍了双向封闭的复发性单元(BiGRU)到传统的CNN模型自然学习句子,实现分类的问题。它提高了分类准确性CNN模型的各种英语分类数据集。Kalchbrenner et al。12)构建了一个动态卷积神经网络(DCNN)。全球网络中,他们使用了k - max池操作解决问题的长度不一致的问题,利用DCNN网络模拟问题的语义信息,并取得一个更好的问题分类的效果。勒和Zuidema研究语法的错误修改组件的问题和错误的转换语法树的递归神经网络(RNN)的分类问题。他们用CNN句法森林作为输入网络,提出了森林卷积网络(FCN),并取得了良好的结果在问题分类任务22]。南等人构建了一个基于LSTM完成神经网络模型的联合建模描述主题和描述文本和取得良好的分类效果23]。

灵感来自上面的研究,我们从两个方面开始研究特征提取和分类模型。美国有线电视新闻网(CNN)的基础上,我们进一步集成装袋分类算法的优点,提出了一个集成的卷积神经网络模型,并应用分类的问题。具体研究内容如下:(1)首先,我们使用Word2Vec和CNN完成句子的特征表示和特征提取问题。因为问题包含更少的单词,传统的向量空间模型可能会导致问题,如特征纬度太高,或特征向量稀疏的数据。此外,由于单词之间的相关性和文档中的词的位置信息并不认为,这些因素将影响问题分类的准确性。因此,我们结合短的文本的特点,使用Word2Vec工具将单词的特征映射到某个维度,问题句子组织成一个二维矩阵的形式类似于图像,然后设置CNN矩阵作为输入。然后,我们设计CNN模型并完成特征提取的输入数据通过操作如卷积和池。(2)根据CNN模型的研究,装袋算法构造分类层。针对薄弱的问题造成泛化能力将Softmax目前大多数卷积神经网络分类器使用,我们建议B-CNN集成模型结合装袋算法来提高分类的准确性和泛化问题。(3)最后,为了验证新模型的有效性和可行性在问题分类,中国问题的几个实验提供的信息检索实验室哈尔滨理工学院。结果证明W2V + B-CNN模型对问题分类的影响明显优于CNN和其它分类算法。

3所示。问题分类模型基于装袋的CNN的综合分类

优化处理multiclassification CNN模型的准确性的问题,本文进一步结合装袋算法的优点的基础上,CNN和提出了一个集成的卷积神经网络模型称为W2V + B-CNN。与此同时,我们把它应用到问题分类。W2V + B-CNN表达的基本原则问题作为一个词序列以单词为单位并将其映射到一个多维向量构造一组词向量。此外,问题是通过提取的特征信息集成神经网络,从而实现分类的问题。的结构图W2V + B-CNN模型用于本文问题分类图所示2

在图2,我们可以看到,该模型主要由三层,即词向量矩阵输入层,卷积特征提取层(包括卷积层和最大池层)和集成分类层(包括辍学和装袋集成分类输出)。这个词向量矩阵输入层使用Word2Vec工具训练输入句子,单词转换成词向量,然后拼接成一个文本词向量矩阵。卷积层使用卷积内核执行卷积操作的输入特征向量提取特征。池层执行抽样处理上层的特征提取和保留重要的功能形式的过滤。在集成层分类,汇集和拼接功能向量模型训练期间应该退学处理。最后,装袋集成分类器是用来完成类别的特征向量的映射,从而得到最终的分类结果。

3.1。词向量矩阵输入层

词向量也可以称为嵌入技术,可话包含丰富的语义信息映射到抽象的高维向量空间。这是一个连续的数字向量化方法的单词使用浅神经网络(24,25]。词向量技术的优点是,它有助于解决数据稀疏问题的问题在传统的分类方法。研究的大量词向量学习方法,Mikolov从谷歌和其他开源的工具生成词向量称为Word2Vecor 2013年,其中包括两个模型CBOW和Skip-gram [26,27]。两个模型的结构如图3。CBOW的建模思想是使用窗口中的词来预测中心词,而Skip-gram的建模思想是使用中央预测周围的单词。Skip-gram模型在我们的研究中,将选择火车词向量。

假设,训练后,每个问题 可以用一个词向量矩阵,即 ,在哪里 th词的问题 代表中包含的单词的数量 每个单词 可以用一个词向量,也就是说, ,在哪里 的重量吗 在这个词向量和th维度 代表词向量的维数。两个模型CBOW Skip-gram如图3

3.2。卷积的层

CNN卷积层是核心组件,和核心观点是捕捉当地的相关性。专门为问题分类任务,类似于卷积内核可以提取关键信息N克的句子。卷积运算在文本是不同的卷积运算的图像。因为一个词向量是一个整体的文本,是有意义的执行卷积操作对整个词向量。因此,假设这个词向量的维数 ,然后内核也应该卷积的宽度 当卷积操作执行的判决 ,卷积核 可以表示为 , 的高度是卷积内核。然后,每次你幻灯片词向量矩阵与长度 和宽度 ,你会得到一个特征值。特征值的计算公式 在哪里 是一种偏见, 这个词的序列长度 ,也就是说, , 是一个激活函数。常用的激活功能包括双曲正切,ReLU和乙状结肠。增加激活函数可使模型引入非线性因素,以便更好地适应数据。和ReLU激活函数将应用在我们的研究中。句子后整个问题是受到卷积操作,几个特征向量代表句子可以获得:

因为大小不同的卷积核可以提取问题从不同角度的特点,提取的特征信息卷积层受到卷积核的大小的影响。

3.3。汇聚层

池层可以降低特征维数,将采样的输出向量卷积层。一方面,它可以加速计算,另一方面,它可以有效防止模拟过度拟合的问题。本文的最大池方法用于过程特征向量 通过卷积层,选择最具代表性的特征。这个公式是

3.4。集成分类层
3.4.1。辍学

为了避免过度拟合的问题,在训练的过程中,辍学的操作通常是用来禁止一些隐藏的节点参与向前传播。这些神经元不会参与更新过程,以便更新的重量不会依靠固定节点的角色。

3.4.2。装袋集成算法

进一步优化分类能力的CNN,装袋集成算法有更好的分类性能将利用CNN替代将Softmax分类功能。集成分类层中,我们将首先应用卷积的训练特征层和池层作为一个新的特性集,然后输入装袋集成学习分类器进行训练,最后根据投票方法输出分类结果。这样,CNN可以用来提取潜在的数据集的特点,和集成学习可以用于功能分类,可以帮助改善multiclassification任务的准确性。

假设,在辍学后操作,数据集集成分类器的输入 定义 集的分类标签, 代表基分类器的数目, 代表了基分类器。假设函数与装袋后的集成方法 在哪里 代表了引导分布及其公式

4所示。实验结果和分析

4.1。实验数据

验证的性能W2V B-CNN模型,我们设计了一些实验在中国问题上提供的信息检索实验室哈尔滨理工学院。这是一个比较典型的中国问题分类数据集具有良好的通用性,可以更好的证明算法的性能。问题集的分类系统分为7类,包括描述(DES),人类(哼),地点(LOC),数字(NUM)、对象(OBJ)、时间(时间)和未知(未知)。每一个类包含一些独特的子类,所以数据集共有84子类。因为没有征服未知类型的实例的问题集,我们不考虑这个类。问题集包含6260个问题。在实验中,我们把4960个训练样本和1300年作为测试样本。样本的分布如表所示1

4.2。数据处理

后确定训练样本集和测试样本集,这些数据需要预处理。首先,数据的预处理包括格式转换、过滤标点符号和特殊字符。其次,对中国问题的数据集,分词是必需的。在实验中,我们可以将每个中国问题句子转换成一个序列的词用空格分开JIEBA分词工具。然后,对中国问题的句子,也需要停止词删除处理。停止词指词经常出现在文本中没有实际意义。停止哈尔滨理工学院提供的单词表适用于后续实验。停止单词列表包含数字字符,特殊字符,常用的无意义词汇。最后,这个词向量训练是对每个问题进行判决。

4.3。评价标准

在实验中,我们采用了分类精度(Acc)来判断模型的性能,及其公式定义如下: 在哪里 代表的数量问题的测试集分类正确 代表总数的问题在测试集。

4.4。实验设计和结果分析
4.1.1。设置实验参数

我们知道,传统的有线电视新闻网训练使用梯度下降法。一般来说,尽管批处理梯度下降方法可以找到最优解,所有参与操作所需的总样本权重更新时,将导致大量的计算和收敛速度慢。随机梯度下降法,其优点是,它只需要一个样品每次参与操作,且收敛速度快。缺点是,它很容易落入局部最优解。所以我们使用minibatch方法训练的实验。通过这种方式,网络可以加快训练速度,同时尽可能地找到最优解,减少培训的损失。我们设置minibatch大小50。当训练向量这个词,每一个中国的问题是学习这个词向量作为一条线。和Skip-gram Word2Vec模型工具应用过程中。尺寸参数d这个词的向量被设置为300。此外,我们还设置其他基本参数在实验中,卷积内核滑动窗口的大小设置为5,辍学率是设置为0.5。

10/24/11。实验结果和分析
实验1。验证基于Word2Vec特征提取方法比传统方法在中国问题分类。验证不同特征处理方法对分类的影响,我们进行了比较实验中Word2Vec方法,袋子里的单词方法,互信息,IF-IDF方法。在实验中,2480块中的数据训练集作为训练数据随机选择,和650块数据在测试集作为测试数据。分类结果如表所示2结果在表2证明,与传统的特征提取方法相比,该方法基于Word2Vec有更高的准确度。主要原因是培训和学习得到的特征向量与词向量可以克服数据特征稀疏问题在传统功能训练方法。它帮助减轻维数灾难和高计算复杂度。此外,它还可以帮助提高问题分类的准确性,减少模型的计算复杂度。实验2。验证基于装袋CNN集成分类比传统机器学习方法和CNN中国问题分类。验证的性能W2V + B-CNN模型的应用问题分类,比较实验与传统贝叶斯和支持向量机等机器学习方法,以及深如CNN和W2V + CNN网络模型。比较结果见表3

从表3可以得出以下结论:结论1。结果表3说明W2V + B-CNN模型在本文提出的分类效果最好。与传统的机械方法和CNN模型相比,W2V + B-CNN模型显著提高分类精度的主要类和子类。最后,实验结果证明的有效性和可行性W2V + B-CNN模式分类问题。结论2。在表3我们还可以看到,问题分类方法基于CNN模型比机器学习方法问题分类的任务。这表明,词的分布式特性表示向量的中国问题分类的任务,使用机器学习的方法来构造和匹配特性优势不如使用CNN。主要原因是CNN可以减少模型的参数通过本地感知和重量共享,从而有效地降低了模型的复杂性。同时,CNN模型的分类精度高于其他机器学习模型,表明,CNN执行很好中国的分类问题。结论3。我们也可以从表得出的结论3与CNN模型相比,W2V + CNN模型的分类精度和W2V + B-CNN每堂课上已得到改进。更重要的是,W2V + B-CNN模型的分类精度有显著提高。原因是,问题包含更少的单词,过高的问题特征纬度和稀疏的特征矢量数据会发生时使用的是传统的向量空间模型。此外,由于单词之间的相关性和句子中的词的位置信息并不认为,这些因素将影响问题分类的准确性,和CNN的分类效果不是很满意。因此,与支持向量机和贝叶斯学习方法相比,CNN模型的准确性有一个相对较小的改进。结合短的文本的特点,我们把Word2Vec工具词的特征映射到某个维度,然后问题句子组织成一个二维矩阵的形式类似于图像,并使用它作为输入的CNN模型。优势在于它解决了数据稀疏问题在传统问题分类方法,极大地提高了分类精度。结论4。比较W2V + CNN模型与W2V + B-CNN模型,它可以发现W2V + B-CNN模型可以进一步结合装袋算法的优点,并更大程度的改善分类精度比W2V + CNN模型。

总之,W2V + B-CNN模型提出了结合综合分类与CNN的想法。这样,CNN可以用来提取潜在的自然特性问题,和装袋算法也可以用于优化新模型的分类器。它不仅加强了更完整的数据分类的积极影响,但也削弱了噪声数据的负面影响,从而大大提高算法的分类性能。

5。结论

QAS问题分类是一个关键环节,及其分类性能有重要影响随后的文档检索和答案抽取。可以说,作为一个重要的子模块QAS,问题分类的重要性是不言而喻的。因此,优化问题分类的性能,我们进行了一定的应用研究CNN和模型提出了一种新的基于装袋集成分类称为W2V + B-CNN。首先,模型使用Word2Vec词向量训练,然后使用CNN卷积层和池层特征提取和特征选择。层,最后,在集成分类装袋算法有更好的分类性能被用来取代将Softmax分类器特征分类。一方面,新模型可以应用CNN提取潜在的自然特性问题。另一方面,它也可以利用集成学习特性分类。最后,充分验证了可行性和有效性的W2V + B-CNN模型应用于问题分类,我们进行比较实验与传统的机器学习算法和CNN。结果证明,与其他算法相比,改进的W2V + B-CNN模型具有较高的分类精度和更好的问题分类的性能。

数据可用性

标签数据集用于支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了中国现代教育技术研究江苏省基础项目授予2019 - r - 77164。