文本分类一直是研究领域的一个有趣的问题自然语言处理(NLP)。而进入大数据的时代,一个好的文本分类器实现NLP科学大数据分析的关键。与文本数据的不断增加的大小,提出了重要的挑战在发展中有效的文本分类算法。鉴于深层神经网络的成功(款)大数据分析,本文提出了一种使用款小说文本分类器,为了提高计算性能的解决大文本数据混合的离群值。具体地说,通过使用去噪autoencoder (DAE)和限制玻耳兹曼机(元),我们建议的方法,叫去噪深层神经网络(DDNN),能够实现更好的性能的显著提高抗噪声和特征提取,相比传统的文本分类算法。基准数据集上的仿真验证我们提出的文本分类器的有效性和鲁棒性。gydF4y2Ba
而进入大数据的时代,随着信息技术和互联网的发展,数据量的几何增长。我们正在进入信息过载的时代。人们面临的问题不再是如何获取信息,而是如何快速有效地提取有用的信息从大量的数据。因此,如何有效地管理和过滤信息一直在工程和科学领域的一个重要的研究领域。gydF4y2Ba
的数据量的快速增长,信息表示形式也多样化,主要包括文本、声音和图像。相比之下,声音和图像,文本数据使用网络资源较少,更容易被上传和下载。因为其他形式的信息也可以表达的文本,文本已成为信息的主要载体,始终占据领先地位的网络资源。gydF4y2Ba
传统上,这是耗时的,并且很难实现所需的文本处理的结果,并不能适应信息社会的需求数字信息的爆炸性增长。因此,有效地获取信息按照用户反馈可以帮助用户快速、准确地获得信息。然后,文本分类成为关键技术实现免费的人机交互和人工智能。它可以解决信息混乱的问题在很大程度上,这样用户可以准确地找到信息。gydF4y2Ba
文本分类的目的是将大量的文本分配给一个或多个类别的基础上,主题,内容,或者文档的属性。文本分类的方法分为两类,包括基于规则和统计分类方法(gydF4y2Ba
最近,大量的统计机器学习方法应用于文本分类系统。最早的机器学习方法的应用朴素贝叶斯(NB) [gydF4y2Ba
但这些模型是肤浅的机器学习方法。虽然他们也被证明能够有效地解决一些问题的简单或多个限制,当面对复杂的实际问题,例如,生物医学多类文本分类,数据噪声和数据集分布不均匀分类和浅机器学习模型和集成分类器方法的泛化能力不满意。因此,探索一些新的方法,例如,深度学习的方法,是必要的。gydF4y2Ba
与深度学习成功的方法(gydF4y2Ba
与此同时,款已应用于许多学习任务,例如,声音和图像认识(gydF4y2Ba
此外,自动编码器(AE)作为繁殖款输入信号(gydF4y2Ba
最近,深度学习方法产生重大影响的领域自然语言处理(NLP) [gydF4y2Ba
由于大型文本数据的复杂特性,以及不同噪声的影响,性能不满意处理大型数据集时使用传统的文本分类算法。gydF4y2Ba
最近,深度学习应用于一系列的成功与多个模式分类问题。然后,用户可以有效地提取文本的语义关系复杂的使用基于深度学习方法(gydF4y2Ba
浅的文本表示(特征选择),有一个语义缺失的问题。深的文本表示模型的基于线性计算,阈值的选择添加到分类器训练,这实际上破坏了文本的自学学习能力。同时,用于文本分类multilabel multicategory,还有一个问题,忽略标签依赖和缺乏概括能力。应对上述问题,一些改进通过深度学习方法。例如,一个两层复制softmax模型(RSM)提出了gydF4y2Ba
为了避免这样的局限性和发展一个更好的方法,本文提出了一种DDNN模型通过一些先进的深度学习方法的结合。具体地说,在我们的模型中,数据去噪的帮助去噪autoencoder (DAE),然后提取文本的功能有效地使用组织遏制。与传统的文本分类算法相比,我们的算法可以实现更好的性能的显著提高抗噪声和特征提取,由于混合深度学习方法的高效的学习能力在这个模型中使用。gydF4y2Ba
本文的组织结构如下的提示。节gydF4y2Ba
在本文中,我们使用两种最先进的深度学习模型,也就是说,DAE和遏制gydF4y2Ba
一般来说,AE的结构(gydF4y2Ba
自动编码器模型的示意图。gydF4y2Ba
如图gydF4y2Ba
玻耳兹曼机原理图的限制。gydF4y2Ba
在这里,一个DDNN设计使用DAE和遏制,这可以有效地减少噪声,而提取功能。gydF4y2Ba
DDNN模型的输入向量与固定的维度。首先,我们进行的训练去噪模块组成的两层,名为DAE1 DAE2,使用非监督训练的方法。在这里,里面只有一份礼物是每次训练,并且每个训练可以减少输入数据的重建误差,即前一层的输出。因为我们可以计算出编码器基于前面的层或其潜在的表达式gydF4y2Ba
这个模型显示在图的操作gydF4y2Ba
去噪深层神经网络的原理图。gydF4y2Ba
通过去噪层处理后,数据进入疟疾行动的一部分,这可以进一步提取去噪自动编码器的功能,不同层。特征提取后,这部分将更具代表性和重要。图gydF4y2Ba
插图作为遏制疟疾的特征提取。gydF4y2Ba
这部分是由叠加两层组织遏制。培训可由培训组织遏制从低到高如下。gydF4y2Ba
因为可以训练迅速遏制对比差异(CD)学习算法(gydF4y2Ba
选择DAE在这里的原因是,在文本分类的过程中,数据将不可避免地混合到不同类型和强度的噪音,会影响模型的训练,导致最终的分类性能的恶化。DAE的初步提取原始特性,及其学习标准是降噪。在pretraining阶段,添加各种不同的强度和不同类型的噪音信号原始输入信号可以使编码过程获得更好的稳定性和鲁棒性。这是显示在图gydF4y2Ba
DAE的降噪。gydF4y2Ba
此外,选择遏制的原因是遏制的特点是它可以模拟任意离散分布的样本,它非常适合特性表达式当隐层单元的数量就足够了。gydF4y2Ba
DDNN模型由四层组成,也就是说,DAE1, DAE2 RBM1, RBM2。层gydF4y2Ba
具体来说,引入能量模型来捕获变量之间的相关性,同时优化模型参数。因此,重要的是要嵌入到能量函数的最优解问题当训练模型参数。这里,遏制能量函数被定义为gydF4y2Ba
通过引入这个概率,能量函数可以简化,解决方案的目标是尽量减少能源的价值。有一个在统计学习理论的低能量状态的概率高于高能源,所以我们这个概率,引入自由能函数最大化。自由能函数的定义如下:gydF4y2Ba
因此,gydF4y2Ba
右边第一项(gydF4y2Ba
这里,我们首先构造一个去噪函数模块的原始特性。它主要由DAE。底部两层放置DAE的模型,以充分利用去噪的特点。输入信号可以通过重构去噪输入信号通过无监督学习,这样信号处理后进入网络是更纯粹的编码器。然后在后续施工噪声数据的影响分类器将减少。gydF4y2Ba
第二个模块是使用DBN发达。它是通过生成元;本模型特征提取的能力将得到改善。此外,该模型可以获得复杂规则的数据,和高级特性提取更具代表性。为了达到更好的排序结果,我们使用提取的代表特征作为输入使用遏制进一步提取后的最终分类器。gydF4y2Ba
考虑复杂的训练和模型的效率,一个两层DAE和将使用一个两层的遏制。gydF4y2Ba
在这里,最后DDNN-based文本分类器。有三个关键模块的架构,如图gydF4y2Ba
分类器的体系结构。gydF4y2Ba
首先,这里的功能词处理映射到的词汇形式(gydF4y2Ba
中提到的DDNN部分gydF4y2Ba
在这个模块中,我们使用Softmax分类器在分类、及其输入功能,从功能学习模块。分类器,假设文本数据集gydF4y2Ba
在得到gydF4y2Ba
在这篇文章中,模拟是进行两个步骤。首先,我们分析了影响性能的关键参数DAE和元模型(DDNN模型的基本组件)并实现仿真与适当的参数。第二,我们比较DDNN NB,资讯,支持向量机,DBN使用数据噪声和数据没有噪音和验证该DDNN的有效性。gydF4y2Ba
对于文本分类的结果,我们主要使用精度作为分类标准。这个索引性能被广泛用于评估领域的信息检索和统计分类。gydF4y2Ba
如果有两个类别的信息在最初的样品中,有总gydF4y2Ba
分类后,TP样本属于正确类别分为类别1,0错误和FN样本分为类别。和TN样本属于正确类别分为类别0,FP样本分为第一类错误。gydF4y2Ba
然后,准确的定义是gydF4y2Ba
召回的定义是gydF4y2Ba
的gydF4y2Ba
在我们的模拟中,我们测试算法性能使用两个新闻数据集,即20-Newsgroups和BBC新闻数据集。gydF4y2Ba
20-Newsgroups数据集包含20个不同的新闻评论组,每组代表一个新闻话题。有三个版本的网站(gydF4y2Ba
BBC新闻的数据集由BBC网站上几个新闻文档(gydF4y2Ba
根据以下所有的模拟进行。操作系统是Ubuntu 16.04。硬件环境是NVIDIA公司GM204GL特斯拉M60。软件环境是Cuda V8.0.61和cuDNN 5.1。深度学习框架Keras,而使用sklearn和nltk工具包。gydF4y2Ba
深入学习算法,参数调优大大影响仿真结果的性能。DDNN,我们主要的参数调整包括数据的加噪比,隐层节点的数量,和学习速率。gydF4y2Ba
为了测试DDNN的鲁棒性,我们将训练集的加噪比为0.01,0.001和0.0001。结果如表所示gydF4y2Ba
文本分类的性能DDNN与不同加噪声比。gydF4y2Ba
| 加噪声比gydF4y2Ba | 噪声系数gydF4y2Ba | |||||
|---|---|---|---|---|---|---|
| 0.00gydF4y2Ba | 0.01gydF4y2Ba | 0.02gydF4y2Ba | 0.03gydF4y2Ba | 0.04gydF4y2Ba | 0.05gydF4y2Ba | |
| 0.001gydF4y2Ba | 0.7530gydF4y2Ba | 0.7529gydF4y2Ba | 0.7479gydF4y2Ba | 0.7450gydF4y2Ba | 0.7349gydF4y2Ba | 0.7287gydF4y2Ba |
| 0.01gydF4y2Ba | 0.7536gydF4y2Ba | 0.7561gydF4y2Ba | 0.7550gydF4y2Ba | 0.7542gydF4y2Ba | 0.7443gydF4y2Ba | 0.7378gydF4y2Ba |
| 0.1gydF4y2Ba | 0.5379gydF4y2Ba | 0.5310gydF4y2Ba | 0.5270gydF4y2Ba | 0.5179gydF4y2Ba | 0.5027gydF4y2Ba | 0.4978gydF4y2Ba |
如表所示gydF4y2Ba
输入层节点的数目是固定的根据重量使用TF-IDF算法的结果。因为DAE的主要目的是重建原始数据,我们设置了数字输入层和输出层节点的节点相同的值。因为隐层节点的数目是未知的,我们设置的两个隐层节点的数量DAE - 1600和1500年,1700年和1500年,1800年和1500年,分别。此外,遏制的两个隐层节点的数量设置为600年和100年,700年和100年,800年和100年,分别。然后,我们进行仿真。我们将学习速率设置为0.1,0.01和0.001。结果如表所示gydF4y2Ba
文本分类的性能DDNN与不同的参数。gydF4y2Ba
| 学习速率gydF4y2Ba | DAEgydF4y2Ba | 遏制gydF4y2Ba | 精度gydF4y2Ba | ||
|---|---|---|---|---|---|
| 0.01gydF4y2Ba | 1600年gydF4y2Ba | 1500年gydF4y2Ba | 600年gydF4y2Ba | One hundred.gydF4y2Ba | 0.9640gydF4y2Ba |
| 1700年gydF4y2Ba | 1500年gydF4y2Ba | 700年gydF4y2Ba | One hundred.gydF4y2Ba | 0.9700gydF4y2Ba | |
| 1800年gydF4y2Ba | 1500年gydF4y2Ba | 800年gydF4y2Ba | One hundred.gydF4y2Ba | 0.9686gydF4y2Ba | |
|
|
|||||
| 0.02gydF4y2Ba | 1600年gydF4y2Ba | 1500年gydF4y2Ba | 600年gydF4y2Ba | One hundred.gydF4y2Ba | 0.9655gydF4y2Ba |
| 1700年gydF4y2Ba | 1500年gydF4y2Ba | 700年gydF4y2Ba | One hundred.gydF4y2Ba | 0.9654gydF4y2Ba | |
| 1800年gydF4y2Ba | 1500年gydF4y2Ba | 800年gydF4y2Ba | One hundred.gydF4y2Ba | 0.9670gydF4y2Ba | |
|
|
|||||
| 0.03gydF4y2Ba | 1600年gydF4y2Ba | 1500年gydF4y2Ba | 600年gydF4y2Ba | One hundred.gydF4y2Ba | 0.9625gydF4y2Ba |
| 1700年gydF4y2Ba | 1500年gydF4y2Ba | 700年gydF4y2Ba | One hundred.gydF4y2Ba | 0.9627gydF4y2Ba | |
| 1800年gydF4y2Ba | 1500年gydF4y2Ba | 800年gydF4y2Ba | One hundred.gydF4y2Ba | 0.9491gydF4y2Ba | |
如表所示gydF4y2Ba
在本文中,我们比较DDNN模型NB,资讯,支持向量机,DBN模型。gydF4y2Ba
在文本预处理,我们选择第一个2000字的频率仿真和批量大小350。相比DDNN模型(两层DAE和两层组织遏制在这篇文章中,提出DBN模型也将四层。pretraining阶段的迭代的数量是100,和模型更新参数是0.01。gydF4y2Ba
在这里,我们接受BBC新闻数据集的例子显示的过程训练。从数据gydF4y2Ba
测试精度在BBC新闻数据集的训练过程。gydF4y2Ba
测试在BBC新闻数据集训练过程。gydF4y2Ba
表gydF4y2Ba
文本分类性能不同的模型使用BBC新闻数据集。gydF4y2Ba
| 分类器gydF4y2Ba | 加比噪声gydF4y2Ba | ||||||
|---|---|---|---|---|---|---|---|
| 0.00gydF4y2Ba | 0.01gydF4y2Ba | 0.02gydF4y2Ba | 0.03gydF4y2Ba | 0.04gydF4y2Ba | 0.05gydF4y2Ba | ||
| 精度gydF4y2Ba | 注gydF4y2Ba | 0.9659gydF4y2Ba | 0.9560gydF4y2Ba | 0.9339gydF4y2Ba | 0.8736gydF4y2Ba | 0.8186gydF4y2Ba | 0.7852gydF4y2Ba |
| 然而,gydF4y2Ba | 0.9375gydF4y2Ba | 0.9325gydF4y2Ba | 0.9284gydF4y2Ba | 0.9373gydF4y2Ba | 0.9119gydF4y2Ba | 0.9260gydF4y2Ba | |
| 支持向量机gydF4y2Ba | 0.9715gydF4y2Ba | 0.9701gydF4y2Ba | 0.9672gydF4y2Ba | 0.9583gydF4y2Ba | 0.9340gydF4y2Ba | 0.9075gydF4y2Ba | |
| DBNgydF4y2Ba | 0.9462gydF4y2Ba | 0.9434gydF4y2Ba | 0.9268gydF4y2Ba | 0.9076gydF4y2Ba | 0.8789gydF4y2Ba | 0.8479gydF4y2Ba | |
|
|
|
|
|
|
|
|
|
|
|
|||||||
| 回忆gydF4y2Ba | 注gydF4y2Ba | 0.9655gydF4y2Ba | 0.9550gydF4y2Ba | 0.9294gydF4y2Ba | 0.8453gydF4y2Ba | 0.7387gydF4y2Ba | 0.6652gydF4y2Ba |
| 然而,gydF4y2Ba | 0.9354gydF4y2Ba | 0.9324gydF4y2Ba | 0.9279gydF4y2Ba | 0.9369gydF4y2Ba | 0.9114gydF4y2Ba | 0.9249gydF4y2Ba | |
| 支持向量机gydF4y2Ba | 0.9715gydF4y2Ba | 0.9700gydF4y2Ba | 0.9670gydF4y2Ba | 0.9580gydF4y2Ba | 0.9309gydF4y2Ba | 0.8964gydF4y2Ba | |
| DBNgydF4y2Ba | 0.9459gydF4y2Ba | 0.9429gydF4y2Ba | 0.9249gydF4y2Ba | 0.9039gydF4y2Ba | 0.8769gydF4y2Ba | 0.8393gydF4y2Ba | |
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
注gydF4y2Ba | 0.9657gydF4y2Ba | 0.9555gydF4y2Ba | 0.9316gydF4y2Ba | 0.8592gydF4y2Ba | 0.7766gydF4y2Ba | 0.7202gydF4y2Ba |
| 然而,gydF4y2Ba | 0.9364gydF4y2Ba | 0.9324gydF4y2Ba | 0.9281gydF4y2Ba | 0.9371gydF4y2Ba | 0.9116gydF4y2Ba | 0.9254gydF4y2Ba | |
| 支持向量机gydF4y2Ba | 0.9715gydF4y2Ba | 0.9700gydF4y2Ba | 0.9671gydF4y2Ba | 0.9581gydF4y2Ba | 0.9324gydF4y2Ba | 0.9019gydF4y2Ba | |
| DBNgydF4y2Ba | 0.9460gydF4y2Ba | 0.9431gydF4y2Ba | 0.9258gydF4y2Ba | 0.9057gydF4y2Ba | 0.8779gydF4y2Ba | 0.8436gydF4y2Ba | |
|
|
|
|
|
|
|
|
|
文本分类性能不同的模型使用20-Newsgroup数据集。gydF4y2Ba
| 分类器gydF4y2Ba | 噪声系数gydF4y2Ba | ||||||
|---|---|---|---|---|---|---|---|
| 0.00gydF4y2Ba | 0.01gydF4y2Ba | 0.02gydF4y2Ba | 0.03gydF4y2Ba | 0.04gydF4y2Ba | 0.05gydF4y2Ba | ||
| 精度gydF4y2Ba | 注gydF4y2Ba | 0.7506gydF4y2Ba | 0.7274gydF4y2Ba | 0.6895gydF4y2Ba | 0.6678gydF4y2Ba | 0.5887gydF4y2Ba | 0.4633gydF4y2Ba |
| 然而,gydF4y2Ba | 0.6136gydF4y2Ba | 0.6161gydF4y2Ba | 0.6213gydF4y2Ba | 0.6142gydF4y2Ba | 0.6043gydF4y2Ba | 0.5978gydF4y2Ba | |
| 支持向量机gydF4y2Ba | 0.7598gydF4y2Ba | 0.7527gydF4y2Ba | 0.7294gydF4y2Ba | 0.6968gydF4y2Ba | 0.6652gydF4y2Ba | 0.6453gydF4y2Ba | |
| DBNgydF4y2Ba | 0.7235gydF4y2Ba | 0.7207gydF4y2Ba | 0.7041gydF4y2Ba | 0.6849gydF4y2Ba | 0.6562gydF4y2Ba | 0.6252gydF4y2Ba | |
|
|
|
|
|
|
|
|
|
|
|
|||||||
| 回忆gydF4y2Ba | 注gydF4y2Ba | 0.7483gydF4y2Ba | 0.6693gydF4y2Ba | 0.5053gydF4y2Ba | 0.3526gydF4y2Ba | 0.2613gydF4y2Ba | 0.2027gydF4y2Ba |
| 然而,gydF4y2Ba | 0.5959gydF4y2Ba | 0.6000gydF4y2Ba | 0.6070gydF4y2Ba | 0.6034gydF4y2Ba | 0.5939gydF4y2Ba | 0.5820gydF4y2Ba | |
| 支持向量机gydF4y2Ba | 0.7525gydF4y2Ba | 0.7415gydF4y2Ba | 0.6966gydF4y2Ba | 0.6094gydF4y2Ba | 0.4891gydF4y2Ba | 0.3833gydF4y2Ba | |
| DBNgydF4y2Ba | 0.7149gydF4y2Ba | 0.7120gydF4y2Ba | 0.6990gydF4y2Ba | 0.6826gydF4y2Ba | 0.6439gydF4y2Ba | 0.6250gydF4y2Ba | |
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
注gydF4y2Ba | 0.7494gydF4y2Ba | 0.6971gydF4y2Ba | 0.5832gydF4y2Ba | 0.4615gydF4y2Ba | 0.3619gydF4y2Ba | 0.2820gydF4y2Ba |
| 然而,gydF4y2Ba | 0.6046gydF4y2Ba | 0.6079gydF4y2Ba | 0.6141gydF4y2Ba | 0.6088gydF4y2Ba | 0.5991gydF4y2Ba | 0.5898gydF4y2Ba | |
| 支持向量机gydF4y2Ba | 0.7561gydF4y2Ba | 0.7471gydF4y2Ba | 0.7126gydF4y2Ba | 0.6502gydF4y2Ba | 0.5637gydF4y2Ba | 0.4809gydF4y2Ba | |
| DBNgydF4y2Ba | 0.7192gydF4y2Ba | 0.7163gydF4y2Ba | 0.7015gydF4y2Ba | 0.6837gydF4y2Ba | 0.6500gydF4y2Ba | 0.6251gydF4y2Ba | |
|
|
|
|
|
|
|
|
|
后比较DDNN模型和浅子模型,包括资讯和支持向量机,从这些分析结果表gydF4y2Ba
与DBN模型相比,DDNN首先使用DAE模型训练分类结果更准确的情况下,两层模型是相同的(他们都是四层)。这是因为第一个两层与DAE DDNN模型,可以有效地减少噪声数据的影响,和DDNN模型可以更灵活的调整参数。另一方面,由于使用DAE作为初始层,初步数据的维度也可以减少。gydF4y2Ba
如表所示gydF4y2Ba
此外,表gydF4y2Ba
不同的模型(ms)的运行时间。gydF4y2Ba
| 分类器gydF4y2Ba | 数据集gydF4y2Ba | |
|---|---|---|
| BBC新闻gydF4y2Ba | 20-NewsgroupsgydF4y2Ba | |
| 注gydF4y2Ba | 0.005gydF4y2Ba | 0.006gydF4y2Ba |
| 然而,gydF4y2Ba | 0.150gydF4y2Ba | 0.870gydF4y2Ba |
| 支持向量机gydF4y2Ba | 1.660gydF4y2Ba | 12.060gydF4y2Ba |
| DBNgydF4y2Ba | 0.110gydF4y2Ba | 0.180gydF4y2Ba |
|
|
|
|
本文结合了DAE和元小说设计一款模型,DDNN命名。模型基于DAE首先消除干扰数据,然后基于遏制文本有效的提取特征。具体来说,我们20-Newsgroups和BBC新闻数据集进行模拟和比较该模型与其他传统的分类算法,例如,NB,资讯,支持向量机,和DBN模型,考虑噪声的影响。验证,DDNN本文提出达到更好的抗噪性能,可提取更健壮和更深层次的特性同时提高分类性能。gydF4y2Ba
虽然该模型DDNN取得了令人满意的性能在文本分类、文本中使用的模拟是长形数据。然而,考虑到还有一些简短的文本数据在文本分类任务中,我们应该使用模型DDNN解决这个问题。此外,为了进一步提高计算性能在深度学习方法的实现,在未来我们也可以设计一些混合学习算法通过将一些先进的优化技术,例如,内核学习和强化学习,DDNN框架,而应用在其他领域。gydF4y2Ba
作者宣称没有利益冲突有关的出版。gydF4y2Ba
这项研究是由基础研究基金资助下拍摄的中国中央大学润扬悬索桥格兰特- bd - 16 - 005 a,中国的国家自然科学基金资助61174103,中国国家重点研发项目赠款2017 yfb1002304和2017 yfb0702300下,地质信息技术重点实验室的国土资源部授予2017320下,台北科技大学和北京国家授予TW201705下科技大学的联合研究项目。gydF4y2Ba