SPgydF4y2Ba 科学的规划gydF4y2Ba 1875 - 919 xgydF4y2Ba 1058 - 9244gydF4y2Ba HindawigydF4y2Ba 10.1155 / 2017/3610378gydF4y2Ba 3610378gydF4y2Ba 研究文章gydF4y2Ba 一个健壮的文本分类器基于神经网络去噪深大数据的分析gydF4y2Ba http://orcid.org/0000 - 0002 - 3320 - 8110gydF4y2Ba AziguligydF4y2Ba WulamugydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba 张gydF4y2Ba YuanyugydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba http://orcid.org/0000 - 0002 - 3398 - 6262gydF4y2Ba 谢gydF4y2Ba 永宏gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba http://orcid.org/0000 - 0002 - 3456 - 5259gydF4y2Ba 张gydF4y2Ba 德gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba http://orcid.org/0000 - 0002 - 1929 - 8447gydF4y2Ba 罗gydF4y2Ba 熊gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba 3gydF4y2Ba 李gydF4y2Ba ChunmiaogydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba 张gydF4y2Ba 姚gydF4y2Ba 4gydF4y2Ba 刘gydF4y2Ba 安丰gydF4y2Ba 1gydF4y2Ba 计算机与通信工程学院gydF4y2Ba 北京科技大学(拍摄)gydF4y2Ba 北京100083年gydF4y2Ba 中国gydF4y2Ba ustb.edu.cngydF4y2Ba 2gydF4y2Ba 北京工业光谱成像的工程研究中心gydF4y2Ba 北京100083年gydF4y2Ba 中国gydF4y2Ba 3gydF4y2Ba 地质信息技术重点实验室gydF4y2Ba 国土资源部gydF4y2Ba 北京100037年gydF4y2Ba 中国gydF4y2Ba mlr.gov.cngydF4y2Ba 4gydF4y2Ba Tandon工程学院gydF4y2Ba 纽约大学gydF4y2Ba 布鲁克林gydF4y2Ba 纽约11201gydF4y2Ba 美国gydF4y2Ba nyu.edugydF4y2Ba 2017年gydF4y2Ba 27gydF4y2Ba 11gydF4y2Ba 2017年gydF4y2Ba 2017年gydF4y2Ba 25gydF4y2Ba 08年gydF4y2Ba 2017年gydF4y2Ba 17gydF4y2Ba 10gydF4y2Ba 2017年gydF4y2Ba 27gydF4y2Ba 11gydF4y2Ba 2017年gydF4y2Ba 2017年gydF4y2Ba 版权©2017 Wulamu Aziguli et al。gydF4y2Ba 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。gydF4y2Ba

文本分类一直是研究领域的一个有趣的问题自然语言处理(NLP)。而进入大数据的时代,一个好的文本分类器实现NLP科学大数据分析的关键。与文本数据的不断增加的大小,提出了重要的挑战在发展中有效的文本分类算法。鉴于深层神经网络的成功(款)大数据分析,本文提出了一种使用款小说文本分类器,为了提高计算性能的解决大文本数据混合的离群值。具体地说,通过使用去噪autoencoder (DAE)和限制玻耳兹曼机(元),我们建议的方法,叫去噪深层神经网络(DDNN),能够实现更好的性能的显著提高抗噪声和特征提取,相比传统的文本分类算法。基准数据集上的仿真验证我们提出的文本分类器的有效性和鲁棒性。gydF4y2Ba

基础研究基金中央大学拍摄的gydF4y2Ba 频- bd - 16 - 005 agydF4y2Ba 中国国家自然科学基金gydF4y2Ba 61174103gydF4y2Ba 中国国家重点研究和发展项目gydF4y2Ba 2017年yfb1002304gydF4y2Ba 2017年yfb0702300gydF4y2Ba 国土资源部的中华人民共和国gydF4y2Ba 2017320gydF4y2Ba 台北科技大学北京国家技术大学的联合研究项目gydF4y2Ba TW201705gydF4y2Ba
1。介绍gydF4y2Ba

而进入大数据的时代,随着信息技术和互联网的发展,数据量的几何增长。我们正在进入信息过载的时代。人们面临的问题不再是如何获取信息,而是如何快速有效地提取有用的信息从大量的数据。因此,如何有效地管理和过滤信息一直在工程和科学领域的一个重要的研究领域。gydF4y2Ba

的数据量的快速增长,信息表示形式也多样化,主要包括文本、声音和图像。相比之下,声音和图像,文本数据使用网络资源较少,更容易被上传和下载。因为其他形式的信息也可以表达的文本,文本已成为信息的主要载体,始终占据领先地位的网络资源。gydF4y2Ba

传统上,这是耗时的,并且很难实现所需的文本处理的结果,并不能适应信息社会的需求数字信息的爆炸性增长。因此,有效地获取信息按照用户反馈可以帮助用户快速、准确地获得信息。然后,文本分类成为关键技术实现免费的人机交互和人工智能。它可以解决信息混乱的问题在很大程度上,这样用户可以准确地找到信息。gydF4y2Ba

1.1。文本分类gydF4y2Ba

文本分类的目的是将大量的文本分配给一个或多个类别的基础上,主题,内容,或者文档的属性。文本分类的方法分为两类,包括基于规则和统计分类方法(gydF4y2Ba 1gydF4y2Ba,gydF4y2Ba 2gydF4y2Ba]。其中,基于规则的分类方法基本在这个领域需要更多的知识和规则。然而,规则的发展和更新他们的困难使这个方法的应用相对狭窄,只适合一个特定的领域。统计学习方法通常是基于统计或某些类型的统计知识;这些方法建立学习参数相应的数据模型通过训练集的样本统计量和计算,然后进行分类器的训练。在测试阶段,样本的类别可以根据这些参数预测。gydF4y2Ba

最近,大量的统计机器学习方法应用于文本分类系统。最早的机器学习方法的应用朴素贝叶斯(NB) [gydF4y2Ba 3gydF4y2Ba,gydF4y2Ba 4gydF4y2Ba]。随后,几乎所有重要的机器学习算法应用于文本分类领域,例如,gydF4y2Ba KgydF4y2Ba 最近邻(资讯),神经网络(NN)、支持向量机(SVM),决策树,内核学习,和其他一些gydF4y2Ba 5gydF4y2Ba- - - - - -gydF4y2Ba 10gydF4y2Ba]。支持向量机使用浅线性模型独立的目标。在低维空间中,不同类型的数据向量不能分裂,支持向量机将通过核函数映射到高维空间,发现最优超平面。此外,NB、线性分类决策树,然而,和其他方法相对较弱,但其模型简单、高效;那么这些方法相应的改善。gydF4y2Ba

但这些模型是肤浅的机器学习方法。虽然他们也被证明能够有效地解决一些问题的简单或多个限制,当面对复杂的实际问题,例如,生物医学多类文本分类,数据噪声和数据集分布不均匀分类和浅机器学习模型和集成分类器方法的泛化能力不满意。因此,探索一些新的方法,例如,深度学习的方法,是必要的。gydF4y2Ba

1.2。深度学习gydF4y2Ba

与深度学习成功的方法(gydF4y2Ba 11gydF4y2Ba,gydF4y2Ba 12gydF4y2Ba),其他一些改进神经网络,例如,深层信念网络(DBN) [gydF4y2Ba 13gydF4y2Ba),开发了。这里,DBN设计级联限制玻尔兹曼机的基础上(元)gydF4y2Ba 14gydF4y2Ba通过无监督学习算法,贪婪层pretraining策略相结合的监督微调的训练方法。它可以解决复杂的问题深入学习模型优化,因此深层神经网络(款)见证了快速的进步。gydF4y2Ba

与此同时,款已应用于许多学习任务,例如,声音和图像认识(gydF4y2Ba 15gydF4y2Ba]。例如,自2011年以来,微软和谷歌的语音识别研究团队实现了语音识别错误率减少20% - -30%的用款模型,向前走在语音识别领域在过去的几十年。2012年,技术在ImageNet款(gydF4y2Ba 15gydF4y2Ba评估任务(图像识别领域)出错率从26%提高到了15%gydF4y2Ba 16gydF4y2Ba]。gydF4y2Ba

此外,自动编码器(AE)作为繁殖款输入信号(gydF4y2Ba 17gydF4y2Ba,gydF4y2Ba 18gydF4y2Ba]。其主要原理是一个给定的输入;它首先使用编码器编码输入信号,然后使用解码器解码编码信号,同时实现最小重建误差通过不断调整编码器和译码器的参数gydF4y2Ba 19gydF4y2Ba]。此外,有一些改进AE, AE(例如,稀疏的AE和去噪gydF4y2Ba 17gydF4y2Ba,gydF4y2Ba 18gydF4y2Ba]。一些机器学习算法的性能可以进一步提高通过使用这些AEs (gydF4y2Ba 20.gydF4y2Ba]。gydF4y2Ba

最近,深度学习方法产生重大影响的领域自然语言处理(NLP) [gydF4y2Ba 11gydF4y2Ba,gydF4y2Ba 21gydF4y2Ba]。gydF4y2Ba

1.3。现状分析gydF4y2Ba

由于大型文本数据的复杂特性,以及不同噪声的影响,性能不满意处理大型数据集时使用传统的文本分类算法。gydF4y2Ba

最近,深度学习应用于一系列的成功与多个模式分类问题。然后,用户可以有效地提取文本的语义关系复杂的使用基于深度学习方法(gydF4y2Ba 11gydF4y2Ba,gydF4y2Ba 22gydF4y2Ba]。随着深度学习的流行算法,有一些款优势在处理大规模数据集。在这篇文章中,出于款,去噪深层神经网络(DDNN)设计和特征提取是由使用此模型。gydF4y2Ba

浅的文本表示(特征选择),有一个语义缺失的问题。深的文本表示模型的基于线性计算,阈值的选择添加到分类器训练,这实际上破坏了文本的自学学习能力。同时,用于文本分类multilabel multicategory,还有一个问题,忽略标签依赖和缺乏概括能力。应对上述问题,一些改进通过深度学习方法。例如,一个两层复制softmax模型(RSM)提出了gydF4y2Ba 23gydF4y2Ba],它比潜在狄利克雷分配(LDA),即语义一致的话题模型(gydF4y2Ba 24gydF4y2Ba]。然而,模型设计使用加权共享技术和只有两层。在降维过程中,文档的丢失信息相对较大,噪声处理的能力差,导致小区别不同文档使用模型。gydF4y2Ba

为了避免这样的局限性和发展一个更好的方法,本文提出了一种DDNN模型通过一些先进的深度学习方法的结合。具体地说,在我们的模型中,数据去噪的帮助去噪autoencoder (DAE),然后提取文本的功能有效地使用组织遏制。与传统的文本分类算法相比,我们的算法可以实现更好的性能的显著提高抗噪声和特征提取,由于混合深度学习方法的高效的学习能力在这个模型中使用。gydF4y2Ba

本文的组织结构如下的提示。节gydF4y2Ba 2gydF4y2Ba,我们给DAE技术分析gydF4y2Ba 25gydF4y2Ba和遏制gydF4y2Ba 26gydF4y2Ba]。然后,我们提出了文本分类器提出了部分gydF4y2Ba 3gydF4y2Ba,更多的关注是支付DDNN的实现。部分gydF4y2Ba 4gydF4y2Ba提供了一些仿真结果和讨论。最后,给出的结论是在部分gydF4y2Ba 5gydF4y2Ba。gydF4y2Ba

2。背景gydF4y2Ba

在本文中,我们使用两种最先进的深度学习模型,也就是说,DAE和遏制gydF4y2Ba 25gydF4y2Ba,gydF4y2Ba 26gydF4y2Ba]。gydF4y2Ba

2.1。去噪Autoencoder (DAE)gydF4y2Ba

一般来说,AE的结构(gydF4y2Ba 27gydF4y2Ba)如图gydF4y2Ba 1gydF4y2Ba。在这里,整个系统包括两个网络,也就是说,编码器和译码器。它的目的是使重建层输出尽可能相似的输入。编码网络将代码和计算的输入gydF4y2Ba xgydF4y2Ba 然后重建结果gydF4y2Ba hgydF4y2Ba 来gydF4y2Ba rgydF4y2Ba 译码器。和去噪自动编码开发根据自动编码,它将学习的更健壮的表示输入信号,具有较强的泛化能力比普通编码器通过添加噪声训练数据。gydF4y2Ba

自动编码器模型的示意图。gydF4y2Ba

2.2。限制玻耳兹曼机(元)gydF4y2Ba

如图gydF4y2Ba 2gydF4y2Ba遏制网络有两层gydF4y2Ba 28gydF4y2Ba,gydF4y2Ba 29日gydF4y2Ba]。在这里,第一层是视觉层(gydF4y2Ba vgydF4y2Ba ),也称为输入层,由gydF4y2Ba 米gydF4y2Ba 可见节点。第二层是隐藏层(gydF4y2Ba hgydF4y2Ba ),也就是说,特征提取层,它由gydF4y2Ba ngydF4y2Ba 隐藏的节点。如果gydF4y2Ba vgydF4y2Ba 是已知的,那么gydF4y2Ba PgydF4y2Ba (gydF4y2Ba hgydF4y2Ba /gydF4y2Ba vgydF4y2Ba )gydF4y2Ba =gydF4y2Ba PgydF4y2Ba (gydF4y2Ba hgydF4y2Ba 1gydF4y2Ba /gydF4y2Ba vgydF4y2Ba )gydF4y2Ba ⋯gydF4y2Ba PgydF4y2Ba (gydF4y2Ba hgydF4y2Ba ngydF4y2Ba /gydF4y2Ba vgydF4y2Ba )gydF4y2Ba 和所有隐藏节点是条件独立的。同样,所有可见的节点也有条件独立当隐藏层gydF4y2Ba hgydF4y2Ba 是已知的,层内的节点不连接,并从不同层次的节点完全连接。gydF4y2Ba

玻耳兹曼机原理图的限制。gydF4y2Ba

3所示。提出了文本分类器gydF4y2Ba 3.1。去噪深层神经网络(DDNN)gydF4y2Ba 3.1.1。框架gydF4y2Ba

在这里,一个DDNN设计使用DAE和遏制,这可以有效地减少噪声,而提取功能。gydF4y2Ba

DDNN模型的输入向量与固定的维度。首先,我们进行的训练去噪模块组成的两层,名为DAE1 DAE2,使用非监督训练的方法。在这里,里面只有一份礼物是每次训练,并且每个训练可以减少输入数据的重建误差,即前一层的输出。因为我们可以计算出编码器基于前面的层或其潜在的表达式gydF4y2Ba kgydF4y2Ba ,所以gydF4y2Ba (gydF4y2Ba kgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba 层可以直接使用的输出处理gydF4y2Ba kgydF4y2Ba th层,直到所有被训练去噪层。gydF4y2Ba

这个模型显示在图的操作gydF4y2Ba 3gydF4y2Ba。gydF4y2Ba

去噪深层神经网络的原理图。gydF4y2Ba

通过去噪层处理后,数据进入疟疾行动的一部分,这可以进一步提取去噪自动编码器的功能,不同层。特征提取后,这部分将更具代表性和重要。图gydF4y2Ba 4gydF4y2Ba的图元特征提取。gydF4y2Ba

插图作为遏制疟疾的特征提取。gydF4y2Ba

这部分是由叠加两层组织遏制。培训可由培训组织遏制从低到高如下。gydF4y2Ba

(gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba 底部的输入元去噪的输出层。gydF4y2Ba

(gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba 从底部特征提取元作为输入的遏制。gydF4y2Ba

因为可以训练迅速遏制对比差异(CD)学习算法(gydF4y2Ba 30.gydF4y2Ba),这个培训框架避免高复杂性的计算直接得到深度网络与一个培训将它划分为多个组织遏制培训。这次培训之后,一些pretraining模型的初始参数值。这时,一个反向传播(BP)神经网络初始化使用这些参数;由传统的全球调整网络参数学习算法使用数据集和标签。因此,该函数可以收敛到全局最优。gydF4y2Ba

选择DAE在这里的原因是,在文本分类的过程中,数据将不可避免地混合到不同类型和强度的噪音,会影响模型的训练,导致最终的分类性能的恶化。DAE的初步提取原始特性,及其学习标准是降噪。在pretraining阶段,添加各种不同的强度和不同类型的噪音信号原始输入信号可以使编码过程获得更好的稳定性和鲁棒性。这是显示在图gydF4y2Ba 5gydF4y2Ba。gydF4y2Ba

DAE的降噪。gydF4y2Ba

此外,选择遏制的原因是遏制的特点是它可以模拟任意离散分布的样本,它非常适合特性表达式当隐层单元的数量就足够了。gydF4y2Ba

3.1.2。实现gydF4y2Ba

DDNN模型由四层组成,也就是说,DAE1, DAE2 RBM1, RBM2。层gydF4y2Ba vgydF4y2Ba可视层和DDNN模型的输入层。每个文档在本文中由固定维数向量,表示gydF4y2Ba WgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba WgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba WgydF4y2Ba 3gydF4y2Ba ,gydF4y2Ba WgydF4y2Ba 4gydF4y2Ba 分别代表层之间的连接权重。此外,gydF4y2Ba hgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba hgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba hgydF4y2Ba 3gydF4y2Ba ,gydF4y2Ba hgydF4y2Ba 4gydF4y2Ba 表示每个DAE1相应隐层到输出层,DAE2, RBM1和RBM2分别。DAE2层是输出层的去噪模块,并输入层两层元模块。RBM2 DDNN模型的输出层代表文档的功能,它会被拿来与视觉层gydF4y2Ba vgydF4y2Ba 。这一层是高级特性表示的文本数据。随后的文本分类任务的基础上还解决了这个向量。对所有节点,没有同一层节点之间的连接,但这两个层之间的节点完全连接。gydF4y2Ba

具体来说,引入能量模型来捕获变量之间的相关性,同时优化模型参数。因此,重要的是要嵌入到能量函数的最优解问题当训练模型参数。这里,遏制能量函数被定义为gydF4y2Ba (1)gydF4y2Ba EgydF4y2Ba vgydF4y2Ba ,gydF4y2Ba hgydF4y2Ba =gydF4y2Ba - - - - - -gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ngydF4y2Ba ∑gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 米gydF4y2Ba wgydF4y2Ba 我gydF4y2Ba jgydF4y2Ba hgydF4y2Ba 我gydF4y2Ba vgydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba ∑gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 米gydF4y2Ba bgydF4y2Ba jgydF4y2Ba vgydF4y2Ba jgydF4y2Ba - - - - - -gydF4y2Ba ∑gydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ngydF4y2Ba cgydF4y2Ba 我gydF4y2Ba hgydF4y2Ba 我gydF4y2Ba 。gydF4y2Ba 在这里,(gydF4y2Ba 1gydF4y2Ba)代表每一个可见的能量函数节点和隐藏节点连接结构。其中,gydF4y2Ba ngydF4y2Ba 是隐藏节点的数量,gydF4y2Ba 米gydF4y2Ba 可见层节点数,gydF4y2Ba bgydF4y2Ba 和gydF4y2Ba cgydF4y2Ba 是视觉的偏差层和隐藏层,分别。元模型的目标函数是可见的所有节点的能量积累和隐藏的节点。因此,有必要对每个样本计算所有隐藏的节点对应的价值,这样可以计算的总能量。计算是复杂的。一个有效的解决方案是将问题转化为概率计算。可见,隐藏节点的联合概率gydF4y2Ba (2)gydF4y2Ba PgydF4y2Ba vgydF4y2Ba ,gydF4y2Ba hgydF4y2Ba =gydF4y2Ba egydF4y2Ba - - - - - -gydF4y2Ba EgydF4y2Ba vgydF4y2Ba ,gydF4y2Ba hgydF4y2Ba ∑gydF4y2Ba vgydF4y2Ba ,gydF4y2Ba hgydF4y2Ba egydF4y2Ba - - - - - -gydF4y2Ba EgydF4y2Ba vgydF4y2Ba ,gydF4y2Ba hgydF4y2Ba 。gydF4y2Ba

通过引入这个概率,能量函数可以简化,解决方案的目标是尽量减少能源的价值。有一个在统计学习理论的低能量状态的概率高于高能源,所以我们这个概率,引入自由能函数最大化。自由能函数的定义如下:gydF4y2Ba (3)gydF4y2Ba FgydF4y2Ba rgydF4y2Ba egydF4y2Ba egydF4y2Ba EgydF4y2Ba ngydF4y2Ba egydF4y2Ba rgydF4y2Ba ggydF4y2Ba ygydF4y2Ba vgydF4y2Ba =gydF4y2Ba - - - - - -gydF4y2Ba lngydF4y2Ba ⁡gydF4y2Ba ∑gydF4y2Ba hgydF4y2Ba egydF4y2Ba - - - - - -gydF4y2Ba EgydF4y2Ba vgydF4y2Ba ,gydF4y2Ba hgydF4y2Ba 。gydF4y2Ba

因此,gydF4y2Ba (4)gydF4y2Ba PgydF4y2Ba vgydF4y2Ba =gydF4y2Ba egydF4y2Ba FgydF4y2Ba rgydF4y2Ba egydF4y2Ba egydF4y2Ba EgydF4y2Ba ngydF4y2Ba egydF4y2Ba rgydF4y2Ba ggydF4y2Ba ygydF4y2Ba vgydF4y2Ba ZgydF4y2Ba ,gydF4y2Ba ZgydF4y2Ba =gydF4y2Ba ∑gydF4y2Ba vgydF4y2Ba ,gydF4y2Ba hgydF4y2Ba egydF4y2Ba - - - - - -gydF4y2Ba EgydF4y2Ba vgydF4y2Ba ,gydF4y2Ba hgydF4y2Ba ,gydF4y2Ba 在哪里gydF4y2Ba ZgydF4y2Ba 是归一化的因素。然后,联合概率gydF4y2Ba PgydF4y2Ba (gydF4y2Ba vgydF4y2Ba )gydF4y2Ba 可以转换成gydF4y2Ba (5)gydF4y2Ba lngydF4y2Ba ⁡gydF4y2Ba PgydF4y2Ba vgydF4y2Ba =gydF4y2Ba - - - - - -gydF4y2Ba FgydF4y2Ba rgydF4y2Ba egydF4y2Ba egydF4y2Ba EgydF4y2Ba ngydF4y2Ba egydF4y2Ba rgydF4y2Ba ggydF4y2Ba ygydF4y2Ba vgydF4y2Ba - - - - - -gydF4y2Ba lngydF4y2Ba ⁡gydF4y2Ba ZgydF4y2Ba 。gydF4y2Ba

右边第一项(gydF4y2Ba 5gydF4y2Ba)的负面价值的和整个网络的自由能函数,左边是似然函数。正如我们所描述的模型描述,模型参数可以解决使用最大似然函数估计。gydF4y2Ba

这里,我们首先构造一个去噪函数模块的原始特性。它主要由DAE。底部两层放置DAE的模型,以充分利用去噪的特点。输入信号可以通过重构去噪输入信号通过无监督学习,这样信号处理后进入网络是更纯粹的编码器。然后在后续施工噪声数据的影响分类器将减少。gydF4y2Ba

第二个模块是使用DBN发达。它是通过生成元;本模型特征提取的能力将得到改善。此外,该模型可以获得复杂规则的数据,和高级特性提取更具代表性。为了达到更好的排序结果,我们使用提取的代表特征作为输入使用遏制进一步提取后的最终分类器。gydF4y2Ba

考虑复杂的训练和模型的效率,一个两层DAE和将使用一个两层的遏制。gydF4y2Ba

3.2。文本分类使用DDNNgydF4y2Ba

在这里,最后DDNN-based文本分类器。有三个关键模块的架构,如图gydF4y2Ba 6gydF4y2Ba。gydF4y2Ba

分类器的体系结构。gydF4y2Ba

3.2.1之上。文本预处理模块gydF4y2Ba

首先,这里的功能词处理映射到的词汇形式(gydF4y2Ba 31日gydF4y2Ba- - - - - -gydF4y2Ba 33gydF4y2Ba]。然后,权重计算使用TF-IDF(词频率、逆文档频率)算法(gydF4y2Ba 34gydF4y2Ba]。此外,使用向量来表示文本是如何实现的。与此同时,它也是规范化。gydF4y2Ba

3.2.2。学习功能模块gydF4y2Ba

中提到的DDNN部分gydF4y2Ba 3.1gydF4y2Ba学习是用来实现功能。gydF4y2Ba

3.2.3。分类识别模块gydF4y2Ba

在这个模块中,我们使用Softmax分类器在分类、及其输入功能,从功能学习模块。分类器,假设文本数据集gydF4y2Ba ngydF4y2Ba 文本从gydF4y2Ba kgydF4y2Ba 类别,表示为训练集gydF4y2Ba {gydF4y2Ba (gydF4y2Ba xgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba ygydF4y2Ba 1gydF4y2Ba )gydF4y2Ba ,gydF4y2Ba (gydF4y2Ba xgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba ygydF4y2Ba 2gydF4y2Ba )gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba (gydF4y2Ba xgydF4y2Ba (gydF4y2Ba ngydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba ,gydF4y2Ba ygydF4y2Ba (gydF4y2Ba ngydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba )gydF4y2Ba ,gydF4y2Ba (gydF4y2Ba xgydF4y2Ba (gydF4y2Ba ngydF4y2Ba )gydF4y2Ba ,gydF4y2Ba ygydF4y2Ba (gydF4y2Ba ngydF4y2Ba )gydF4y2Ba )gydF4y2Ba }gydF4y2Ba 和gydF4y2Ba xgydF4y2Ba (gydF4y2Ba 我gydF4y2Ba )gydF4y2Ba 代表了gydF4y2Ba 我gydF4y2Ba th训练文本和gydF4y2Ba ygydF4y2Ba 代表不同的类别gydF4y2Ba (gydF4y2Ba ygydF4y2Ba 我gydF4y2Ba ∈gydF4y2Ba {gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba kgydF4y2Ba }gydF4y2Ba )gydF4y2Ba 。该算法的主要目的是计算的概率gydF4y2Ba xgydF4y2Ba 属于标记类别,对于给定的训练集gydF4y2Ba xgydF4y2Ba 。在这里,该函数所示gydF4y2Ba (6)gydF4y2Ba hgydF4y2Ba θgydF4y2Ba xgydF4y2Ba 我gydF4y2Ba =gydF4y2Ba PgydF4y2Ba ygydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ∣gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba ;gydF4y2Ba θgydF4y2Ba PgydF4y2Ba ygydF4y2Ba 我gydF4y2Ba =gydF4y2Ba 2gydF4y2Ba ∣gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba ;gydF4y2Ba θgydF4y2Ba ⋮gydF4y2Ba PgydF4y2Ba ygydF4y2Ba 我gydF4y2Ba =gydF4y2Ba kgydF4y2Ba ∣gydF4y2Ba xgydF4y2Ba 我gydF4y2Ba ;gydF4y2Ba θgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ∑gydF4y2Ba jgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba kgydF4y2Ba egydF4y2Ba θgydF4y2Ba jgydF4y2Ba TgydF4y2Ba xgydF4y2Ba 我gydF4y2Ba egydF4y2Ba θgydF4y2Ba 1gydF4y2Ba TgydF4y2Ba xgydF4y2Ba 我gydF4y2Ba egydF4y2Ba θgydF4y2Ba 2gydF4y2Ba TgydF4y2Ba xgydF4y2Ba 我gydF4y2Ba ⋮gydF4y2Ba egydF4y2Ba θgydF4y2Ba kgydF4y2Ba TgydF4y2Ba xgydF4y2Ba 我gydF4y2Ba 。gydF4y2Ba 每个subvector向量gydF4y2Ba hgydF4y2Ba θgydF4y2Ba (gydF4y2Ba xgydF4y2Ba (gydF4y2Ba 我gydF4y2Ba )gydF4y2Ba )gydF4y2Ba 值的概率是多少gydF4y2Ba xgydF4y2Ba 属于不同的类别标签,概率值需要规范化,以便所有subvectors的概率值的总和是1。和gydF4y2Ba θgydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba θgydF4y2Ba 2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba θgydF4y2Ba kgydF4y2Ba - - - - - -gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba θgydF4y2Ba kgydF4y2Ba ∈gydF4y2Ba RgydF4y2Ba ngydF4y2Ba +gydF4y2Ba 1gydF4y2Ba 分别代表了参数向量。gydF4y2Ba

在得到gydF4y2Ba θgydF4y2Ba 之前,我们可以获得假定函数gydF4y2Ba hgydF4y2Ba θgydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba 。它可以用来计算文本的概率值gydF4y2Ba xgydF4y2Ba 属于每个类别。最大类别的概率值是最终的分类结果的分类器算法。gydF4y2Ba

4所示。仿真结果和讨论gydF4y2Ba

在这篇文章中,模拟是进行两个步骤。首先,我们分析了影响性能的关键参数DAE和元模型(DDNN模型的基本组件)并实现仿真与适当的参数。第二,我们比较DDNN NB,资讯,支持向量机,DBN使用数据噪声和数据没有噪音和验证该DDNN的有效性。gydF4y2Ba

4.1。文本分类结果的评价标准gydF4y2Ba

对于文本分类的结果,我们主要使用精度作为分类标准。这个索引性能被广泛用于评估领域的信息检索和统计分类。gydF4y2Ba

如果有两个类别的信息在最初的样品中,有总gydF4y2Ba PgydF4y2Ba 样本属于第一类,第一类是正的。还有总共gydF4y2Ba NgydF4y2Ba 样品属于类别0,和类别0是负的。gydF4y2Ba

分类后,TP样本属于正确类别分为类别1,0错误和FN样本分为类别。和TN样本属于正确类别分为类别0,FP样本分为第一类错误。gydF4y2Ba

然后,准确的定义是gydF4y2Ba (7)gydF4y2Ba 一个gydF4y2Ba cgydF4y2Ba cgydF4y2Ba ugydF4y2Ba rgydF4y2Ba 一个gydF4y2Ba cgydF4y2Ba ygydF4y2Ba =gydF4y2Ba TgydF4y2Ba PgydF4y2Ba TgydF4y2Ba PgydF4y2Ba +gydF4y2Ba FgydF4y2Ba PgydF4y2Ba 。gydF4y2Ba 在这里,精度可以反映分类器的性能。gydF4y2Ba

召回的定义是gydF4y2Ba (8)gydF4y2Ba RgydF4y2Ba egydF4y2Ba cgydF4y2Ba 一个gydF4y2Ba lgydF4y2Ba lgydF4y2Ba =gydF4y2Ba TgydF4y2Ba PgydF4y2Ba TgydF4y2Ba PgydF4y2Ba +gydF4y2Ba FgydF4y2Ba NgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba FgydF4y2Ba NgydF4y2Ba PgydF4y2Ba 。gydF4y2Ba 它能体现的比例正样本正确分类。gydF4y2Ba

的gydF4y2Ba FgydF4y2Ba 分数被定义为gydF4y2Ba (9)gydF4y2Ba FgydF4y2Ba 分数gydF4y2Ba =gydF4y2Ba 2gydF4y2Ba ×gydF4y2Ba RgydF4y2Ba egydF4y2Ba cgydF4y2Ba 一个gydF4y2Ba lgydF4y2Ba lgydF4y2Ba ×gydF4y2Ba 一个gydF4y2Ba cgydF4y2Ba cgydF4y2Ba ugydF4y2Ba rgydF4y2Ba 一个gydF4y2Ba cgydF4y2Ba ygydF4y2Ba RgydF4y2Ba egydF4y2Ba cgydF4y2Ba 一个gydF4y2Ba lgydF4y2Ba lgydF4y2Ba +gydF4y2Ba 一个gydF4y2Ba cgydF4y2Ba cgydF4y2Ba ugydF4y2Ba rgydF4y2Ba 一个gydF4y2Ba cgydF4y2Ba ygydF4y2Ba 。gydF4y2Ba 它是一个全面的反映数据的分类。gydF4y2Ba

4.2。数据集描述gydF4y2Ba

在我们的模拟中,我们测试算法性能使用两个新闻数据集,即20-Newsgroups和BBC新闻数据集。gydF4y2Ba

20-Newsgroups数据集包含20个不同的新闻评论组,每组代表一个新闻话题。有三个版本的网站(gydF4y2Ba http://qwone.com/杰森/ 20个新闻组gydF4y2Ba)。我们选择第二个版本,总共18846个文档,数据集被分成两部分,哪里有11314个文档的训练集和测试集的7532份文件。20个样本的分布细节可以在那个网站上找到。注意,在我们的模拟,这些20标签的序列号从0到19岁不等。gydF4y2Ba

BBC新闻的数据集由BBC网站上几个新闻文档(gydF4y2Ba http://www.bbc.co.uk/news/business/market_data/overview/gydF4y2Ba)。数据集包含一个共有2225个文档相应的五个主题,即商业、娱乐、政治、体育、和技术。同样,我们随机选择1559文档的训练集,和666个文档的测试集。gydF4y2Ba

4.3。仿真结果gydF4y2Ba

根据以下所有的模拟进行。操作系统是Ubuntu 16.04。硬件环境是NVIDIA公司GM204GL特斯拉M60。软件环境是Cuda V8.0.61和cuDNN 5.1。深度学习框架Keras,而使用sklearn和nltk工具包。gydF4y2Ba

4.3.1。参数的影响gydF4y2Ba

深入学习算法,参数调优大大影响仿真结果的性能。DDNN,我们主要的参数调整包括数据的加噪比,隐层节点的数量,和学习速率。gydF4y2Ba

为了测试DDNN的鲁棒性,我们将训练集的加噪比为0.01,0.001和0.0001。结果如表所示gydF4y2Ba 1gydF4y2Ba。gydF4y2Ba

文本分类的性能DDNN与不同加噪声比。gydF4y2Ba

加噪声比gydF4y2Ba 噪声系数gydF4y2Ba
0.00gydF4y2Ba 0.01gydF4y2Ba 0.02gydF4y2Ba 0.03gydF4y2Ba 0.04gydF4y2Ba 0.05gydF4y2Ba
0.001gydF4y2Ba 0.7530gydF4y2Ba 0.7529gydF4y2Ba 0.7479gydF4y2Ba 0.7450gydF4y2Ba 0.7349gydF4y2Ba 0.7287gydF4y2Ba
0.01gydF4y2Ba 0.7536gydF4y2Ba 0.7561gydF4y2Ba 0.7550gydF4y2Ba 0.7542gydF4y2Ba 0.7443gydF4y2Ba 0.7378gydF4y2Ba
0.1gydF4y2Ba 0.5379gydF4y2Ba 0.5310gydF4y2Ba 0.5270gydF4y2Ba 0.5179gydF4y2Ba 0.5027gydF4y2Ba 0.4978gydF4y2Ba

如表所示gydF4y2Ba 1gydF4y2Ba,模型的稳定性可以保证的范围内加噪声比(0.01、0.001),但当+噪声比太高了,也就是说,高于0.1,数据将被损坏尤其是对稀疏数据,并将影响分类的性能。此外,分类器的性能强劲的特征提取将被削弱,如果加上噪声比太低了。因此,我们设置了加噪比最后到0.001。我们进行仿真后,我们设置噪声系数为0.01,0.02,0.03,0.04,和0.05来验证该模型的去噪性能。gydF4y2Ba

输入层节点的数目是固定的根据重量使用TF-IDF算法的结果。因为DAE的主要目的是重建原始数据,我们设置了数字输入层和输出层节点的节点相同的值。因为隐层节点的数目是未知的,我们设置的两个隐层节点的数量DAE - 1600和1500年,1700年和1500年,1800年和1500年,分别。此外,遏制的两个隐层节点的数量设置为600年和100年,700年和100年,800年和100年,分别。然后,我们进行仿真。我们将学习速率设置为0.1,0.01和0.001。结果如表所示gydF4y2Ba 2gydF4y2Ba。gydF4y2Ba

文本分类的性能DDNN与不同的参数。gydF4y2Ba

学习速率gydF4y2Ba DAEgydF4y2Ba 遏制gydF4y2Ba 精度gydF4y2Ba
0.01gydF4y2Ba 1600年gydF4y2Ba 1500年gydF4y2Ba 600年gydF4y2Ba One hundred.gydF4y2Ba 0.9640gydF4y2Ba
1700年gydF4y2Ba 1500年gydF4y2Ba 700年gydF4y2Ba One hundred.gydF4y2Ba 0.9700gydF4y2Ba
1800年gydF4y2Ba 1500年gydF4y2Ba 800年gydF4y2Ba One hundred.gydF4y2Ba 0.9686gydF4y2Ba

0.02gydF4y2Ba 1600年gydF4y2Ba 1500年gydF4y2Ba 600年gydF4y2Ba One hundred.gydF4y2Ba 0.9655gydF4y2Ba
1700年gydF4y2Ba 1500年gydF4y2Ba 700年gydF4y2Ba One hundred.gydF4y2Ba 0.9654gydF4y2Ba
1800年gydF4y2Ba 1500年gydF4y2Ba 800年gydF4y2Ba One hundred.gydF4y2Ba 0.9670gydF4y2Ba

0.03gydF4y2Ba 1600年gydF4y2Ba 1500年gydF4y2Ba 600年gydF4y2Ba One hundred.gydF4y2Ba 0.9625gydF4y2Ba
1700年gydF4y2Ba 1500年gydF4y2Ba 700年gydF4y2Ba One hundred.gydF4y2Ba 0.9627gydF4y2Ba
1800年gydF4y2Ba 1500年gydF4y2Ba 800年gydF4y2Ba One hundred.gydF4y2Ba 0.9491gydF4y2Ba

如表所示gydF4y2Ba 2gydF4y2Ba,DDNN模型的性能会更好当两个隐层节点的数量设置为1700年和1500年DAE和700和100元,分别。和学习速率应该设置为0.01。gydF4y2Ba

4.3.2。比较和分析gydF4y2Ba

在本文中,我们比较DDNN模型NB,资讯,支持向量机,DBN模型。gydF4y2Ba

在文本预处理,我们选择第一个2000字的频率仿真和批量大小350。相比DDNN模型(两层DAE和两层组织遏制在这篇文章中,提出DBN模型也将四层。pretraining阶段的迭代的数量是100,和模型更新参数是0.01。gydF4y2Ba

在这里,我们接受BBC新闻数据集的例子显示的过程训练。从数据gydF4y2Ba 7gydF4y2Ba和gydF4y2Ba 8gydF4y2Ba,我们可以看到,随着时代的增加,训练是减少和准确性的损失正在增加对测试数据集,这表明,训练的效果。gydF4y2Ba

测试精度在BBC新闻数据集的训练过程。gydF4y2Ba

测试在BBC新闻数据集训练过程。gydF4y2Ba

表gydF4y2Ba 3gydF4y2Ba与其他模型比较结果DDNN使用BBC新闻数据集和表gydF4y2Ba 4gydF4y2Ba使用20-Newsgroups数据集比较它们。此外,我们比较这些模型考虑到不同类型的数据,包括数据没有噪声和数据噪声系数为0.01,0.02,0.03,0.04和0.05。在这里,它是指出,对于每个向量的文本提取,乘法噪声系数的标准正态分布是补充道。如果尺寸小于0,它直接设置为0。在本文中,准确率(精度),召回率(回忆),和gydF4y2Ba FgydF4y2Ba 分数是观察评价分类器的性能。例如,计算的精度。对每个分类器,我们首先计算每个类别根据度量的准确性(gydF4y2Ba 7gydF4y2Ba),然后计算这些subaccuracies作为结果的平均值。仿真数据最优分类结果在运行很多次。gydF4y2Ba

文本分类性能不同的模型使用BBC新闻数据集。gydF4y2Ba

分类器gydF4y2Ba 加比噪声gydF4y2Ba
0.00gydF4y2Ba 0.01gydF4y2Ba 0.02gydF4y2Ba 0.03gydF4y2Ba 0.04gydF4y2Ba 0.05gydF4y2Ba
精度gydF4y2Ba 注gydF4y2Ba 0.9659gydF4y2Ba 0.9560gydF4y2Ba 0.9339gydF4y2Ba 0.8736gydF4y2Ba 0.8186gydF4y2Ba 0.7852gydF4y2Ba
然而,gydF4y2Ba 0.9375gydF4y2Ba 0.9325gydF4y2Ba 0.9284gydF4y2Ba 0.9373gydF4y2Ba 0.9119gydF4y2Ba 0.9260gydF4y2Ba
支持向量机gydF4y2Ba 0.9715gydF4y2Ba 0.9701gydF4y2Ba 0.9672gydF4y2Ba 0.9583gydF4y2Ba 0.9340gydF4y2Ba 0.9075gydF4y2Ba
DBNgydF4y2Ba 0.9462gydF4y2Ba 0.9434gydF4y2Ba 0.9268gydF4y2Ba 0.9076gydF4y2Ba 0.8789gydF4y2Ba 0.8479gydF4y2Ba
DDNNgydF4y2Ba 0.9700gydF4y2Ba 0.9685gydF4y2Ba 0.9582gydF4y2Ba 0.9541gydF4y2Ba 0.9381gydF4y2Ba 0.9286gydF4y2Ba

回忆gydF4y2Ba 注gydF4y2Ba 0.9655gydF4y2Ba 0.9550gydF4y2Ba 0.9294gydF4y2Ba 0.8453gydF4y2Ba 0.7387gydF4y2Ba 0.6652gydF4y2Ba
然而,gydF4y2Ba 0.9354gydF4y2Ba 0.9324gydF4y2Ba 0.9279gydF4y2Ba 0.9369gydF4y2Ba 0.9114gydF4y2Ba 0.9249gydF4y2Ba
支持向量机gydF4y2Ba 0.9715gydF4y2Ba 0.9700gydF4y2Ba 0.9670gydF4y2Ba 0.9580gydF4y2Ba 0.9309gydF4y2Ba 0.8964gydF4y2Ba
DBNgydF4y2Ba 0.9459gydF4y2Ba 0.9429gydF4y2Ba 0.9249gydF4y2Ba 0.9039gydF4y2Ba 0.8769gydF4y2Ba 0.8393gydF4y2Ba
DDNNgydF4y2Ba 0.9700gydF4y2Ba 0.9685gydF4y2Ba 0.9580gydF4y2Ba 0.9535gydF4y2Ba 0.9399gydF4y2Ba 0.9249gydF4y2Ba

FgydF4y2Ba 分数gydF4y2Ba 注gydF4y2Ba 0.9657gydF4y2Ba 0.9555gydF4y2Ba 0.9316gydF4y2Ba 0.8592gydF4y2Ba 0.7766gydF4y2Ba 0.7202gydF4y2Ba
然而,gydF4y2Ba 0.9364gydF4y2Ba 0.9324gydF4y2Ba 0.9281gydF4y2Ba 0.9371gydF4y2Ba 0.9116gydF4y2Ba 0.9254gydF4y2Ba
支持向量机gydF4y2Ba 0.9715gydF4y2Ba 0.9700gydF4y2Ba 0.9671gydF4y2Ba 0.9581gydF4y2Ba 0.9324gydF4y2Ba 0.9019gydF4y2Ba
DBNgydF4y2Ba 0.9460gydF4y2Ba 0.9431gydF4y2Ba 0.9258gydF4y2Ba 0.9057gydF4y2Ba 0.8779gydF4y2Ba 0.8436gydF4y2Ba
DDNNgydF4y2Ba 0.9700gydF4y2Ba 0.9685gydF4y2Ba 0.9581gydF4y2Ba 0.9538gydF4y2Ba 0.9390gydF4y2Ba 0.9267gydF4y2Ba

文本分类性能不同的模型使用20-Newsgroup数据集。gydF4y2Ba

分类器gydF4y2Ba 噪声系数gydF4y2Ba
0.00gydF4y2Ba 0.01gydF4y2Ba 0.02gydF4y2Ba 0.03gydF4y2Ba 0.04gydF4y2Ba 0.05gydF4y2Ba
精度gydF4y2Ba 注gydF4y2Ba 0.7506gydF4y2Ba 0.7274gydF4y2Ba 0.6895gydF4y2Ba 0.6678gydF4y2Ba 0.5887gydF4y2Ba 0.4633gydF4y2Ba
然而,gydF4y2Ba 0.6136gydF4y2Ba 0.6161gydF4y2Ba 0.6213gydF4y2Ba 0.6142gydF4y2Ba 0.6043gydF4y2Ba 0.5978gydF4y2Ba
支持向量机gydF4y2Ba 0.7598gydF4y2Ba 0.7527gydF4y2Ba 0.7294gydF4y2Ba 0.6968gydF4y2Ba 0.6652gydF4y2Ba 0.6453gydF4y2Ba
DBNgydF4y2Ba 0.7235gydF4y2Ba 0.7207gydF4y2Ba 0.7041gydF4y2Ba 0.6849gydF4y2Ba 0.6562gydF4y2Ba 0.6252gydF4y2Ba
DDNNgydF4y2Ba 0.7536gydF4y2Ba 0.7561gydF4y2Ba 0.7550gydF4y2Ba 0.7542gydF4y2Ba 0.7443gydF4y2Ba 0.7378gydF4y2Ba

回忆gydF4y2Ba 注gydF4y2Ba 0.7483gydF4y2Ba 0.6693gydF4y2Ba 0.5053gydF4y2Ba 0.3526gydF4y2Ba 0.2613gydF4y2Ba 0.2027gydF4y2Ba
然而,gydF4y2Ba 0.5959gydF4y2Ba 0.6000gydF4y2Ba 0.6070gydF4y2Ba 0.6034gydF4y2Ba 0.5939gydF4y2Ba 0.5820gydF4y2Ba
支持向量机gydF4y2Ba 0.7525gydF4y2Ba 0.7415gydF4y2Ba 0.6966gydF4y2Ba 0.6094gydF4y2Ba 0.4891gydF4y2Ba 0.3833gydF4y2Ba
DBNgydF4y2Ba 0.7149gydF4y2Ba 0.7120gydF4y2Ba 0.6990gydF4y2Ba 0.6826gydF4y2Ba 0.6439gydF4y2Ba 0.6250gydF4y2Ba
DDNNgydF4y2Ba 0.7459gydF4y2Ba 0.7500gydF4y2Ba 0.7549gydF4y2Ba 0.7534gydF4y2Ba 0.7439gydF4y2Ba 0.7320gydF4y2Ba

FgydF4y2Ba 分数gydF4y2Ba 注gydF4y2Ba 0.7494gydF4y2Ba 0.6971gydF4y2Ba 0.5832gydF4y2Ba 0.4615gydF4y2Ba 0.3619gydF4y2Ba 0.2820gydF4y2Ba
然而,gydF4y2Ba 0.6046gydF4y2Ba 0.6079gydF4y2Ba 0.6141gydF4y2Ba 0.6088gydF4y2Ba 0.5991gydF4y2Ba 0.5898gydF4y2Ba
支持向量机gydF4y2Ba 0.7561gydF4y2Ba 0.7471gydF4y2Ba 0.7126gydF4y2Ba 0.6502gydF4y2Ba 0.5637gydF4y2Ba 0.4809gydF4y2Ba
DBNgydF4y2Ba 0.7192gydF4y2Ba 0.7163gydF4y2Ba 0.7015gydF4y2Ba 0.6837gydF4y2Ba 0.6500gydF4y2Ba 0.6251gydF4y2Ba
DDNNgydF4y2Ba 0.7497gydF4y2Ba 0.7530gydF4y2Ba 0.7549gydF4y2Ba 0.7538gydF4y2Ba 0.7441gydF4y2Ba 0.7349gydF4y2Ba

后比较DDNN模型和浅子模型,包括资讯和支持向量机,从这些分析结果表gydF4y2Ba 3gydF4y2Ba和gydF4y2Ba 4gydF4y2Ba,DDNN达到一个更好的性能。原因是,当训练集是充分的,DDNN可以充分训练,所以网络本身的参数可以达到最优值尽可能适应训练数据的分布,和高层特征提取底层特征更有识别力的最后分类功能。gydF4y2Ba

与DBN模型相比,DDNN首先使用DAE模型训练分类结果更准确的情况下,两层模型是相同的(他们都是四层)。这是因为第一个两层与DAE DDNN模型,可以有效地减少噪声数据的影响,和DDNN模型可以更灵活的调整参数。另一方面,由于使用DAE作为初始层,初步数据的维度也可以减少。gydF4y2Ba

如表所示gydF4y2Ba 3gydF4y2Ba和gydF4y2Ba 4gydF4y2BaNB的分类性能,然而,SVM显然是当数据集与噪声系数调整,减少和DNNN具有更好的抗噪音的效果只有1%下降。gydF4y2Ba

此外,表gydF4y2Ba 5gydF4y2Ba显示了不同模型的运行时间。我们可以很容易的发现,对于每个样本,NB分类器是运行时间最短,SVM分类器拥有最长运行时间。同时,可以看出DDNN分类器可以保持良好的分类速度,同时实现良好的分类性能。gydF4y2Ba

不同的模型(ms)的运行时间。gydF4y2Ba

分类器gydF4y2Ba 数据集gydF4y2Ba
BBC新闻gydF4y2Ba 20-NewsgroupsgydF4y2Ba
注gydF4y2Ba 0.005gydF4y2Ba 0.006gydF4y2Ba
然而,gydF4y2Ba 0.150gydF4y2Ba 0.870gydF4y2Ba
支持向量机gydF4y2Ba 1.660gydF4y2Ba 12.060gydF4y2Ba
DBNgydF4y2Ba 0.110gydF4y2Ba 0.180gydF4y2Ba
DDNNgydF4y2Ba 0.120gydF4y2Ba 0.210gydF4y2Ba
5。结论gydF4y2Ba

本文结合了DAE和元小说设计一款模型,DDNN命名。模型基于DAE首先消除干扰数据,然后基于遏制文本有效的提取特征。具体来说,我们20-Newsgroups和BBC新闻数据集进行模拟和比较该模型与其他传统的分类算法,例如,NB,资讯,支持向量机,和DBN模型,考虑噪声的影响。验证,DDNN本文提出达到更好的抗噪性能,可提取更健壮和更深层次的特性同时提高分类性能。gydF4y2Ba

虽然该模型DDNN取得了令人满意的性能在文本分类、文本中使用的模拟是长形数据。然而,考虑到还有一些简短的文本数据在文本分类任务中,我们应该使用模型DDNN解决这个问题。此外,为了进一步提高计算性能在深度学习方法的实现,在未来我们也可以设计一些混合学习算法通过将一些先进的优化技术,例如,内核学习和强化学习,DDNN框架,而应用在其他领域。gydF4y2Ba

的利益冲突gydF4y2Ba

作者宣称没有利益冲突有关的出版。gydF4y2Ba

确认gydF4y2Ba

这项研究是由基础研究基金资助下拍摄的中国中央大学润扬悬索桥格兰特- bd - 16 - 005 a,中国的国家自然科学基金资助61174103,中国国家重点研发项目赠款2017 yfb1002304和2017 yfb0702300下,地质信息技术重点实验室的国土资源部授予2017320下,台北科技大学和北京国家授予TW201705下科技大学的联合研究项目。gydF4y2Ba

里纳尔蒂gydF4y2Ba a . M。gydF4y2Ba 一个基于内容的文档表示和检索方法gydF4y2Ba 第八届ACM学报》研讨会上文档工程(DocEng 08年)gydF4y2Ba 2008年9月gydF4y2Ba 巴西圣保罗gydF4y2Ba ACMgydF4y2Ba 106年gydF4y2Ba 109年gydF4y2Ba 10.1145/1410140.1410163gydF4y2Ba 2 - s2.0 - 59249092553gydF4y2Ba BaykangydF4y2Ba E。gydF4y2Ba HenzingergydF4y2Ba M。gydF4y2Ba 玛丽安gydF4y2Ba lgydF4y2Ba 韦伯gydF4y2Ba 我。gydF4y2Ba 一个全面的研究基于url的主题分类的功能和算法gydF4y2Ba ACM在网上交易gydF4y2Ba 2011年gydF4y2Ba 5gydF4y2Ba 3、第十五条gydF4y2Ba 10.1145/1993053.1993057gydF4y2Ba 2 - s2.0 - 80051944589gydF4y2Ba 兰利gydF4y2Ba P。gydF4y2Ba IbagydF4y2Ba W。gydF4y2Ba 汤普森gydF4y2Ba K。gydF4y2Ba 贝叶斯分类器的分析gydF4y2Ba 第十届国家关于人工智能的会议gydF4y2Ba 1992年gydF4y2Ba 美国加州圣何塞gydF4y2Ba 223年gydF4y2Ba 228年gydF4y2Ba McCallumgydF4y2Ba 一个。gydF4y2Ba 尼噶的gydF4y2Ba K。gydF4y2Ba 事件模型的比较朴素贝叶斯的文本分类gydF4y2Ba 15国家会议上人工Intelligence-Workshop学习文本分类gydF4y2Ba 1998年gydF4y2Ba 美国威斯康星州麦迪逊gydF4y2Ba 41gydF4y2Ba 48gydF4y2Ba 杨gydF4y2Ba Y。gydF4y2Ba 刘gydF4y2Ba X。gydF4y2Ba 复审的文本分类方法gydF4y2Ba 22市立图书馆学报》研究与发展会议在信息检索(99年")gydF4y2Ba 1999年8月gydF4y2Ba 伯克利,加州,美国gydF4y2Ba 42gydF4y2Ba 49gydF4y2Ba 10.1145/312624.312647gydF4y2Ba GodbolegydF4y2Ba 年代。gydF4y2Ba SarawagigydF4y2Ba 年代。gydF4y2Ba ChakrabartigydF4y2Ba 年代。gydF4y2Ba 扩展多支持向量机使用类的混乱gydF4y2Ba 第八届ACM SIGKDD学报》国际会议上知识发现和数据挖掘gydF4y2Ba 2002年7月gydF4y2Ba 埃德蒙顿,加拿大gydF4y2Ba 513年gydF4y2Ba 518年gydF4y2Ba 2 - s2.0 - 0242625254gydF4y2Ba 林gydF4y2Ba s . l . Y。gydF4y2Ba 李gydF4y2Ba d . L。gydF4y2Ba 基于神经网络的文本分类特征减少gydF4y2Ba 学报第六届国际会议上先进的应用程序的数据库系统gydF4y2Ba 1999年gydF4y2Ba 台湾新竹gydF4y2Ba 195年gydF4y2Ba 202年gydF4y2Ba 10.1109 / DASFAA.1999.765752gydF4y2Ba 鲁伊斯gydF4y2Ba m E。gydF4y2Ba SrinivasangydF4y2Ba P。gydF4y2Ba 分层神经网络用于文本分类gydF4y2Ba 《22日国际市立图书馆年会在信息检索的研究与开发gydF4y2Ba 1999年8月gydF4y2Ba 伯克利,加州,美国gydF4y2Ba 281年gydF4y2Ba 282年gydF4y2Ba 10.1145/312624.312700gydF4y2Ba 彼得森gydF4y2Ba l E。gydF4y2Ba 再gydF4y2Ba ScholarpediagydF4y2Ba 2009年gydF4y2Ba 4gydF4y2Ba 2、第1883条gydF4y2Ba 10.4249 / scholarpedia.1883gydF4y2Ba 罗gydF4y2Ba X。gydF4y2Ba 邓gydF4y2Ba J。gydF4y2Ba 刘gydF4y2Ba J。gydF4y2Ba 王gydF4y2Ba W。gydF4y2Ba 禁止gydF4y2Ba X。gydF4y2Ba 王gydF4y2Ba J。gydF4y2Ba 一个量子化的内核最小均方计划entropy-guided学习智能数据分析gydF4y2Ba 中国通信gydF4y2Ba 2017年gydF4y2Ba 14gydF4y2Ba 7gydF4y2Ba 127年gydF4y2Ba 136年gydF4y2Ba 10.1109 / CC.2017.8010964gydF4y2Ba 勒存gydF4y2Ba Y。gydF4y2Ba BengiogydF4y2Ba Y。gydF4y2Ba 辛顿gydF4y2Ba G。gydF4y2Ba 深度学习gydF4y2Ba 自然gydF4y2Ba 2015年gydF4y2Ba 521年gydF4y2Ba 7553年gydF4y2Ba 436年gydF4y2Ba 444年gydF4y2Ba 10.1038 / nature14539gydF4y2Ba 银gydF4y2Ba D。gydF4y2Ba 黄gydF4y2Ba 一个。gydF4y2Ba 麦迪森gydF4y2Ba c·J。gydF4y2Ba GuezgydF4y2Ba 一个。gydF4y2Ba SifregydF4y2Ba lgydF4y2Ba van den DriesschegydF4y2Ba G。gydF4y2Ba SchrittwiesergydF4y2Ba J。gydF4y2Ba AntonoglougydF4y2Ba 我。gydF4y2Ba PanneershelvamgydF4y2Ba V。gydF4y2Ba LanctotgydF4y2Ba M。gydF4y2Ba DielemangydF4y2Ba 年代。gydF4y2Ba GrewegydF4y2Ba D。gydF4y2Ba NhamgydF4y2Ba J。gydF4y2Ba KalchbrennergydF4y2Ba N。gydF4y2Ba SutskevergydF4y2Ba 我。gydF4y2Ba LillicrapgydF4y2Ba T。gydF4y2Ba 浸出gydF4y2Ba M。gydF4y2Ba KavukcuoglugydF4y2Ba K。gydF4y2Ba GraepelgydF4y2Ba T。gydF4y2Ba 哈萨比斯gydF4y2Ba D。gydF4y2Ba 掌握围棋和深层神经网络树搜索gydF4y2Ba 自然gydF4y2Ba 2016年gydF4y2Ba 529年gydF4y2Ba 7587年gydF4y2Ba 484年gydF4y2Ba 489年gydF4y2Ba 10.1038 / nature16961gydF4y2Ba 辛顿gydF4y2Ba g . E。gydF4y2Ba 深度信念网络gydF4y2Ba ScholarpediagydF4y2Ba 2009年gydF4y2Ba 4gydF4y2Ba 5日,第5947条gydF4y2Ba 10.4249 / scholarpedia.5947gydF4y2Ba SmolenskygydF4y2Ba P。gydF4y2Ba RumelhartgydF4y2Ba d E。gydF4y2Ba McLellandgydF4y2Ba j·L。gydF4y2Ba 在动力系统信息处理:和谐理论的基础gydF4y2Ba 并行分布式处理:探索微观结构的认知,卷1:基础gydF4y2Ba 1986年gydF4y2Ba 麻省理工学院出版社gydF4y2Ba 194年gydF4y2Ba 281年gydF4y2Ba 邓gydF4y2Ba J。gydF4y2Ba 越南盾gydF4y2Ba W。gydF4y2Ba SochergydF4y2Ba R。gydF4y2Ba 李gydF4y2Ba l . J。gydF4y2Ba 李gydF4y2Ba K。gydF4y2Ba 李gydF4y2Ba F F。gydF4y2Ba ImageNet:大规模的分层图像数据库gydF4y2Ba 《IEEE计算机学会学报计算机视觉与模式识别会议(CVPR ' 09)gydF4y2Ba 2009年6月gydF4y2Ba 美国佛罗里达州迈阿密gydF4y2Ba 248年gydF4y2Ba 255年gydF4y2Ba 10.1109 / cvpr.2009.5206848gydF4y2Ba KrizhevskygydF4y2Ba 一个。gydF4y2Ba SutskevergydF4y2Ba 我。gydF4y2Ba 辛顿gydF4y2Ba g . E。gydF4y2Ba ImageNet与深卷积神经网络分类gydF4y2Ba ACM的通信gydF4y2Ba 2017年gydF4y2Ba 60gydF4y2Ba 6gydF4y2Ba 84年gydF4y2Ba 90年gydF4y2Ba 10.1145 / 3065386gydF4y2Ba 文森特gydF4y2Ba P。gydF4y2Ba LarochellegydF4y2Ba H。gydF4y2Ba BengiogydF4y2Ba Y。gydF4y2Ba 提取并与去噪autoencoders编写健壮的特性gydF4y2Ba 美国25日机器学习国际会议gydF4y2Ba 2008年7月gydF4y2Ba 芬兰赫尔辛基gydF4y2Ba ACMgydF4y2Ba 1096年gydF4y2Ba 1103年gydF4y2Ba 文森特gydF4y2Ba P。gydF4y2Ba LarochellegydF4y2Ba H。gydF4y2Ba LajoiegydF4y2Ba 我。gydF4y2Ba 堆叠去噪autoencoders:学习有用的表征在深层网络进行局部去噪标准gydF4y2Ba 机器学习研究杂志》上gydF4y2Ba 2010年gydF4y2Ba 11gydF4y2Ba 3371年gydF4y2Ba 3408年gydF4y2Ba 辛顿gydF4y2Ba g . E。gydF4y2Ba 培训产品的专家通过最小化对比差异gydF4y2Ba 神经计算gydF4y2Ba 2002年gydF4y2Ba 14gydF4y2Ba 8gydF4y2Ba 1771年gydF4y2Ba 1800年gydF4y2Ba 10.1162 / 089976602760128018gydF4y2Ba Zbl1010.68111gydF4y2Ba 2 - s2.0 - 0013344078gydF4y2Ba 罗gydF4y2Ba X。gydF4y2Ba 徐gydF4y2Ba Y。gydF4y2Ba 王gydF4y2Ba W。gydF4y2Ba 元gydF4y2Ba M。gydF4y2Ba 禁止gydF4y2Ba X。gydF4y2Ba 朱gydF4y2Ba Y。gydF4y2Ba 赵gydF4y2Ba W。gydF4y2Ba 对提高correntropy堆叠与稀疏autoencoder极端的学习机器gydF4y2Ba 富兰克林研究所杂志》上gydF4y2Ba 2017年gydF4y2Ba 10.1016 / j.jfranklin.2017.08.014gydF4y2Ba CollobertgydF4y2Ba R。gydF4y2Ba 韦斯顿gydF4y2Ba J。gydF4y2Ba BottougydF4y2Ba lgydF4y2Ba 自然语言处理(几乎)从头开始gydF4y2Ba 机器学习研究杂志》上gydF4y2Ba 2011年gydF4y2Ba 12gydF4y2Ba 2493年gydF4y2Ba 2537年gydF4y2Ba 服装gydF4y2Ba 我。gydF4y2Ba 玫瑰gydF4y2Ba d . C。gydF4y2Ba KarnowskigydF4y2Ba t P。gydF4y2Ba 在人工智能研究深机器学习——一个新边疆gydF4y2Ba IEEE计算机情报杂志gydF4y2Ba 2010年gydF4y2Ba 5gydF4y2Ba 4gydF4y2Ba 13gydF4y2Ba 18gydF4y2Ba 10.1109 / MCI.2010.938364gydF4y2Ba 辛顿gydF4y2Ba g . E。gydF4y2Ba OsinderogydF4y2Ba 年代。gydF4y2Ba 格兰gydF4y2Ba Y.-W。gydF4y2Ba 深度信念网的快速学习算法gydF4y2Ba 神经计算gydF4y2Ba 2006年gydF4y2Ba 18gydF4y2Ba 7gydF4y2Ba 1527年gydF4y2Ba 1554年gydF4y2Ba MR2224485gydF4y2Ba 10.1162 / neco.2006.18.7.1527gydF4y2Ba Zbl1106.68094gydF4y2Ba 2 - s2.0 - 33745805403gydF4y2Ba 魏gydF4y2Ba X。gydF4y2Ba 克罗夫特gydF4y2Ba w·B。gydF4y2Ba LDA-based特别检索文档模型gydF4y2Ba 学报》第29届国际市立图书馆年会在信息检索的研究与开发gydF4y2Ba 2006年8月gydF4y2Ba 美国西雅图,洗gydF4y2Ba 178年gydF4y2Ba 185年gydF4y2Ba 10.1145/1148170.1148204gydF4y2Ba 陆gydF4y2Ba X。gydF4y2Ba 曹gydF4y2Ba Y。gydF4y2Ba 松田gydF4y2Ba 年代。gydF4y2Ba 有何利gydF4y2Ba C。gydF4y2Ba 语音增强基于去噪autoencoder深处gydF4y2Ba 14学报》国际言语交际协会年会上gydF4y2Ba 2013年8月gydF4y2Ba 法国里昂gydF4y2Ba 436年gydF4y2Ba 440年gydF4y2Ba 2 - s2.0 - 84906262433gydF4y2Ba Le RouxgydF4y2Ba N。gydF4y2Ba BengiogydF4y2Ba Y。gydF4y2Ba 表征网络限制玻耳兹曼机和很深的信仰的力量gydF4y2Ba 神经计算gydF4y2Ba 2008年gydF4y2Ba 20.gydF4y2Ba 6gydF4y2Ba 1631年gydF4y2Ba 1649年gydF4y2Ba MR2410370gydF4y2Ba 10.1162 / neco.2008.04 - 07 - 510gydF4y2Ba 2 - s2.0 - 45749110924gydF4y2Ba BengiogydF4y2Ba Y。gydF4y2Ba 人工智能的学习深入架构gydF4y2Ba 基金会和机器学习的趋势gydF4y2Ba 2009年gydF4y2Ba 2gydF4y2Ba 1gydF4y2Ba 1gydF4y2Ba 27gydF4y2Ba 2 - s2.0 - 69349090197gydF4y2Ba 10.1561 / 2200000006gydF4y2Ba Zbl1192.68503gydF4y2Ba 费舍尔gydF4y2Ba 一个。gydF4y2Ba 伊格尔gydF4y2Ba C。gydF4y2Ba 介绍限制玻耳兹曼机gydF4y2Ba 学报17伊比利亚美洲国会进展模式识别、图像分析、计算机视觉和应用程序gydF4y2Ba 2012年gydF4y2Ba 布宜诺斯艾利斯,阿根廷gydF4y2Ba 14gydF4y2Ba 36gydF4y2Ba PolanagydF4y2Ba l F。gydF4y2Ba 改革者gydF4y2Ba k . E。gydF4y2Ba 利用限制玻耳兹曼机和深层的信念网络压缩传感gydF4y2Ba IEEE信号处理gydF4y2Ba 2017年gydF4y2Ba 65年gydF4y2Ba 17gydF4y2Ba 4538年gydF4y2Ba 4550年gydF4y2Ba 10.1109 / TSP.2017.2712128gydF4y2Ba MR3684082gydF4y2Ba KarakidagydF4y2Ba R。gydF4y2Ba 冈田克也gydF4y2Ba M。gydF4y2Ba AmarigydF4y2Ba 机票的。gydF4y2Ba 对比差异学习动力分析:限制玻耳兹曼机与高斯单位可见gydF4y2Ba 神经网络gydF4y2Ba 2016年gydF4y2Ba 79年gydF4y2Ba 78年gydF4y2Ba 87年gydF4y2Ba 2 - s2.0 - 84964528780gydF4y2Ba 10.1016 / j.neunet.2016.03.013gydF4y2Ba MikolovgydF4y2Ba T。gydF4y2Ba SutskevergydF4y2Ba 我。gydF4y2Ba 陈gydF4y2Ba K。gydF4y2Ba 柯拉gydF4y2Ba G。gydF4y2Ba 迪安gydF4y2Ba J。gydF4y2Ba 的分布式表示单词和短语和它们的组合性gydF4y2Ba 学报》国际会议神经信息处理系统gydF4y2Ba 2013年gydF4y2Ba 塔霍湖畔,加利福尼亚州,美国gydF4y2Ba 3111年gydF4y2Ba 3119年gydF4y2Ba SutskevergydF4y2Ba 我。gydF4y2Ba VinyalsgydF4y2Ba O。gydF4y2Ba 勒gydF4y2Ba 问:V。gydF4y2Ba 序列,序列与神经网络学习gydF4y2Ba 学报》第28届年会在神经信息处理系统gydF4y2Ba 2014年gydF4y2Ba 加拿大蒙特利尔gydF4y2Ba 3104年gydF4y2Ba 3112年gydF4y2Ba 钟gydF4y2Ba M。gydF4y2Ba 刘gydF4y2Ba H。gydF4y2Ba 刘gydF4y2Ba lgydF4y2Ba 单词之间的语义相关性关系测量的方法gydF4y2Ba 《中文信息处理gydF4y2Ba 2009年gydF4y2Ba 23gydF4y2Ba 2gydF4y2Ba 115年gydF4y2Ba 122年gydF4y2Ba 京gydF4y2Ba l . P。gydF4y2Ba 黄gydF4y2Ba h·K。gydF4y2Ba 史gydF4y2Ba h . B。gydF4y2Ba 改进TFIDF在文本挖掘的特征选择方法gydF4y2Ba 2gydF4y2Ba 国际会议的程序在机器学习和控制论gydF4y2Ba 2002年gydF4y2Ba 中国,北京gydF4y2Ba 944年gydF4y2Ba 946年gydF4y2Ba