大数据分析中基于去噪深度神经网络的鲁棒文本分类器

摘要

文本分类一直是自然语言处理领域的研究热点。在进入大数据时代的同时，良好的文本分类器是实现科学大数据分析NLP的关键。随着文本数据量的不断增加，开发有效的文本分类算法成为一个重要的挑战。鉴于深度神经网络(DNN)在分析大数据方面的成功，本文提出了一种新的基于DNN的文本分类器，以提高混合异常值处理大文本数据的计算性能。具体地说，与传统的文本分类算法相比，我们提出的去噪自编码器(denoising autoencoder, DAE)和限制性玻尔兹曼机(restricted Boltzmann machine, RBM)的去噪深度神经网络(denoising deep neural network, DDNN)具有更好的抗噪性能和特征提取性能，具有显著的改进。在基准数据集上的仿真验证了本文提出的文本分类器的有效性和鲁棒性。

1.介绍

随着信息技术和互联网的发展，进入大数据时代，数据量呈几何级数增长。我们正在进入信息过载的时代。人们面临的问题不再是如何获取信息，而是如何从海量数据中快速、高效地提取有用信息。因此，如何有效地管理和过滤信息一直是工程和科学领域的重要研究领域。

随着数据量的快速增加，信息表现形式也呈现多样化，主要包括文本、声音和图像。与声音和图像相比，文本数据占用的网络资源更少，更容易上传和下载。由于其他形式的信息也可以通过文本来表达，文本成为了信息的主要载体，一直占据着网络资源的主导地位。

传统上，文本处理耗时且难以达到预期效果，无法适应信息社会对数字信息爆炸式增长的需求。因此，根据用户反馈有效获取信息可以帮助用户快速准确地获取信息。然后，文本分类技术是实现人机自由交互和人工智能的关键技术，它能在很大程度上解决杂乱的信息问题，使用户能够准确定位信息。

1．1．文本分类

文本分类的目的是根据文档的主题、内容或属性将大量文本分配到一个或多个类别。文本分类的方法分为两大类，分别是基于规则的分类方法和统计分类方法[1.,2.］．其中，基于规则的分类方法需要更多的知识和规则库。但由于规则的发展和更新的困难，使得该方法的应用范围相对狭窄，仅适用于某一特定领域。统计学习方法通常以统计或某些统计知识为基础;这些方法通过对训练集进行样本统计和计算，建立相应数据模型的学习参数，然后对分类器进行训练。在测试阶段，可以根据这些参数来预测样品的类别。

近年来，大量的统计机器学习方法被应用到文本分类系统中。最早的机器学习方法是朴素贝叶斯(NB) [3.,4.].随后，几乎所有重要的机器学习算法都被应用到文本分类领域，例如，最近邻(KNN)、神经网络(NN)、支持向量机(SVM)、决策树、核学习等[5.–10].SVM使用浅层线性模型来分离目标。在低维空间中，当不同类型的数据向量无法划分时，SVM会通过核函数将其映射到高维空间，找到最优超平面。此外，NB、线性分类、决策树、KNN等方法相对较弱，b但是，他们的模型简单而有效；然后，这些方法也相应地得到了改进。

但这些模型都是肤浅的机器学习方法。尽管它们也被证明能够在简单或多重限制的情况下有效地解决一些问题，但当面临复杂的实际问题时，例如生物医学多类文本分类，数据噪声大，分类分布不均匀，浅层机器学习模型和综合分类器方法的泛化能力不理想。因此，探索其他一些新的方法，例如深度学习方法，是必要的。

1．2．深度学习

随着深度学习方法的成功[11,12]，对神经网络的其他改进，如深度置信网络[13，已被开发。DBN的设计基于级联受限玻尔兹曼机(RBM) [14]学习算法，通过无监督贪婪层预训练策略结合监督微调训练方法。它可以解决复杂的深度学习模型优化问题，使深度神经网络(DNN)得到了快速发展。

同时，DNN已经被应用到许多学习任务中，例如语音和图像识别[15]例如，自2011年以来，微软和谷歌的语音识别研究团队使用DNN模型实现了20%-30%的语音识别错误率降低，在过去几十年中在语音识别领域取得了长足进步。2012年，ImageNet中的DNN技术[15]评估任务（图像识别字段）将错误率从26%提高到15%[16］．

此外，自动编码器（AE）作为DNN再现输入信号[17,18］．它的主要原则是有一个给定的输入;先用编码器对输入信号进行编码，再用解码器对编码信号进行解码，通过不断调整编码器和解码器的参数，实现重构误差最小[19］．此外，对声发射进行了一些改进，如稀疏声发射和声发射去噪[17,18］．一些机器学习算法的性能可以通过使用这些AEs进一步提高[20.］．

近年来，深度学习方法对自然语言处理（NLP）领域产生了重大影响[11,21］．

1.3.现状分析

由于大型文本数据的复杂特征以及噪声的不同影响，传统的文本分类算法在处理大型数据集时性能不理想。

近年来，深度学习已经成功地应用于一系列具有多种模式的分类问题，用户可以通过基于深度学习的方法有效地提取文本的复杂语义关系[11,22]随着深度学习算法的普及，DNN在处理大规模数据集方面具有一定的优势。本文在DNN的激励下，设计了去噪深度神经网络（DDNN），并利用该模型进行了特征提取。

对于浅文本表示（特征选择），存在语义缺失的问题。对于基于线性计算的模型的深层文本表示，在分类器训练中增加了阈值的选择，这实际上破坏了文本的自学能力。同时，对于多标签和多类别的文本分类，也存在忽略标签依赖性和缺乏泛化能力的问题。为了解决上述问题，通过深入学习方法取得了一些改进。例如，年提出了两层复制softmax模型（RSM）[23]，优于潜在Dirichlet分配(LDA)，即语义一致的主题模型[24]但是，该模型是采用加权共享技术设计的，只有两层，在降维过程中，文档的缺失信息相对较大，噪声处理能力较差，导致使用该模型的不同文档之间差异不大。

为了避免这种局限性，开发出更好的方法，本文通过结合一些最先进的深度学习方法，提出了一个DDNN模型。具体来说，在我们的模型中，利用去噪自编码器(DAE)对数据进行去噪，然后利用RBM对文本进行有效的特征提取。与传统的文本分类算法相比，该算法在抗噪声和特征提取方面有显著的改进，这得益于该模型中使用的混合深度学习方法具有高效的学习能力。

本文的提醒组织如下2.对DAE进行了技术分析[25]及RBM [26］．然后，我们提出的文本分类器将在本节中给出3.，其中更加关注DDNN的实施。第节4.提供了一些仿真结果和讨论。最后，在第节给出了结论5.．

2.背景

在本文中，我们使用两种最先进的深度学习模型，即DAE和RBM[25,26］．

2．1．去噪Autoencoder (DAE)

一般来说，声发射的结构[27]如图所示1.这里，整个系统由两个网络组成，即编码器和解码器。其目的是使重建层的输出尽可能接近输入。编码网络将编码和计算输入然后重建结果来译码器。而去噪自动编码是在自动编码的基础上发展起来的，通过在训练数据中加入噪声，可以学习到比普通编码器更鲁棒的输入信号表示，具有更强的泛化能力。

2．2.受限玻尔兹曼机

如图所示2.，RBM网络有两层[28,29］．在这里，第一层是视觉层()，也称为输入层，它由可见节点。第二层是隐藏层()，即特征提取层，它包括隐藏的节点。如果是已知的,那么所有隐藏节点都是条件独立的。同样，所有可见节点在隐藏层时也是条件独立的已知，层内节点不连接，不同层的节点完全连接。

3.提出的文本分类器

3.1。深度神经网络去噪

3.1.1。框架

本文利用DAE和RBM设计了一种DDNN，在提取特征的同时有效地降低了噪声。

DDNN模型的输入是一个具有固定维数的向量。首先，我们使用非监督训练方法，通过由DAE1和DAE2两层组成的去噪模块进行训练。这里，每次只训练其中一个，并且每次训练可以最小化输入数据（即前一层的输出）的重建误差。因为我们可以根据前一层计算编码器或其潜在表达式 ,所以第二层可以直接使用输出的第层，直到所有去噪层都经过训练。

该模型的操作如图所示3.．

数据经过去噪层处理后，进入RBM的部分，RBM可以进一步提取与去噪自动编码器层不同的特征。在这部分之后提取的特征更具有代表性和本质。数字4.是RBM特征提取的图表。

该部件由两层RBM堆叠而成。培训可以通过以下从低到高的RBM进行。

底部RBM的输入是去噪层的输出。

从底部RBM提取的特征作为顶部RBM的输入。

由于对比发散(CD)学习算法可以快速训练RBM [30.]该训练框架通过将网络划分为多个RBMs训练，避免了一次训练直接获取深度网络的高复杂度计算。经过训练，得到了一些预训练模型的初始参数值。然后，使用这些参数初始化反向传播（BP）神经网络；传统的全局学习算法使用带标记的数据集对网络参数进行微调。因此，该函数可以收敛到全局最优点。

这里选择DAE的原因是，在文本分类的过程中，数据不可避免地会混入不同类型和强度的噪声，这往往会影响模型的训练，导致最终分类性能的恶化。DAE是对原始特征的初步提取，其学习准则是降噪。在预训练阶段，在原始输入信号中加入各种不同强度、不同类型的噪声信号，可以使编码过程获得更好的稳定性和鲁棒性。如图所示5.．

另外，选择RBM的原因是RBM的特点是可以模拟任意样本的离散分布，并且在隐层单元数目足够的情况下，非常适合用于特征表达。

3.1.2.实施

DDNN模型由四层组成，即DAE1、DAE2、RBM1和RBM2v是DDNN模型的可视层和输入层 , , ,和分别表示各层之间的连接权重。此外, , , ,和分别表示对应于输出层DAE1、DAE2、RBM1和RBM2的每一个隐藏层。DAE2层是去噪模块的输出层，也是两层RBM模块的输入层。RBM2是代表文档特征的DDNN模型的输出层，将与可视化层进行比较．这一层是文本数据的高级特征表示。后续的文本分类任务也基于该向量进行了处理。对于所有节点，同一层节点之间没有连接，但这两层之间的节点是完全连接的。

具体而言，能量模型的引入是为了捕捉变量之间的相关性，同时优化模型参数。因此，在训练模型参数时，将最优解问题嵌入到能量函数中非常重要。这里，RBM能量函数定义为在这里,(1.)表示每个可见节点和隐藏节点连接结构的能量函数。其中,为隐藏节点的个数，是可见层节点的数量，以及和分别为可视层和隐藏层的偏差。RBM模型的目标函数是累积所有可见节点和隐藏节点的能量。因此，需要对每个样本计算其对应的所有隐藏节点的值，这样才能计算出总能量。计算很复杂。一种有效的解决方法是将问题转化为概率计算。可见节点和隐藏节点的联合概率为

通过引入此概率，可以简化能量函数，且解的目标是最小化能量值。统计学习中有一种理论认为低能状态比高能状态具有更高的概率，因此我们将此概率最大化，并引入自由能函数。自由能的定义rgy功能如下所示：

因此在哪里是归一化因子，然后是联合概率可以转化为

右侧的第一个术语(5.)是整个网络的自由能函数之和的负值，左边是似然函数。正如我们在模型描述中所描述的，可以使用最大似然函数估计来求解模型参数。

在这里，我们首先对原始特征构造去噪函数模块。它主要由DAE组成。为了充分利用去噪特性，将两层DAE放置在模型的底部。通过无监督学习对输入信号进行重构，对输入信号进行去噪处理，使进入网络的信号经过编码器处理后更加纯净。从而降低噪声数据对后续构建分类器的影响。

第二个模块是使用DBN开发的，通过RBM生成，提高了模型的特征提取能力，而且模型能够获取数据中的复杂规则，提取的高层特征更具代表性，为了获得更好的排序结果，我们使用了提取的代表性使用RBM进一步提取后，将特征作为最终分类器的输入。

考虑到训练的复杂性和模型的效率，将使用两层DAE和两层RBM。

3．2.基于DDNN的文本分类

在此，开发了最终的基于DDNN的文本分类器。其体系结构中有三个关键模块，如图所示6.．

3.2.1之上。文本预处理模块

首先，这里处理的特征词被映射到词汇表中[31–33］．然后，使用TF-IDF (term frequency, inverse document frequency)算法计算权重[34]此外，还实现了用矢量表示文本。同时，它也是标准化的。

3.2.2。学习功能模块

第节中提到的DDNN3．1用于实现特征学习。

3.2.3。分类识别模块

在该模块中，我们使用Softmax分类器进行分类，其输入是从特征学习模块中学习到的特征来自类别，其中训练集表示为和代表了训练文本，和代表不同的类别．该算法的主要目的是计算概率属于给定训练集的标记类别．在这里，这个函数如向量的每一个子向量概率值是这个吗属于不同的标签类别，需要对概率值进行归一化，使所有子向量的概率值之和为1。和分别表示参数向量。

在得到 ,我们可以得到前面假设的函数．它可以用来计算文本的概率值属于每一类。概率值最大的类别就是分类器算法最终分类的结果。

4.模拟结果与讨论

在本文中，仿真分为两个步骤进行。首先，我们分析了影响DAE和RBM模型(DDNN模型的基本组成部分)性能的关键参数，并使用适当的参数进行了仿真。其次，利用带噪声数据和无噪声数据，将DDNN与NB、KNN、SVM和DBN进行比较，验证所提出的DDNN的有效性。

4.1.文本分类结果的评价标准

对于文本分类结果，我们主要使用准确度作为分类标准，该指标广泛用于评价信息检索和统计分类领域的性能。

如果原始样本中有两类信息，则共有属于第1类的样本，第1类为阳性。共有样本属于0类，0类为负。

分类后，属于第1类的TP样本被正确地划分为第1类，而FN样本被错误地划分为第0类。其中TN样本属于第0类正确划分为第0类，FP样本不正确划分为第1类。

然后定义精度为在这里，准确率可以反映分类器的性能。

召回定义为：它能反映正确分类的阳性样本比例。

这个-score定义为它是数据分类的综合反映。

4．2．数据集描述

在我们的模拟中，我们使用两个新闻数据集测试算法的性能，即20-新闻组和BBC新闻数据集。

20个新闻组数据集由20个不同的新闻评论组组成，每个组代表一个新闻主题。该网站有三个版本(http://qwone.com/~jason/20Newsgroups/)．我们选择第二个版本，即总共有18846个文档，数据集被分成两部分，其中火车集有11314个文档，测试集有7532个文档。20个样本细节的分布可以在该网站上找到。请注意，在我们的模拟中，这20个标签的序列号从0到19不等。

BBC新闻数据集由BBC网站(http://www.bbc.co.uk/news/business/market_data/overview/).该数据集共包含2225个文档，对应五个主题，即商业、娱乐、政治、体育和技术。同样，我们随机选择1559个文档作为训练集，666个文档作为测试集。

4.3. 模拟结果

所有模拟都是根据以下内容进行的。操作系统是Ubuntu 16.04。硬件环境是NVIDIA Corporation GM204GL[Tesla M60]。软件环境是Cuda V8.0.61和cuDNN 5.1。深度学习框架是Keras，同时使用sklearn和nltk工具包。

4.3.1.参数的影响

对于所有的深度学习算法，参数调整对仿真结果的性能影响很大。对于DDNN，我们主要调整的参数包括数据的正噪比、隐含层节点数和学习率。

为了测试DDNN的鲁棒性，我们将训练集的加噪比设置为0.01、0.001和0.0001。结果如表所示1.．


加噪声比	噪声系数
加噪声比	0	0.01	0．02	0.03	0.04	0．05

０．００１	0.7530	0.7529	0.7479	0.7450	0.7349	0.7287
0.01	0.7536	0.7561	0.7550	0.7542	0.7443	0.7378
0．1	0.5379	0.5310	0.5270	0.5179	0.5027	0.4978

如表所示1.，在加噪比（0.01,0.001）范围内可以保证模型的稳定性，但当加噪比过高，即大于0.1时，数据会受到破坏，尤其是稀疏数据，会影响分类性能。此外，如果加噪比太低，分类器对鲁棒特征提取的性能将受到削弱。因此，我们最终将加噪比设置为0.001。在进行模拟之后，我们将噪声因子设置为0.01、0.02、0.03、0.04和0.05，以验证所提出模型的去噪性能。

根据TF-IDF算法的权重结果确定输入层节点的个数。由于DAE的主要目的是重构原始数据，因此我们将输入层节点数和输出层节点数设置为相同的值。由于隐藏层节点的数量未知，我们将DAE中的两个隐藏层节点的数量分别设置为1600和1500,1700和1500,1800和1500。另外，RBM中两个隐藏层节点的编号分别设置为600和100,700和100,800和100。然后进行仿真。我们把学习率设为0.1,0.01和0.001。结果如表所示2.．


学习率	DAE		成果管理制		精度

0.01	1600	1500	600	One hundred.	0.9640
	1700	1500	700	One hundred.	0.9700
	1800	1500	800	One hundred.	0.9686

0．02	1600	1500	600	One hundred.	0.9655
	1700	1500	700	One hundred.	0.9654
	1800	1500	800	One hundred.	0.9670

0.03	1600	1500	600	One hundred.	0.9625
	1700	1500	700	One hundred.	0.9627
	1800	1500	800	One hundred.	0.9491

如表所示2.，当DAE的两个隐藏层节点数分别设置为1700和1500,RBM的两个隐藏层节点数设置为700和100时，DDNN模型的性能会更好。学习率设置为0.01。

4.3.2。比较和分析

在本文中，我们将我们的DDNN模型与NB、KNN、SVM和DBN模型进行比较。

在文本预处理中，我们选择前2000个单词的频率进行模拟，并将批量大小设置为350。与本文提出的DDNN模型（两层DAE和两层RBM）相比，DBN模型也设置为四层。预训练阶段的迭代次数为100次，模型更新参数为0.01。

这里，我们以BBC新闻数据集为例来展示训练的过程。从数据7.和8.我们可以看到，随着历元的增加，训练的损失在减少，对测试数据集的准确度在增加，这表明训练效果良好。

桌子3.使用BBC新闻数据集和Table比较DDNN与其他模型的结果4.使用20-Newsgroups数据集比较它们。此外，我们还考虑了不同类型的数据，包括无噪声数据和噪声因子为0.01、0.02、0.03、0.04和0.05的数据，对这些模型进行了比较。这里需要注意的是，对于抽取的每个文本向量，都要加上噪声因子乘法的标准正态分布。如果维度小于0，则直接将其设置为0。在本文中，准确率(accuracy)、召回率(recall)和-通过观察评分来评估分类器的性能。以精度的计算为例。对于每个分类器，我们首先根据度量(7.)然后计算这些子精度的平均值作为结果，经过多次运行，仿真数据就是最优分类结果。


	分级机	加比噪声
	分级机	0	0.01	0．02	0.03	0.04	0．05

精度	铌	0.9659	0.9560	0.9339	0.8736	0.8186	0.7852
	KNN	0.9375	0.9325	0.9284	0.9373	0.9119	0.9260
	支持向量机	0.9715	0.9701	0.9672	0.9583	0.9340	0.9075
	DBN	0.9462	0.9434	0.9268	0.9076	0.8789	0.8479
	DDNN	0.9700	0.9685	0.9582	0.9541	0.9381	0.9286

回忆	铌	0.9655	0.9550	0.9294	0.8453	0.7387	0.6652
	KNN	0.9354	0.9324	0.9279	0.9369	0.9114	0.9249
	支持向量机	0.9715	0.9700	0.9670	0.9580	0.9309	0.8964
	DBN	0.9459	0.9429	0.9249	0.9039	0.8769	0.8393
	DDNN	0.9700	0.9685	0.9580	0.9535	0.9399	0.9249

分数	铌	0.9657	0.9555	0.9316	0.8592	0.7766	0.7202
	KNN	0.9364	0.9324	0.9281	0.9371	0.9116	0.9254
	支持向量机	0.9715	0.9700	0.9671	0.9581	0.9324	0.9019
	DBN	0.9460	0.9431	0.9258	0.9057	0.8779	0.8436
	DDNN	0.9700	0.9685	0.9581	0.9538	0.9390	0.9267


	分级机	噪声系数
	分级机	0	0.01	0．02	0.03	0.04	0．05

精度	铌	0.7506	0.7274	0.6895	0.6678	0.5887	0.4633
	KNN	0.6136	0.6161	0.6213	0.6142	0.6043	0.5978
	支持向量机	0.7598	0.7527	0.7294	0.6968	0.6652	0.6453
	DBN	0.7235	0.7207	0.7041	0.6849	0.6562	0.6252
	DDNN	0.7536	0.7561	0.7550	0.7542	0.7443	0.7378

回忆	铌	0.7483	0.6693	0.5053	0.3526	0.2613	0.2027
	KNN	0.5959	0.6000	0.6070	0.6034	0.5939	0.5820
	支持向量机	0.7525	0.7415	0.6966	0.6094	0.4891	0.3833
	DBN	0.7149	0.7120	0.6990	0.6826	0.6439	0.6250
	DDNN	0.7459	0.7500	0.7549	0.7534	0.7439	0.7320

分数	铌	0.7494	0.6971	0.5832	0.4615	0.3619	0.2820
	KNN	0.6046	0.6079	0.6141	0.6088	0.5991	0.5898
	支持向量机	0.7561	0.7471	0.7126	0.6502	0.5637	0.4809
	DBN	0.7192	0.7163	0.7015	0.6837	0.6500	0.6251
	DDNN	0.7497	0.7530	0.7549	0.7538	0.7441	0.7349

通过对比表中分析结果得出的DDNN模型和shallow子模型，包括KNN和SVM3.和4.其原因是，当训练集足够时，DDNN可以进行充分训练，使网络本身的参数尽可能达到最优值，以适应训练数据的分布，并且从底层特征中提取的高层特征更具鉴别能力e为最终分类函数。

与DBN模型相比，DDNN首先使用DAE模型，在模型的两层相同(都是四层)的情况下，可以更准确地训练分类结果。这是因为DDNN模型的前两层采用DAE，可以有效降低噪声数据的影响，DDNN模型可以更灵活地调整参数。另一方面，由于使用DAE作为初始层，也可以初步降低数据的维数。

如表所示3.和4.数据集经过噪声因子调整后，NB、KNN和SVM的分类性能明显下降，而DNNN的抗噪效果较好，仅下降1%左右。

此外,表5.显示不同型号的运行时间。我们很容易发现，对于每个样本，NB分类器的运行时间最短，SVM分类器的运行时间最长。同时，可以看出，DDNN分类器可以在保持良好分类速度的同时获得良好的分类性能。


分级机	数据集
分级机	英国广播公司新闻	20-Newsgroups

铌	０．００５	0.006
KNN	0.150	0.870
支持向量机	1.660	12.060
DBN	0.110	0.180
DDNN	0.120	0.210

5.结论

本文将DAE和RBM相结合，设计了一种新的DNN模型——DDNN。该模型首先基于DAE对数据进行去噪，然后基于RBM对文本进行有效特征提取。具体来说，我们对20个新闻组和BBC新闻数据集进行了仿真，并在考虑噪声影响的情况下，将所提出的模型与NB、KNN、SVM、DBN等传统分类算法进行了比较。经过验证，本文提出的DDNN具有较好的抗噪声性能，在提高分类性能的同时，可以提取出更鲁棒、更深入的特征。

虽然提出的模型DDNN在文本分类方面取得了令人满意的性能，但仿真中使用的文本是长类型数据。但是，考虑到文本分类任务中也存在一些短文本数据，我们应该使用DDNN模型来解决这个问题。此外，为了进一步提高深度学习方法在实施中的计算性能，未来我们还可以在DDNN框架中引入核学习、强化学习等先进的优化技术，设计一些混合学习算法。并将其应用于其他领域。

的利益冲突

作者声明本文的发表不存在利益冲突。

致谢

本研究由北京科技大学中央高校基本科研业务费(FRF-BD-16-005A)、国家自然科学基金(61174103)、国家重点研发计划(2017YFB1002304和2017YFB0702300)资助。国土资源部地质信息技术重点实验室(no . 2017320)、北京科技大学国立台北科技大学联合研究计划(no . TW201705)资助。

工具书类

A.M.Rinaldi，“基于内容的文档表示和检索方法”，年第八届ACM文献工程研讨会论文集(DocEng’08)，第106-109页，ACM，巴西圣保罗，2008年9月。浏览：出版商的网站|谷歌学者
E. Baykan, M. Henzinger, L. Marian，和I. Weber，“基于url的主题分类的特征和算法的综合研究”，网络上的ACM事务，第5卷，第5期。2011年第15条第3款。浏览：出版商的网站|谷歌学者
P. Langley, W. Iba, K. Thompson，《贝叶斯分类器的分析》，刊于第十届全国人工智能会议论文集，第223-228页，美国加利福尼亚州圣何塞，1992年。浏览：谷歌学者
A. McCallum和K. Nigam，“用于朴素贝叶斯文本分类的事件模型的比较”，发表于第15届全国人工智能大会论文集-文本分类学习研讨会，第41-48页，威斯康星州麦迪逊，美国，1998年。浏览：谷歌学者
杨和刘X，“文本分类方法的重新审视”，年第22届ACM信息检索研究与发展SIGIR会议论文集(SIGIR’99)，第42-49页，加州伯克利，美国，1999年8月。浏览：出版商的网站|谷歌学者
S. Godbole, S. Sarawagi，和S. Chakrabarti，“使用类间混淆扩展多类支持向量机”第八届ACM SIGKDD知识发现与数据挖掘国际会议论文集，页513-518，埃德蒙顿，加拿大，2002年7月。浏览：谷歌学者
林书立和李德霖，“基于神经网络的文本分类的特征约简”，年第六届高级应用数据库系统国际会议论文集，页195-202，台湾新竹，1999。浏览：出版商的网站|谷歌学者
M. E. Ruiz和P. Srinivasan，“文本分类的层次神经网络”信息检索研究与发展第22届国际ACM SIGIR年会论文集，第281-282页，加州伯克利，美国，1999年8月。浏览：出版商的网站|谷歌学者
L.E.Peterson，“K-最近邻居”学术媒体，第4卷，第2号，第1883条，2009年。浏览：出版商的网站|谷歌学者
Roo，J.Deng，J.Liu，W.Wang，X.Ban和J.Wang，“用于智能数据分析的熵引导学习的量化核最小均方方案，”中国通信第14卷第2期7, pp. 127-136, 2017。浏览：出版商的网站|谷歌学者
Y. LeCun, Y. Bengio，和G. Hinton，《深度学习》，自然，第521卷，第5期。7553, pp. 436-444, 2015。浏览：出版商的网站|谷歌学者
D. Silver, A. Huang, C. J. Maddison et al.，“利用深度神经网络和树搜索掌握围棋游戏”，自然，第529卷，第7587号，第484-4892016页。浏览：出版商的网站|谷歌学者
g·e·辛顿，《深度信仰网络》学术媒体，第4卷，第5号，第5947条，2009年。浏览：出版商的网站|谷歌学者
“动态系统的信息处理:和谐理论的基础”，刊于平行分布加工:认知微观结构的探索，第1卷:基础D. E. Rumelhart和J. L. McLelland, Eds。， 194-281页，麻省理工学院出版社，1986。浏览：谷歌学者
邓建军，董文华，R.Socher，李立军，李克军，李福福，“ImageNet：一个大规模的分层图像数据库”，年IEEE计算机学会计算机视觉与模式识别会议论文集(CVPR’09)，第248-255页，美国佛罗里达州迈阿密，2009年6月。浏览：出版商的网站|谷歌学者
A. Krizhevsky, I. Sutskever，和G. E. Hinton，《基于深度卷积神经网络的图像网络分类》，ACM的通信，第60卷，第6期，第84-902017页。浏览：出版商的网站|谷歌学者
P.Vincent、H.Larochelle和Y.Bengio，“使用去噪自动编码器提取和合成鲁棒特征”，年第25届国际机器学习会议论文集，第1096-1103页，ACM，赫尔辛基，芬兰，2008年7月。浏览：谷歌学者
P.Vincent、H.Larochelle和I.Lajoie，“堆叠去噪自动编码器：使用局部去噪标准在深度网络中学习有用的表示，”机器学习研究杂志， vol. 11, pp. 3371-3408, 2010。浏览：谷歌学者
G.E.Hinton，“通过最小化对比差异来培训专家产品，”神经计算，第14卷，第8期，第1771-1800页，2002年。浏览：出版商的网站|谷歌学者
Luo X.， Xu Y.， Wang W. et al.，“一种基于相关熵的稀疏自编码算法，”富兰克林研究所杂志, 2017年。浏览：出版商的网站|谷歌学者
R. Collobert, J. Weston，和L. Bottou，“自然语言处理(几乎)从无到有”，机器学习研究杂志，第12卷，第2493-2537页，2011年。浏览：谷歌学者
I.Arel、D.C.Rose和T.P.Karnowski，“深度机器学习——人工智能研究的新前沿，”IEEE计算智能杂志，第5卷，第5期。4，页13-18,2010。浏览：出版商的网站|谷歌学者
G.E.Hinton、S.Osindero和Y.-W.Teh，“深度信念网络的快速学习算法，”神经计算第18卷第2期7, 2006年。浏览：出版商的网站|谷歌学者|数学网
Wei和W.B.Croft，“用于临时检索的基于LDA的文档模型”，年第29届ACM SIGIR信息检索研究与开发国际年会论文集，第178-185页，美国华盛顿州西雅图，2006年8月。浏览：出版商的网站|谷歌学者
X.Lu，Y.Tsao，S.Matsuda和C.Hori，“基于深度去噪自动编码器的语音增强”，年国际言语传播协会第十四届年会论文集，第436-440页，法国里昂，2013年8月。浏览：谷歌学者
N.Le Roux和Y.Bengio，“受限玻尔兹曼机器和深层信仰网络的代表力量，”神经计算，第20卷，第6期，第1631-1649页，2008年。浏览：出版商的网站|谷歌学者|数学网
Y.Bengio，“学习人工智能的深层架构”机器学习的基础和趋势，第2卷，第2期1，第1 - 27页，2009。浏览：出版商的网站|谷歌学者
A. Fischer和C. Igel，“限制玻尔兹曼机器简介”，在第十七届伊比利亚美洲模式识别、图像分析、计算机视觉及应用进展大会论文集，第14-36页，布宜诺斯艾利斯，阿根廷，2012。浏览：谷歌学者
L.F.Polana和K.E.Barner，“在压缩感知中利用受限玻尔兹曼机器和深层信念网络，”IEEE信号处理汇刊，第65卷，第5期17, pp. 4538-4550, 2017。浏览：出版商的网站|谷歌学者|数学网
R. Karakida, M. Okada和s - i。对比发散学习的动力学分析:带有高斯可见单位的受限玻尔兹曼机器神经网络，第79卷，第78-87页，2016。浏览：出版商的网站|谷歌学者
T.Mikolov，I.Sutskever，K.Chen，G.Corrado和J.Dean，“单词和短语的分布式表示及其组成性”，年国际神经信息处理系统会议论文集，页3111-3119，太浩湖，加利福尼亚州，美国，2013。浏览：谷歌学者
I. Sutskever, O. Vinyals，和Q. V. Le，“用神经网络进行序列学习”，发表于第28届神经信息处理系统年会论文集， pp. 3104-3112，蒙特利尔，加拿大，2014。浏览：谷歌学者
M.Zhong，H.Liu和L.Liu，“词与词之间语义关联关系的测量方法，”中文信息处理学报，第23卷，第2期。2, pp. 115-122, 2009。浏览：谷歌学者
Jing，H.K.Huang和H.B.Shi，“文本挖掘中改进的特征选择方法TFIDF”，年机器学习和控制论国际会议记录，第2卷，944-946页，北京，中国，2002。浏览：谷歌学者

科学的规划

科学大数据分析的编程基础

摘要