文摘

特殊的文本有很多特性,如专业词汇、缩写、大型数据集,不同的主题,不均匀分布的标签。而现有的文本数据挖掘分类方法使用简单的机器学习模型,它有一个坏的文本分类性能。为了解决这个缺点,文本数据挖掘算法基于卷积神经网络(CNN)模型和深玻耳兹曼机(DBM)模型提出了。这种方法结合了CNN和DBM模型具有良好的特征提取,实现双重特征提取。它可以实现标签树通过构造标签树和设计有效的分级网络来实现分类。同时,该模型可以抑制输入噪声的分类。实验结果表明,该改进算法取得了较好的分类结果的特殊文本数据挖掘。

1。介绍

的深入研究文本分类模型在工业和学术界,文本信息呈现指数增长的现象。数据挖掘大量的信息中提取有效的信息已经成为一个热点问题。

文本数据挖掘的感应过程被定义为一个或多个类别的对象基于文档数据的不同特征。最初,文本分类方法主要用于大量的朴素贝叶斯机器学习方法(1]。然后,一系列的机器学习算法,其中包括再算法(2),支持向量机(SVM),神经网络(3),最小二乘(4),和决策树5)已经广泛应用于文本分类领域。最近,支持向量机的应用已成为一个热门研究方向在文本分类领域的研究人员(6]。然而,再算法,最小二乘法,决策树与更高的效率和更简单的模型使用基于这些方法可以优化和改进。文献[7)提出了神经网络图(GNN)基于文本归纳分类方法。它首先采用GNN学习细粒度词表示基于当地的结构,然后聚合词节点在文档嵌入得到分类结果。文献[8)提出了一种新的术语权重策略,这使得更有效的使用不发生信息的术语。提出加权策略还执行同类文档扩展更好地代表的歧视能力术语出现在不同的文档数量的相同数量的类。

提高泛化能力,提出了一种选择性集成理论,文本分类的应用取得了良好的结果。然而,这些模型是一种肤浅的方法。当数据处理大规模高维数据,其分类称为复杂数据分类。当面对复杂的数据分类问题,基于这一理论的局限性算法将是显而易见的。具体来说,泛化能力不足,和文本分类的要求不能得到满足。因此,如何获得一个深刻的机器学习方法,具有较强的泛化能力已成为研究的主流。

文本分类的任务可以分为三个步骤:文本预处理、文本表示、分类模型建设。管理文本信息,有必要提取和文本内容科学、合理地进行分类。前面的文本表示的形式通常是一个计数。这种方法有两个缺点。首先,这种方法需要假设词是相互独立的,但实际的单词都是彼此相关,导致忽视文本的语言单词之间。第二,人为因素的干扰时需要选择功能,导致提取的特征有商维度和稀疏,和文本的表示和泛化能力都很差。此外,对于特殊的文本,它有大量的专业词汇,缩写、大型数据集,不同的话题,和标签分布不均匀。使用一个简单的机器学习模型现有特殊的文本分类方法,以减少文本分类的性能。

本文的贡献如下:(1)为了克服上述分类方法的不足,基于卷积的文本数据挖掘算法神经网络(CNN)模型和深玻耳兹曼机(DBM)融合提出了本文。(2)该方法结合了两种模型来实现双重特征提取。标签树是通过构造实现标签树和设计有效的层次网络。(3)同时,可以抑制输入噪声对分类的影响。它可以有效地将大量的专业词汇,缩写词和短的文本文档和执行。

本文的结构如下。部分2介绍了大数据挖掘的一般方法。部分3介绍了推荐算法。部分4展示了实验结果和分析。

2。数据挖掘中常用的文本分类方法

有两种主要的文本分类方法:基于规则和统计数据。目前流行的机器学习方法主要包括支持向量机(SVM),逻辑回归,朴素贝叶斯,决策树,再,人工神经网络,集成学习,标签相关的分类和层次分类方法。

支持向量机(SVM):支持向量机的原则是要找到一个超平面满足分类要求,以便在训练集可以分类平面尽可能分开。时在大数据融合训练,支持向量机速度非常缓慢。它需要大型并行计算机和设备资源大存储容量来支持它。然而,它的优势在于,它可以克服样本分布的影响,实验效果很好,泛化能力很好。支持向量机是一种肤浅的线性模型对不同的数据进行分类。如果无法分类,低维数据向量空间的映射方法可以用来找到最好的超平面。

逻辑回归(LR): LR模型根据输入变量选择参数Z并计算输出变量, 是1的可能性。在这里,逻辑回归模型的假设方程所示(1)和乙状结肠S型函数如下所示:

逻辑回归模型 从方程(1)和(2), 的特征向量分类的目标。

3所示。改进的基于CNN和DBM的文本数据挖掘方法

3.1。CNN和DBM的文本分类

CNN是一个深度学习模型的特点是重量分享,这是一个扩展的BP神经网络(9,10]。CNN使用梯度下降法实现体重调整。其特点是重量调整的方向是最快的方向,梯度,这提高了网络的收敛速度。特征映射,如果神经元的权值是一致的,网络的并行学习可以意识到,这是一个功能,CNN不同于神经网络。

DBM是网络的基本建模单元,它是一个模型结构组成的遏制与无向图连接。DBM的示意图可以看到在图1。它主要由无监督pretraining和监督微调(11),当选择网络节点与网络的结果基本一致。DBM是能够有效地结合局部和全局特征信息(12]。它由一组多个视觉单元,其输入层( )。隐藏层(h)由一个序列的隐藏的细胞数量和最终输出层,构成DBM模型。相邻层由无向图模型中的连接。

有三个主要的优点DBM。首先,重量可以通过先验知识更新,可以提取特征。第二,重量由先验知识更新,可有效抑制输入噪声。第三是同时样本,计算相邻节点的权重13,14]。这将给一个更准确的文本表示。DBM也有自己的缺点,主要是在网络层的数量的扩张,和连接节点数量的增加;计算复杂度是指数。

3.2。改进的文本分类方法

提出了一种改进的文本分类方法基于CNN和DBM模型的改进。有三个步骤来改善CNN和DBM模型组件。总体框架如图2

为了提高CNN和DBM模型分类的准确性,这个模型的第三步,即分层分类,得到了改进。

3是一个详细的改进模型的架构图,中间部分是特征提取层。在这一步中,CNN模型采用实现局部特征提取 和全球的特性 补充输入文本表示。DBM是用来融合两个特征,最后进行分类。

在这个框架中,CNN是提取的本地文本的输出特性 , 是全球的实体功能特性。输入的尺寸都是相同的,它们构成的输入公式DBM模型,这是表示如下:

然后,每次一层隐层传递,相应的重量 是获得。模型的训练后,pretraining和微调,模型测试和最终目标样本的标签。此外,为了加快模型的训练速度,ReLu激活函数采用培训。

3.3。分层分类

DBM的输出标签分类模型实现了设计标签树层次结构(LTA)。标签的LTA分类树结构和重命名标签在一个树结构序列形成新的标签。根据实验数据集的特点,本文采用层的所有标签分为两层处理。第一层是一个粗略的分类,对应的父节点。第二层是一个很好的分类,对应于一个叶子节点。

通过这个分层会有一些错误。获得的误差模型分类和现实的区别分类。同时,CNN是反馈网络模型的第一步。模型接收反馈的错误和纠正和调整重量直到准确分类。

3.4。文本分类性能的评价指标

文本分类方法的评价指标是基于文本分类的预测。一般来说,有三个类别的指标,即基本指标,宏观和microaverage指标,ROC曲线指标。

文本分类的基本性能指标包括准确率P,召回率R、测量值F,相似年代。的准确率P是一种测量精度的检索系统,定义如下:

召回率R是一个衡量整个文档系统,定义如下:

选择测量值F1作为分类指数和它是方程的加权调和平均数(2)和(3)。

相似之处年代被定义为

基本指标 分类性能的指标,衡量一个特定的类别。整个数据集的指标是宏观和微观。macroaverage反映了算法的整体性能,而microaverage反映了算法的算法的整体性能。这些性能指标表达如下” 在哪里 代表类别划分的数量。可以看出macroaverage重量共享的特点,和每个类别的重量是相同的。算术平均microaverage使它更容易受到大的类别。

中华民国曲线是连续变量的一个综合指标的敏感性和特异性。如果指标曲线形成的面积较大,它反映了算法的精度高。

4所示。实验结果和分析

在这个实验中所使用的数据集1性能比较文档在医学数据集。样品的总数是9666,分为39类,和相应的类型是多级。数据集2被选中的数据集。样品的总数是1000,这是分为168类。对应的类型是multicategories。从数据集数据集选择3。文本的总数达到1000000,这是分为150类。对应的类型是multilabel。这三种实验对象可以更好的扩展和验证模型的泛化能力提出了在这一节中。表1是一个比较的几个数据集。

在本文实验对象选择训练样本的比例,受试者的测试样品是7:3。此外,CNN模型的滑动窗口步长设置为50转移,以避免改变代表单词的意思。

不同特征的数据集1的性能指标进行了比较。具体的数据指标如表所示23。从数据不同的指标,它可以得出结论:本文提出的改进模型的性能优于其他模型无论弓+或内镜下动态慢动作影像特征。肤浅的模型方法而言,船头+比内镜下动态慢动作影像具有更好的性能,在内镜下动态慢动作影像代表更好的性能对本文提出的模型和改进的CNN模型。

通过实验对不同的数据集2模型和特征表示方法,表45表明本文提出的改进模型的性能优于其他模型在不同特征表示方法。浅模型方法,比内镜下动态慢动作影像弓+有更好的性能,而内镜下动态慢动作影像代表更好的性能对本文提出的模型和改进的CNN模型。

分析结果的表2- - - - - -5,可以获得更多的数据集的样本数据。使用弓+和内镜下动态慢动作影像特征表示为9模型进行性能比较实验,实验结果如表所示67

中华民国性能三个数据集上进行了实验。五ROC曲线模型在三个医学文摘数据集数据所示4- - - - - -6。纵坐标的横坐标是特异性和敏感性。曲线越接近左上角,性能就越好。从图不难看出,改进后的方法具有最佳的性能在医疗、BioTex数据库和数据集。

数据4- - - - - -6展示中华民国性能比较不同模型的支持向量机,LDA, CNN_H, C-B_FLAT,数据集的改进方法。从图片我们可以得出一个结论。首先,深入学习模型比肤浅的学习方法。其次,分层分类比平坦的分类。第三,本文提出的改进的模型可以对不同的数据集的最优性能。

5。结论

根据特殊文本的特点,现有的特殊数据挖掘方法使用简单的机器学习模型的文本分类性能不佳。为了解决这个问题,一种新的改进的数据挖掘方法提出了基于CNN模型和DBM模型。该方法结合了CNN和DBM模型具有良好的特征提取来实现双重特征提取。它可以实现标签通过构造的重新分类标签的树结构,设计一个有效的分级网络。该模型可以抑制输入噪声对分类的影响。实验结果表明,改进后的模型具有良好的影响的特殊文本域。分类是一个矿业的一部分,将会被分析和进一步的信息挖掘在未来的研究。

数据可用性

标签数据集用于支持本研究的发现可以从作者要求。

的利益冲突

作者宣称没有利益冲突。

确认

这部分工作是支持民航安全能力基金(0242008)和部分重点实验室的民航飞行技术和飞行安全(FZ2020ZZ02)和中国民航联合基金的国家自然科学基金(U2033213)和国家重点实验室项目“非线性动态特性研究直升机高功率密度齿轮传动系统”(没有。HTL-0-19K01)。