文摘

文本挖掘是一个重要的研究方向,涉及许多领域,如信息检索、信息抽取、文本分类。在本文中,我们提出一种有效的多分类器方法基于swarm-optimized主题模型的文本分类。潜在狄利克雷分配(LDA)能克服高维度问题的向量空间模型,但确定合适的参数值对LDA的性能至关重要。Swarm-optimized LDA方法估计参数,包括主题的数量和所有其他参数参与LDA。基于多样性相结合的混合合奏修剪方法措施和聚类的目标是获得一个多分类器系统具有高预测性能和更好的多样性。在这个方案中,四种不同的多样性措施(即分歧措施,统计、相关系数和合奏的双误测量)分类器相结合。基于组合多样性矩阵,采用了基于群体智能聚类算法进行分区分类器分成许多独立组和一个分类器(预测性能最高的)选择每个集群构建最终的多分类器系统。实验结果基于五个生物医学文本基准进行。swarm-optimized LDA,不同metaheuristic算法(如遗传算法、粒子群优化,萤火虫算法,布谷鸟搜索算法,和蝙蝠算法)。合奏的修剪,五metaheuristic聚类算法评估。实验结果对生物医学文本基准表明swarm-optimized LDA收益率比传统LDA更好的预测性能。此外,提出了多分类器系统优于传统的分类算法,整体学习,合奏修剪方法。

1。介绍

巨大数量的生物医学文本文档可以作为生物医学研究的一个重要的信息来源。生物医学文本文档的特点是一个巨大的数量的非结构化和稀疏信息以各种形式,如科学论文、生物医学数据集和案例报告。文本挖掘旨在识别有价值的信息从非结构化文本文档使用的工具和技术从几个学科,如机器学习、信息检索、计算语言学。使用文本挖掘是最有前途的工具之一,在生物医学领域,吸引了很多研究的兴趣。文本挖掘在生物医学领域可以被成功地应用在广泛的应用中,包括识别特定疾病知识(1)、诊断、治疗和预防癌症的2),识别的肥胖病人的状态(3),确定心脏病的风险因素(4),注释的基因表达5),和药物靶点的识别和候选人6]。

生物医学文本挖掘遵循相同的阶段(即,就是格式对话,停止词删除,规范化,阻止,词典建设、和向量空间建设)的文本处理从其他域(7]。建立准确的分类方案文本文档,一个关键的问题是确定一个适当的表示模型文件(8]。向量空间模型(也称为词向量模型)是最常使用的表示方案来处理文本文档,由于其结构简单(9]。在这个模型中,每个文本文档表示为向量的标识符(索引词)。向量空间模型患有高维特征空间,不合时宜,稀疏的特性。因为每个文档表示为一袋单词与对应的频率,语言被认为是统计独立的。因此,词序是不考虑10]。

考虑到向量空间模型的局限性和生物医学文本文档的高维非结构化特性,有很多表示计划(如潜在语义分析、概率潜在语义分析、和潜在狄利克雷分配)用来处理生物医学文本文档(7]。潜在语义分析(LSA)是一个计划,以提取和代表单词的语境意义使用统计计算利用大量的文本(11]。LSA能代表文本中的语义关系。它能找到的类,同时减少维数的向量空间模型(12]。然而,LSA没有强大的统计基础和可以遭受高数学复杂性[13]。概率潜在语义分析(向量)是数据分析的统计方法是基于一个潜在的类模型。查询词有很强的统计基础。它可以找到潜在的主题和LSA相比可以产生更好的性能(13]。

潜在狄利克雷分配(LDA)是一种有效的生成概率主题模型,其中每个文档被表示为一个随机混合的潜在主题。LDA可以找到潜在的主题,减少高维度的向量空间模型,并能超越其他语言表示计划,如潜在语义分析和概率潜在语义分析(14]。LDA涉及到几个参数值,如主题,吉布斯抽样的迭代次数, 参数来控制每个文档的主题分布, 每个主题的条件分布参数模型(Panichella et al ., 2003)。document-wise对于非结构化文本文档,信息内容和数量的相关主题事先是未知的(赵et al ., 2005)。因此,确定一个适当的值的非结构化文本文档的主题是一个具有挑战性的问题。不足或过多的话题可能会降低机器学习算法的性能预测建立在LDA-based主题建模。除了数量的话题,LDA需要其他几个参数。因此,找到一个最优配置LDA-based主题造型涉及广泛的实证分析与不同的配置。

为了构建健壮的分类方案,多个分类器系统(也称为系综分类器)已经广泛应用于模式识别领域,由于其显著的泛化能力和预测性能改善(15]。有三个主要阶段的整体学习过程,即合奏一代,合奏修剪,和整体组合(16,17]。的阶段,合奏一代阶段是基础学习算法是利用多分类器系统的生成。基础学习算法可以生成均匀或不均匀。整体组合阶段寻求整合的个人预测基础学习算法。合奏修剪阶段旨在确定一个最优的子集的基础学习算法从整体提高预测性能和计算效率。实践证实,合奏修剪可以产生更健壮的分类方案(18]。

考虑到这些问题,我们提出一个多个分类器方法基于swarm-optimized话题建模和集成的生物医学文本分类修剪。在提出的方案中,swarm-optimized LDA方法是用来估计参数,包括主题的数量和所涉及的所有其他参数LDA。出于混合合奏修剪的成功计划(19- - - - - -21),该方法结合了多样性的措施和集群。在这个方案中,四种不同的多样性措施(即分歧措施,Q -统计、相关系数和双误测量)计算捕获系综中的多样性。基于这些多样性措施,结合多样性矩阵。这个矩阵的基础上,基于群体智能聚类算法分区分类算法分成许多独立组和一个算法(预测性能最高的)每个集群选择来建立多分类器系统。在实证分析中,五个生物医学文本基准被利用。swarm-optimized LDA,不同metaheuristic算法(如遗传算法、粒子群优化,萤火虫算法,布谷鸟搜索算法,和蝙蝠算法)。此外,五个不同metaheuristic聚类算法被认为是在合奏修剪阶段。实证分析生物医学文本基准表明swarm-optimized LDA收益率比传统LDA更好的预测性能。此外,提出了混合合奏修剪方案优于传统的分类算法和集成学习方法。

我们建议的分类方案的主要贡献可以概括如下:(我)我们引入一套metaheuristic方法优化的参数用于LDA-based主题建模。在这方面,主题的数量(k),吉布斯的迭代的数量(n), 参数来控制每个文档的主题分布, 每个主题的条件分布参数模型。我们进行了几个实验不同metaheuristic swarm-optimized LDA算法(遗传算法、粒子群优化,萤火虫算法,布谷鸟搜索算法,和蝙蝠算法)。我们所知,这是第一个全面的实证分析致力于metaheuristic LDA-based话题建模算法。(2)我们介绍了一个修剪方法基于组合多样性措施和metaheuristic集群。我们所知,这是第一个研究合奏修剪,它利用metaheuristic聚类算法获得多元化的基础学习算法。(3)提出了分类方案于一体的swarm-optimized LDA-based造型与混合合奏修剪方案,采用生物医学文本分类。我们所知,这是第一个全面研究LDA-based主题建模和合奏修剪生物医学文本分类。

本文的其余部分的结构如下。节2,相关话题建模和多分类器系统。部分3介绍了理论基础,部分4介绍了文本分类框架,提出部分5介绍了实验结果,部分6给出了结论。

本节介绍了相关工作的话题建模和多分类器系统在生物医学文本分类。

2.1。主题造型相关工作

主题造型模型已经成功地用来总结大规模文本文档的集合。概率主题模型方法可以用来识别文本集合的核心主题。此外,主题造型方案可以利用在计算语言学的各种任务,如分析源代码文件(23),总结产品评论的意见(24),识别主题演化[25),检测方面的审查文件(26),Twitter信息分析(27),和情绪分析28,29日]。

概率主题模型已在生物医学领域引起了研究者的注意。生物医学文本集合遭受高维度和主题建模方法是有效的工具来处理大型文档的集合。因此,主题造型可以产生承诺的结果在生物学和生物医学文本挖掘30.]。例如,王et al。31日)提出了一个概率主题模型方案识别蛋白质相互作用的生物文学。在这个方案中,不同方法之间的相关性及相关单词在概率建模方法提取检测方法。在另一项研究中,阿诺德et al。32]利用潜在狄利克雷分配方法来识别相关临床主题和文本结构的临床报告。歌和金33)采用潜在狄利克雷分配方法进行文献计量分析生物信息学从全文文本集合的公共医学中心的文章。在另一项研究中,Sarioglu et al。34)利用主题模型代表临床报告以紧凑的方式,这样可以有效地处理这些集合。在另一项研究中,Bisgin et al。35主题模型应用于药品标签,这是一个高强度的人工任务与许多模糊的语义描述。通过这种方式,可以消除人工注释的挑战。同样,王et al。36]介绍了一个基于主题造型方案确定literature-driven注释基因集。在这个方案中,主题的主题是利用造型经验推断通过分析各种参数值(5、10、15、20等。)的主题。在另一项研究中,Bisgin et al。37)采用基于潜在狄利克雷分配的主题造型来识别细胞端点间的相互依赖关系。实验分析表明,LDA可以大大增强系统生物学的理解。概率主题模型也被用来确认药物重新定位策略(38]。王等人。39)利用主题模型分析17723摘要PubMed出版物与青少年药物滥用和抑郁有关。在这项研究中,主题造型是用来确认文学和捕捉其他相关主题。在另一项研究中,王et al。40)提出了一个基于主题造型方案我生物医学文本集合。在这个方案中,主题造型采用细粒度预处理模型。最近,沙利文et al。41)利用主题模型从审查文档识别不安全的营养补充剂。在另一项研究中,陈等人。42)采用概率主题模型代表住院流程以紧凑的方式。

2.2。相关工作在多个分类器系统

多个分类器系统已经成功地应用于广泛的应用在模式识别,包括生物医学领域。实证分析多个分类器系统表明,合奏修剪可以提高多分类器系统的预测性能18]。合奏修剪方法主要可以分为五组,如指数搜索、随机搜索,顺序搜索,排行第三,和基于聚类的方法16]。指数整体修剪方法寻求检查所有可能的子集的基础学习算法在多分类器系统。例如,Aksela [43]研究了预测性能的几个评价指标(即关联错误,统计,在合奏修剪和互信息)。随机方法合奏修剪旨在探索候选人的搜索空间分类器使用metaheuristic算法。metaheuristics范围广泛,如遗传算法、禁忌搜索和基于人口的增量学习,已经成功地用于合奏修剪(44,45]。例如,光泽和Sirisha [46]介绍了一个修剪方案基于和声搜索恶意软件检测。同样,Mendialdua et al。47)利用合奏修剪的分布估计算法。基于序贯搜索方法,候选人的搜索空间分类器一直在探索前进,落后,或forward-backward方向。例如,Margineantu和Dietterich [48]介绍了序贯方法合奏修剪修剪与back-fitting基于减少错误。同样,Caruana et al。49)提出了一个基于向前逐步选择合奏修剪的方法。最近,戴et al。50]介绍了反向偏差减少合奏修剪算法基于减法操作。排行第三的合奏修剪方法旨在确定一个最优的子集分类器基于排名通过特定的评价指标。例如,Kotsiantis和Pintelas [51)提出了一个t以及基于排名方案合奏修剪。最近,Galar et al。52]介绍了合奏修剪的ordering-based度量。基于聚类方法合奏修剪合奏的基本学习算法分割成集群。例如,张和曹(53)提出了一个基于谱聚类算法合奏修剪。在这个方案中,基本学习算法被分为两个集群基于预测性能和多样性。然后,一个集群整体的裁剪和一个集群的整体保留修剪子集的分类器。

2.3。这项研究的动机和贡献

提前概述,概率主题模型方法是必不可少的工具来识别隐藏的主题在大规模文本文档的集合。为了提高LDA的性能,有一些扩展的基本模型。例如,格里菲斯和特南鲍姆(54]介绍了分层潜在狄利克雷分配模型。在这个模型中,主题层次结构的分布确定主题,每个层次结构模型由一个嵌套的中国餐馆的过程。树的每个节点对应于一个特定的主题,每个主题在哪里与分布有关。在另一项研究中,格兰et al。55)提出了一个层次化的潜在狄利克雷分配方案,在参数值的主题是通过使用后推理推断出来的。格兰特和Cordy [56]引入了启发式方法估计源代码分析的主题。在另一项研究中,Panichella et al。57)提出了一个基于遗传算法的方案来确定潜在狄利克雷分配最优配置。在这个方案中,参数设置主题建模估计使用遗传算法。提出方案采用软件工程的三个不同的任务,也就是说,跟踪链接复苏,功能位置,标签和软件工件。同样,赵et al。58]介绍了启发式的方法来估计潜在狄利克雷分配的适当数量的主题。在这个方案中,确定适当数量的主题通过使用比例困惑的变化。最近,Karami et al。59)提出了一种模糊主题建模方法。在这个方案中,模糊聚类来确定最优数量的话题。

除了上述五个合奏修剪方法,混合模式识别方法研究吸引了注意力。混合方法合奏修剪寻求整合几个合奏修剪模式。例如,林et al。(2014)介绍了一种混合合奏修剪算法集成了k - means聚类和动态选择。同样,穆萨维和Eftekhari [60)提出了一个混合合奏修剪方案集静态和动态系综选择NSGA-II多目标遗传算法。在另一项研究中,卡瓦尔康蒂et al。21]提出了一种基于遗传算法和混合合奏修剪算法图着色。在这个方案中,几种不同的措施(如多样性统计,相关系数,Kappa统计,和双误测量)通过遗传算法相结合。同样,俄南et al。19,20.]介绍了混合集成基于共识的修剪算法聚类和多目标进化算法。在这个方案中,分类器分配到集群根据他们的预测性能和候选集分类器通过使用进化算法的探究。

最近的研究主题建模表明,确定一个适当的参数值为主题的数量是一个重要的任务来构建健壮的分类方案。此外,混合合奏修剪方案可以超越传统的分类器,集成学习方法和合奏修剪方法。通过他们的潜在使用文本分类、作品的数量,利用metaheuristic LDA算法优化参数和作品的数量,利用合奏修剪方案是非常有限的。为了填补这一空缺,本文提出一种基于swarm-optimized话题建模和混合集成的分类方案用于文本分类的修剪。

3所示。的理论基础

本节总结了研究的理论基础。即潜在狄利克雷分配方法,群优化算法,集成学习方法,合奏修剪方法,聚类有效性指标,和成对的多样性提出了措施。

3.1。潜在狄利克雷分配

潜在狄利克雷分配模型(LDA)是一种广泛用于生成概率模型来识别潜在的主题文本文档(22]。在LDA,每个文档被表示为一个随机混合的潜在主题,每个主题都被表示为单词的混合物。混合分布推断Dirichlet-distributed随机变量。在这个方案中,每个文档展览的主题在不同的比例,每个词在每个文档中画的主题,和主题的选择是基于每个文档分布的话题(61年]。LDA试图确定底层的潜在主题结构基于观测数据。在LDA,每个文档对应的观测数据。每个文档的语料库,单词是通过以下两步过程。最初,一个分布在主题为每个文档的单词(随机选择22]。在LDA,从词汇索引词是一个离散数据 的序列N单词 = ( , 、… )和一个语料库的集合文件用D = 。LDA的生成过程总结了盒子1

LDA过程可以由一个三级贝叶斯的图形建模模型,给定图1。在这个图形模型中,节点是用来表示随机变量和边缘是用来表示可能的变量之间的依赖关系。在这个符号, 指狄利克雷参数,Θ指文档级主题变量,z是指每一主题任务, 指的是观察到的词,和β显示的主题(61年]。

基于这一符号,LDA的生成过程对应于一个隐藏的和观察到的变量的联合分布。的概率密度函数k维狄利克雷计算随机变量是由(1),一个主题计算混合物的联合分布的(2),语料库的概率计算的(3)[22]: 在LDA,隐藏变量的后验分布的计算是一个重要的推论的任务。隐藏变量的精确推理是指数大。因此,近似算法(如拉普拉斯近似变分近似,和吉布斯抽样)一直在利用LDA过程(61年]。

3.2。集成学习方法

整体学习方法旨在结合多分类算法的预测,以便分类模型预测性能可以达到较高的(62年]。输出的相关方法,前分类器确定以下分类器的输出。相比之下,分类器的输出分别识别和结合产生独立的最后预测方法。依赖合奏方法包括增加(例如,学习演算法)和独立的方法包括装袋,dag,随机子空间。检查方案的预测性能,四个知名乐团学习方法(即演算法63年],装袋[64年),随机子空间(65年),和叠加66年])。

3.3。合奏修剪方法

合奏修剪方法旨在确定最优的子集分类算法来提高多分类器系统的预测性能和计算效率。检查提出的预测性能合奏修剪算法,我们使用了四个合奏修剪算法。这些方法是合奏修剪方法库的模型(49],装袋系综选择[67年],LibD3C算法[68年基于组合多样性,合奏修剪措施(21]。

3.4。群优化算法

群优化算法,包括遗传算法、粒子群优化,萤火虫算法,布谷鸟搜索算法,和蝙蝠算法,已经成功地使用应用程序的科学数据,如数据聚类和数据分类(68年]。在该方案,群优化算法被用来优化参数的设置LDA-based主题建模。此外,该乐团修剪算法采用群优化算法分类器组合成集群。在实证分析中,遗传算法(69年),粒子群优化算法(70年],萤火虫算法[71年),布谷鸟搜索算法(72年),和蝙蝠算法(73年)是利用。

3.5。集群效度指标

本节简要介绍了四个集群效度指标(即贝叶斯信息准则,Calinski-Harabasz指数,Davies-Bouldin指数和轮廓指数),这是用来评估不同配置的LDA的聚类质量。

贝叶斯信息准则(BIC)计算如下考虑: 在哪里n表示数量的话题,l表示模型中的参数来生成数据的可能性,和v表示数量的自由参数在高斯模型(74年]。贝叶斯信息准则越小,生成的模型就越好。

Calinski-Harabasz指数(CH)的比值的痕迹集群之间的散射矩阵和内部散射矩阵,计算为下面(74年]: 在哪里K表示数量的集群,N表示数据实例的数量, 集群表示元素的数量Ck,x表示一个点在集群Ck,B表示大类间散射矩阵,代表不同的集群之间的误差平方和,和W表示内部散射矩阵,代表平方差异的实例在一个集群中。在这里,跟踪的n——- - - - - -n方阵对应主对角线上的元素之和(75年]。

Davies-Bouldin指数(DB)是一个集群效度指数,旨在最大化大类间距离和减少簇的质心之间的距离,另一个数据点,定义是由以下方程: 在哪里c表示数量的集群,j对应于集群的标签,d(c,cj集群)对应于质心之间的距离, 集群内对应一个数据点C。DB则越小,生成的模型就越好。

轮廓指数(SI)的定义是由(9): 在哪里N表示数量的集群, 表示集群的大小C,一个(x)表示之间的平均距离实例和所有实例Xjb (x)表示的最小距离集群的重心不包含我。

3.6。成对多样性的措施

本节简要介绍了四个多样性措施(即分歧,Q -统计,相关系数,利用双误测量),提出了系综分类方案。

Q -统计,相关系数(p我,k),分歧测量(Dis),双误测量在两个分类器(DF)DDk计算使用(12),(13),(14)和(15),分别76年]: 在哪里N11,N00,N10,N01表示正确分类实例的数量由两个分类器,错误的数量由两个分类器分类实例,实例的数量正确分类D和不正确的分类Dk,实例的数量正确分类Dk和不正确的分类D,分别。

4所示。提出了文本分类框架

提出了文本分类框架结合swarm-optimized潜在狄利克雷分配和diversity-based混合合奏修剪方案。本节的其余部分解释了生物医学文本分类方法用于拟议的框架。

4.1。Swarm-Optimized潜在狄利克雷分配

潜在狄利克雷分配(LDA)是一种有效的生成概率模型,可以用来表示非结构化文本文档在一个有效的方法。一般来说,LDA-based主题造型涉及几个参数的校准,总结如下:(我)LDA-based主题的主题造型(k)。(2) 参数来控制每个文档的主题分布。更高的价值 参数表示更好的平滑为每个文档的主题。(3) 每个主题的条件分布参数模型。

为了提高LDA的计算复杂度,LDA通常采用与一个近似方法。在这项工作中,我们利用吉布斯抽样方法与LDA。通过这种方式,迭代的数量(N),抽样也涉及到一个额外的参数值。确定合适的参数值的LDA与最优配置是一个具有挑战性的任务。没有设置合适的参数值,LDA-based表示可能会降低分类方案的预测性能。过多或过低的主题可能会导致糟糕的预测性能。因此,找到一个最优配置LDA-based主题造型涉及广泛的实证分析。LDA详尽列举可能的参数值来确定最优的配置涉及到高计算分析与广泛的参数值。

摘要五metaheuristic算法(遗传算法、粒子群优化,萤火虫算法,布谷鸟搜索算法,和蝙蝠算法)是利用LDA的校准参数。在这个方案中,所有参数的值LDA的考虑。因此,每个参数评估各种值找到一个最优配置。在提出问题,第一个问题是检查一个特定的价值LDA-based配置。为了评估一个特定的价值配置LDA的使用在一个特定的任务之前,我们使用了四个集群内部效度指标,即贝叶斯信息准则,Calinski-Harabasz指数、Davies-Bouldin指数和轮廓指数。更高的聚类质量的一个特定LDA-based配置往往收益率更高的预测性能LDA-based分类任务(19,20.]。出于这个原因,我们试图确定一个LDA配置最大化整个集群的LDA配置质量。

LDA自详尽列举可能的配置可以却是不可行的任务,最大化总体的参数集的识别聚类质量可以建模为一个优化问题。提出计划,五群优化算法(遗传算法、粒子群优化,萤火虫算法,布谷鸟搜索算法,和蝙蝠算法)被认为是。提出的方法试图找到一个LDA配置(k, , ,N)最大化的聚类质量的集群内部效度指数(贝叶斯信息准则,Calinski-Harabasz指数,Davies-Bouldin指数和轮廓指数)。提出计划开始于一个随机生成的初始配置人口。然后,利用随机生成的LDA配置集群文本文档。集群的优点是使用四个内部评估聚类有效性指标和群优化算法用来优化参数值。在图2swarm-optimized LDA的总体结构进行了总结。

4.2。Diversity-Based合奏修剪

Diversity-based合奏修剪修剪方法是混合搭配方案,集组合成对多样性措施和群聚类算法。提出了合奏修剪方法包含两个主要阶段,即计算成对多样性的基础学习算法中矩阵合奏和群集群组合成对多样性矩阵获得的最终基础学习算法修剪。

diversity-based合奏修剪算法的一般结构如图3。最初,许多不同的基础学习算法(分类算法)从模型库已经采取了不同的参数值作为初始的分类器。模型库包含分类算法从五个组,即五贝叶斯分类器,十四函数分类器为基础,十个实例建立分类器,八三个基于规则的分类器和决策树分类器已被考虑。关于模型的分类算法的详细描述图书馆提出了表2。分类算法模型的图书馆已经在训练集上训练。通过这种方式,不同的学习算法的预测特征。

训练后的分类算法,成对多样性矩阵计算。多样性和准确性两个要素建立多个分类器系统具有高预测性能。有许多成对和nonpairwise多样性措施提出了文学。不同多样性措施集中在不同方面的多样性和没有一个被广泛接受的定义。出于多元化相结合的成功措施合奏修剪(21),我们试图找到一个适当的子集的多样性的措施。在这方面,我们已经进行了实验分析与五广泛利用多样性措施(即Q-statistics、相关系数、分歧,双误,测量,和kappa统计数据)。有五个多样性措施以来,我们评估251 = 31例不同的子集。每个测量值获得归一化。以来最高的预测性能是获得的平均四个多样性措施(测量统计、相关系数、分歧,和双误测量),该配置用于拟议的合奏修剪。四成对多样性措施上面所提到的,每对分类器的多样性值计算使用验证集,然后结合成对多样性矩阵从四个两两差异矩阵获得的平均个人的价值观多样性多样性矩阵。

计算两两组合多样性矩阵之后,集群一直在使用组合多样性矩阵。集群整体修剪技术,得到了广泛的采用,旨在组织等集群分类算法的分类器类似的特征被分配到相同的集群。通过从不同的集群,获得分类器多分类器系统可以实现高的多样性。在这项研究中,5个metaheuristic聚类算法(即基于遗传算法的聚类、粒子群集群,集群萤火虫,布谷鸟集群、和蝙蝠集群)曾在组合多样性矩阵。根据聚类结果,分类算法已经被分配到一个集群的数量。

在实证分析五metaheuristic聚类算法,预测性能最高的是通过萤火虫聚类算法。因此,我们利用萤火虫集群方案集群分类算法的多样性相结合矩阵根据他们的预测特征。让一个表示一个代理,由m n -维的点, 表示n -维点一个,P表示一组包含的l n维点,p表示n维点包含在P,经销(A, P)表示之间的距离一个p;萤火虫的一般结构聚类算法利用提出的方案是在盒子里2

在应用聚类算法在组合成对多样性矩阵,利用聚类结果来选择修剪的分类器。为了这样做,每个集群的分类排名根据他们的预测性能(在分类精度)。然后,选择一个分类器预测性能最高的每个集群。让N表示数量的集群获得的萤火虫聚类算法,从每个分类器和一个分类器被选中。通过这种方式,N分类器构成了修剪。为了把选中的分类器的预测,采用多数表决方案。

5。实验分析

为了检验的预测性能提出了生物医学文本分类方案,进行了大量的实证分析。本节介绍了数据集的分析,实验过程和实验结果。

5.1。数据集

实验分析了五个公共生物医学文本分类的数据集。Oh5收集这些数据集,Oh10收集、Oh15收集、Ohscal收集,收集和ohsumed - 400 (77年]。Oh5、Oh10 Oh15、Ohscal OHSUMED - 400集合是OHSUMED集合的一部分。每个集合包含生物医学文本集合。的基本生物医学文本描述信息的收集利用实证分析总结表1预处理后,提取术语的数量。

5.2。评价指标

为了评估的预测性能提出了生物医学文本分类方案,分类精度(ACC)和F-measure曾评价措施。

分类精度是一种最广泛的使用绩效评估措施的分类算法。是真阳性的数量的比例和真正的底片得到的分类器在实例的总数由以下方程: 在哪里TN、TP、FP,FN代表真正的底片,真正的阳性,假阳性,假阴性,分别。

F-measure是另一种常见的衡量绩效评估的分类算法。F-measure调和平均数的一个分类算法的精度和召回。它可以值在0和1之间,F-measure的高值表明更好的预测性能。根据数据集的特点运用在实证分析中,有两种变体F-measure,即micro-averaged F-measure和macro-averaged F-measure。的micro-averaged F-measure F-measure扩展到多类问题,平均精度和召回值在所有类。然而,F-measure micro-averaged F-measure不能完全集中在罕见的类(78年]。因为一些不平衡数据集用于实证分析的数据集,该macro-averaged F-measure也利用另一个评价指标。的macro-averaged F-measure,这决定了平均F-measure所有one-versus-all类,计算由(17): 在哪里TP,《外交政策》,FN代表的数量真阳性,假阳性,假阴性,分别。

5.3。实验的程序

在实验分析中,数据集分为十倍(部分)。在这个方案中,6倍是用于培训,双重的用于验证,两个是用于测试。执行实验分析与机器学习工具包WEKA(怀卡托环境知识分析)3.9版本,这是一个开源平台,有许多机器学习算法实现Java (79年]。提出了分类方案也在Java中实现。在实证分析群潜在狄利克雷分配,利用朴素贝叶斯算法和支持向量机为基础的学习算法。为了比较多分类器系统,四个著名乐团的方法(即演算法、装袋、随机子空间和叠加)被认为是。装袋,演算法和随机子空间算法,利用朴素贝叶斯和支持向量机为基础的学习者。堆积(堆叠泛化),分类器集合包括五个基地的学习者(即朴素贝叶斯、支持向量机、逻辑回归、贝叶斯逻辑回归,和线性判别分析)。系综选择从模型库(ESM)和装袋系综选择(BES),相同的模型库表中给出2已使用(19,20.]。

评估整体修剪方案,我们采用了中概述的计划19,20.]。在实验分析、ESM BES、和LibD3C算法被认为是与不同的参数值。ESM算法、四种不同的方案(即选择向前、向后消除,forward-backward选择最好的模型方案)被认为是。在ESM算法,根均方误差(RMSE),分类精度(ACC),中华民国领域,精密,召回,F-measure视为评价措施。为喜神贝斯算法,不同的包大小从10到100。在该算法中,根均方误差(RMSE)、准确性(ACC),中华民国领域,精确,记得,F-measure,所有指标的组合作为评价措施。LibD3C算法,五个不同的乐团组合规则(即平均概率、概率的乘积,多数投票,最低概率和最大概率)。在实验分析,从这些算法获得的最高预测性能报告。在表3的参数值在群metaheuristic算法利用LDA。在表4metaheuristic聚类算法、参数用于合奏修剪阶段。metaheuristic算法的参数群LDA的阶段,metaheuristic算法的参数用于合奏修剪阶段确定基于算法的基准实证结果(80年,81年]。

5.4。实验结果和讨论

介绍生物医学文本分类框架包含两个主要阶段,即swarm-optimized潜在狄利克雷分配阶段,diversity-based合奏修剪阶段。

Swarm-optimized潜在狄利克雷LDA的分配阶段旨在估计参数。在LDA的实证分析,五种不同的metaheuristic算法(遗传算法、粒子群优化,萤火虫算法,布谷鸟搜索算法,和蝙蝠算法)。评价聚类质量的不同配置的LDA,四个集群内部效度指标(即贝叶斯信息准则,Calinski-Harabasz指数,Davies-Bouldin指数和轮廓指数)。此外,该方案提供了一个合奏修剪和metaheuristic集群基于组合多样性措施。表中最高的(最好的)结果通过一个特定的配置以黑体和下划线表示,第二个最好的结果以粗体和斜体表示。

为了评估在LDA swarm-optimized话题建模的优点,表5介绍了分类精度得到不同LDA-based配置朴素贝叶斯和支持向量机分类器。验证合奏的影响修剪方法提出计划,表6给出了分类结果的传统算法,集成学习方法,常规合奏修剪方法,提出diversity-based合奏修剪方法。报告的结果表6、生物医学文本分类数据集用LDA(表示k =50);即。,swarm-optimized latent Dirichlet allocation stage has not been applied for the results presented in Table6检查提出的预测性能合奏修剪方案。最后,表7比较传统的预测性能算法,集成学习方法,常规合奏修剪方法,提出diversity-based合奏时修剪方法swarm-optimized潜在狄利克雷分配阶段被应用来表示数据集。

可以观察到从表中给出的分类精度5LDA-based表示计划的性能普遍提高使用metaheuristic与LDA算法来估计参数。在不同metaheuristic算法,获得最高的预测性能蝙蝠算法LDA Davies-Bouldin指数为基础的评估。第二个最高预测性能是通过基于布谷鸟搜索算法LDA Davies-Bouldin指数评估。关于不同性能的评价措施,通过基于Davies-Bouldin指数最高的性能配置。第二个预测性能是通过轮廓指数为基础配置,这是紧随其后的是Calinski-Harabasz指数为基础配置。关于传统LDA-based表示方案的性能,预测性能通常是取得最高k= 50。预测性能模式通过不同的LDA-based配置与朴素贝叶斯算法对LDA-based配置是有效的支持向量机算法。

在实证分析合奏修剪、5群聚类算法(即遗传聚类粒子群集群,集群萤火虫,布谷鸟集群、和蝙蝠集群)被认为是。关于预测的性能通过传统的分类算法,支持向量机算法优于朴素贝叶斯算法相比的数据集。此外,装袋的朴素贝叶斯算法产生更好的预测性能比较朴素贝叶斯算法。一般来说,预测性能增强整体学习使用传统方法(即装袋、演算法和随机子空间算法)。从结果可以看出在桌子上6,传统合奏修剪方法优于传统的分类算法和整体学习计划。此外,混合合奏修剪方案(提出diversity-based合奏修剪方法,LibD3C算法,并根据结合合奏修剪多样性措施)比其他乐团修剪方案(系综选择从库模型和装袋系综选择)。最高的预测性能是通过拟议中的diversity-based合奏修剪与萤火虫聚类方案。第二高的预测性能通常是通过提出diversity-based合奏修剪与杜鹃聚类方案。

基于广泛的实证分析与不同的群LDA metaheuristic算法和不同的聚类算法在diversity-based合奏修剪算法,获得最高的预测性能蝙蝠算法LDA Davies-Bouldin指数和diversity-based合奏修剪与萤火虫集群。在表7的预测性能,提出生物医学文本分类方案相比,两种分类算法(即朴素贝叶斯算法和支持向量机),四个系综方法(即装袋、演算法、随机子空间和堆积),和四个合奏修剪方法(即系综选择从模型库,装袋合奏选择,LibD3C算法和基于组合多样性的合奏修剪措施)。报告的结果表7、生物医学文本分类数据集表示与蝙蝠算法LDA Davies-Bouldin指数(BA-LDA (DB))。可以观察到从表中列出的结果7,该方案优于传统分类器集成学习方法和合奏修剪方法。

除了分类精度,预测的分类算法,集成学习方法和合奏修剪方法还研究了在条款macro-averaged F-measure。在表8由不同LDA-based配置,macro-averaged F-measure结果与朴素贝叶斯和支持向量机分类器。关于macro-averaged F-measure结果表中给出8,最高的预测性能是基于蝙蝠算法获得的LDA Davies-Bouldin指数表示。相同的模式得到的分类精度提出了表5也有效的基于F-measure结果。因此,利用metaheuristic优化算法与LDA校准其hyper-parameters增强了预测模型。

检查性能改进通过拟议中的合奏修剪计划,表9介绍了macro-averaged F-measure值通过传统算法,集成学习方法,常规合奏修剪方法,提出diversity-based合奏修剪方法。报告的结果表9、生物医学文本分类数据集用LDA(表示k =50);即。,swarm-optimized latent Dirichlet allocation stage has not been applied for the results presented in Table9。关于macro-averaged F-measure结果表中给出9获得最高的预测性能,提出diversity-based合奏修剪与萤火虫聚类方案。第二个最高预测性能通常是通过拟议中的diversity-based合奏与杜鹃集群和合奏修剪修剪方案基于组合的多样性。

在表10,macro-averaged F-measure结果的分类算法,集成学习方法和合奏修剪方法。报告的结果表10、生物医学文本分类数据集表示与蝙蝠算法LDA Davies-Bouldin指数(BA-LDA (DB))。关于macro-averaged F-measure结果,该方案优于传统分类器集成学习方法和合奏修剪方法。

统计验证实证分析的结果,我们已经完成了双向方差分析(方差分析)测试一款统计软件统计项目。双向方差分析测试是一个扩展的单向方差分析测试,旨在评估两种不同的分类独立变量的影响在一个因变量。在双向方差分析测试中,每个独立变量的主效应和交互作用纳入评估。总体结果的双向方差分析测试的结果(在分类精度)展示在表11DF,党卫军,女士F P表示自由度,调整的平方和,调整均方,F值,分别和概率值。自由度是在数据的信息量。调整平方和项(SS)表示的数量变化的响应数据解释每一项的模型。统计量(F)是检验统计量来确定是否一个术语与响应和概率值(P)是用来确定的条款和模型的统计学意义。表中给出的结果11分为三个部分。的上部表表示结果的统计分析了不同LDA-based配置,桌子的中间部分表示结果的统计分析合奏修剪,和下表表示的一部分传统分类器结果的统计分析,集成学习方法和合奏修剪方法。对于双向方差分析测试,两个不同的因素(不同的数据集和不同的算法配置)作为绝对的独立变量。此外,这些因素之间的相互作用也在考虑。结果显示在表11概率值,P < 0.001为不同的因素及其相互作用。因此,有统计学意义的差异比较方法的预测性能。获得的性能提升swarm-optimized LDA统计学上有意义。同样,该乐团修剪方法获得的性能也是统计学意义(P < 0.001)。

总体结果的双向方差分析测试的结果(在条款macro-averaged F-measure值)表12。结果显示在表12有统计学意义的差异比较方法的预测性能(P < 0.001)。

在图4平均值的置信区间,分类精度得到不同LDA-based配置方案。同样,在图5平均值的置信区间,通过传统的分类器的分类精度,合奏学习者和合奏修剪方法。为图中所示的结果5、生物医学文本分类数据集用LDA(表示k =50);即。,swarm-optimized latent Dirichlet allocation stage has not been applied. In contrast, in Figure6平均值的置信区间,通过传统的分类器的分类精度,合奏学习者和合奏修剪方法。在图6,swarm-optimized潜在狄利克雷分配阶段被应用来表示数据集。统计学意义的结果,置信区间分为区域用红色虚线。间隔情节表明,预测性能获得的swarm-optimized LDA (BA-LDA (DB)和环保局(萤火虫集群)是具有统计学意义。

在图7算法相比,平均执行时间在秒。可以看到从图7,平均执行时间基础学习算法(朴素贝叶斯和支持向量机)是最低的。整体学习传统方法普遍提高传统基础学习算法的预测性能。然而,整体学习方法涉及更多的执行时间。集成学习方法相比,合奏修剪方案有更多的执行时间。最高执行时间参与合奏修剪基于组合多样性措施(CDM)和第二高的执行时间中需要提出分类方案(DEP-firefly集群)。Metaheuristic优化的参数优化方法是行之有效的技术。因此,之间有一个权衡预测性能和执行时间。

6。结论

在这项工作中,我们提出一个新颖的生物医学文本分类方案基于swarm-optimized潜在狄利克雷分配和diversity-based合奏修剪。生物医学文本分类是一个重要的研究方向,由于巨大的数量的非结构化信息。潜在狄利克雷分配(LDA)是一种流行的表示方案文本文档,这会产生更好的性能比其他语言表示计划,如潜在语义分析和概率潜在语义分析。我们发现识别适当的参数值是非常重要的LDA的性能。此外,通过实验验证,使用metaheuristic优化算法校准的参数LDA收益率有前途的生物医学文本分类结果。提出了文本分类方案还雇佣了一个修剪方法基于组合多样性高的措施来识别一个健壮的多分类器系统的预测性能。呈现整体修剪方法结合了四种不同的多样性措施(即分歧措施,统计、相关系数和双误测量)。此外,该方案采用群的聚类算法。实验结果表明,该多分类器系统优于传统的分类算法,整体学习,合奏修剪方法。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。