文摘
从高维数据挖掘有用的知识是一个热门研究课题。高效和有效的样本分类和特征选择是富有挑战性的任务由于高维度和微阵列数据的小样本大小。特征选择是必要的过程中构建模型来减少时间和空间消耗。因此,基于先验知识和粗糙集的特征选择模型。通路知识是用来选择特征子集,然后基于交叉口附近的粗糙集用于选择重要特征在每个子集,没有可以选择的功能冗余和直接处理数值特性。为了提高基分类器之间的差异和分类的效率,有必要选择基分类器的一部分。分类器分为几个集群的使用提出了k - means聚类组合距离Kappa-based多样性和准确性。最好的基分类器分类性能在每个集群将被选中来生成最终的整体模型。实验结果在三个拟南芥压力反应数据表明,该方法取得了更好的分类性能比现有的整体模型。
1。介绍
高通量测序技术的发展为研究人员提供了大量的微阵列数据,并从中提取有价值的信息已成为一个热门研究课题在生物信息学1,2]。植物在不同生长阶段经常遇到各种压力在他们的生活,这可能会导致抑制生长,叶片损伤,和植物死亡。如何预测这些压力将发挥非常重要的作用在林业和农业的发展。消除负面影响,由于这些压力在一些症状的出现之前,微阵列数据是用于诊断和识别植物的类型的压力。
微阵列数据的高维的特点,小样本和高冗余。传统的分类算法对微阵列数据有问题,如分类稳定性差、精度低。因此,这类数据的分析需要一个分类模型,并有很强的处理能力。对于高维微阵列数据,特征选择是一个关键的一步有效和高效的分类(3,4]。因此,高性能的特征选择方法和样本分类已经变得越来越重要。
特征选择是一个重要的过程在高维数据的分析5,6]。粗糙集理论是一种数学工具,处理不精确、不一致和不完整的问题(7]。采用经典的粗糙集理论属性约简问题,有时它需要等效样本之间的关系。这种宽容的关系似乎任意和令人费解。为了处理这个问题,用二元关系代替的广义粗糙集理论最初提出了等价关系(8]。新的二进制公差关系的十字路口社区提出了用于处理数值数据,它是用来选择特性在微阵列数据9),这是更灵活的应用程序数据和复杂的结构。该模型使用一个基于十字路口附近的粗糙集模型在每个数据集选择特性。特征选择的微阵列数据,这些模型通常是设计基于单一数据源的微阵列数据。由于生物基因之间的相互作用,融合现有的生物知识分类模型可以提高分类性能。
本文首先使用途径的知识进行初步选择压力反应微阵列数据的特性和选择使用交叉邻域粗糙集重要特征。每个特性子集包含基因通路知识单元。因为高冗余的微阵列数据,只有一小部分基因相关分类(10],基于交叉路口附近的一个基因选择模型粗糙集(inr)在每个特征子集选择后续分类工作的重要和nonredundant特性。
系综分类模型通过使用信息的基分类器之间的互补性;因此,它具有更加稳定和准确的分类性能(11,12]。这些方法变得越来越重要,因为他们有比单个分类器更好的性能在很多领域特别是对于分类问题复杂的数据结构(9,13]。许多乐团学习方法包括提高(14,堆垛15],装袋[16,随机子空间法(17提出了]。微阵列数据的分类,孟等人提出了一个使用社区分类模型系统和粗糙集理论(18]。他们针对平均的结果,不同的分类器(19]。加速特征选择过程中,孟等人提出了一个并行特征选择方法使用MapReduce [20.]。
在大量基本分类器的情况下在整体模型中,会有一些多余的分类器,导致可怜的整体差异。为了提高整体分类的性能,有必要选择基分类器。合奏修剪方法可以大致分为四类:迭代优化方法中,排名方法,聚类方法和模式挖掘方法。在基于集群技术、林等人提出了一个基于k - means聚类的动态基分类器选择策略和循环序列(21]。张和曹提出了一个基于谱聚类的修剪方法(22]。基于集群的修剪方法用于加权杰哈卡胡奇装袋系综分类(23]。然而,这些方法并不考虑基分类器之间的差异和分类器的分类性能,同时在计算基分类器之间的距离。
在本文中,我们提出一个高维数据分类方法使用邻域粗糙集(ECHDNRS)。自从特性分布这些子集,所生成的邻域粗糙集和途径,是明显不同的,基分类器训练这些子集之间的差异是显而易见的。不仅是该方法的一种方式产生不同的训练集训练基地分类器的特性,而且它可以被视为一种进步传统的随机子空间方法。为了提高分类性能的整体模型,减少了空间和时间的消耗,k聚类则用于选择基分类器。使用k——而不是将数据传递给所有的基分类器会导致减少时间和空间。一个新的函数相结合Kappa-based多样性和准确性提出了计算两个基分类器之间的距离。所有的基分类器分为集群和基分类器分类精度最好的选择在每个集群生成系综分类模型。我们的贡献可以归纳为四个方面:(1)使用途径预选功能。通路是用作功能预选系综分类的工具。每个路径都包含一组特性,调节生物过程;因此,可以评估功能的生物学意义。我们把每个通路与相应的功能包括在微阵列数据形成不同的特征子集。(2)采用邻域粗糙集在每个通道单元选择重要的功能。邻域粗糙集用于选择每个通道单元的重要特性。在特征选择,邻域粗糙集使通路单元的分类能力不变。此外,它将减少系综分类模型的训练时间。(3)结合Kappa-based多样性和准确性来计算距离分类器。我们考虑的基分类器之间的差异和分类器的分类性能,同时在计算基分类器之间的距离。一个新的函数相结合Kappa-based多样性和准确性提出了计算两个基分类器之间的距离。(4)证明ECHDNRS可以达到良好的分类性能。
大量实验证明良好的分类性能ECHDNRS相比之下,现有的计划。
剩下的纸是组织如下:部分2系综分类的描述框架。特征选择基于通路和inr节中描述3。我们提出了基于合奏修剪方法k则是部分中描述4。讨论了实验结果和分析部分5。最后,给出了结论和未来的工作在第六节。
2。系综分类框架
分类模型生成一个分类模型在一定分类问题,这些模型综合考虑的结果12]。一般来说,有三种方法来生成不同的基分类器:(1)训练分类器基于训练集与不同的样本,如装袋;(2)培训基地分类器对训练集具有不同的特性,如随机子空间;(3)使用不同的分类算法分类器基于相同的训练集训练基地(14]。微阵列数据维数高、样本容量小,为了生成基分类器与显著的多样性,它是适合使用模型,列车的基本分类器对训练集和不同的特性。摘要通路知识用于预选功能;因此,对于相同的微阵列数据集,不同的训练集生成我们获得不同的基分类器。ECHDNRS如图的过程1。
我们的ECHDNRS模型由五个步骤组成:(我)步骤1:知识整合途径生成不同的特征子集。每个路径列表功能包含在一个特定的路径。ECHDNRS结合微阵列数据与相应的路径知识预选功能,形成特征子集P我(我= 1,2,…,米)。自从通路知识是有限的,许多特性包括在微阵列数据没有关联的生物知识,他们是用于生成单元P0。(2)步骤2:选择重要的功能使用交叉邻域粗糙集模型(inr)。它被用来选择每个功能单元的重要特性P我(我= 0,1,2,…,米);然后单位(我= 0,1,2,…,米没有冗余功能。(3)步骤3:所有样品都划分为训练样本,修剪样本和测试样本,如图2。每一个训练集T我是所有训练样本的样本集只包含功能 。然后,使用分类器训练基地,和选择支持向量机分类算法。(iv)步骤4:修剪基分类器使用k则算法。基分类器是用来修剪样本进行分类,以验证分类性能。然后k——集群组基分类器为几个集群基于修剪样本的分类结果。最好的基分类器分类性能在每个集群将被选中来生成最终的整体模型。(v)第五步:整合这些选定的基分类器的分类结果。每个测试样本是由所有选定的基分类器分类;然后,模型集成了不同的分类器通过多数投票方法的结果。
这些步骤的详细描述ECHDNRS下面。
3所示。特征选择
分类器的性能取决于数量的样本之间的相互关系,维度的特性,和复杂的分类器13]。如果在训练集样本的数量远小于的数量特征,它将导致可怜的分类性能由于过度拟合训练集上的分类器(24]。这种行为被称为峰值现象(25,26]。
在实践中,样本数量是非常小的相对特征的维数,通常在微阵列数据数以万计。提高分类性能的目的,特征选择是至关重要的。因此,通路知识用于预选用于生成一个特征子集。此外,印度卢比是用来在每个单元选择重要的功能。
3.1。高维数据和先验知识相结合
我们使用高维微阵列数据结合通路知识生成不同的子集。下载途径生物知识https://www.arabidopsis.org/biocyc,由Kanehisa源自KEGG [27]。KEGG通路数据库集成了当前知识分子间相互作用的网络,包括图形细胞生化过程,如新陈代谢、细胞周期、信号转导、膜运输、和保守的子通道信息。它是手绘代谢途径的集合,包含分子间的相互作用和反应网络的以下方面:(1)代谢;(2)遗传信息加工;(3)环境信息处理;(4)细胞过程;(5)生物系统;(6)人类疾病;(7)药物开发。
微阵列数据的分类,传统的分类模型通常是设计基于单一数据源的微阵列数据。由于生物基因之间的相互作用,融合现有的生物知识分类模型可以提高分类性能。基因本体论(去)首次应用于癌症知识预测。相关实验结果表明,结合生物知识可以提高预测结果的准确性,提高其生物可解释性和可信度28]。之后,预测模型结合通路知识也应用于癌症的预测(29日]。近年来,在路径级别分类模型结合superbox原理应用于疾病分类(30.]。
拟议中的ECHDNRS模型消除了传统的随机子空间的随机性,不使用先验知识;随机提取特征形成特征子集。特征选择与生物知识集成的植物应激反应提高了生物的解释结果(18]。三个途径如图的例子3,在那里pij代表了j功能包含在路径我。通道单元,功能范围从1到200多。
存在功能包含在微阵列数据但没有相应的途径。Wilcoxon等级和使用在预选功能,不与任何途径注释,然后200年顶级功能是用于生成单元P0。Wilcoxon等级和测试适用于排名的样本不符合特定的概率分布如高斯分布和适用于二进制分类样本。
对于每一个功能,每个样本的表达量在微阵列数据被视为观测统计测试。因此,每个功能都有两组观察根据样本的类标签,分别用X= {x我|我= 1,2,…n1}代表表达数量对应样本属于类1和Y= {yj|j= 1,2,…n2}代表表达数量对应样本属于二班,在那里n1和n2样品的数量是一班和二班,分别。所有的(n1+n2)样本排名是基于表达数量按升序。因为它是可能的,许多样品有相同的表达量,他们需要调整,以获得相同等级的平均排名。观察两组X= {x我|我= 1,2,…n1},Y= {yj|j= 1,2,…n2},n1,n2> 10,Wilcoxon等级和测试的检验统计量为每个功能定义如下:
U是小的U1=n1n2+ (n1(n1+ 1)−T1和U2=n1n2+ (n2(n2+ 1)−T2。T1和T2排名的总和是一班和二班,分别。测试数据Z服从标准正态高斯分布均值为0,方差为1。的P价值的特性如下: 即是检验统计量Z基于Wilcoxon排名,和测试功能 ,和P(|Z| > ||)代表|的概率Z| > ||。较小的p是,更大的多样性功能在两个类中。最后,排名是基于所有功能p按照降序排列,然后- - - - - -N功能被选为预选的输出特性。
通过结合微阵列数据通路的知识,获得信息表,见表1在桌上,P0包含功能不相关的任何途径注释和由Wilcoxon预选排名和测试。P我(我= 1,2,…,米)是一种生物通路的知识单元包括特性相应的微阵列数据,和米路径选择作为先验知识的数量。对于一个功能pij P我(j= 1,2,…,|P我|)和一个示例年代k(k= 1,2,…,n),价值表达量的特性pij在示例年代k。存在一些冗余的特性在某些通路为分类,所以需要进一步的特征选择。形成这些单位的过程后,采用基于inr特征选择模型在每个单元删除冗余功能。
3.2。基于交叉口特征选择邻域粗糙集模型
为GEDT= {年代,P我∪D,V,f},年代(年代1,年代2、…年代n)是微阵列样本集,P我代表通路知识单元包含相关的特性,和D= {d}是标签的类。为每一个功能pij P我和样本年代k 年代,表达功能的价值吗pij为样本年代k,dk的类标签吗年代k。
R二元关系数据空间吗U为对象x和y。如果y包括在附近吗x的社区x是定义如下31日]:
因为所有基因表达微阵列数据是数值,我们专注于公差关系定义为数值特性。我们使用十字路口附近的二元关系。为对象x U基于P我中定义的关系是(7,18]
为了简化特征选择的过程中,我们假设每个特性都有相同的阈值δ。为对象x和y,当每个特性之间的距离pij P我小于或等于什么δ,然后y是基于在附近吗P我的x。
基于上述二元关系为对象的一个子集X U,上下近似的定义中定义的扩展粗糙集理论(3)和(4),分别31日]:
的定义积极的,消极的,边界地区基于交叉邻里关系如下(31日]:
的原则,基于粗糙集的特征选择模型是保持分类能力不变。粗糙集的分类能力被定义为积极的地区训练样本的数量包括基于决策特征;为每一个单位P我,它是由 。是一种np难度问题找到一个最优的特征子集。在每个单元特性P我使用Wilcoxon排名排名和测试。因此,提出了特征选择模型需要向后策略采用的等级特征作为启发式信息。每个特性排名等评估单位从上到下,当删除的功能特性集,如果它满足条件不变的分类能力,从单位;否则,它不能被删除。这个方法可以保持特征具有更好的分类能力,它还可以包括更少的特征选择的特征子集。特征选择算法基于inr中描述的算法1。
|
十字路口的计算复杂度的基于集合的算法O(|π|2|年代|2),|P我|中包含的数量特征P我和|年代|是样本的数量。该特征选择方法充分利用全球信息的每个特性子集P我。
3.3。基于聚类的合奏修剪
系综分类,许多基本分类器生成的相同的问题,大量的内存,需要相当大的计算成本32]。因此,分类器修剪合奏模型至关重要。此外,周显示适当的子集的合奏的基分类器有时优于原来的合奏(33,34]。
3.3.1。距离分类器基于多样性和准确性
为了提高整体性能的分类器,分类器与显著的多样性选择。多样性可以看作是衡量依赖,补充,或分类器之间的正交性35]。不同的分类器都优先。存在很多方法来测量多样性之间的二元分类器输出包括Q统计、相关性,分歧,双误,熵的选票,难度指数,Kohavi-Wolpert方差,评分者间信协议,和广义的多样性36]。
科恩Kappa统计提出的指标一致性判断。在实践中,它可以测量诊断的一致性好;因此,它已广泛应用于临床试验。卡巴也用于评估基分类器的分类性能。这个索引可能是由于随机性的补偿分类。它被认为是一个标准的统计健壮的公制测量精度的多类问题(37]。
在我们的方法中,多样性是衡量基于Kappa系数。该方法实现的评价方法不计算k指数作为全球每位候选人分类器的性能指标。我们计算的具体Kappa值两个候选人之间的相似性分类器(Kappa相似)。Kappa系数两个基分类器的输出计算如下(38]:
有两种基本分类器h我和hj这是我th和j分别th分类器。N是样品的总数。Ctt代表的数量正确分类的样本h我和hj;相反,Cff代表的数量分类错误的样本h我和hj;C特遣部队正确的样本数量分类h我但被错误地分类hj,C英国《金融时报》是分类错误的样本的数量吗h我但被正确分类hj。
卡帕的价值范围从−1比1,卡巴代表Kappa系数的值。当卡巴< 0,这意味着一致性差是由于随机性;当卡巴> 0,这意味着更大的价值,更好的一致性。我们定义的多样性两个基分类器之间的距离如下:当卡巴≤0,距离是1;当卡巴> 0,1−的距离卡巴。分类器的多样性为每一对距离是对称的,D(d)ij=D(d)霁。
Giacinto Roli说系综分类器应该是准确的和多样化的39]。因此,在考虑两个基分类器之间的差异时,也必须考虑他们的分类精度。假设有米样品在修剪;c本土知识表示的实际输出我th分类器的kth样本;当c本土知识= 0,kth样本正确分类的我th分类器;否则,它代表了错误分类的样本。如果实际的输出c本土知识0以及吗cjk= 0,那么c本土知识cjk= 1;否则,c本土知识cjk= 0。精度之间的距离定义如下:
我们认为这两个距离多样性和准确性距离在一个距离函数和定义基分类器之间的距离h我和hj如下: 在哪里α[0,1]是多样性的重量距离,Dij[0,1]也是对称的,负的,和D二世= 0为每个我;因此,它满足的需求定义的距离。
3.4。修剪基分类器使用K则
基于一个修剪方法k提出了集群则认为Kappa-based多样性和分类的准确性。聚类的目标是基本分类器分割成许多同质集群中分类器在一个集群更属于不同簇的相似比。这意味着分类器属于不同集群更加多样化。然后从每个集群范例被选中参与整体模型。
一种改进的k - means聚类用于分区组基分类器H= {h1,h2、……hN}到k集群基于我们定义的距离。首先,k聚类质心贴上随机选择从所有的基分类器。其次,计算每个分类器,每个质心之间的距离;然后它属于集群的最近的重心。第三,在正常k——集群,以调整重心,平均一个集群的所有成员视为计算质心。然而,在这种情况下,这些计算质心可能不代表真正的基分类器。为每个计算质心,原始的方法是提高了选择一个与它们之间的最小距离分类器作为新的重心。最后,重复上述操作,直到达到出最佳的迭代输出或直到重心的基分类器都不变。获得最优数量的集群,集群的数量k逐渐增加直到最小 开始恶化。当最优数量k根据假设的集群,在40),分类器之间的协议相同的集群很大,所以大部分的分类器可以被删除。然后最好的分类器分类性能在每个集群被选中作为范例参与整体模型。
我们使用一组选定的分类器对测试样本进行分类和集成通过多数投票方法的结果。从选定的基分类器之间存在显著的多样性,如果大部分的基分类器是一致的,那么结果将有更高的可信度。如果基分类器之间的差异不明显,在某些情况下可能大部分的分类器分类样本,然后系综分类器还将错误分类的样本。
培训时间包括特征选择、基本分类器生成时间,分类器修剪。基于特征选择的十字路口附近的粗糙集很费时间,因为它需要计算每个功能单元积极的地区。基分类器生成时间相关分类算法。分级机修剪是减少分类;因此,有必要系综分类。在培训过程中,推理时间与选择的基分类器数目associates合奏在我们提出的模型。因此,合奏修剪基于k则可以减少推理时间。
4所示。实验结果和讨论
4.1。数据集和实验设置
拟南芥通常是用于研究植物的反应不同类型的压力(41),因为其丰富的生物实验数据和信息编码在基因注释。本文三个植物应激反应的数据集拟南芥和相应通路的知识应用在实验中测试的性能提出ECHDNRS模型。Arabidopsis-Drought数据集,拟南芥。氧气,拟南芥tev是对干旱的反应,氧气,Potyvirus分别(TEV)压力。所有这三个数据集可以从地理(基因表达综合)下载网站(http://www.ncbi.nlm.nih.gov/geo/)。每个数据集都有两类。这三个的详细信息拟南芥数据如表所示2,实验组和对照组用类一个和类B,分别。
数据值是规范化的范围(−1,1)在十字路口社区构造的对象之前,消除偏差引起的分类结果不同的财产范围。为了观察变化的影响δ阈值分类性能上的十字路口附近,δ设置范围从0.05到0.95,0.1的差异。的重量Kappa-based多样性的距离α的过程中整体修剪范围从0.1到0.9的步骤0.1。所有样本,他们作为训练样本的60%,20%,修剪样本,其余作为测试样本。微阵列数据样本的数量是有限的,为了消除巧合造成的随机抽样,抽样10倍的平均分类性能作为最终结果。在这篇文章中,支持向量机用于微阵列数据进行分类。我们设置了核函数的支持向量机分类器作为RBF函数(K(x,y)=经验值(−γ| |x−y| |2),有很强的适应能力不同的数据集和使用libSVM实现支持向量机。
4.2。实验结果分析
方法的分类精度ECHDNRS数据所示4- - - - - -6。三个数据集,当α设置为0.1,0.2,0.8,和0.9,整体模型实现更好的性能。为拟南芥干旱,拟南芥。氧气,拟南芥tev数据集,整体模型时达到最好的性能δ设置为0.65,0.55和0.55,分别。当δ小于巷道,性能更稳定,比,当δ大于巷道。
特征选择、培训、分级机修剪,系综分类没有修剪,修剪系综分类时间如表所示3。特征选择过程非常耗时;至少需要1820年代。这些数据集分类器修剪降低了分类时间和提高分类的性能;因此,有必要系综分类。
因此,ECHDNRS选择许多功能单位。平均 - - - - - -这些选择的价值特性在三个数据集如表所示4。ECHDNRS使整体模型获得良好的分类性能,和一些选定的功能并不是表现很好 - - - - - -价值。
所有的基分类器之间的距离的总和及其重心如图7。当k大于7,它开始恶化。因此,我们组k7。
二元分类的评价标准是基于四个简单的标准:真阳性(TP),假阳性(《外交政策》),真正的底片(TN)和假阴性(FN)。本文四个评价标准用来评估比较结果;它们包括精度(ACC)、敏感性(SN)、特异性(SP)和几何平均(G-mean)。他们定义如下:
ACC评估所有样本的分类精度。SN和SP测量样品的分类精度属于积极和消极类,分别。G-mean全面评估积极和消极类的分类能力。
比较方法包括四个经典整体模型和一个模型;随机子空间、装袋、AdaboostM1堆积,和支持向量机;实现它们Weka [42]。两个单的距离,距离基于Kappa多样性和准确性距离聚类基本分类器,与ECHDNRS比较;分别命名为DECHDNRS和AECHDNRS。距离精度是一个通用的基分类器之间的距离的计算公式。Kappa系数是一种常见的评价指标对分类器的性能。因此,合奏修剪方法,这是基于他们,也与ECHDNRS相比。支持向量机作为基分类器集合模型。所有的方法基于合奏修剪采用相同的方法ECHDNRS生成基分类器。十字路口附近的阈值δ对不同的整体模型的性能有不同的影响;因此,不同的平均分类性能δ用于与其他方法进行比较。与其他乐团ECHDNRS方法的比较结果如表所示5- - - - - -7。
对于每个数据集,例如,我们排名这9个分类方法根据分类精度:精度最好的分类方法是排名第一,和方法精度最差的排名第九。然后,对于每一个分类方法,计算平均排名的三个数据集。三个数据集的平均排名列在表中8。
从所有方法的性能三个数据集和它们的排名,ECHDNRS获得最佳的性能SP和G-mean,它类似于DECHDNRS准确性。在SNECHDNRS比其他方法,但它平衡正面和负面的分类能力类在一个更好的方法。因为它可以分类属于负类样本,其他方法表现更糟。因此,获得更好的性能G-mean,全面评估积极和消极类的分类能力。一般来说,这些方法基于合奏修剪执行比古典整体模型。
5。结论
一个分类方法ECHDNRS提出了植物应激反应。结合微阵列数据通路知识消除随机性传统的随机子空间,然后基于交叉邻域粗糙集的特征选择模型可以减少冗余特征在每个功能单元。此外,为了提高分类的性能整体模型、分类和聚类的混合方法是用来选择基分类器。的k——距离聚类算法,使用该函数的组合Kappa-based多样性和准确性分类成几个集群组所有基地,和最好的基分类器分类精度在每个集群被选中。实验结果在三个拟南芥与压力相关的数据表明,该方法取得更好的结果比经典乐团包括随机子空间方法,装袋,AdaboostM1,和叠加,也执行比传统Kappa修剪修剪和聚类方法基于单一的距离。如何减少时间消耗在执行基于交叉邻域粗糙集的特征选择我们未来工作的主题。
数据可用性
使用的数据来支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作得到了国家自然科学基金(61872071)和中央大学的基础研究基金(N2116010)。