文摘

DNA微阵列的发展使得研究人员筛选数以千计的基因同时也有助于确定高和低表达的基因在正常和疾病的组织。选择相关的癌症基因的分类是一个重要的问题。大多数的基因选择方法使用单变量排名标准,任意选择一个阈值选择的基因。然而,参数设置可能不兼容所选分类算法。在本文中,我们提出一个新的基因选择方法(SVM -t基于使用)t -统计数据嵌入到支持向量机。我们比较两个相似的基于SVM方法的性能:SVM的递归特性消除(SVMRFE)和递归的支持向量机(RSVM)。比较三种方法基于大量的仿真实验和分析两个微阵列数据集出版。在仿真实验中,我们发现该方法比SVMRFE更健壮的选择有益的基因,RSVM,能够达到良好的分类性能信息和noninformative基因的变化是不同的。在两个微阵列数据集的分析,该方法收益更好的性能在识别更少的基因具有良好的预测精度,而SVMRFE RSVM。

1。介绍

疾病子类型化特征选择是一个关键问题和癌症分类。有两个目标优化分类程序,实现最高精度并选择最小的一组功能。使用微阵列技术的发展,实验可以检测基因表达谱超过万。分类问题如此大量的基因导致效率低下、不一致和偏见。有很多讨论减少基因的功能由单变量排名并选择排名最高的基因构建分类器,例如,t统计(Golub et al。1),弗瑞et al。2),和李et al。3])和F分数(陈和林4)相关的排名方法。特征选择是模式分类研究中最具挑战性的任务特别是高维数据。

根据不同的分类算法,特征选择技术可以分为三类:嵌入式、过滤和包装方法。过滤方法排名功能根据一些标准或指标的相关性是完全独立的分类算法等 价值。过滤器的方法是一个独立的步骤之前,无论使用哪个分类算法。之后,所选特征子集将被应用到分类算法。选择功能的影响算法的性能是不考虑。经典分类算法,如Fisher线性判别分析法和k最近的邻居,经常使用过滤器之前选择相关预测方法分类(陈和林4),Roepman et al。5),马克和宫(6),Pavlidis et al。7),和Yu和刘8])。在包装器方法中,模型选择算法是包裹在搜索特征子集的过程。这具有特征选择过程可以考虑功能依赖关系而构建分类模型。然而,这些方法具有很高的计算复杂度反复训练和测试预测每次定义一个新的子集。西方et al。9)使用二元回归系数的重要性得分基因对分类的贡献。Diaz-Uriarte和阿尔瓦雷斯·德·安德烈斯(10)提出了使用基尼系数作为分类变量重要性进行基因选择算法的随机森林。Sharma et al。11)提出了一种基于零wrapper-like特征选择方法线性判别分析(LDA)方法。嵌入式方法不可或缺的一部分特征选择技术和特定的分类算法,例如,决策树或与正则化神经网络。此外,Sharma et al。12)提出了一个连续的特征选择算法迭代消除冗余特征以最小的信息分类精度。他们的方法结合了过滤器和包装在一起寻找最好的右上角的特征子集。最近的一个评论(Saeys et al。13)总结更多的特征选择技术,并讨论了它们的生物信息学应用程序使用。

近年来,支持向量机(SVM);Cristianini和Shawe-Taylor14监督机器学习),广泛用于分类问题尤其是在高维数据,如微阵列基因表达谱。支持向量机输入数据点映射到更高维度空间中构造maximal-marginal超平面分类数据与不同的类标签。的超平面构造仅使用支持向量(即。躺在边缘的数据)。超平面的一般形式表示为 训练集的大小 , 输入数据的样本吗 , 是拉格朗日乘子从训练集来解决。 是样本的类标签吗 是内核函数,x的变量向量样本, 可以被视为拦截。优化的权向量等于 ,在那里 是零,如果 属于支持向量,否则 等于0, 是一个非线性函数从输入空间映射到特征空间。

支持向量机有许多应用程序和执行很好微阵列相关分类问题(弗瑞et al。2和棕色等。15])。此外,许多基因选择方法提出了基于支持向量机。例如,盖恩et al。16)提出了一种支持向量机(SVMRFE)递归特性消除算法,它利用权向量的系数计算功能得分排名。然而,像坡的概念,所选基因系数较高的体重意味着他们将有更高的表达式值相比nonselected基因。因此,一些嘈杂但高表达基因有很高的价值可能被选中。另一方面,Zhang et al。17)提出了递归SVM特征选择(RSVM)相结合(即重量和数据信息。类的意思),制定选择标准。这种方法需要考虑所有的数据信息和异常数据也包括在内。然而,这样的特征选择的结果是大大影响类标签分配。没有分配的一般法则,积极和消极的两类迹象。因此,这种不稳定的标准是难以使用。因此,我们提出一种新的特征选择标准SVM -t基于使用t统计数据嵌入到支持向量机。我们使用单变量排序方法支持向量识别重要基因和落后的消除过程的工作流RSVM与嵌套的特征子集。结合程序的目的是确定更重要基因在最近的支持向量。在本文中,我们比较三种基于svm的基因选择方法的性能通过广泛的模拟和实际微阵列数据分析。

2。材料和方法

2.1。SVMRFE

一般来说,所有的分类问题都可以推广到两级分类问题。如果有超过两个类,最简单和广泛使用的方法是多个one-against-all方案。因此,多个类的问题可以被简化为多个简单的两级问题。考虑一个二元决策函数与线性内核,函数在(1)可以表示为: 在哪里w权向量的分类器。优化的权向量等于 在哪里 是零,如果 属于支持向量,否则 等于0。因此,对于支持向量机,二元决策函数取决于支持向量的线性组合。新样本的类x可以很容易地由的迹象 。实现的目标更好的特征选择,盖恩et al。16]提出SVMRFE癌症分类方法找到重要的基因子集。评价功能的重要性,SVMRFE用途 作为排名标准。特性与最小的排名分数被消除。这一标准也可以解释为支持向量的加权求和(17]。此外,基于SVMRFE段et al。18用交叉验证的方法来估算多个 和信噪比的多个重量值作为排名标准。因此,多个权重SVMRFE是健壮的小扰动单一实验。

2.2。RSVM

提高鲁棒性噪声和离群值,Zhang et al。17提出了递归的支持向量机(即。RSVM)。他们开发了一种特征选择方法来构造逐步分类规则,减少基因数量在同一时间。从(2),一个可以获得特定功能的重量。与SVMRFE RSVM选择重要功能的价值产品的重量和相应的特性: 在哪里 表示的重量 th特性, 代表的特性 在各自的类。这个方法取两个分类器(即信息。、重量)和数据(即。,class mean of two classes) into consideration.

排名得分计算(3),我们可以设置一个阈值过滤掉任何特性得分低于它在接下来的步骤。此外,选择的分类可以执行功能一步一步。经过一系列的迭代越来越小的特性集,最好的规则是由指定的特性从最高selected-frequency列表中选择。最后,最好的规则和数量的选择功能可以同时决定。然而,这样的特征选择的结果是大大影响类标签分配。我们发现,不同的作业的类标签(+或−)将导致不同的选择基因集。因此,这种不稳定的标准是模糊的。

2.3。提出了支持向量机-t方法

支持向量机只使用支持向量的信息构建的最大分离超平面并确定新样本的类。支持向量,设置两个类之间的亲密点,扮演着重要的角色在SVMRFE RSVM特征选择。这两个方法使用相应特征的权重构建选择标准;相反,我们结合(即单变量排序方法。,绝对t统计数据)与支持向量机。该方法使用(即最重要的子集。,SVs) of the data points to construct the selection criteria (4)。换句话说,我们使用支持向量机的算法作为数据点的取样技术的同时两类。标准的两个示例t统计作为代理统计评估两个类之间的显著差异。我们的方法很容易实现和保持计算复杂度与SVMRFE和RSVM相提并论。与样本的变异,因此,我们可以确定特定基因的最显著差异在最近的点: 在哪里 (职责。 上课)表示支持向量的个数+ 1(分别地。−1)。我们可以计算的意思 (职责。 )和标准偏差 (职责。 )通过只使用支持向量的特征 标签类+ 1(分别地。,−1) to obtain the score of each feature. The features with highest scores are the features with most significant difference between the two classes. It is intuitive to select features with the highest score as our feature set.

然而,有一些例外根据这样的标准。我们进一步选择标准分解成四个情况如下:(一)数据集可以由两个sv。只有一个SV两类。方程(4)可以减少sv的特定特性的差异;(b)一个类只有一个SV,另一个类有多个SV,和(4)成为一个单一的意思t以及统计数据。考虑与只有一个SV类−1 (4)减少 (c)类似于(b),只有一个SV类+ 1。选择标准是 (d)最后,在最一般的情况下,我们通常会遇到多个支持向量分类问题为每个类。在实际使用,这种情况比以往更加复杂,和选择标准(4)应使用。

我们遵循工作流的特征选择建议17)如图1。首先,一个单调递减序列 选择的数量特性是指定的地方 运行的总数。执行每个运行的选择标准后,输入的数量特征 将被确定。其次,采用交叉验证的方法进行基因选择过程和执行支持向量机程序 特性。比较不同的选择方法,在这一步我们应用这三种不同的标准。对于每个运行,与顶级的特性 选择排名得分,直到结束序列。最后,以最小的简历错误选择基因集。一组与基因关系发生时将选择最少的简历错误。

3所示。结果

3.1。仿真实验

首先,我们使用模拟数据集评估三种方法的性能。我们的模拟数据包含不同均值和标准差信息和noninformative基因。我们首先生成一个与100个样本训练集(50个样品为每个类),每个包含表达式的值1000个基因,其中300是基因,其余700 noninformative基因信息。验证所选择的基因集,我们也生成1000个独立的样品(每个类500个样本)。我们执行100模拟为每个数据集,用“分析”版本的简历的方法。以下两个模拟情况下使用相同的上述方案不同参数设置。

模拟情况下,我
在这个模拟中,我们分离的基因分为两部分。第一个150个基因独立高斯分布 类1和 二班。相反,过去150基因是独立分布的高斯分布 类1和 二班。其余的700个“noninformative”基因独立跟进 分布。表1总结了仿真结果与100年运行用100分的平均和标准偏差的百分比信息基因覆盖和支持向量的个数(sv)。这个参数设置,信息无法轻易分化基因由于小平均差。然而,考虑到标准偏差,我们发现该方法显示了更好的结果比RSVM和SVMRFE。
此外,我们增加的基因的标准差为1,这样信息和noninformative基因之间的差异变化效应降低。表2表明RSVM收益率平均测试错误率和选择最好的基因比SVMRFE和该方法。然而,该方法选择较少的支持向量在每个递归步骤。
基于前面的设置,我们进一步增加的方差noninformative基因。我们设置的标准差noninformative基因的基因和遵循的两倍 分布。表3表明,这三种方法给差测试错误率比以前的更复杂的自然仿真方案。基因信息的覆盖率RSVM SVMRFE降低和减少基因的水平,但是该方法保持高覆盖率的基因。除此之外,该方法测试错误率保持在25%左右,低于RSVM和SVMRFE的错误率。

模拟案例二世
在这里,我们增加的基因的平均值从0.15到0.25,保持700年的“noninformative”的分布 。在表4,我们发现这个模拟数据分离与更高的两个类之间的区别。测试错误率和比例的选择的基因是类似的三种方法。预测结果几乎是完美的(即。,test errors are nearly zero) for all conditions in this simulation. The proposed method utilizes fewer support vectors than the other two methods though.
我们进一步将标准差是noninformative设置为1,消除信息和noninformative基因之间的变化的影响。结果在表5非常相似的表吗2测试错误率较低的三个方法。与基因数量减少,RSVM给平均测试错误率比SVMRFE和方法。选择的百分比信息基因在三种方法中比较可能由于更高的两个类之间的基因差异。此外,该方法还选择较少的支持向量。
最后,我们组的标准差noninformative基因两倍的基因分布 。所有的三个方法产生测试错误率高于以前的设置,但是该方法执行比RSVM SVMRFE和重要的利润等复杂的仿真数据。

稳定的特征选择
调查的稳定性特征选择,我们执行200次的模拟情况下我和交换类标签。选择特性的频率图在图2显示不同的类标签RSVM将导致选择不同的特性,而我们提出的方法不改变的频率选择特性通过切换类标签。此外,RSVM倾向于选择noninformative基因比我们的方法更加频繁。图3情节Jaccard RSVM系数的比较两个交换类标签之间的相似性的特征选择超过200模拟。我们观察到的类标签RSVM实现更好的协议特征选择是至关重要的。低Jaccard系数表明,两个不同的类标签之间存在异质性对一些模拟。RSVM相比之下,我们的方法是独立的类标签和似乎比RSVM选择少量的基因歧视。

3.2。应用程序在人类乳腺癌数据

我们下一个评估三种方法的性能通过使用两个微阵列数据集。第一数据集来自Affymetrix DNA微阵列分析一系列的原发性乳腺癌样本(9]。7129年该数据包含基因表达谱检测探针集49样本(24 ER阳性和阴性患者25日)。预处理包括背景校正、标准化、点校正和表达进行了总结,和基因表达水平log2-transformed。7129个基因都包含在基因选择过程。最小的基因数量设置为5和减少配给0.85生成减少基因选择序列(表6)。

7表明RSVM选择判别基因少于SVMRFE和该方法。然而,在早些时候递归步骤,该方法达到最小的简历出错率(2.04%)。该方法可以选择更重要的基因比SVMRFE和RSVM在最初几个迭代。考虑到基因数量也我们可以选择10个基因与简历出错率(8.16%)作为我们的解决方案。SVMRFE还可以获得简历出错率(8.16%)与20选择基因和RSVM可以获得最小的错误率(4.08%)5基因。基因数量少于20,该方法的支持向量数量高于SVMRFE RSVM,和这两个方法几乎相同数量的支持向量。表8表明该方法选择10个基因 值< 0.0004。

3.3。应用程序在肺癌数据

第二个数据集是数据集用于肺癌CAMDA 200319]。7129个基因的基因表达谱86名肺癌患者(67 I期和19 III期肿瘤)可用于分析。类似的预处理和乳腺癌分析采用参数设置。

错误率表所示9告诉我们这个数据是更加困难比肺癌乳腺癌数据预测疾病亚型。SVM-RFE和RSVM只能达到错误率在20%以上,而该方法获得的简历错误率低于10%在几个功能水平。表10显示了该方法选择的基因,他们中的大多数 值小于0.05。

4所示。讨论

提出的SVM -t方法是一种多元样本异质性的特征选择方法顺序反向淘汰过程中适应。支持向量的方法可能会受益于使用支持向量机的超平面,并选择一组有用的基因有助于提高分类性能。使用支持向量进行特征选择是直观的,因为他们发挥重要作用为构建支持向量机的决策函数。线性支持向量机的特征维度对应于支持向量也由线性的性质分类的关键。因此,我们考虑削减t统计比较组平均值后移除不支持向量和显示这些更高的权力比其他两种基于svm的方法来识别相关特性的高噪音。

仿真研究结果表明,所有三种特征选择方法SVMRFE, RSVM,该方法具有良好的性能差异表达基因的分布远不同于噪声基因。影响可能归因于两个来源:基因表达水平的差异和方差的大小两个类之间的关系。当固定的大小差异,结果是极大地影响的方差。具有相同的方差信息和noninformative基因,RSVM执行更好的结果,因为它给更多的权重信息基因(即。,基因高两个类之间的区别变得越来越重要,在这种情况下)。另一方面,当考虑不同的信息和noninformative基因差异,该方法优于RSVM SVMRFE。此外,该方法不仅能够选择更多的基因测试错误率低于RSVM和SVMRFE还适应在复杂的临床样本异质性。

在应用程序中,我们使用两个发表微阵列数据集评估三种方法的性能通过分析旨在准确性。我们可以发现该方法总是可以选择一个更小的子集的基因具有良好的预测精度。该方法和RSVM胜过SVMRFE上应用程序的两个数据集。

所有基于SVM特征选择方法在比较选择特性基于支持向量线性支持向量机。在理想的情况下,支持向量机可以使用一个合适的核函数将数据映射到特征空间的分离超平面,当数据点并不是线性可分的。然而,相应的属性支持向量和特征维度之间的非线性支持向量机远未清晰和一些进一步的工作是必需的,为了充分理解这个问题。此外,众所周知,真正合适的核函数和参数应用到一个特定的数据库仍然是具有挑战性的,而且支持向量的个数组成决策函数大幅增加当决定歧管变得复杂。因此,我们的方法是有限的线性支持向量机的使用,认为它是一种另类的近似真实的数据集。但是,如果目标是为更好的分类性能选择相关特性,而不是提供见解的相对重要性特征在特征空间,然后我们的方法提供了一个可选择的解决方案。进一步的工作将集中在我们削减的影响t统计数据的使用非线性支持向量机的非线性分类的数据集。

作者的贡献

C.-A。蔡学术界。黄的贡献同样这项工作。

确认

作者感谢陈Chen-Hsin博士论文有用的讨论和编辑。这个项目开始的时候所有的作者是基因组数据单元(驻扎在台湾中央研究院),先进的生物信息学的核心国家基因组医学研究项目(NRPGM)在台湾。支持的工作部分NRPGM赠款(nsc94 - 3112 b - 001 - 012 - y, nsc95 - 3112 - b - 001 - 018,和96年NSC - 3112 - b - 001 - 017)从美国国家科学委员会。