文摘
找到一个好的预测模型对高维数据集可以有挑战性。对于基因数据,它不仅是重要的找到一个模型预测精度高,但同样重要的是,这个模型只使用一些功能,这些特性是稳定的选择。这是因为,在生物信息学中,模型不仅预测,也用于得出生物结论使模型的可解释性和可靠性至关重要。我们建议使用三个目标标准拟合预测模型时一个高维数据集:分类准确性、稳定性的特征选择,选择的数量特征。目前还不清楚这衡量评估的稳定性是最好的,我们首先比较各种稳定措施。我们得出结论,皮尔逊相关性最好的理论和实证的属性。稳定性评估行为也,我们发现这是最重要的,包含一个改正的机会或大量的选择功能。然后,我们帕累托分析方面,并得出结论,可以发现模型与一个稳定的选择一些功能无损耗的预测精度。
1。介绍
生物信息学在许多应用程序中,我们的目标是找到一个好的高维数据的预测模型。避免过度拟合,发现相关的特性,特征选择应该集成到模型拟合过程(1]。特征选择应该是稳定的;即组选择功能类似的数据集应该类似,像一个不稳定的特征选择结果的可靠性问题(2]。
在过去的十年中,各种框架提出了稳定性评价。概述现有的稳定措施给出了(3,4]。稳定性研究的理论属性不同的措施(5]。缺陷对口译的值稳定措施讨论(6)提出了稳定性评价和实验设置(7]。合奏的方法进行特征选择比一个更稳定的特征选择方法,提出了在8- - - - - -10]。已经完成的研究在所有上述方面的稳定性评估了(11)和各种特征选择方法包括整体分析方法(12- - - - - -18]。证明之前进行稳定的特征选择合适的分类模型可以提高模型的预测性能(19]。大部分的这些作品同时考虑高稳定和高预测精度产生的分类模型作为目标但不考虑的标准选择的数量特性作为第三目标标准。
在本文中,我们追求两个目标。首先,我们比较各种稳定措施的经验。我们的目标是在发现的措施评估稳定类似的实际应用。同时,我们瞄准选择稳定措施适合找到理想的模型对于一个给定的数据集。其次,我们建议一个战略寻找一个理想的模型对于一个给定的数据集对下列标准:(我)预测精度要高。(2)特征选择必须稳定。(3)只有少数的特性必须选择。预测模型的预测能力显然是重要的,通常只在模型选择准则考虑。然而,当试图发现相关的功能,例如,了解潜在的生物过程,这也是保证选择的集合特性小和稳定。同时达到这三个目标,我们把特征选择和分类方法。对于这些“增强”方法,我们测量的三个目标标准共同hyperparameter调优和我们选择配置期间表现良好考虑这三个目标的标准。
剩下的纸是组织如下。节2,我们描述的措施稳定、过滤方法和分类方法,被认为是。节3,在我们的实验中使用的数据集。部分4包含实证比较稳定的措施。部分5涵盖了我们的第二个实验中,我们寻找理想的配置对上述三个目标标准解释。部分6总结了我们工作的结论。
2。方法
在本节中,我们解释了不同措施的稳定、过滤方法对特征选择和分类方法。我们还描述了帕累托最优的概念。
2.1。稳定的措施
我们使用以下符号:假设有一个数据集包含观察的特性 。重采样是用来把数据集分割成子集。特征选择方法应用于每一个子集。让 , ,表示选择功能的集合th子集的数据集,让是这个集合的基数。
2.1.1。基于交叉稳定措施
下面的十字路口建立稳定措施考虑特征选择是稳定的,如果所有成对的基数的交叉点上是很高的。十字路口的措施标准化基数以不同的方式。三个简单的基于稳定指数被定义为稳定措施Jaccard [20.]: 骰子(21]: 落(22]: 延长SJ的方式不同,但计入稳定性给出了稳定性测量高度相关的变量:Zucknick et al。23]: 与 在哪里 皮尔逊相关性吗和。表示为一组指标函数,
稳定性测量的概念(第一次提出改正的机会27]。修正的机会的原因是必然成为大如果和是大的。这个想法是由适用于数字的情况下选择不同的特点:lustgarte et al。24]:
2.1.2。基于频率的稳定措施
让, ,表示集的数量包含功能这的绝对频率特性是选择。基于频率的稳定措施评估等情况下的稳定特性是选择的子集或根本没有。entropy-based措施稳定依赖,是由
Novovicova et al。25]: 与 和 。戴维斯et al。13]: 与 和像以前一样是一个稳定的测量,被减数奖励频繁选择变量,而减数对大型组选择功能。
的定义是相对权重的一致性Somol和Novovicova26]: 与 和就像之前。计算尺度的积极绝对频率。所有的按比例缩小的频率 分配重量。修正条款和导致测量范围内。修正条款取决于,这种方法包含一个修正的机会。
2.1.3。相关
皮尔森相关可以用作稳定措施。为此,Nogueira和棕色(5)定义一个向量 每组选择的特性指示功能选择。的th组成部分等于1如果包含;也就是说, , 。由此产生的稳定措施相关性(5]: 与 表示之间的皮尔逊相关和。皮尔森相关措施连续变量之间的线性关系。当应用于二进制数据向量 ,皮尔森相关的φ系数相当于每两个向量的列联表。
2.1.4。理论的属性
Nogueira和棕色(5)为稳定定义四个属性是可取的措施:(我)完全定义(实现,如果测量不需要基数 是相同的)(2)上/下边界(满足如果上界和下界的测量都是有限的)(3)最大(满足确定性选择相同的功能达到最大值,如果最大值只有通过确定性选择)(iv)修正的机会(满足如果期望值稳定性测量的随机特征选择是恒定的,也就是说,并不取决于选择的数量特性)。当选择特性完全随机,未修正的措施通常达到更高的价值更多的功能选择。SJ, SD, SL、SS和SC,这些属性分析(5]。我们报告这些结果在表1并添加的结果如此,深圳,SD -和SN。此外,稳定措施的理论范围在表1。比较高的值表明高稳定性和低价值表明低稳定性的措施。注意,SD -的上界取决于。
因此,深圳,SD -,SN完全定义和范围都是有限的。深圳,SN实现最大的财产。注意,对于每个两套和的价值 总是小于 。SD -只是为了满足最大的属性 。一个确定性的特征选择 只有达到一个值的特性 。所有的四个措施纠正的机会。SD -与 含有大量的选择特性的修正,但这不是一个修正的机会作为一个随机特征选择的期望值仍然取决于选择的数量特征。如果 随机选择的特性集的大小的期望值,然后SD -是 因为 和 在这种情况下。所以,只能一个函数 不依赖于哪一个如果 。后者是不可能的 不能包含一个术语根据。
2.2。过滤方法
过滤方法选择特性的一个子集。对于每一个功能,计算得分,然后最好的特性,也就是说,与那些得分最高的选择。可以指定一个特征选择的数量或一个阈值,选择得分超过阈值的所有功能。下面解释的过滤方法,所有的功能都需要按比例缩小的度量。
2.2.1。方差滤波器
对于每一个功能,其方差计算和用作得分。因此高方差意味着一个高分。
2.2.2。AUC过滤器
AUC过滤器的分数代表了分类精度,当每个特性是直接使用,分别为目标价值的预测。为每一个功能,我们使用以下预测规则为目标变量: , ,表示指标函数。接收机操作曲线显示的敏感性和特异性,对所有选择阈值的分类规则;参见[28]。我们使用接收机操作曲线下的面积(AUC)的分类规则 衡量每个特性分离目标变量。一个AUC值1意味着存在一个阈值的预测规则是完全准确的。一个AUC值0意味着有一个阈值规则预测所有的标签错误的暗示可以达到完美的分类规则吗 。值为0.5是最糟糕的应用程序。因此,我们使用AUC过滤器得分。
2.2.3。MRMR过滤器
最大相关最小冗余的概念(MRMR)过滤器是为类包括最相关的特征预测,确保没有多余的功能选择(29日]。MRMR过滤器是一个迭代过程,选择一个接一个的特性在一个贪婪的时尚。在每个步骤中,最大化系数的特性在所有的特性没有选择的选择。我们使用我们的分数AUC过滤器为每个特性的相关性。量化的冗余特性对于一个给定的组已经选择功能,我们的绝对皮尔逊相关性和功能的所有功能集。如果选择给定的特性,不需要计算滤波器的分数所有功能,因为分数减少单调迭代次数。因此,第一个得分值最高。
2.3。分类方法
分类方法是众所周知的事情。在这项工作中,我们使用以下分类方法:GLM提高(30.,31日),套索逻辑回归(32),随机森林33),而支持向量机(SVM) [33]。注意,套索逻辑回归,GLM提高嵌入式特征选择和随机森林的行为,而支持向量机使用所有功能。特征选择套索逻辑回归的相应的回归参数并不等于0。GLM提高模型的加权资金基础的学习者,每个基地学习者只使用一个特性。增加迭代的数量限制上数量的基础的学习者,从而上数量的特性,可以分类规则的一部分。特征选择是由相应的选择基础的学习者提高更新迭代。的功能都包含在一个随机森林模型可以评估通过检查哪些特性分配变量重要性值大于0。
2.4。术语
在本文中,我们使用术语“模式”在谈到一个分类规则已安装到数据,我们使用术语“方法”指一个分类或过滤方法。组合一个过滤器的过滤和分类方法首先应用方法,分类规则学习剩下的特性在第二步被称为“增强方法。“谈论增强方法固定hyperparameter价值观,我们使用术语“配置”。
2.5。帕累托最优
让有一些有限集,让 是一个目标函数最小化。注意,每个最大化问题可以转化为一个最小化问题通过乘法。如果 ,图像中所有点 具有可比性,因此有一个不同的最低。然而,当 持有的一些元素可能没有可比性:他们可能会在另一个较小的一个组件,较大的。一组因此不一定有明显的最小值。相反,可能会有一组无可比拟的最小点被称为帕累托。一个点 帕累托主宰另一个点 如果 和 。帕累托的子集不包含主要分: 帕累托最优的更详细的介绍,请参阅[34]。
3所示。数据集
在我们的分析中,我们使用三个数据集。两个数据集包含微阵列数据,另一个包含RNASeq数据。这两种微阵列数据集,AP_Breast_Ovary和AP_Colon_Kidney包含相同的功能,但比较不同类型的癌症。数据集用于稳定性分析(35]。他们是可用的在线平台OpenML [361165年和1137年),数据id。进行我们的实验之前,我们已经删除了ID列在这两个数据集。
RNASeq数据集,胃从补充材料(创建,37]。我们使用四级数据矩阵的RNA表达IlluminaGA RNASeq和IlluminaHiseq RNASeq。我们只考虑患者眼底ventriculi (16.1 C)和窦pyloricum (16.3 C),因为这两种癌症类型最大的两类形式。功能正常化,我们改变的所有值成。原始数据集由29699年的特性使它太大,分析我们的高性能计算集群上使用我们的框架。可行性的原因,我们必须减少其数量的特性。大部分的功能几乎没有变化,我们预滤器的原始数据只保留10000功能最大的差异。
三种预处理数据集的维度信息如表所示2。AP_Breast_Ovary和AP_Colon_Kidney含有更多的观察比胃。的班级规模AP_Colon_Kidney和胃是大致平衡;的AP_Breast_Ovary不是。数据1,2,3显示数据集PCA的情节。看来中的类AP_Colon_Kidney和AP_Breast_Ovary更容易比的不同吗胃。然而,值得注意的是,只有25.62%的数据变化是由各自的前两个主成分。
4所示。经验比较稳定的措施
在本节中,我们比较稳定措施的部分2.1经验。我们分析的稳定性评估行为稳定措施,发现组类似的措施。我们调查的影响选择的数量特性稳定的措施。此外,我们比较稳定措施对于他们的帕累托最优配置最大精度,稳定性和稀疏。根据我们的观察,我们认为最适合稳定措施稳定分析。这项研究的结果被用来选择一个子集的稳定措施,我们的研究部分5。
4.1。实验装置
我们符合“增强”方法的三个数据集和评估结果的性能模型。增强方法结合过滤和分类方法;即首先应用过滤器,分类规则是学会了剩下的特性。注意,对分类方法进行嵌入式特征选择,这导致了一个级联特征选择过程。我们从部分结合每个过滤方法2.2从部分与每个分类方法2.3。为每个结果12增强方法,我们选择1000 hyperparameter配置留下12000配置每个数据集分析。我们画hyperparameters随机的值和独立设置表中给出3。hyperparameters的值,,是通过随机选择 然后计算。注意,设置n.feats(即。,10,935对于数据集sAP_Breast_Ovary和AP_Colon_Kidney或10000的数据集胃)相当于应用分类方法没有过滤的方法。
hyperparameters对分类性能的影响或特征选择的稳定性取决于数据。因此,我们只讨论的影响产生的稀疏模型超参数。所有过滤方法只有一个hyperparameter命名n.feats指定多少特性应该被选中。一个小的值n.feats将导致一个稀疏模型。全球语言监测机构提高,我们有一个hyperparameter命名表示增加迭代的数量。一个小的值将导致一个稀疏模型。一个大的价值会导致一个大模型。注意,相同的基础学习者可以用于多个迭代。因为每个基础学习者是一个线性模型使用只有一个功能,这意味着一个较大的值还可以导致一个稀疏的模型。套索的逻辑回归hyperparameter这决定了可能性最小化和回归参数最小化之间的权衡。一个大的价值将迫使规范的回归参数小的许多组件将实现回归参数等于0。一个大的价值因此将导致一个稀疏的模型。随机森林,我们不同两个hyperparameters:num.trees分类树的数量在森林里吗min.node.size终端节点的最小数量的观察。一个大的价值min.node.size会导致分类树小。一个很小的值num.trees和一个大的价值min.node.size因此将导致一个稀疏的模型。此外,我们适合SVM与RBF宽度内核,内核参数和regularisation参数。作为支持向量机不执行嵌入式特征选择,没有hyperparameter配置将导致一个稀疏的模型。
配置评估,我们执行10倍交叉验证;我们适合10模型,每一个基于观察的90%。我们对于每一个模型,预测10%的观察上的类并不用于拟合和计算误分类率。此外,对于每一个模型,我们决定选择的设置功能的组合特征选择滤波器的嵌入式特征选择方法和分类方法。评估的预测性能配置,我们计算的平均值10误分类率(平均误分类率)。评估模型的平均大小,我们确定的中值集的基数选择特性(平均数量的选择功能)。我们评估的稳定性配置基于10特性集得到的模型。我们使用部分中定义所有稳定措施2.1。SD -,我们使用0,1、2和10作为值。
执行10倍交叉验证方法设置节2.1到10。交叉验证的好处是,我们知道每两个迭代的训练数据集非常相似:他们分享他们的观察。参见[6为稳定的细节和数据相似。次级样本的大小影响稳定的值(35]。但由于配置的稳定值只允许比较在相同的数据集和不允许data-independent结论(6),我们可以选择任意的价值在这里。
4.2。软件
在我们的研究中,我们使用R3.3.1版本(38]。这个包高钙(39提供了机器学习的框架,batchtools(40)用于推出实验一个高性能计算集群。我们另外的分类和筛选方法,依靠R包fmrmr(41),kernlab(42),LiblineaR(43),mboost(44),管理员(45),而ROCR(46]。
4.3。结果与讨论
我们比较稳定的措施经验数据集AP_Colon_Kidney。另外两个数据集,我们已经获得了非常相似的结果,导致相同的结论。
4.3.1。概述
我们比较稳定的措施2.1经验。图4显示所有被认为是稳定措施的价值12000的配置。这总体概述表明最稳定措施承担值在0和1之间,只有SC和SL承担一些勉强负值。记住,SC和SL的理论范围,而其他理论范围或 ;见表1。的值稳定措施在不同位置和分散。给定配置,SN最大和sd - 10所最小中值在所有被认为是稳定的措施。SD-0四分位范围最大,其次是SJ。SL有最小的四分位范围。
4.3.2。相似的稳定措施
我们感兴趣的不同措施是否稳定考虑相同的配置是稳定的或者一些措施评估配置一样稳定和其他不稳定。在12000构型分析,既有稳定和不稳定的,因此,我们假设每个测量分配其最大值非常稳定的配置及其最小值到一个非常不稳定的配置。
图5显示了所有散点图对稳定措施。12000年在所有散点图,每一个配置都被表示为一个点。点的颜色代表的意思是数量的选择功能。对SN, SD,深圳,SJ,和SD-0点接近一条直线或曲线。这意味着这些稳定措施评估所有配置的稳定非常类似的,独立于平均尺寸的拟合模型。这组包含所有的稳定措施不纠正的机会。SD-1和SD-2相似正考虑其稳定性评价的行为。然而,他们的相似之处并不像上述组未修正的措施之间的相似性。sd - 10并不是类似于任何其他考虑稳定措施。SC和SS评估稳定非常相似。 SL is similar to both of them but not as similar as SC and SS are to each other. Except for SC and SS, the groups of corrected measures are more heterogeneous than the group of uncorrected measures.
图5不仅允许发现组评估的稳定性的措施配置同样也证明了稳定的配置导致小模型评估非常相似的稳定措施。对于sd - 10,这只适用于很小的模型。记住,这一措施对大量的选择功能。稳定性评估行为只存在配置的差异导致更大的模型。对于较大的模型,未修正的措施分配稳定值高于纠正措施。虽然预计,大型模型的稳定措施不同,目前还不清楚他们都表现得同样的小模型。
4.3.3。连接数量的选择功能
在前款规定的,我们已经观察到相似的稳定措施取决于大小的拟合模型。现在我们分析每一个稳定的依赖程度上意味着数量的选择功能。图6显示了稳定的价值观和选择特性的平均数量为所有配置。每个图显示了稳定值评估一个稳定措施。
稳定措施,可以承担小型或大型值如果由此产生的模型的平均大小配置很小。SN的措施,所以,SD,深圳,SJ, SD-0分配更高的稳定值越大意味着模型尺寸的配置。措施SD-1, SD-2和sd - 10,它正好相反:他们分配较低的稳定值越大意味着模型尺寸的配置。SD-2和sd - 10不断给出一个稳定值0如果选择特性的平均数量很大。SC和党卫军,评估稳定值也降低增加意味着大量的选择功能。这不是线性减少像SD-1, SD-2和sd - 10。相反,它允许高稳定值被分配最平均模型尺寸。只对非常大的模型,没有相应的配置高稳定值。对于SL,最大限度地达到稳定值先减小然后选择特性的平均数量再次增加。这个属性是由于分母马克斯术语在SL的定义和讨论(5]。
4.3.4。帕累托最优配置的比较
正如我们所说的部分1为许多领域是比较理想的模型,我们认为应该分类精度高,稳定性高,少量的选择功能。因此,利益不同的稳定措施的使用是否会导致不同的帕累托最优配置的三个标准。对于每个稳定措施,我们评估帕累托最优配置。这个分析的结果显示在图中7。有一些配置的帕累托最优稳定措施。然而,大多数的配置图7仅仅是帕累托最优稳定措施。这意味着帕累托最优配置的设置取决于所选择的稳定措施。类似的稳定措施的团体,我们已经确定了通过分析人物5也大致相似的帕累托最优配置。
4.3.5。经验属性
总结的经验属性稳定措施,我们发现在这一节中,我们显示属性,我们认为是有利或不利的表4。我们认为一个大型的经验传播是很重要的,因为这允许区分稳定和不稳定容易配置。“整体传播”,我们指的是传播,我们观察到在图4。语句不同的传播模型尺寸是从图的分析6。稳定措施的经验范围具有可比性,因为大多数理论范围和措施的理论范围几乎没有获得任何值低于0在我们的实证分析。比较的理论性质稳定,看到5]。
根据他们的经验属性,SC和党卫军是最理想的稳定措施。SC是唯一衡量满足所有提出的理论属性(5),显示在表中1。基于理论和实际两方面的影响,我们认为,SC是最合适的稳定措施。如果一个未修正的测量需要,我们认为SJ是一个很好的选择,因为它拥有最大的整体传播在未修正的措施履行所有理论属性除了修正的机会。
5。找到理想的配置
在本节中,我们提出一个策略寻找理想的配置。我们分析帕累托方面寻找与稳定的一些功能选择配置而不失去许多预测精度与模型拟合只基于预测的性能。与节4,本节的重点不是比较稳定措施,但分析提出策略寻找理想的配置。
5.1。实验装置
在这项研究中,我们进行随机搜索配置导致稀疏和稳定的模型预测精度高。我们使用三个部分中给出的数据集3和相同的增强方法和软件部分4。像在节4,每个12的增强方法,我们分析1000 hyperparameter配置,我们从表中给出的集随机确定3。这给了我们12000的配置数据集。
我们将每个数据集的两部分。我们使用上半年(训练数据)找到理想的配置。为此,我们评估12000配置的训练数据。我们执行10倍交叉验证来确定平均误分类率,平均数量的选择功能,SJ和的值稳定措施,SD-1, sd - 10, SC(见部分4.1)。对于每个稳定措施,我们选择最好的配置对预测性能,稀疏,稳定。然后我们评估这些配置的另一半(测试数据)。评估的测试数据,我们还执行10倍交叉验证和确定平均误分类率,平均数量的选择功能,和各自的价值稳定措施。
评估选择配置数据还没有被用于选择配置允许我们评估无偏估计的三个目标标准。有必要进行重新采样两部分数据为了能够评估稳定两部分。通过这个过程,观测的数量大致相等的所有模型适合训练和测试数据。
我们选择这四个稳定措施SJ, SD-1 sd - 10, SC的代表四组的措施中标识部分4.3。SJ不是纠正;其他三个措施纠正的机会或大量的选择功能。结果网上所有可用稳定措施作为补充材料https://doi.org/10.1155/2017/7907163。
5.2。结果与讨论
我们建议考虑预测精度,稳定性,和选择的数量特征共同寻找理想的配置。基于三个数据集,我们将展示可以发现配置执行稳定的一些功能没有失去太多选择预测精度与模型拟合只考虑到预测性能。可视化的原因在这个出版,我们不分析所有配置的帕累托最优考虑这三个标准。相反,我们专注于稳定和稀疏accuracy-wise只考虑最好的配置。我们正在寻找一个预测模型,预测性能可以被认为是最重要的标准。因此,我们只考虑那些意味着错误的配置在训练数据不超过 。表示最好的平均误分类率的训练数据通过任何配置在同一数据集。记住,我们的结果也不一定是最优的标准对所有三个目标,因为我们可能会牺牲一些有利于增加稳定和稀疏的准确性。在本节中,我们将稳定值转换为“1−稳定,”这是最小化所有目标标准。
图8概述配置安装的数据集AP_Breast_Ovary的误分类率不超过意味着什么 阈值。选择特性和稳定值的平均数(训练数据)都显示出来。颜色显示增广模型拟合方法。我们可以看到不同的增强方法相比,通常执行的漠视对方在这个数据集。增加结合的三种过滤器总是导致稀疏模型。平均尺寸模型的其他三种分类方法不同。对于所有分类方法,最稳定的使用方差滤波器模型拟合。
找到理想的配置三个数据集AP_Breast_Ovary,AP_Colon_Kindey,胃,我们分析其稳定性和帕累托最优配置大小不超过 阈值。我们比较他们的表演的表演配置最好的分类精度。后者选择的配置如果不考虑稳定或大小。
图9显示了帕累托最优配置的帕累托前对其稳定性和大小(意味着大量的选择功能)数据集AP_Breast_Ovary。此外,最好的配置只考虑预测精度。他们的三角形。颜色代表的误差(平均误分类率)各自的配置。故事情节是基于训练数据。注意,纵坐标是按比例缩小的对数。
只有在SJ用作稳定测量配置导致庞大的模型被认为是帕累托最优。这是因为SJ是唯一未修正的测量,因此分配高稳定值如果选上的几乎所有功能。精度最优配置拥有一个完美的预测行为训练数据但他们使用许多特性和稳定性小于许多帕累托最优配置的稳定性。
帕累托最优配置导致模型训练数据上使用少于500特性以及精度最优配置如表所示5和6。20帕累托最优配置的模型实际上平均使用超过8800特性都省略了。表状态的配置和他们的表演训练和测试数据。训练数据上的表演许可证确定的配置图9。性能测试数据被用来评估公正的配置。SJ导致最多的帕累托最优配置。SJ的所有配置的帕累托最优,用不到500 SC特性是帕累托最优,。只有一些配置的帕累托最优的SC也帕累托最优SD-1或sd - 10。帕累托最优配置,预测性能,意味着模型大小和稳定的测试数据非常相似的值达到训练数据。精度的最优配置,预测性能的测试数据是明显比在训练数据。精度最优配置overfit训练数据远远超过帕累托最优配置。测试数据,预测精度的性能最优配置只是一样好一个帕累托最优配置。帕累托最优配置拥有稳定的测试数据高于精度最优配置考虑所有四个稳定措施。 The configurations which are Pareto optimal for the three corrected measures lead to averagely smaller models on the testing data than the accuracy optimal configurations.
对于大多数配置显示在表中5,n.feats,特征选择的过滤器的数量等于平均数量的特性使用的模型。这意味着在这些配置只有GLM明显提高执行嵌入式特征选择,即使套索逻辑回归和随机森林能够这样做,。
图10 ()显示了数据集的结果AP_Colon_Kidney。所有四个稳定措施,只有一个点,表示67年帕累托最优配置的性能。帕累托最优配置模型更稳定和导致小于在训练数据精度最优配置。图11显示目标准则值达到67帕累托最优配置。测试数据,他们仍然导致小模型特征选择是在训练数据不稳定。精度最优配置如表所示7和8。他们表现好一点比大多数的帕累托最优配置考虑测试数据的准确性。帕累托最优配置平均达到平均误分类率是0.060。精度最优配置是更不稳定,导致更大的模型测试数据比大多数帕累托最优配置。
(一)
(b)
对于这个数据集,导致帕累托最优配置更容易解释的模型:十个安装所有帕累托最优配置的模型训练数据使用相同的功能。然而,这个特性是不一样的配置。57配置的基因224596 _at9 (SLC44A1),用于配置,该基因201839 _s_at(EPCAM),一个配置中,该基因46323 _at(CANT1)。图12显示了基因表达值箱线图的三个基因。故事情节是基于所有的观察。为所有三个基因,低价值表明类“肾”和比较高的值表明类“结肠。“考虑到分数的AUC过滤器,基因46323 _at是最好的在这个数据集所有基因预测目标变量时只使用一个变量,一个点。基因224596 _at第三最好的和基因201839 _s_at在72的位置。这个排名是根据所有的观察。
图10 (b)显示了数据集的结果胃。的范围意味着帕累托最优配置的错误表明,该数据集分类构成更加困难的问题。如在图9SJ,帕累托最优配置是发现,包括配置,导致更大的模型,和sd - 10只会几个帕累托最优配置。
所有的帕累托最优配置以及精度最优配置显示在表中9和10。平均误分类率的测试数据比这更糟的训练数据配置表9。配置ID为18岁,最小的分类错误率的训练数据的帕累托最优配置数据集,到目前为止最小的分类错误率在测试数据。的平均尺寸拟合模型训练和测试数据之间的差别并不是很大;稳定的值不同。最好的配置只考虑分类精度比帕累托最优配置更不稳定。测试数据,其预测性能类似于帕累托最优配置。
总结这三个数据集的结果,我们已经看到,可以选择配置与稳定的一些功能没有失去太多选择预测精度与模型拟合只基于预测的性能。
6。结论和展望
我们比较各种不同的经验使用微阵列和RNASeq数据稳定措施。我们使用“增强”方法组成的过滤和分类方法。这些方法的特征选择过程是级联:过滤方法选择一定数量的特性和分类的嵌入式特征选择方法选择剩余的特性的一个子集。
我们发现小模型(一些功能)的稳定性评估同样稳定措施。稳定的行为措施关于大型模型,这是最重要的,如果包含一个修正项的机会或大量的选择功能。这些措施没有修正项往往分配大型稳定值模型,包含许多功能。在这些情况下,这些措施与修正项分配较小的稳定值。大型模型的不同稳定性评估行为可能导致不同的决定有关最优配置。未修正的措施评估集团稳定彼此非常相似。这意味着即使未修正的稳定措施的定义看起来完全不同,它并不重要的措施选择稳定性评估,因为他们都将导致非常相似的结果。纠正措施的组织异构比未修正的措施。
我们还进行了一个随机搜索的配置考虑他们的预测性能,稳定性,和大小(数量的选择功能)使用增强方法。我们分析了帕累托最优配置考虑其稳定性和大小考虑到只有那些没有超过配置的分类性能 与表示最好的意思是通过任何错误的配置数据集。由此产生帕累托方面给几个选项选择稀疏和稳定的配置,同时具有较高的分类精度。相比拟合模型只考虑预测性能,帕累托最优配置更稳定,其中大部分是使用更少的特点。独立的测试数据,帕累托最优配置是一样准确的数据集和两只对一个数据集有点不准确。这意味着,尽管在训练数据看起来配置选择的准确性,减少配置选择excel对所有三个标准同时测试数据。然而,在我们未来的工作中,我们将解决这个三维的优化问题,接受可视化困难的缺点。
重要的是要记住需要什么样的模型。如果你要绝对相信,你只是想选择一小部分在你的数据集的特性,你应该选择一个纠正稳定措施。我们建议使用SC的理论和实证属性。在某些应用程序中,这可能是必要的选择许多甚至所有功能,例如,因为只是足够的预测准确性可能使用的大部分功能。在这种情况下,我们建议选择一个未修正的测量,因为纠正措施没有定义如果选择所有功能。另外,非矫正措施允许将帕累托面前推向更大的模型。我们建议SJ基于其理论和实证属性。
虽然我们只考虑基因数据集在我们的分析,我们认为,我们的结论是有效的对许多其他应用程序。在未来的工作中,我们将使用基于模型的优化,而不是随机搜索寻找理想的配置效率。
数据访问
R分析本文的源代码是公开的https://github.com/mllg/stability-bioinf。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项工作是由德意志Forschungsgemeinschaft (DFG),项目RA 870/7-1 SFB和协作研究中心876年,A3。作者承认金融支持科技大学由德意志Forschungsgemeinschaft和多特蒙德在开放获取出版资助项目。
补充材料
研究结果为所有稳定措施找到理想的配置。