研究文章|开放获取
李Guobin Chen Xianzhong谢,仕进, ”乳腺癌的研究复杂的分类算法芯片基于SVM-RFE基因功能筛选”,复杂性, 卷。2020年, 文章的ID1342874, 12 页面, 2020年。 https://doi.org/10.1155/2020/1342874
乳腺癌的研究复杂的分类算法芯片基于SVM-RFE基因功能筛选
文摘
筛选和分类特征基因是一个复杂的分类问题,和基因表达的特征序列高维特征。如何选择一个有效的基因筛选算法要解决的主要问题,通过分析基因芯片。资讯的结合、支持向量机和SVM-RFE选择屏幕复杂分类问题,并提供了一种新方法来解决复杂的分类问题。基因芯片的过程中预处理、LogFC和价值的等价物基因表达矩阵筛选,筛选不同的基因特性,然后SVM-RFE算法用于排序和筛选基因。首先,基因芯片的特点进行了分析和调查和基因之间的数量统计。聚类分析在每个样本和PCA分类不同的样品进行分析。其次,SVM和资讯的基本算法测试,和出错率和准确率等重要指标的算法获得最优参数进行测试。最后,性能指标的准确性、精密,回忆,和F1的几个复杂的分类算法是通过复杂的分类支持向量机相比,然而,KNN-PCA, SVM-PCA SVM-RFE-SVM, SVM-RFE-KNN 。SVM-RFE-SVM的分类效果最好,可以用作基因芯片分类算法来分析基因的特点。
1。介绍
基因芯片技术的诞生以来,大量的基因表达微阵列数据的特征选择方法在学术界出现了。大多数这些方法关注的质量选择基因,而很少有人注意算法本身的效率。基因表达微阵列数据大量的基因特征。如果没有一个有效的特征选择方法,整个过程的关键基因的选择将会变得非常长。许多现有的传统特征选择方法效率很低,,有的甚至达到不可接受的水平。其中,代表包括慢性疲劳综合症、mRMR, SVM-RFE。特别是在SVM-RFE,整个选拔过程非常耗时。一些研究人员SVM-RFE也有所改善,但耗时的问题尚未从根本上得到改善。本章以SVM-RFE为研究对象,分别和SVM和RFE改进。通过引入一个更高效的实现经典的线性支持向量机来减少时间消耗的基本特征选择过程,提出了一种递归特性消除与可变步长策略,减少迭代次数的基本特征选择过程中,两者的结合最后试图从根本上解决SVM-RFE效率低下的问题。
基于递归特性的支持向量机资格(SVM-RFE) [1盖恩et al . 2002年)提出的。该方法充分利用支持向量机的特点;也就是说,它可以根据它们的重要性等级和分数所有基因在训练SVM分类方法并结合递归特性消除策略进行特征选择。段et al。2)改善SVM-RFE处理分类问题,提出了只有两个一对一和一对多multiclassification SVM-RFE方法,使SVM-RFE处理multiclassification问题。
针对SVM-RFE的低效率特征选择过程中,丁和威尔金斯(3RFE)改进了迭代过程,从删除一个功能一次删除多个,而改进的算法在不损失效率的分类精度。Yoon和金4)提出了一种基于互信息SVM-RFE方法,解决问题,SVM-RFE方法没有考虑特征相关性特征选择的过程中在一定程度上。唐et al。5]SVM-RFE分为两个阶段。在第一阶段,粗略的选择是进行特征选择,过滤掉不相关的特性,冗余特性和噪声特性。在第二阶段,更好的特征选择是在第一阶段的基础上进行。接下来的两个小节将详细介绍SVM-RFE深度和分析其效率低下的原因。唐et al。6]功能集群SVM-RFE (FCSVM-RFE)功能集群提高SVM-RFE基因的选择。该方法首先约选择基因,然后排名所选择的基因。聚类算法用于集群基因植入的基因组,每个基因都有类似的表达谱。SVM-RFE用于这些代表基因排序。FCSVM-RFE降低计算复杂度和冗余。虽然SVM-RFE可以有效地删除无关的功能,它不能处理大多数冗余功能(7]。为了克服这一缺点,本文发展一种新的特征选择方法,即删除冗余的核心功能在使用SVM-RFE前根据特性之间的关系。该方法在胰腺癌微阵列数据集进行了测试。该方法比基线SVM-RFE分类精度。为了提高分类的准确性,径向基函数(RBF)内核还介绍了(8]。陈和朱9)提出了一种基于支持向量机的特征选择方法的递归特性消除(SVM-RFE)和二进制粒子群优化算法(全局搜索)。SVM-RFE删除一些无关紧要的功能降低数据维数,然后继续寻找最好的子集,并使用一些更好的SVM-RFE子集作为初始PSO的一部分人口和有一个好的起点。SVM-RFE不仅降低了粒子的搜索空间,也提供了经验,从而提高算法的搜索效率和准确性。Anaissi et al。10)使用ESVM递归特性消除(ESVM-RFE)基因的选择。它遵循的概念集成和装袋用于随机森林但是采用反向淘汰策略,RFE算法的基本原理。这背后的原理是,利用随机画引导程序样本训练集建立一个集成的SVM模型将生成不同特性的水平,这将被总结成一个功能水平。因此,决定删除功能是基于多个SVM模型的排名,而不是选择一个特定的模型。然而,在不平衡数据集的分类,不平衡是一个常见的问题在基因表达微阵列数据11]。一般来说,人们只对少数几个类别,因为感兴趣类别通常是病人,而正常的人们通常占大多数。分类方法,样本太少某些类别意味着类别包含的信息要少一些,所以最后学的分类模型的分类算法可以很容易地预测患者正常人群进行分类预测时(12]。尤其是对小样本数据,例如基因表达微阵列数据,它变得更重要的类别不平衡来解决这个问题。最基本的方法来解决这一问题的类别不平衡upsampling,将采样。周和王(13)提出了一种特征选择方法结合relief-F和SVM-RFE算法。算法的权向量集成relief-F SVM-RFE方法。在这种方法中,relief-F过滤掉许多嘈杂的功能在第一阶段。然后,一个新的分类标准基于SVM-RFE方法应用于最终的特征子集。支持向量机分类器是用来评估最终的图像分类精度。一种新的多级基因选择方法和基于多分类支持向量机的递归特性提出了消除(SVM-RFE) (14]。对于多级DNA微阵列的问题,我们解决multibinary分类问题。“所有”的方法用于多种类型的任务分解成多个二元问题,为每个二进制和SVM-RFE选择基因问题。使用支持向量机分类器训练选择基因二进制数据的问题。首先,介绍了支持向量机的基本方法,详细说明RFE算法的应用。其次,芯片GSE76275屏幕和分类不同值下SVM-RFE算法。最后,SVM-RFE算法滤波后的分类效果不同值如下比较研究不同SVM-RFE-KNN SVM-RFE-SVM和其他四个算法。
2。相关的理论著作
2.1。支持向量机
支持向量机(SVM)被认为是最经典的机器学习算法。其实质是最大间隔分类方法。在这个时候,一个支持向量机只能处理线性可分的数据分类问题和被称为硬间隔支持向量机。软间隔支持向量机于1995年提出。这个时候,支持向量机可以处理数据分类问题近似线性可分的。随后,支持向量机已经进一步发展。支持向量机,支持向量回归机,multiclassification支持向量机基于内核技术提出了一个接一个。此时,支持向量机已形成一个非常复杂和完整的理论体系,这不仅可以解决线性可分问题也非线性可分的数据,进行分类变得非常强大。SVM-RFE算法使用了一种基于线性支持向量机的内核。支持向量机模型如图1。
支持向量机的算法思想实际上是非常简单的。硬间隔支持向量机,整个过程分为三个步骤:第一,数据是线性可分的;第二,找到两个超平面要求没有数据点落在两架飞机之间。第三,两架飞机之间的距离最大化。在这个时间就是目标函数 在哪里 两个超平面之间的距离,是目标优化值,和代表了我th样本和对应的标签,分别 代表点的距离到最近的超平面。 意味着点两个超平面之间不能降。为了方便的解决方案,公式(1)通常是转化为一个二次规划问题:
在所有分类,分类间隔的最优平面是最大的;在这个时候,是最小的,称为最优分类线,和训练样本H1和H2被称为支持向量。拉格朗日优化方法用于获得它。假设 与方程(2)构成拉格朗日多个条款,最大值。 在哪里 是二次规划优化方程(3)。假设有一个最大的向量 方程(3)和描述的最优超平面 ,然后所示如下方程:
如果约束条件提出了方程(4),决定最优分类函数所示在以下方程:
方程(5介绍了拉格朗日方程: 在哪里是拉格朗日系数。通过区分和 ,我们获得了二次规划问题:
2.2。递归特性消除(RFE)
消除递归特性的主要思想是不断建立模型(如支持向量机回归模型)。每个特性的重要性是通过学习者或返回的属性值的重要性评分功能。然后,最重要的特征变量从当前特性。然后,其余的模型特征变量。重复上述过程,直到只剩下一个特征变量。这个过程结构模型的特征数量减一次。功能是消除重要性的顺序排序的功能。这是一个贪婪算法找到最优特征子集,这需要大量的计算,要求计算机硬件要求高。RFE的稳定性在很大程度上取决于所选择的模型在迭代期间底部。例如,如果采用普通线性回归RFE不稳定没有正规化,然后RFE是不稳定的。如果使用岭回归正规化的山脊是稳定的,然后RFE是稳定的。 For example, a linear kernel support vector machine SVM-RFE, as an effective feature selection method, has been successfully applied to fault diagnosis. However, some problems may be nonlinear.
SVM-RFE监督顺序反向选择算法。线性分类器,需要每个特性的判别信息的目标函数的系数进行排序。也就是说,贡献权向量的分类面 用于构造特征排序表。如果相对应的重量特性较大,决定功能将受到影响,体重较大的特性更歧视的信息。每个迭代消除最小重量的特性,然后通过分类器,直到排名功能表完成。排序原则也可以分析的目标函数如下公式:
计算的我- - - - - -th除功能的变化J, 在哪里也意味着,我th删除功能;作为分类标准,后来它所包含的特性意味着更少的信息,而且将被删除。该算法是一个循环的过程。
经典是一个线性核函数的系数进行排序
在非线性的情况下,假设在训练样本矩阵,当某个功能是删除,二次规划的中值保持不变;即得到分类器不会改变。在这个假设的前提下,每个特性的贡献值目标函数,即:排名系数,
这种假设也是合理和可行的在实际应用中,在那里 , ,意味着矩阵值计算时的第i个特性被认为是删除。在实际应用中,非线性内核和线性内核通常会产生类似的结果。SVM-RFE方法迭代执行这个过程,最终得到一个功能排序表。使用列表排序,几个嵌套功能子集定义训练支持向量机,和这些子集的优点和缺点是评估根据支持向量机的预测精度,从而获得最优特征子集。应该注意的是,前排的单一特性并不一定使SVM分类器获得最佳的分类性能,但多个特性的结合使分类器获得最佳的分类性能。因此,SVM-RFE算法可以选择互补特性的组合。对象的目标这两个公式不同,相应的线性和非线性内核,分别,但事实上的最终选择特征值的差异是不明显的。
SVM-RFE算法可以定义一组嵌套的特征子集 根据其特征排序表。支持向量机的预测精度是用来评估这些子集的优点和缺点,以便获得最优特征子集。 意味着我th特性选择排名最高的特性集的子集,以确保每个子集包含特性相对重要的信息,然后选择最优的分类器设计的子集。该算法在算法如下1。
|
3所示。结果分析
摘要基因芯片GSE76275用作芯片的研究基础和相关参数。GSE76275数据集包含了265个样本,其中包括198 TNBC和67 non_TNBC,共有54613个基因表达值。在实验中,有关基本数据分析一致,大多数基因的表达水平可以保持一致。相对对数表达式(RLE)箱图能反映上述趋势。它被定义为探针组的对数表达式的值在一定样本除以平均调查小组的表达式的值在所有样本。RLE所有探头组的分布的样本可以用一盒图中常用统计,和每个样本的中心应该非常接近的位置协调0。这个实验的RLE盒图满足这个需求,如图2。
归一化处理:归一化的目的是使每组实验条件下测量或测量相互比较,消除非实验测量数据之间的差异,这可能来自样品制备、杂交过程,或杂交信号处理。上述数据可以正常化的过程实现的浓咖啡affy软件包的功能。事实上,集成算法使用预设参数更为合理和有效的。
3.1。差异表达基因的选择
的意义分析的第一步是选择基因表达差异与显著差异表达的基因。一般来说,这种分析的基本假设是标准化的芯片数据符合正态分布,所以基本上都是使用的统计方法T测试中,F测试、方差分析和改进形式的这三种统计方法。为了获得标准化的差异基因,基因芯片采用贝叶斯方法。经验贝叶斯方法是目前最常用的分析方法,已完全实现Bioconductor limma方案,如表所示1。
|
||||||||||||||||||||||||||||||
不同的基因的基因聚类 分别进行了分析。选择一些样品聚类,相同类型的样本可以基本上集中在一起,如图3。
选择样本的差异基因表达数据 和PCA图。从图中,可以看出,两组样本的分类是显而易见的;因此,可以看出,两种类型的样品有明显的区别,如图4。
当P是不同的值时,SVM-RFE显示筛选基因的差异。当值是0.001,0.05,0.01和0.1,数量和分布的基因数据所示5- - - - - -8:
(一)
(b)
(一)
(b)
(一)
(b)
(一)
(b)
可以看到从上面的数字5- - - - - -8的最大价值变得越来越大,基因分布的数量变得越来越多。然而,LogFC之间有一定的相关性价值。大部分的点是出版(−2 2)之间,这符合正态分布的特点。越大价值,更大数量的基因筛选,这表明,选择适当的价值筛查可以有效地应用于SVM-RFE算法,为了提高分类算法的效果和准确性,什么时候趋于0,代表范围越大价值,基因越多。
3.2。复杂算法参数选择
算法的参数选择是实验的一个重要组成部分,和更好的实验结果可以通过选择获得更好的参数。因此,一些数据在这个实验中选择实验参数的选择,最后通过选择参数进行实验比较。
为了表达最好的参数要求,支持向量机的成本是10和100年,γ是10−1,10−2,10−3,10−4,10−5,10−6径向,内核函数。在比较和优化算法,获得了相应的误差值在不同的参数,影响如表所示2。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
分布算法的比较表明,当γ= 10−6和成本= 100,最小误差值是0.1274892。只有49个样本建立模型,作为支持向量的41。支持向量的比例太大(超过80%),这表明有无关和冗余功能的使用功能。建议使用特征选择方法RFE,消除冗余和不相关,降低维度,然后使用支持向量机。也可以考虑重新优化参数,但由于曲调。svm()被用来找到参数,参数发现并不好。最好是使用固定参数,然后使用RFE特性筛选。然后,该模型用于分类测试集数据和使用列联表计算准确率,如图9。
当成本= 100和γ= 0.0001,= 100成本和γ= 0.1,和成本= 10,γ= 0.01,平均准确率仅为75%。当成本= 10和γ= 0.001和成本= 100和γ= 0.001,算法的精度约为88%。随着样本容量的增加,准确性也减少。当样本容量超过200时,精度小于75%。成本= 10和γ= 0.0001时,算法的准确性相对较高,约为92%,且相对稳定,如图10。
在算法的初始阶段,总体准确率相对较低,只有80%,最低仅为75%。由于小样本大小,分类效果不是很理想。当资讯需要3,正确的利率约为90%。当资讯2,准确率相对较低,只有82%。整个序列集的平均准确率约为84%,当样本容量的增加,平均准确率相对稳定。
3.3。比较的算法
当P需要不同的值,筛选差异基因表达数据和选择的结果进行分类。在这篇文章中,一些屏幕和分析基因选择算法。SVM算法,然而,SVM-PCA、KNN-PCA SVM-KFE-SVM,和SVM-KFE-KNN用来比较和分析精度的性能,精度,召回,F1。
为了评估不同的算法的优点和缺点,F1值的概念的基础上,提出了精度和召回评估精度和召回作为一个整体。F1的定义如下:
通过比较研究上述算法的性能指标,效果如图11- - - - - -13。
从数据可以看出11- - - - - -136算法的总体效果是相对一致的不同P值。当P价值选择是小,六个算法的性能改善。特别是,SVM-RFE-SVM算法的性能明显改善;准确度、精密度、召回和F1接近0.99。其中,资讯和SVM算法的最差表现,因为他们没有优势基因筛查效果。SVM-RFE-SVM和SVM-RFE-KNN算法后最好的结果基因筛查和基因筛查的有明显的优势。
4所示。结论
在这篇文章中,支持向量机和资讯算法测试,和错误率等重要指标和算法的准确率评估获得最优参数。SVM-RFE-SVM被证明是有效的筛选和比较SVM,然而,KNN-PCA, SVM-PCA SVM-RFE-SVM, SVM-RFE-KNN绑定的基因。在以后的研究工作,本文提出的算法的有效性测试在不同的数据集,和标准化是在不平衡数据集进行分类研究。分类算法的有效性进行了分析通过外显子的数量和在RNA-SEQ突变的基因测序数据。不同类型的测序数据之间相关分析是研究工作的最终目标。
数据可用性
本研究中使用的数据是可用的网站https://pan.baidu.com/s/1e3du8VbzjnvxHRhunF1o0Q(下载代码:yzjz)。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是由中国国家自然科学基金支持下合同编号61271259和61271259);重庆市自然科学基金合同数字CTSC2011jjA40006 CSTC2010BB2415, CSTC2016jcyjA0455;重庆市教育委员会的研究项目合同数字KJ120501 KJ12050, KJ1600411, KJ110530;科学技术研究重点项目重庆市教育委员会(KJZD-K201800603和KJZD-M201900602);重庆研究生科研创新项目批准号CYB17131;和博士研究生创新人才项目下的重庆邮电大学批准号BYJS2016003。
引用
- 第二,j·韦斯顿、美国威尔和诉Vapnik,“癌症基因选择使用支持向量机分类,“机器学习,46卷,第422 - 389页,2002年。视图:谷歌学术搜索
- k b段、j·c·拉贾帕克萨和m . n .阮”One-versus-one和one-versus-all多级SVM-RFE癌症分类、基因选择”《进化计算机器学习和数据挖掘在生物信息学中,欧洲会议Evobio 2007,页47-56,瓦伦西亚,西班牙,2007年4月。视图:出版商的网站|谷歌学术搜索
- y丁·d·威尔金斯,“提高SVM-RFE选择基因微阵列的性能数据,”BMC生物信息学,7卷,不。S2, 2006。视图:出版商的网站|谷歌学术搜索
- Yoon和金,“相互信息化SVM-RFE数字化乳房x光检查的诊断分类”模式识别的字母,30卷,不。16,1489 - 1495年,2009页。视图:出版商的网站|谷歌学术搜索
- y . Tang Y.-Q。张,z黄”,发展二级SVM-RFE基因芯片表达数据分析,选择战略”IEEE / ACM事务计算生物学和生物信息学,4卷,不。3、365 - 381年,2007页。视图:出版商的网站|谷歌学术搜索
- 黄x、b . l . Zhang和z张立敬上,“基于特征聚类支持向量机的递归特性消除基因选择,”应用智能,48卷,不。3、594 - 607年,2018页。视图:出版商的网站|谷歌学术搜索
- j .阴j .侯,z她,“提高SVM-RFE胰腺癌的分类的性能数据,”《IEEE国际会议上工业技术(ICIT)IEEE,页956 - 961年,台北,台湾,2016年5月。视图:出版商的网站|谷歌学术搜索
- r, r·李,y Lei“调整优化SVM方法协助卵巢癌诊断与光声成像,”生物医学材料与工程,26卷,不。s1, S975-S981, 2015页。视图:出版商的网站|谷歌学术搜索
- 陈c和h·d·朱”,基于并行二进制免疫的特征选择方法研究粒子群优化,“先进材料的研究卷,546 - 547,1538 - 1543年,2012页。视图:出版商的网站|谷歌学术搜索
- a . Anaissi m . Goyal d·r·Catchpoole a·肯尼迪和p . j . Braytee“整体功能使用支持向量机学习的基因组数据,”《公共科学图书馆•综合》,11卷,不。6篇文章ID e0157330 2016。视图:出版商的网站|谷歌学术搜索
- 诉Bolon-Canedo: Sanchez-Marono A . Alonso-Betanzos j·m·贝尼特斯和f . Herrera”回顾微阵列数据集和应用特征选择方法,”信息科学国际期刊,卷282,不。5,111 - 135年,2014页。视图:出版商的网站|谷歌学术搜索
- 苏耿赋。陈,研究。谢长廷,psi。你,研究。李”,通过使用基于网格计算的进化特征选择和分类方法的微阵列数据,”学报》第三届国际会议上计算机科学和信息技术(ICCSIT)IEEE,页85 - 89年,成都,中国,2010年7月。视图:出版商的网站|谷歌学术搜索
- x周和j .王”功能选择图像分类标准,基于一种新的排名”计算机和通讯》杂志上,3卷,不。3、74 - 79年,2015页。视图:出版商的网站|谷歌学术搜索
- l .黄张和x“多个SVM-RFE多层次基因选择DNA微阵列数据。,“在学报》国际神经网络(IJCNN)联席会议基拉尼的,页1 - 6,IEEE,爱尔兰,2015年7月。视图:出版商的网站|谷歌学术搜索
版权
版权©2020 Guobin陈等。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。