文摘
大多数的基因表达数据分析算法要求整个基因表达矩阵没有任何缺失的值。因此,有必要设计方法将转嫁缺失数据准确值。存在大量的污名算法来估计这些缺失值。这项工作始于一个微阵列数据集包含多个缺失值。我们首先应用基于模糊理论的现有方法的修改版本LRFDVImpute嫁祸于多个时间序列基因表达数据的缺失值,然后验证结果归责的基于遗传算法(GA)的基因排序方法以及一些常规统计验证技术,像RMSE方法。基因排序,据我们所知,尚未使用验证缺失值估计的结果。首先,该方法已经在非常受欢迎的首位数据集测试,结果表明,误差利润已经大大减少了一些以前的作品相比,这间接验证该方法的统计学意义。然后它已经应用于其他四个双阶级基准数据集,如大肠癌肿瘤数据集(GDS4382),乳腺癌数据集(gse349 - 350),前列腺癌的数据集,和DLBCL-FL(白血病)对缺失值估计和排名的基因,结果表明,该方法分类精度可以达到100%,很少有显性基因,这间接验证该方法的生物意义。
1。介绍
微阵列表达分析是一种广泛使用的技术分析mRNA的表达。信使rna携带遗传信息从核糖体DNA,他们指定的蛋白质的氨基酸序列基因表达的产物。微阵列数据集通常包含缺失值可能发生由于各种原因包括缺陷数据准备步骤(例如,贫穷杂交由尘埃和划痕和芯片污染)创建错误和低质量的值,这通常被丢弃,称为失踪。是很常见的基因表达数据包含至少5%缺失值(1]。大多数的微阵列数据分析算法,如基因聚类疾病(实验)分类、基因网络设计,需要完整的信息,也就是说,整个基因表达矩阵没有任何缺失的值。因此,应该使用不同的归责技术准确嫁祸于多个缺失的数据值。许多非难算法提出了估计缺失值。起初,我们应用修改版本的现有归责技术LRFDVImpute [2),第一次发现使用模糊相似的基因差别向量的一个子集(浮点除)算法用于(3)基因表达谱被认为是连续的时间序列曲线,然后使用线性回归估计缺失值的子集。我们已经考虑估计只有那些基因与一个,两个,或三个缺失值,因为这些基因构成整个数据集的5 - 10%。绝对误差已经从原始值之间的差异计算和估计的价值。均方根误差(RMSE)然后确定绝对错误的。
第一阶段的工作流程如图1。
之后,我们把这些基因发现首位排名基因(4]。我们使用假设检验,Wilcoxon等级和测试(5),排序功能(基因)和他们的顺序排序值和选择从他们的基因,从而降低维数,是一直在使用后的人口规模。减少的一组基因然后一直排名由我们的GA方法。两个队伍,一个Wilcoxon由我们的GA方法和其他方法,然后比较。顶部基因(价值由用户定义的)然后选择我们的方法用于使用支持向量机(SVM)分类器分类。分类的性能证明排名方法的效率。图2显示了这一阶段的工作流程。
一旦做出了选择,然后强行使一些细胞缺失的排名在前,估计他们使用相同的基因缺失值估计技术。最后,我们把他们再次找到首位排名基因。结果表明,大部分排名最高的基因是相同的,验证提出的缺失值估计技术生物的估计。
2。现状的艺术
正如前面所讨论的,各种统计和分析方法用于基因表达分析并不健壮的缺失值,需要完整的基因表达矩阵提供准确的结果。因此,有必要制定准确的方法将转嫁数据值时失踪。提出了许多归责方法。最早的方法,称为行平均或用0填充,用来填补空白缺失的基因数据集的值0或行平均水平。
KNNImpute方法(1)选择基因表达谱的基因转嫁感兴趣的缺失值。试验后的指标计算基因相似,如皮尔逊相关性、欧式距离,和方差最小化,这是发现欧式距离是足够准确的规范。
SVDImpute方法,提出在1),利用矩阵的奇异值分解估计缺失值的DNA微阵列。这种方法是通过将基因数据矩阵分解为一组相互正交的表达模式,可以线性近似相结合的数据集的所有基因的表达。这些模式,在本例中是相同的原则组成部分基因表达矩阵,进一步被称为eigengenes [6,7]。
另一种方法称为LLSImpute [8)代表一个目标基因缺失值的线性组合相似的基因。选择相似的基因最近的邻居或连贯的基因有很大的相关系数的绝对值最小二乘回归和估计紧随其后。
BPCAImpute方法,提出在9),使用贝叶斯估计算法来预测缺失值。BPCA建议使用的样本数量- 1轴的数量。由于BPCA使用他们表示重复的算法来估计缺失值,它需要密集的计算推导出缺失值。
另一个算法的时间序列基因表达分析提出了(10),允许原则未被注意的时间点,估计聚类和数据集对齐。每个表达式概要描述为一个三次样条(分段多项式)从观测数据估计,每一个时间点影响整体光滑曲线表达式。的对齐算法使用相同的样条表示连续的时间序列基因表达谱。
FDVImpute方法,提出在11),包含一些模糊性的缺失值估计DNA微阵列。第一步选择最近的(最相似的)目标基因的基因(缺失的一些组件)使用模糊差分向量算法。然后失踪的细胞是通过使用最小平方估计适用于所选基因在第二步。
FDVSplineImpute,在3),考虑到基因表达数据的时间序列特性,允许估计失踪观察使用b样模糊差分向量的相似的基因。
另一种方法,LRFDVImpute,提出了2),估计多个失踪观测首先找到最相似的基因的目标基因,然后应用线性回归对这些相似的基因。这种方法在两个阶段工作。在第一阶段,它估计SPELLMAN_COMBINED数据集的真正缺失的细胞后期,它使一些细胞小姐强行相同的数据集,然后利用估计结果的第一步,这种方法估计那些错过的细胞使用相同的方法。绝对误差已经从原始值之间的差异计算和估计的价值。均方根误差(RMSE)然后确定绝对错误的。
从微阵列数据中提取相关信息也很困难因为固有的特征数据集,有数以千计的变量(基因)和数量很少的样本。发现的重要基因,或者换句话说,最差异表达基因,通过研究数据组织影响或影响癌细胞,是一个重要的任务。这个问题可以称为基因的选择。几个技术被用于基因和找出最重要的排名。
在[12),该算法使用判别偏最小二乘(dpl)和模糊聚类的方法来解释急性白血病的基因表达模式和识别白血病亚型。
在[13),Mann-Whitney测试和使用的方法样本克鲁斯卡尔-沃利斯方差分析测试基因排序。降维是使用完成的——聚类和主成分分析和分类执行期间使用ANN训练8倍交叉验证与递归特性消除(RFE)和分析测试。
在[14),该算法提出了一个基于Wilcoxon等级的基因选择方法和测试和支持向量机。Wilcoxon等级和测试是用来选择基因的一个子集,然后每个选定的基因是训练和测试使用支持向量机分类器和线性内核分别和基因测试精度高的利率选择形式最终减少基因子集。分类是两个数据集上执行:乳腺癌[15),所有/ AML白血病(16使用分析交叉验证(LOOCV)]。
混合GA / SVM方法提出了基因选择(17),一个基于模糊逻辑的预处理工具是用来降低维数,找到最常见的基因遗传算法,用于分类的支持向量机分类器。实验在两个著名的癌症数据集,白血病(16)和结肠(18),并与其他六个方法结果进行了比较。
提出了一种多目标遗传方法(19]同时聚类方法和基因排序,同时优化功能排名和集群已经使用。NSGA-II (Nondominated排序遗传Algorithm-II) [20.)被用来作为多目标进化算法优化染色体。
在[21),该算法使用基于遗传算法的特征选择方法(气)和分类方法关注建设性的神经网络(cnn), C-Mantec。几个比较结果六个公共癌症数据库提供了使用其他特征选择策略(逐步向前选择方法)和不同的分类技术(LDA、支持向量机和朴素贝叶斯)。
算法基于图理论的方法,提出了(22),用于识别nonredundant基因标记从微阵列基因表达数据。微阵列数据首先转化为加权无向完整的功能图,节点代表基因在基因的相关性节点权值和边缘是加权的基因之间的相关性。最密集的子图有最小平均边缘重量(相似性)和最大平均节点重量(相关性)然后确定从原始特征图。二进制粒子群优化然后申请边缘最小化平均重量(相关性),最大化平均节点重量(基因相关性)通过一个单一的目标函数。
一个基于web的工具dwf,提出了23),用于为各种问题的有效选择重要的特性。搜索策略是使用并行遗传算法实现。dwf也适用于各种滤波方法的预处理步骤特征选择过程。它还使用三个分类,比如资讯分类器,朴素贝叶斯分类器,这两种的结合。实验中使用的数据集来自不同的生物医学应用程序显示dwf的效率,并导致显著减少的数量特性在不牺牲性能的几种广泛应用现有的方法。
3所示。该方法
3.1。缺失值估计使用线性回归
这一阶段的工作修改现有方法LRFDVImpute估计缺失值出现在微阵列数据集使用线性回归。LRFDVImpute的早期版本将新估计的基因插入后的训练数据估计每个目标基因。这样,新估计的基因被考虑,估计下一个目标基因。这一过程的风险增加了错误,估计后续基因由于误差项累计成倍增加。为了克服这个问题,修改LRFDVImpute不添加目标基因据估计后的训练数据。这种方式,培训组基因大小保持不变,增加成员的值训练数据的大小减少。修改的影响研究和结果所示实验结果部分。在我们的问题中,基因缺失的值()(基因的数量和吗是样本)数据集的数量估计。找到一个类似的基因的方法用于(3使用模糊差分向量(浮点除)算法描述如下。
目标行/测试数据。缺失值的行被估计:目标行可能有多个缺失值,但在一个跑,一个值估计。
类似的行数据/培训。行类似于目标行:在这种情况下,只有那些没有缺失值的行被选中。在应用相似措施之前的所有列的完整矩阵中对应于目标行中的遗漏值。
让在数据集的基因集。让th是目标基因,这种基因缺失值。我们删除列从整个数据集缺失值。让合成矩阵包含()列。每个目标基因是与每一个类似的行数据集。为th基因,不同的向量的计算如下:
一旦差别向量计算为每个目标行和行类似,说(目标行)(类似的行),然后计算获得的数量匹配向量之间的区别和为每个目标基因。匹配的组件的向量和取决于是否的迹象和都是一样的。定义了目标基因的分布之间的匹配程度和相似的基因。然后我们定义一个会员级别如下: 会员的训练数据中的基因值大于选择会员级别被认为是一个相似的基因的一部分。
估计的步骤可总结如下:(1)加载数据集用缺失值。(2)计算每个基因的缺失的列数和从第一行开始用最少的缺失值数据集(1)。(3)计算相应的隶属度为目标基因使用浮点除算法从训练数据如上所示。(4)使用线性回归估计缺失值。(5)得到的回归系数线性模型对象lmObj。(6)添加一个偏见的目标行初允许偏差参数。(7)执行修改后的目标行之间的向量乘法和回归系数,得到了向量的元素加在一起估计价值。(8)代替缺失值估计价值。(9)去一步和重复以上步骤来填补缺失值,除非提到“最少数量的缺失值”的一步小于或等于3。
虽然我们这里提到,我们继续填充缺失值到一个点,它是不正确的。在我们停止这个填写过程评估我们的算法。
之后填写所有缺失的值对应于单缺失值的行我们选择一个特定的集合row-column位置对应行,没有缺失值最初,故意将在这些位置的值视为失踪和使用相同的过程来估算值。
相同的集合row-column位置时再次使用该算法填满所有的行了两个失踪的威尔士人,然后当它填补了缺失值存在的行三个缺失值。
3.2。使用遗传算法的基因排序
在第二阶段的工作,缺失值估计过程的结果在第一阶段是生物验证进行排名使用遗传算法的基因。由于基因表达微阵列数据的特点是,变量(基因)的数量远远超过样品的数量,我们必须减少它的维度。执行遗传算法对原始数据集非常不切实际的和费时。作为一个预处理步骤,我们减少了维度使用Wilcoxon等级和测试。
3.2.1之上。降维使用Wilcoxon秩和检验(WRST)
Wilcoxon等级和测试函数的输入是两个基因集,病变组和正常组,其中分别经历了缺失值估计过程(如果有任何缺失值)。两套基因可能有不同的数量的样品。让我们考虑病变组是()大小的基因表达数据,基因的数量和吗样品的数量,正常组的大小(),是样品的数量。Wilcoxon等级总和函数处理两个数据集为了找出哪些基因是接受还是拒绝零假设。它返回两个值,价值和价值,正如前面所讨论的。零假设为我们的问题是,不是差异表达的基因;也就是说,所有的样品来自患病的病人或他们来自正常的病人。备择假设可以差异表达基因。我们记录价值观和为每个基因值。
在下一步中,我们只考虑备择假设持有这些基因()在显著性水平α和类似的基因值从而排名的基因。然后,我们选择最顶层的基因,的人口规模用于GA。因此,我们有两个数量减少,一个代表患病,另一个代表正常组织。让患病组,降低的基因和集吗分别是样本的数量,让是正常组,是样品的数量。
3.2.2。染色体的表示和遗传算法的初始种群
减少基因集和作为遗传算法的初始种群的一步。他们包含pop_size数量的基因所预选的用户。我们用真正的价值表示每个染色体编码;也就是说,和的测量记录吗th基因和分别th每个人口样本。
3.2.3。健身计算
健身减少每个基因的基因集再次计算方法类似于(14)基因表达谱被认为是连续的时间序列曲线。
在我们的问题,我们有两个群体,一个用于病变组织和正常组织的其他。两个种群包含相同数量的基因但可能有不同数量的样本。在这种情况下,我们考虑的最低两个和提取相同数量的样本集。
让在每个人口减少的一组基因。如果,那么对于每个人口,向量的区别的计算使用(1)。一旦差别向量计算的两个种群,说(病)(正常)的数量匹配向量之间的区别的会员级别计算使用(2)。
健身的基因是互惠的和计算 这意味着更多的类似基因的分布两个种群中,差异表达基因,反之亦然。因此,一个健康基因会有不同的两种人群的分布。然后我们把基因为了他们的健康。
3.2.4。精英主义
我们使用一个精英的GA版本最好的染色体是结转下一代不变;交叉和变异操作,不应用于最好的染色体。这种技术可以确保更快的收敛过程的跟踪的最佳解决方案。
3.2.5。选择
选择,我们使用了一个轮盘赌选择基因技术基于他们的相对健康的价值观。更好的染色体,更多选择的机会。让数精英的孩子的数量。我们构建一个轮盘赌如下(22]:(我)计算适应度值对于每一个染色体,。(2)发现总健身的人口=。(3)计算的概率选择对于每一个染色体,: (iv)计算累积概率对于每一个染色体,: 我们现在旋转车轮(pop_size−count)时间和选择单个染色体如下:(我)生成一个随机数(浮动)在0和1之间。(2)如果我们选择第一个染色体;否则,选择th染色体(),这样。一些染色体选择不止一次。根据模式定理(24),最好的染色体得到更多的副本,保持均匀,平均和最严重的死亡。
3.2.6。交叉
对于交叉,我们进行如下。
对于每一个染色体人群中,(我)生成一个随机数(浮动)在0和1之间,(2)如果(交叉概率),我们选择给定的染色体交叉。我们使用单点交叉,交叉站点也生成随机的范围,在那里是样品的数量。因此交叉后,一对父母染色体产生一对后代染色体(25]。后获得的新的人口交叉包含交叉以及生产的新一代精英的孩子没有接受交叉。这个新的人口是用于突变的过程。
3.2.7。突变
非均匀变异算子,提出了文献[25一直在这里使用。新算子定义如下:
(我)进行随机试验产生的结果要么是0或1。(2)另一个随机数生成pos范围,在那里是样品的数量,选择突变。(3)让,,是染色体,让被选中的突变。域的是;合成矢量: 在哪里是代数量和功能返回一个值的范围这样的概率接近0增加增加。这个属性使这个操作符最初(当搜索空间均匀在后期小)和本地。
是计算 在哪里是一个随机号码范围,代预选的最大数量的用户,然后呢是一个系统参数确定程度的一致性。我们使用对我们的实验。
整个遗传转化一直上执行一个人口相对于另一个。我们病基因进行遗传转化而健康评估已经取得了对正常基因集。相反的转换会产生类似的结果。
一旦基因转换完成,我们获得最后一个人口设置(在这里,基因改造病变基因集)已排名为了他们的健康。我们比较两个队伍,一个由Wilcoxon由我们的GA方法和其他方法。的阈值2已被认为是在比较这两个等级。结果表明,两者的比例是一个很好的比赛。此外,我们发现排名最高的基因由两种方法,这两种方法产生的显著的基因也相似。这也验证的结果在第一阶段进行缺失值估计方法。
3.3。基因分类使用支持向量机
为了证明的重要性排名由我们的GA方法,我们进行分类。排名最高的的基因,n ' 排名的GA方法用于目的。我们使用倍厕所交叉验证,是不同的从一个数据集到另一个根据样本的数量。交叉验证,我们将数据集分为两组,训练集和测试集,80:20比例。背后的原因采取这一比率是80:20是一个常见的比率,通常被称为帕累托原则。所以,如果有在训练集和样品样品的测试集,训练集的样本总数,分为同等大小的子集。的子集,子集是验证和剩余的保留作为训练数据子集。因此,与线性SVM分类器内核被训练使用训练子集。记录的分类准确率和最好的准确率的分类器是用于测试样本。
4所示。实验结果
4.1。使用数据集
缺失值估计的部分提出修改LRFDVImpute技术一直在评估公开酵母细胞周期时间序列数据集从首位et al。26表中描述)1。
首位数据集实验完成后,结合基因排序和分类部分的方法评估四个公开数据集:结直肠癌肿瘤数据集(GDS4382),乳腺癌数据集(gse349 - 350),前列腺癌的数据集,白血病癌症数据集(DLBCL-FL)。
4.2。平台使用
所有算法都使用MATLAB实现R2013a Windows 8.1。
4.3。结果
4.3.1。缺失值估计的结果部分
我们执行的初始估计使用修改版LRFDVImpute会员级别。最初的评估结束后,我们强行治疗细胞在指定地点失踪,估计他们使用不同成员的值早些时候和修改后的版本。这只进行了一次,之后估计行单缺失值和相应的RMSE值已经被记录在案。我们进行的实验只在α,cdc15, elu首位数据集的数据。失踪的人数为cdc28值太大;这就是为什么我们忽略这部分。结果为α,cdc15 elu数据集使用两种方法如表所示2- - - - - -4。数据3- - - - - -5显示相应的块RMSE与会员级别为每个四个数据集。
表5LRFDVImpute方法的比较两个版本的性能的其他现有方法,像SVDImpute LLSImpute, FDVLLSImpute, FDVSPLINEImpute,等等,结果表明,修改版本的LRFDVImpute优于现有的其他方法RMSE值而言。
4.3.2。综合的结果
我们测试的意义提出缺失值估计技术使用基因排序法。我们还没有找到任何先进的工作在基因目前排名首位的数据集。这就是为什么我们使用四个公开真实的基因表达数据集,如结肠癌数据集(GDS4382),乳腺癌数据集(gse349 - 350),数据集,前列腺癌和白血病癌症数据集(DLBCL-FL) (4,27- - - - - -32等),执行步骤缺失值估计和基因排序和分析结果。我们从微阵列数据集包含缺失值和应用计划的缺失值估计技术来估计基因缺失的值(如果有的话)。我们排名他们使用提出基因排序法和发现排名最高的基因。然后我们强行在排名最高的基因插入缺失值,估计他们使用相同的缺失值估计技术。最后,我们把他们再次找到首位排名基因。结果表明,大部分排名最高的基因是相同的,这意味着该缺失值估计技术一直在准确估计未知值。我们有规范化的大部分数据集使用分数归一化法以将数据值共同的规模。
表6,8,10,13显示四个数据集的估算值,表7,9,11,14展示常见基因前后指标的评估,和表12和15比较该方法与性能的两个最先进的方法(22,23]因为前列腺癌和白血病数据集的基础上的准确性,敏感性,特异性,分数,平均指标。我们发现前列腺癌和白血病的常见数据集的现有方法都完成了他们的实验。结果表明,该基因排序方法执行更好的与现有方法相比,一个是一个基于PSO图理论方法(22dwf),另一个是基于web的工具,它使用资讯和NBC分类器(23至于这些指标。
5。结论和未来的范围
提议的修改版本LRFDVImpute技术一直在测试数据集从首位et al。26),展示了令人印象深刻的结果。它优于一些先进的方法。RMSE与会员级别的情节显示修改后的版本相当于或优于α和cdc15数据集的早期版本。然而,对于cdc28数据集,早期版本显示更好的结果。elu数据集,这两个误差已达到0。两个版本,一个隶属度在0.55和0.65之间产生最小误差和任何价值在这个范围内都可以被视为一个阈值被用于新的实验。
缺失值估计的验证表明,大多数排名最高的基因是相同的,之前和之后的非难,这意味着该修改LRFDVImpute技术一直在准确估计未知值。
作为一个未来的范围,我们想使用二次回归分析的影响的估计缺失值和数据清洗技术的使用在归责可能删除离群值是否和进一步减少误差。基因排序,我们希望来分析不同的遗传算法参数设置的影响,观察排名和分类结果使用支持向量机与其他内核和也与文献中提到的比较结果。我们也希望修改算法,使这个排名更有效率,找出最重要的基因,正确识别特定类型的子类型的癌症。为白血病数据集(16),这可能是识别b细胞和t细胞急性淋巴细胞白血病(ALL)的血统样本。
相互竞争的利益
作者宣称没有利益冲突。