文摘
被广泛用于测序发现小分子核糖核酸(microrna)和疾病之间的联系。然而,负二项分布(NB)和高维度的数据使用顺序会导致低功耗结果和重现性较低。提出了几个统计学习算法解决测序数据,虽然评价这些方法是至关重要的,这样的研究比较少见。7的性能特征选择算法(FS),包括baySeq DESeq,磨边机,秩和检验,套索,粒子群乐观的决策树,和随机森林(RF),比较了在不同条件下模拟基于均值的差异,NB的色散参数和信号噪声比。真实的数据被用来评估射频性能的,逻辑回归和支持向量机。基于模拟和实际数据,我们将讨论的行为FS和分类算法。先验的算法发现频繁项集(mir - 133 a, mir - 133 - b, mir - 183, mir - 937,和mir - 96)从管制microrna六癌症基因组图谱的数据集。完全把这些发现,考虑计算内存需求,我们提出一个策略相结合的磨边机和DESeq大样本大小。
1。介绍
小分子核糖核酸(microrna)小、内生和非编码RNA信使核糖核酸(mRNA)触发的放松管制和转化镇压通过绑定(3′UTR) 3′端非翻译区这些目标的1]。根据他们的生物功能和稳定性,microrna也被视为生物标记来区分情况和控制(2,3]。因此,新兴技术,如互补脱氧核糖核酸微阵列、高密度寡核苷酸芯片,和下一代测序(门店),非常有用在microrna的发现导致或预防疾病(4]。互补脱氧核糖核酸微阵列和高密度寡核苷酸芯片只能够提供相对表达水平,而上天可以用来计算读取和获得的确切数字序列信息(臂切换和isomiRs) (5]。
处理高维门店数据并获得生物过程的深入见解,统计学习方法是新兴的目标分类标签通过选择特性的一个子集,最小化的系数特性或减少他们的尺寸6,7]。使用负二项分布(NB)假设,磨边机,DESeq, baySeq是三个重要的过滤算法选择重要变量的内在特征(8- - - - - -10]。包装器算法基于分类应用特征空间的搜索策略,包括顺序向前搜索(SFS)和顺序向前浮动搜索(设定触发器);然而,这种方法的计算强度大(11]。混合动力车的特征选择和分类,即嵌入方法,如随机森林(RF),作为分类模型的内部参数,减少计算需求(12]。此外,独立的分布、收缩技巧,例如套索,也扮演着重要的角色在高维挥动13]。
最近,一项评估的统计和机器学习算法为门店数据已成为必不可少的。这种评价可以从三个方面来实现:(i)比较7受欢迎的特征选择算法的性能仿真的环境中,使用敏感性和特异性;(2)研究三个属性的分类算法、逻辑回归、支持向量机(SVM),射频,上下文中的差异表达(DE) microrna的癌症基因组图谱(TCGA)数据获得更深的洞察FS和分类的结合;和(iii)分析基于microrna六个癌症的相似性和相应的途径。
2。方法
2.1。模拟
首先,我们假设门店数据NB的分布,对应参数,意思是,色散参数(DP)的NB和信号噪声比(s2n)模拟。数据的膨胀程度成正比,DP s2n是重要变量的比例微不足道的变量。第二个假设是,所有重要的变量是因果的,这表明案例的方式组比对照组。
基于这两个基本假设,涉及三个不同的设置:s2n范围从0.01到0.2 (A1-A5),意味着重要的变量在集团范围从10到30 5 (B1-B5)和DP的重要变量在集团范围从0.125到8 (C1-C5)。共有1000个复制生产获得一个健壮的结果。无关紧要的参数设置和重要的变量是相同的和固定的在所有的情况下。当一个参数进行了研究,其他的设置保持固定。提出了关于参数设置表细节1。
2.2。概述FS算法及其评价指标
我们七个不同算法模拟相比,包括三个算法具体门店数据(DESeq、刨边机、和baySeq), Wilcoxon等级和测试,套索,粒子群优化算法由决策树(PSODT),授权和射频。每个算法包括不同类型的特征选择。前五个方法过滤方法,因为它们基于统计的顺序或选择变量系数。PSODT,包装器算法,搜索变量的子集通过DT算法和评估的分类性能。射频结合了分类和特征选择。Bioconductor包baySeq,DESeq2,刨边机使用,套索和射频完成吗glmnet和randomForest包R(版本3.0.3)框架,分别。
DESeq和磨边机是两个基本的特征选择算法在门店数据和基于NB分布假设。然而,他们使用不同的参数估计方法。DESeq估计DP基于汇集的数据,可以从不同的库大小混杂因素正常化。当地回归用于估计每个变量的函数原始方差,方差的一个组成部分。刨边机算法定义了加权条件对数似,这是一个常见的和个人的可能性,估计的参数和用途衡量公共部分的重要性。准确测试使用这两个方法(14]。baySeq的区别1和后验概率是价值。的cv.glmnet交叉验证函数估计处罚重量的套索。我们使用相同的参数设置为PSODT(陈等人11]。每个变量的得分被确认为的时间gb等于pb。对于射频,我们使用默认设置,也就是说,树木的数量(ntree)= 500和随机变量在每个划分的数量(mtry)=,在那里是变量的总数。
在模拟中,输入我的错误和权力是用来评估四个统计算法的性能(baySeq DESeq,磨边机,排名和测试),因为他们是基于假设检验。第一类误差和功率对应的频率噪音和重要变量的值小于0.05或1000年复制Bonferroni调整水平,分别。这些过程涉及四种机器学习方法,敏感性和特异性整个技术被用来比较。这些值是根据计算 TP、TN、FP和FN的真实数量的情况下,真正的控制,错误的情况下,分别在1000年和错误控制复制。
2.3。真实的数据
TCGA的六种不同的癌症测序数据集(功能和样品),包括乳腺浸润性癌(BRCA)、头颈部鳞状细胞癌(HNSC),肾脏chromophobe (KICH),肺腺癌(LUAD),胃腺癌(STAD),甲状腺癌(THCA)。我们只选择匹配的样本。低microrna的表达和表达水平在所有样本不到10被排除在外(表2)。
2.4。景观分类算法和索引
分类算法,包括逻辑回归、射频和支持向量机,被认为是另一个重要点,因为他们表示选定的生物标志物的预测性能。逻辑回归,一种广义线性模型(GLM),被广泛应用在病例对照研究中,作为其指数系数比值比(或),直接阐明的风险变量。基于拉格朗日对偶理论和内核函数,支持向量机解决了双重问题而不是最低主要问题和变量映射到一个更高的维度。因此,使用超平面非线性分类样本被歧视。下面的方程显示了这种方法的标准形式: 我们选择的默认设置支持向量机高斯函数,它是一个内核,并设置hyperparameter和误差项。
随机5倍交叉验证应用于实际数据来估计分类算法的性能。这种交叉验证意味着4/5的样品被用来构建模型并选择特性,和残余被用来测试验证;这个过程被重复100次。ROC曲线下的面积(AUC),阳性预测值(PPV)以及阴性预测值(NPV)评估的分类性能特色子集。
2.5。先验的检测不同数据集的microrna的频繁项目集
先验的定义基于三个索引项集的频率,包括支持,信心,电梯。的支持的项目集被定义为包含的数据集的百分比。的信心代表协会的规则条件概率的计算。的电梯的比例,商后,前一个关联规则的信心。前两个标准可以选择频繁项目集。
频繁的microrna集定义DE microrna的六个数据集由以下标准:(a) microrna满意Bonferroni调整;(b)的microrna选择超过或等于80次一个算法;和(c)定义的microrna是至少3算法。频繁的microrna的被确认为有支持和信心值大于或等于0.5。最后,他们的目标是预测两次从三个数据集(TargetScan,米兰达和miRTarBase)和浓缩分析定义了管制途径的基因本体论(去)15- - - - - -17]。
3所示。结果
3.1。使用模拟FS算法的评价
3.1.1。经验主义错误和权力的四个统计算法
我错误的类型和权力结果如图1和2。baySeq DESeq,排名和测试似乎控制第一类误差在0.05的显著性水平,虽然排名和Bonferroni调整后测试失败。磨边机的错误是稍膨胀。s2n似乎没有关系的权力,而均值和DP的力量的影响。基于之间的区别意味着增加或减少DP,所有算法的力量增加。特别是,排名下降趋势与增加DP观察和测试,因为它包括考虑变量的分散。然而,三种排序方法的力量高,特别是baySeq。
(一)
(b)
(一)
(b)
(c)
3.1.2。敏感性和特异性不同设置的三个参数
模拟的结果使用场景A1-A5 B1-B5, C1-C5,包括变频、灵敏度、特异性在不同的情况下,提出了在桌子上3和图3。首先,DP影响机器学习算法的两个索引和排名,虽然它只有一个小影响三种排序方法的性能。磨边机的敏感性和DESeq大于baySeq,尽管敏感性的增加和减少的程度更大。增加色散,排名的敏感性和和套索方法大约0。第二,当案件的手段之间的区别和控制样本从5到25日增加的敏感性增加到不同的区段。三种排序方法和等级和测试中,指数显示一个明显的增加,选择重要的变量的频率更高。PSODT的敏感性和特异性,射频显示小的改变的意思。第三,大s2n值导致增加的频率敏感性的重要变量baySeq和RF但似乎没有与残差的关系。
七算法,我们得到以下的结果。的敏感性baySeq似乎是低于其他测序方法。DESeq和磨边机的变化相对较相似,尽管后者不是控制错误。套索也严格控制类型错误,虽然它的力量是低于其他方法在多个场合。秩和检验、非参数方法,也受到三个参数的影响,也许是不适合测序数据。特别是,DP从0.125增加到8时,其灵敏度从1.00下降到0.23。的敏感性参数改变时PSODT高度稳定。射频只是s2n相关的敏感性因素。
3.2。FS和分类方法在实际数据
重要的microrna的数量被不同的FS算法和它们之间的关系如图所示41网上和附加文件http://dx.doi.org/10.1155/2015/178572。基于频率酒吧每个数据集的情节和维恩图,这些结果是显而易见的。首先,baySeq、磨边机和秩和测试选择最多的microrna在不同的数据集。例如,在KICH,排名和测试选择87重要的microrna, microrna最大数量的意义被六个算法。第二,三种排序方法和等级和测试有更多的交集。然而,PSODT很少发现了同样重要的microrna在交叉验证,和十字路口也罕见。
(一)
(b)
(c)
(d)
(e)
(f)
如表所示4,分类算法的结果如下。首先,射频比逻辑回归和支持向量机。例如,基于结果从KICH刨边机,中华民国的逻辑回归系数为0.39,低于射频和SVM。有趣的是,逻辑回归使用的变量选择套索表现最好,也许是因为数量的变量之间的比例和数量的样品是不适合逻辑回归,除了套索。第二,尽管PSODT最低的力量七FS算法,分类性能不是最糟糕的。例如,在BRCA,变量选择的分类形式PSODT比秩和检验。
3.3。运行时
七个算法的运行时间是额外的文件2所示。模拟,baySeq大约需要2个小时,比其他方法还长。然而,不同的结果观察使用真实的数据。的时候DESeq大幅增加而增大样本量;然而,其他方法没有明显的变化增加样本量。因此,baySeq消耗最大的计算资源,尤其是DESeq的资源消耗很大程度上是由样本大小决定。
3.4。microrna的频率设置六个癌症和富集分析
DE microrna在每个癌症组,先验的选择频率项集可能co-DE microrna在癌症(额外的文件3)。mir - 133 a - 1, mir - 133 b, mir - 183, mir - 937, mir - 96是经常发现DE microrna在六个癌症。同时有些microrna管制;例如,信心mir - 96的mir - 133 a - 1是1,和电梯等于2。此外,富集的通路cotargets也发现使用(附加文件4和5)。
4所示。讨论
使用模拟和实际数据,我们比较了七个特征选择算法,三个分类算法的性能。模拟确定了七个FS的不同表现方法:baySeq, DESeq,磨边机,秩和检验,套索,PSODT和射频。在四个统计方法的比较中,我们观察到以下几点:(a)一个更大的DP可能导致的低功率等级测试由于未能估计DP总和;(b)的差异意味着大于15,测序方法的力量是强大的;与增加DP (c),有一个小的力量减少测序方法,尤其是对baySeq。对于敏感性和特异性,达成以下结论:(a) s2n baySeq和射频性能的影响;(b)的增加意味着导致增加敏感性的差异;和(c)增加DP三排序算法,但是几乎没有影响的敏感性降低。此外,真正的数据显示,(a)逻辑回归不适合高维、小样本数据和(b)射频的性能优于SVM。
此外,七个算法使用不同的条件进行评估。磨边机是适用于大样本大小因为较低的计算时间,尽管它的第一类误差略有增加。错误和权力表明baySeq也许是最好的选择的性能显著的基因,尽管样本量大,可能需要很长的计算时间(18]。类似于baySeq, DESeq需要更多的时间和增加样本量,尽管它的优势是,它可以分析数据只使用一个复制在每个治疗组(图1和额外的文件(2)10]。三种算法的选择是由实验设计(18]。等级和测试可以适合任何分布的假设,但它未能在NB选择变量,尤其是增加DP。套索可能是太大的损失,因为一些重要的变量选择。PSODT很少选择的重要变量,也没有与三个因素,因为它定义了一个变量的组合有DT的最佳性能。考虑到电力、错误和计算成本,FS选择过程可以由两个或两个以上的过程:(a)的主要选择,这就需要快速和高功率算法,和(b)进一步选择,这就需要一个算法控制错误。在我们的研究中,我们提出的结合磨边机和DESeq作为战略选择为大样本大小的重要变量。
本研究有一些优势之前的研究(18,19]。首先,模拟不仅认为捷数据NB分布也比较了FS或分类算法在不同背景下的意思是,DP, s2n。缺乏黄金标准,真正的数据未能FS方法进行比较。保证效率,从实际数据获得的参数设置。第二,本研究不仅涉及三个排序算法也是机器学习方法。
然而,本研究也有许多缺点。首先,所涉及的三个分类器可能忽视不同变量之间的交互;然而,扮演重要角色的交互解释分子和疾病之间的联系。与网络成功地用于生物学、基于网络的分类器更适合解释协会(20.]。第二,一些新的生物信息学分类器不包括,如LibD3C HPFP, miRClassify [21- - - - - -23]。LibD3C,尤其对蛋白质序列的细胞因子的分级系综分类器适用于每一层提高预测准确性和使用杀来克服样本的不平衡。也选择120功能八蛋白质的物理化学性质,可用于分析测序的数据(21]。
学习时的真实数据,我们发现mir - 133 a - 1, mir - 133 b, mir - 183, mir - 937,和mir - 96是频繁的microrna集六个癌症,这些可以增加的和一些组合的概率。通过调节mcl1的表达和BCL2L2, mir - 133 b与肺癌有关,也观察到在我们的结果24]。的频繁项集,mir - 133 b还与食管鳞状细胞癌有关FSCN1(25]。mir - 96和mir - 183为舞台和等级的移行细胞癌(26]。
总之,我们建议使用磨边机和DESeq分析microrna的测序数据与大样本大小。先天发现频繁项集,可能导致其他肿瘤。
利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项工作得到了国家自然科学基金(81530088号,61301251,81473070,81502888,81373102),研究和创新项目为江苏省高校毕业生(不。KYLX_0944)、江苏省自然科学基金(没有。BK20140907),江苏Shuangchuang计划,科学技术发展基金重点项目南京医科大学(没有。重点学科2014 njmuzd003),程序开发江苏高等教育机构(PAPD)。
补充材料
文件1 - 2:两个文件显示了相似的计算消耗6个特征选择方法,分别。
文件3 - 5:三个表microrna的原理步骤的结果分析,包括检测DE microrna预测他们的目标和富集分析。的三个步骤是选择microrna生物功能的预测。文件3显示了三个元素的索引频繁项集。文件4列出了预测目标的形式三个数据集。文件5列表顶部的通路富集分析。