计算和数学方法在医学

在这一页上

文摘介绍方法结果讨论确认补充材料引用版权相关文章

特殊的问题

机器学习和网络生物学和医学的方法

把这个特殊的问题

研究文章|开放获取

体积2015年| 文章的ID178572年| https://doi.org/10.1155/2015/178572

系统评价的特征选择和分类算法使用模拟和真实的microrna的测序数据

盛杨,¹ 李郭,¹ 方邵,¹ 杨赵,¹ 和陈冯 ¹

学术编辑器: 林路

收到了 2015年6月10

接受 2015年8月25日

发表 2015年10月05

文摘

被广泛用于测序发现小分子核糖核酸(microrna)和疾病之间的联系。然而,负二项分布(NB)和高维度的数据使用顺序会导致低功耗结果和重现性较低。提出了几个统计学习算法解决测序数据,虽然评价这些方法是至关重要的,这样的研究比较少见。7的性能特征选择算法(FS),包括baySeq DESeq,磨边机,秩和检验,套索,粒子群乐观的决策树,和随机森林(RF),比较了在不同条件下模拟基于均值的差异,NB的色散参数和信号噪声比。真实的数据被用来评估射频性能的,逻辑回归和支持向量机。基于模拟和实际数据,我们将讨论的行为FS和分类算法。先验的算法发现频繁项集(mir - 133 a, mir - 133 - b, mir - 183, mir - 937,和mir - 96)从管制microrna六癌症基因组图谱的数据集。完全把这些发现,考虑计算内存需求,我们提出一个策略相结合的磨边机和DESeq大样本大小。

1。介绍

小分子核糖核酸(microrna)小、内生和非编码RNA信使核糖核酸(mRNA)触发的放松管制和转化镇压通过绑定(3′UTR) 3′端非翻译区这些目标的1]。根据他们的生物功能和稳定性,microrna也被视为生物标记来区分情况和控制(2,3]。因此,新兴技术,如互补脱氧核糖核酸微阵列、高密度寡核苷酸芯片,和下一代测序(门店),非常有用在microrna的发现导致或预防疾病(4]。互补脱氧核糖核酸微阵列和高密度寡核苷酸芯片只能够提供相对表达水平,而上天可以用来计算读取和获得的确切数字序列信息(臂切换和isomiRs) (5]。

处理高维门店数据并获得生物过程的深入见解,统计学习方法是新兴的目标分类标签通过选择特性的一个子集,最小化的系数特性或减少他们的尺寸6,7]。使用负二项分布(NB)假设,磨边机,DESeq, baySeq是三个重要的过滤算法选择重要变量的内在特征(8- - - - - -10]。包装器算法基于分类应用特征空间的搜索策略,包括顺序向前搜索(SFS)和顺序向前浮动搜索(设定触发器);然而,这种方法的计算强度大(11]。混合动力车的特征选择和分类,即嵌入方法,如随机森林(RF),作为分类模型的内部参数,减少计算需求(12]。此外,独立的分布、收缩技巧,例如套索,也扮演着重要的角色在高维挥动13]。

最近,一项评估的统计和机器学习算法为门店数据已成为必不可少的。这种评价可以从三个方面来实现:(i)比较7受欢迎的特征选择算法的性能仿真的环境中,使用敏感性和特异性;(2)研究三个属性的分类算法、逻辑回归、支持向量机(SVM),射频,上下文中的差异表达(DE) microrna的癌症基因组图谱(TCGA)数据获得更深的洞察FS和分类的结合;和(iii)分析基于microrna六个癌症的相似性和相应的途径。

2。方法

2.1。模拟

首先,我们假设门店数据NB的分布,对应参数,意思是,色散参数(DP)的NB和信号噪声比(s2n)模拟。数据的膨胀程度成正比,DP s2n是重要变量的比例微不足道的变量。第二个假设是,所有重要的变量是因果的,这表明案例的方式组比对照组。

基于这两个基本假设,涉及三个不同的设置:s2n范围从0.01到0.2 (A1-A5),意味着重要的变量在集团范围从10到30 5 (B1-B5)和DP的重要变量在集团范围从0.125到8 (C1-C5)。共有1000个复制生产获得一个健壮的结果。无关紧要的参数设置和重要的变量是相同的和固定的在所有的情况下。当一个参数进行了研究,其他的设置保持固定。提出了关于参数设置表细节1。

2.2。概述FS算法及其评价指标

我们七个不同算法模拟相比,包括三个算法具体门店数据(DESeq、刨边机、和baySeq), Wilcoxon等级和测试,套索,粒子群优化算法由决策树(PSODT),授权和射频。每个算法包括不同类型的特征选择。前五个方法过滤方法,因为它们基于统计的顺序或选择变量系数。PSODT,包装器算法,搜索变量的子集通过DT算法和评估的分类性能。射频结合了分类和特征选择。Bioconductor包baySeq,DESeq2,刨边机使用,套索和射频完成吗glmnet和randomForest包R(版本3.0.3)框架,分别。

DESeq和磨边机是两个基本的特征选择算法在门店数据和基于NB分布假设。然而,他们使用不同的参数估计方法。DESeq估计DP基于汇集的数据,可以从不同的库大小混杂因素正常化。当地回归用于估计每个变量的函数原始方差,方差的一个组成部分。刨边机算法定义了加权条件对数似,这是一个常见的和个人的可能性,估计的参数和用途衡量公共部分的重要性。准确测试使用这两个方法(14]。baySeq的区别1和后验概率是价值。的cv.glmnet交叉验证函数估计处罚重量的套索。我们使用相同的参数设置为PSODT(陈等人11]。每个变量的得分被确认为的时间gb等于pb。对于射频,我们使用默认设置,也就是说,树木的数量(ntree)= 500和随机变量在每个划分的数量(mtry)=,在那里是变量的总数。

在模拟中,输入我的错误和权力是用来评估四个统计算法的性能(baySeq DESeq,磨边机,排名和测试),因为他们是基于假设检验。第一类误差和功率对应的频率噪音和重要变量的值小于0.05或1000年复制Bonferroni调整水平,分别。这些过程涉及四种机器学习方法,敏感性和特异性整个技术被用来比较。这些值是根据计算 TP、TN、FP和FN的真实数量的情况下,真正的控制,错误的情况下,分别在1000年和错误控制复制。

2.3。真实的数据

TCGA的六种不同的癌症测序数据集(功能和样品),包括乳腺浸润性癌(BRCA)、头颈部鳞状细胞癌(HNSC),肾脏chromophobe (KICH),肺腺癌(LUAD),胃腺癌(STAD),甲状腺癌(THCA)。我们只选择匹配的样本。低microrna的表达和表达水平在所有样本不到10被排除在外(表2)。

2.4。景观分类算法和索引

分类算法,包括逻辑回归、射频和支持向量机,被认为是另一个重要点,因为他们表示选定的生物标志物的预测性能。逻辑回归,一种广义线性模型(GLM),被广泛应用在病例对照研究中,作为其指数系数比值比(或),直接阐明的风险变量。基于拉格朗日对偶理论和内核函数,支持向量机解决了双重问题而不是最低主要问题和变量映射到一个更高的维度。因此,使用超平面非线性分类样本被歧视。下面的方程显示了这种方法的标准形式: 我们选择的默认设置支持向量机高斯函数,它是一个内核,并设置hyperparameter和误差项。

随机5倍交叉验证应用于实际数据来估计分类算法的性能。这种交叉验证意味着4/5的样品被用来构建模型并选择特性,和残余被用来测试验证;这个过程被重复100次。ROC曲线下的面积(AUC),阳性预测值(PPV)以及阴性预测值(NPV)评估的分类性能特色子集。

2.5。先验的检测不同数据集的microrna的频繁项目集

先验的定义基于三个索引项集的频率,包括支持,信心,电梯。的支持的项目集被定义为包含的数据集的百分比。的信心代表协会的规则条件概率的计算。的电梯的比例,商后,前一个关联规则的信心。前两个标准可以选择频繁项目集。

频繁的microrna集定义DE microrna的六个数据集由以下标准:(a) microrna满意Bonferroni调整;(b)的microrna选择超过或等于80次一个算法;和(c)定义的microrna是至少3算法。频繁的microrna的被确认为有支持和信心值大于或等于0.5。最后,他们的目标是预测两次从三个数据集(TargetScan,米兰达和miRTarBase)和浓缩分析定义了管制途径的基因本体论(去)15- - - - - -17]。

3所示。结果

3.1。使用模拟FS算法的评价

3.1.1。经验主义错误和权力的四个统计算法

我错误的类型和权力结果如图1和2。baySeq DESeq,排名和测试似乎控制第一类误差在0.05的显著性水平,虽然排名和Bonferroni调整后测试失败。磨边机的错误是稍膨胀。s2n似乎没有关系的权力,而均值和DP的力量的影响。基于之间的区别意味着增加或减少DP,所有算法的力量增加。特别是,排名下降趋势与增加DP观察和测试,因为它包括考虑变量的分散。然而,三种排序方法的力量高,特别是baySeq。

(一)

(b)

(一)

(b)

(c)

3.1.2。敏感性和特异性不同设置的三个参数

模拟的结果使用场景A1-A5 B1-B5, C1-C5,包括变频、灵敏度、特异性在不同的情况下,提出了在桌子上3和图3。首先,DP影响机器学习算法的两个索引和排名,虽然它只有一个小影响三种排序方法的性能。磨边机的敏感性和DESeq大于baySeq,尽管敏感性的增加和减少的程度更大。增加色散,排名的敏感性和和套索方法大约0。第二,当案件的手段之间的区别和控制样本从5到25日增加的敏感性增加到不同的区段。三种排序方法和等级和测试中,指数显示一个明显的增加,选择重要的变量的频率更高。PSODT的敏感性和特异性,射频显示小的改变的意思。第三,大s2n值导致增加的频率敏感性的重要变量baySeq和RF但似乎没有与残差的关系。

七算法,我们得到以下的结果。的敏感性baySeq似乎是低于其他测序方法。DESeq和磨边机的变化相对较相似,尽管后者不是控制错误。套索也严格控制类型错误,虽然它的力量是低于其他方法在多个场合。秩和检验、非参数方法,也受到三个参数的影响,也许是不适合测序数据。特别是,DP从0.125增加到8时,其灵敏度从1.00下降到0.23。的敏感性参数改变时PSODT高度稳定。射频只是s2n相关的敏感性因素。

3.2。FS和分类方法在实际数据

重要的microrna的数量被不同的FS算法和它们之间的关系如图所示41网上和附加文件http://dx.doi.org/10.1155/2015/178572。基于频率酒吧每个数据集的情节和维恩图,这些结果是显而易见的。首先,baySeq、磨边机和秩和测试选择最多的microrna在不同的数据集。例如,在KICH,排名和测试选择87重要的microrna, microrna最大数量的意义被六个算法。第二,三种排序方法和等级和测试有更多的交集。然而,PSODT很少发现了同样重要的microrna在交叉验证,和十字路口也罕见。

(一)

(b)

(c)

(d)

(e)

(f)

如表所示4,分类算法的结果如下。首先,射频比逻辑回归和支持向量机。例如,基于结果从KICH刨边机,中华民国的逻辑回归系数为0.39,低于射频和SVM。有趣的是,逻辑回归使用的变量选择套索表现最好,也许是因为数量的变量之间的比例和数量的样品是不适合逻辑回归,除了套索。第二,尽管PSODT最低的力量七FS算法,分类性能不是最糟糕的。例如,在BRCA,变量选择的分类形式PSODT比秩和检验。

3.3。运行时

七个算法的运行时间是额外的文件2所示。模拟,baySeq大约需要2个小时,比其他方法还长。然而,不同的结果观察使用真实的数据。的时候DESeq大幅增加而增大样本量;然而,其他方法没有明显的变化增加样本量。因此,baySeq消耗最大的计算资源,尤其是DESeq的资源消耗很大程度上是由样本大小决定。

3.4。microrna的频率设置六个癌症和富集分析

DE microrna在每个癌症组,先验的选择频率项集可能co-DE microrna在癌症(额外的文件3)。mir - 133 a - 1, mir - 133 b, mir - 183, mir - 937, mir - 96是经常发现DE microrna在六个癌症。同时有些microrna管制;例如,信心mir - 96的mir - 133 a - 1是1,和电梯等于2。此外,富集的通路cotargets也发现使用(附加文件4和5)。

4所示。讨论

使用模拟和实际数据,我们比较了七个特征选择算法,三个分类算法的性能。模拟确定了七个FS的不同表现方法:baySeq, DESeq,磨边机,秩和检验,套索,PSODT和射频。在四个统计方法的比较中,我们观察到以下几点:(a)一个更大的DP可能导致的低功率等级测试由于未能估计DP总和;(b)的差异意味着大于15,测序方法的力量是强大的;与增加DP (c),有一个小的力量减少测序方法,尤其是对baySeq。对于敏感性和特异性,达成以下结论:(a) s2n baySeq和射频性能的影响;(b)的增加意味着导致增加敏感性的差异;和(c)增加DP三排序算法,但是几乎没有影响的敏感性降低。此外,真正的数据显示,(a)逻辑回归不适合高维、小样本数据和(b)射频的性能优于SVM。

此外,七个算法使用不同的条件进行评估。磨边机是适用于大样本大小因为较低的计算时间,尽管它的第一类误差略有增加。错误和权力表明baySeq也许是最好的选择的性能显著的基因,尽管样本量大,可能需要很长的计算时间(18]。类似于baySeq, DESeq需要更多的时间和增加样本量,尽管它的优势是,它可以分析数据只使用一个复制在每个治疗组(图1和额外的文件(2)10]。三种算法的选择是由实验设计(18]。等级和测试可以适合任何分布的假设,但它未能在NB选择变量,尤其是增加DP。套索可能是太大的损失,因为一些重要的变量选择。PSODT很少选择的重要变量,也没有与三个因素,因为它定义了一个变量的组合有DT的最佳性能。考虑到电力、错误和计算成本,FS选择过程可以由两个或两个以上的过程:(a)的主要选择,这就需要快速和高功率算法,和(b)进一步选择,这就需要一个算法控制错误。在我们的研究中,我们提出的结合磨边机和DESeq作为战略选择为大样本大小的重要变量。

本研究有一些优势之前的研究(18,19]。首先,模拟不仅认为捷数据NB分布也比较了FS或分类算法在不同背景下的意思是,DP, s2n。缺乏黄金标准,真正的数据未能FS方法进行比较。保证效率,从实际数据获得的参数设置。第二,本研究不仅涉及三个排序算法也是机器学习方法。

然而,本研究也有许多缺点。首先,所涉及的三个分类器可能忽视不同变量之间的交互;然而,扮演重要角色的交互解释分子和疾病之间的联系。与网络成功地用于生物学、基于网络的分类器更适合解释协会(20.]。第二,一些新的生物信息学分类器不包括,如LibD3C HPFP, miRClassify [21- - - - - -23]。LibD3C,尤其对蛋白质序列的细胞因子的分级系综分类器适用于每一层提高预测准确性和使用杀来克服样本的不平衡。也选择120功能八蛋白质的物理化学性质,可用于分析测序的数据(21]。

学习时的真实数据,我们发现mir - 133 a - 1, mir - 133 b, mir - 183, mir - 937,和mir - 96是频繁的microrna集六个癌症,这些可以增加的和一些组合的概率。通过调节mcl1的表达和BCL2L2, mir - 133 b与肺癌有关,也观察到在我们的结果24]。的频繁项集,mir - 133 b还与食管鳞状细胞癌有关FSCN1(25]。mir - 96和mir - 183为舞台和等级的移行细胞癌(26]。

总之,我们建议使用磨边机和DESeq分析microrna的测序数据与大样本大小。先天发现频繁项集,可能导致其他肿瘤。

利益冲突

作者宣称没有利益冲突有关的出版。

确认

这项工作得到了国家自然科学基金(81530088号,61301251,81473070,81502888,81373102),研究和创新项目为江苏省高校毕业生(不。KYLX_0944)、江苏省自然科学基金(没有。BK20140907),江苏Shuangchuang计划,科学技术发展基金重点项目南京医科大学(没有。重点学科2014 njmuzd003),程序开发江苏高等教育机构(PAPD)。

补充材料

文件1 - 2:两个文件显示了相似的计算消耗6个特征选择方法,分别。

文件3 - 5:三个表microrna的原理步骤的结果分析,包括检测DE microrna预测他们的目标和富集分析。的三个步骤是选择microrna生物功能的预测。文件3显示了三个元素的索引频繁项集。文件4列出了预测目标的形式三个数据集。文件5列表顶部的通路富集分析。

补充材料

引用

大肠Huntzinger和大肠Izaurralde”,由小分子核糖核酸基因沉默:平移镇压和mRNA衰减的贡献,”自然遗传学评论,12卷,不。2、99 - 110年,2011页。
视图: 出版商的网站 | 谷歌学术搜索
z威廉姆斯,z . Ben-Dov, r·伊莱亚斯et al .,“综合分析循环通过小微RNA序列互补脱氧核糖核酸数据库也揭示了潜在生物标志物和限制,“美国国家科学院院刊》上的美利坚合众国,卷110,不。11日,第4260 - 4255页,2013年。
视图: 出版商的网站 | 谷歌学术搜索
美国Zadran, f . Remacle, r·d·莱文”microrna的mRNA癌症签名由大群患者的表达水平,分析”美国国家科学院院刊》上的美利坚合众国,卷110,不。47岁,19160 - 19165年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
a . Git h . Dvinge m . Salmon-Divon et al .,“系统芯片的比较分析、实时PCR和下一代测序技术测量微分microRNA的表达,“核糖核酸,16卷,不。5,991 - 1006年,2010页。
视图: 出版商的网站 | 谷歌学术搜索
l .郭h .张、赵y s .杨和f·陈,“通过手臂切换选择isomiR表达谱吗?”基因,卷533,不。1,第155 - 149页,2014。
视图: 出版商的网站 | 谷歌学术搜索
g .詹姆斯d·威滕、t . Hastie和r . Tibshirani介绍统计学习:应用R施普林格,2013年。
y Saeys,即Inza p的票数,“回顾特征选择技术在生物信息学中,“生物信息学,23卷,不。19日,2507 - 2517年,2007页。
视图: 出版商的网站 | 谷歌学术搜索
m·d·罗宾逊、d·j·麦卡锡和g·k·史密斯,“磨边机:Bioconductor包微分表达式数字基因表达数据的分析,“生物信息学,26卷,不。1,第140 - 139页,2010。
视图: 出版商的网站 | 谷歌学术搜索
t . j . Hardcastle和k·a·凯利BaySeq:经验贝叶斯方法确定微分表达式序列统计数据,”BMC生物信息学第422条,卷。11日,2010年。
视图: 出版商的网站 | 谷歌学术搜索
安德斯和w·胡贝尔“微分表达式分析序列统计数据,”基因组生物学,11卷,不。10篇文章R106 2010。
视图: 出版商的网站 | 谷歌学术搜索
K.-H。陈,K.-J。王>。蔡et al .,“癌症基因选择的标识:授权决策树模型的粒子群优化算法,”BMC生物信息学第四十九条,卷。15日,2014年。
视图: 出版商的网站 | 谷歌学术搜索
r . Diaz-Uriarte和s . a . de Andres”基因微阵列数据的选择和分类使用随机森林,”BMC生物信息学第三条,卷。7日,2006年。
视图: 出版商的网站 | 谷歌学术搜索
r . Tibshirani”回归收缩和选择通过套索:回顾,“《皇家统计Society-Series B:统计方法,卷73,不。3、273 - 282年,2011页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
m·d·罗宾逊和g·k·史密斯”,负二项分布的小样本估计,SAGE数据的应用程序,“生物统计学,9卷,不。2、321 - 332年,2008页。
视图: 出版商的网站 | 谷歌学术搜索 | Zentralblatt数学
南达科他州。许,Y.-T。曾Shrestha et al .,“MiRTarBase更新2014:实验验证miRNA-target交互的信息资源,”核酸的研究,42卷,不。1,D78-D85, 2014页。
视图: 出版商的网站 | 谷歌学术搜索
b·p·刘易斯、c·b·伯吉斯和d . p . Bartel”守恒的种子配对,经常在腺苷,表明,成千上万的人类基因微目标,“细胞,卷120,不。1、15 - 20,2005页。
视图: 出版商的网站 | 谷歌学术搜索
m . ashburn c a球,j·a·布莱克et al .,“基因本体:生物学的统一的工具。基因本体论财团”,自然遗传学,25卷,不。1、25 - 29,2000页。
视图: 出版商的网站 | 谷歌学术搜索
v . m . Kvam p . Liu和y . Si”的统计方法比较差异表达基因检测从RNA-seq数据,”美国植物学杂志》,卷99,不。2、248 - 256年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
j·h·布拉德,e . Purdom k·d·汉森和s . Dudoit”评价的统计方法标准化和微分表达式在mRNA-Seq实验中,“BMC生物信息学第94条,卷。11日,2010年。
视图: 出版商的网站 | 谷歌学术搜索
李问:邹,j . c . Wang和x曾庆红,“基于网络的方法识别疾病基因”,生物医学研究的国际文章ID 416323卷,2014年,10页,2014。
视图: 出版商的网站 | 谷歌学术搜索
问:邹,z . Wang关x, y, b . Liu和z林,“一种方法基于小说系综分类器识别细胞因子,”生物医学研究的国际ID 686090条,卷。2013年,11页,2013年。
视图: 出版商的网站 | 谷歌学术搜索
c .林y邹,j .秦et al .,“分层分类的蛋白质折叠使用新颖的系综分类器,”《公共科学图书馆•综合》,8卷,不。2篇文章ID e56499 2013。
视图: 出版商的网站 | 谷歌学术搜索
毛问:邹,y, l, y,和z,“miRClassify:一个先进的web服务器microrna的家庭分类和注释,“计算机在生物学和医学,45卷,不。1,第160 - 157页,2014。
视图: 出版商的网站 | 谷歌学术搜索
m·克劳福德k . Batte l . Yu et al .,“微133 b目标pro-survival分子mcl1和BCL2L2肺癌,”生物化学和生物物理研究通信,卷388,不。3、483 - 489年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
m·卡诺:塞其:规划et al .,“mir - 145, mir - 133 - a和mir - 133 b:肿瘤抑制目标FSCN1 microrna在食管鳞状细胞癌,”国际癌症杂志》上,卷127,不。12日,第2814 - 2804页,2010年。
视图: 出版商的网站 | 谷歌学术搜索
h . Enokida y Yamada s小岛et al .,“mir - 96和mir - 183检测尿液中作为潜在的移行细胞癌肿瘤标志物:相关阶段和等级,并与尿细胞学比较,”癌症科学,卷102,不。3、522 - 529年,2011页。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

下载

引用