计算和数学方法在医学

在这一页上

文摘介绍材料和方法结果讨论确认引用版权相关文章

特殊的问题

统计遗传学及其在医学研究中的应用

把这个特殊的问题

研究文章|开放获取

体积2013年| 文章的ID610297年| https://doi.org/10.1155/2013/610297

权力和稳定Resampling-Based多个测试程序与应用程序的属性基因肿瘤研究

Dongmei李 ¹ 和Timothy d .染料²

学术编辑器: Ao元

收到了 2013年8月10

修改后的 2013年10月14日

接受 2013年10月18日

发表 2013年11月20日

文摘

Resampling-based多个测试程序广泛应用于识别差异表达基因和基因组研究进行全基因组关联研究。然而,这些流行resampling-based多个的权力和稳定性能测试程序尚未广泛评估。我们的研究着重于调查的权力和稳定七resampling-based多个测试程序经常用于高通量数据分析对小样本数据通过模拟和肿瘤基因的例子。引导单步分程序和引导降压分钟程序执行最好的在所有测试程序,当样本量小如3在每组和familywise错误率或错误发现率控制需要。当样本容量增加到12和错误发现率控制,排列max程序和排列分钟程序执行最好的。我们的研究结果为高通量数据分析提供指导,当样本容量很小。

1。介绍

与快速发展的生物技术、微阵列和下一代测序技术已经广泛应用于生物医学和生物学领域识别差异表达基因,检测转录因子结合位点,映射复杂特征使用单核苷酸多态性(snp) [1- - - - - -7]。多个测试错误率与成千上万,甚至上百万的假设测试,需要考虑。公倍数测试错误率控制在多个假设测试是familywise错误率(弗兰克-威廉姆斯),这是至少一个虚假拒绝的概率(8,9)和错误发现率(罗斯福),这是预期的比例错误地拒绝零假设(10]。

Resampling-based多个测试程序广泛应用于高通量数据分析(如微阵列和下一代测序),尤其是当样本量很小或检验统计量的分布非正态的分布是未知的。Resampling-based多个测试程序可以占从属结构中值或测试统计,导致降低II型错误。常用的重采样技术包括置换测试和引导方法。

排列测试非参数统计显著性测试,测试数据的分布在零假设下构造通过计算所有可能的值或一个具体的测试数据(通常是1000或以上)排列观测下的零假设。排列测试的理论是基于工作费舍尔和皮特曼在1930年代。排列测试传播变为免费,可以提供准确的值甚至当样本容量很小。

引导的方法,首先介绍了埃夫隆(11],进一步讨论·埃夫隆和Tibshirani [12),是一种近似的方法只有一个样本的抽样分布。而许多简单随机样本的人口找到样本统计量的抽样分布,引导方法反复和样品替代从一个随机样本。埃夫隆(11)表明,引导方法提供了一个渐近无偏估计量的方差错误率的样本值和一个线性歧视问题(优于交叉验证)。弗里德曼(13)结论显示,引导近似的最小二乘估计的分布是有效的。最后,大厅(14)表明,引导方法的覆盖概率减少错误,来引导方法,使一个数量级比δ法更准确。的值计算的精确不如引导方法排列方法中获取的值,另外,值估计的渐近收敛到正确的引导方法值(15]。

不同的重采样方法可以得出不同的结论,然而,当应用到相同的数据集。调查多个检测错误率控制,权力,和稳定的重采样方法在不同的情况下是必要的,为数据分析提供指导,以便优化方法在不同的场景中可以使用权力,最大限度地减少多个测试错误率。

在本文中,我们专注于研究力量和稳定性能的几个常用resampling-based多个测试步骤:(1)排列测试(16];(2)permutation-based微阵列(SAM)的重要分析程序(17];和(3)引导多个测试程序15]。

2。材料和方法

2.1。排列测试

进行排列测试基于测试统计测量感兴趣的大小的影响,我们进行如下。(1)计算的测试统计观测数据集,如两个示例以及统计数据。(2)交换原始数据的方式匹配的零假设交换重新取样和构造参考分布使用测试统计数据计算出交换重新取样。(3)计算水平的临界值根据上面的测试参考分布的百分比,或者获得的原始值通过计算排列测试统计的比例比观察到极端,甚至更极端的测试数据。

威斯特法和年轻16提出两种方法来调整原始值来控制多个测试错误率。一个是单步分过程,另一个是单步max过程。

单步的最小值调整值被定义为(18] 单步max调整值定义的测试数据,即(18] 在哪里是完整的零假设。是原始的值th假说,观察到的测试数据吗假设。

2.2。意义的分析微阵列(SAM)过程

微阵列(SAM)的意义分析过程提出的獠牙et al。17)确定基因表达式使用一组gene-specific将发生重大变革测试。山姆,基因被分配分数相对基因表达的改变和重复测量的标准偏差。散点图观察到的相对差异和预期的相对差异估计通过排列基于固定阈值识别统计上显著的基因。

基于描述山姆的獠牙et al。17,山姆过程可以概括如下。(1)计算检验统计量对于每一个基因。(2)计算次序统计量这样。(3)执行排列的反应/协变量。对于每一个排列,计算交换测试统计数据和相应的次序统计量。(4)从排列,估计次序统计量的期望值。(5)形成一个quantile-quantile (qq) (SAM情节)观察到的阴谋与预期的。(6)对于一个给定的阈值,从原点开始,找到第一个和移动这样。过去所有的基因被称为重大的促进因素。同样,从原点开始移动到左边,发现第一这样。过去所有的基因被称为重要的底片。定义上减少一点和较低的点。(7)对于一个给定的阈值,将错误的拒绝预计通过计算基因的数量以上或低于为每个排列和平均数字排列。(8)一个阈值选择控制在完整的零假设,在一个可接受的名义水平。

2.3。引导方法

基于零分布估计的引导方法的测试统计数据介绍了范德朗波拉德和(15)和收益如下:(1)计算观察检验统计量的观测数据集。(2)重新取样数据替换在每组获得引导重新取样,计算每个resampled resampled测试统计数据集,并构造参考使用集中和/或分布比例resampled测试统计数据。(3)计算水平的临界值根据上面的测试参考分布的百分比,或者获得的原始值通过计算比例的引导测试统计一样极端或更极端比观察检验统计量。

MTP函数基于引导方法包括单步分钟和马克斯调整值,以及降压min和降压马克斯调整值。单步max和最小调整值定义为之前。

降压的最小值调整值被定义为和降压马克斯调整值被定义为在哪里表示命令测试统计数据(18]。

2.4。仿真设置

模拟研究进行了比较的权力和稳定resampling-based多个测试程序的独立测试统计数据和相关的测试数据。根据鲁宾et al。19),被定义为预期的真阳性的比例。稳定性是衡量真正的发现的方差和方差的发现。

在我们第一次模拟研究中,每一组包括100个独立生成与样本大小相等的两个样本组每组3到12。100年重复选择因为计算100比1000或更高的重复更有效率。1000年重复也试过,得到了类似的结果。因此,100年重复选择计算效率。的基因总数将2000年真正的零假设的分数吗在50%。在两群比较,生成基因表达水平的标准化的对数多元正态分布。一组有50%的基因与手段和其余意味着在0。另一组的所有基因意味着在0。的表达水平log2规模将从1到6的步骤0.50第一个模拟研究。标准化的对数的差异基因表达水平在两组等于1。因此,不同的意思在两组之间的基因表达是科恩的影响大小。测试数据设置的两两相关系数为0在我们的模拟研究。使用的测试统计方差相等以及整个模拟研究。弗兰克-威廉姆斯/罗斯福级别设置为5%。

我们进行了另一项模拟研究,考察对权力的一部分真正的零假设的影响与稳定。在我们的第二个仿真研究中,每个数据集都包含100份独立生成样本与样本大小相等的两组3。基因(的总数)被设置为1000,分数的差异表达基因10%,25%,50%,75%,90%,覆盖所有可能的场景。在两群比较,基因表达水平log2规模从多元正态分布是随机生成的和。基因之间的相关性是随机波动在0和1之间模仿真正的微阵列数据的相关性。1和2之间的差异是集,一步相当于逆的差异表达基因的数量。方差是设置为1。平等的方差测试用于仿真研究,和弗兰克-威廉姆斯/罗斯福级别设置为5%。

的mt.max和mt.min函数被用来评估西部荒野和年轻的排列测试。山姆函数用于山姆过程。引导范德朗波拉德和提出的方法(15)使用MTP函数被执行死刑。MTP函数包括马克斯方法,最小值方法、单步过程和降压过程,结果分为四个不同的功能,包括单步max(ss.max),单步分(ss.min),降压马克斯(sd.max)和降压min(sd.min)。

2.5。癌症微阵列的例子

卵巢癌是女性癌症死亡的常见原因20.]。微阵列实验确定化疗的患者之间的差异表达基因和化疗的患者(21]。这些差异表达基因可以用来开发最佳治疗新的卵巢癌化疗,病人通过预测可能的回应。12625个基因的基因表达数据6例的信使rna样本,获得莫雷诺et al。年代卵巢癌微阵列研究中,被用来显示的总数量的差异发现其中resampling-based多个测试程序与弗兰克-威廉姆斯或罗斯福控制在5%(数据访问在NCBI GEO数据库(22),加入GSE7463)。卵巢癌的预处理数据集使用RMA背景校正完成,分位数正常化,健壮的线性模型总结。原始的价值和调整值之间的比较有利的化疗组(3科目)和不利的化疗组(3科目)计算使用resampling-based多个测试函数在siggenes multitest包和包。

3所示。结果

模拟研究进行了比较的力量和稳定在所有测试多个测试程序与独立或随机正态分布数据相关的测试数据。样本大小是独立的测试统计每组3 - 12和3在每组随机相关的测试数据。

3.1。仿真结果对于独立测试统计数据

独立测试统计数据与弗兰克-威廉姆斯控制在5%,两个引导min程序比其他所有测试程序当样本容量3在每组(图1)。引导程序单步最小和引导降压分钟程序比其他更强大的测试程序,和弗兰克-威廉姆斯估计接近5%的名义水平。两个(mt.max permutation-based过程和mt.min)没有发现任何团体之间的显著差异,以及他们的弗兰克-威廉姆斯估计接近0。的力量引导马克斯过程(ss.max和sd.max)之间的排列程序和引导min程序。真正发现和总数的估计方差的发现在0 resampling-based多个测试程序进行测试。估计弗兰克-威廉姆斯、电力、跨尺度效应和稳定常数。

(一)

(b)

(c)

(d)

图1

resampling-based权力和稳定性能的多个独立的测试统计测试程序与给水控制在5%,每组3的小样本大小。固体蓝线:排列单步max过程(mt.max函数);红色虚线:排列单步分钟(mt.min函数);绿色虚线:引导程序单步max(MTP ss.max函数);紫虚线:引导程序单步最小(MTP ss.min函数);橙色虚线:引导降压max(MTP sd.max函数);粉红色的虚线:引导降压分钟(MTP sd.min功能)。

引导程序单步和降压min程序仍然拥有最大的权力在所有测试程序罗斯福控制在5%时,样本大小是每组(图32)。罗斯福估计引导单步和降压的分钟程序也名义水平保持在5%左右。山姆过程和两个permutation-based max和最小程序没有发现任何显著性差异,及其罗斯福估计也接近于0。罗斯福估计和两个引导单步和降压马克斯山姆之间的程序过程中,置换过程,引导分钟程序。resampling-based多个测试程序所估计的方差真正发现和发现总数约0。估计罗斯福、电力、跨尺度效应和稳定常数。

(一)

(b)

(c)

(d)

图2

力量和稳定的属性resampling-based多个独立的测试统计测试程序罗斯福控制在5%,每组3的小样本。黄色虚线:排列单步max过程(mt.max函数);黑色虚线:排列单步最小(mt.min函数);固体蓝线:引导程序单步max(MTP ss.max函数);红色虚线:引导程序单步分钟(MTP ss.min函数);绿色虚线:引导降压max(MTP sd.max函数);紫虚线:引导降压分钟(MTP sd.min函数);橙色虚线:山姆过程(SAM函数)。

引导降压敏过程有最大的权力在所有测试程序当样本容量增加到每组(图123)。引导单步马克斯程序,引导降压马克斯过程和排列单步分钟程序显示几乎零功率检测组之间的任何差异。所有测试程序在0和弗兰克-威廉姆斯估计显示非常小的估计方差总拒绝的真正的拒绝和方差。估计弗兰克-威廉姆斯跨尺度效应和功率保持不变。

(一)

(b)

(c)

(d)

图3

resampling-based权力和稳定性能的多个独立的测试统计测试程序与给水控制在5%,中度样本大小12每组中。固体蓝线:排列单步max过程(mt.max函数);红色虚线:排列单步分钟(mt.min函数);绿色虚线:引导程序单步max(MTP ss.max函数);紫虚线:引导程序单步最小(MTP ss.min函数);橙色虚线:引导降压max(MTP sd.max函数);粉红色的虚线:引导降压分钟(MTP sd.min功能)。

排列单步马克斯程序和排列单步分钟程序执行罗斯福时最好控制在5%,样本大小是每组(图124)。这两个排列马克斯和最小过程有更大的权力比四个引导MTP程序,也估计罗斯福不到5%。山姆过程控制不了罗斯福在所需的5%的水平,尽管它有更大的权力比所有其他测试程序。总从山姆发现过程的估计方差比所有其他程序时更大的效应大小大约是1。排列单步马克斯和最小真正的发现程序有小差异和总发现。四个引导MTP程序低功率,但类似的稳定排列马克斯和最小程序。估计罗斯福和权力效应大小也不变。

(一)

(b)

(c)

(d)

图4

力量和稳定的属性resampling-based多个独立的测试统计测试程序罗斯福控制在5%,每组12的小样本容量。黄色虚线:排列单步max过程(mt.max函数);黑色虚线:排列单步最小(mt.min函数);固体蓝线:引导程序单步max(MTP ss.max函数);红色虚线:引导程序单步分钟(MTP ss.min函数);绿色虚线:引导降压max(MTP sd.max函数);紫虚线:引导降压分钟(MTP sd.min函数);橙色虚线:山姆过程(SAM函数)。

3.2。仿真结果对相关的测试数据

这两个引导敏过程(ss.min和sd.min显示权力高于所有其他测试程序在不同的比例nontrue零假设,当测试统计数据依赖和弗兰克-威廉姆斯的控制。这两个引导敏程序所需的给水控制,当nontrue的比例大于50%(表零假设1和图5)。这两个引导马克斯过程(ss.max和sd.max)比两个引导最小功率较低程序。他们期望的弗兰克-威廉姆斯控制,然而,当nontrue零假设的比例超过25%。排列单步马克斯和最小程序没有发现任何团体之间的显著差异。所有resampling-based程序真正的发现和估计方差总发现约0跨各种比例的nontrue零假设,当样本容量是小3每组中。

(一)

(b)

(c)

(d)

图5

力量和稳定的属性resampling-based多个测试程序相关的测试统计与随机的相关性和弗兰克-威廉姆斯是控制在5% (在每组)。蓝色虚线:排列单步max过程(mt.max函数);坚实的红线:排列单步最小(mt.min函数);绿色虚线:引导程序单步max(MTP ss.max函数);橙色虚线:引导降压max(MTP sd.max函数);紫虚线:引导程序单步最小(MTP ss.min函数);粉红色的虚线:引导降压分钟(MTP sd.min功能)。

的力量和稳定性四个(ss.min引导方法,sd.min,ss.max,sd.max)和两种排列方法(mt.max和mt.min)显示了类似的结果,当罗斯福被控制,当弗兰克-威廉姆斯(表控制2和图6)。山姆过程有像样的罗斯福控制,但非常低功率nontrue零假设的比例不到50%。估计罗斯福和力量增加当nontrue零假设的比例大于50%山姆过程。

(一)

(b)

(c)

(d)

图6

力量和稳定的属性resampling-based多个测试程序相关的测试统计与随机的相关性和罗斯福是控制在5% (在每组)。黄色虚线:排列单步max过程(mt.max函数);黑色虚线:排列单步最小(mt.min函数);固体蓝线:引导程序单步max(MTP ss.max函数);绿色虚线:引导降压max(MTP sd.max函数);红色虚线:引导程序单步分钟(MTP ss.min函数);紫虚线:引导降压分钟(MTP sd.min函数);橙色虚线:山姆过程(SAM函数)。

3.3。真实数据的例子

12625个基因的基因表达水平上从6 log2按总数进行比较发现确认所有测试resampling-based多个测试程序(表3)。这两个引导敏比两个引导马克斯过程有更多的拒绝过程中,当弗兰克-威廉姆斯被控制在5%。引导降压敏和单步分程序仍然拒绝的数量高于引导降压max和单步马克斯过程中,当罗斯福被控制在5%。山姆过程只拒绝2基因。排列马克斯和最小程序拒绝了这些基因。引导多个测试程序的权力高于所有其他测试程序和拒绝零假设多而排列测试程序。引导敏假设程序拒绝超过引导max程序。拒绝的总数从这个真正的微阵列数据分析与仿真研究的结果是一致的。

4所示。讨论

本文研究了几种流行的权力和稳定性能resampling-based既独立又依赖多个测试程序测试统计数据,当样本量很小或适中,使用可用的函数。我们的仿真结果和实际数据示例表明,该引导程序单步和降压分钟程序执行最适合小样本数据在每组(3)和温和的样本数据在每组(12)当弗兰克-威廉姆斯控制需要。引导程序单步和降压min程序最好的罗斯福控制时所需的数据和小样本大小在每组(3)。排列马克斯和最小程序执行最好的数据与温和的样本量时罗斯福控制需要。山姆过程高估了罗斯福,虽然它的权力高于排列和引导max和最小程序。

仿真结果还表明,排列测试过程没有发现任何权力组间显著差异当样本容量小如3在每组;排列测试过程表现良好在每组当样本容量增加到12;山姆过程没有发现显著差异的权力当nontrue零假设的比例小于50%,样本大小是3;引导多个测试步骤执行比排列测试程序和山姆过程对小样本数据。

排列的零功率测试过程是由于其有限数量的改变与小样本测试统计数据集大小。例如,完整的枚举数都只有20排列单步max程序和排列单步分钟过程当样本容量是每组只有3。因此,最小的原料值的排列程序将0.05。调整后的原始值来控制弗兰克-威廉姆斯或罗斯福,所有调整值将大于0.05,因此没有假设将被拒绝。因此,估计弗兰克-威廉姆斯、罗斯福和权力都是零。

我们目前的调查只侧重于正态分布数据。进一步研究需要扩展分布的模拟多元正态分布,如对数正态和二项分布。检查的权力和稳定性能resampling-based多个测试程序,在非正态的分布,将会对我们未来的研究重点。

利益冲突

作者宣称没有利益冲突有关的出版。

确认

作者感谢教授卡洛斯·s·莫雷诺许可使用他的微阵列数据。这项工作是支持由国家研究所的部分人群健康状况及风险的奖项U54MD007584 (j .树篱π)和G12MD007601 (m·贝瑞π)。

引用

d . a . Kulesh d·r·克莱夫·d·s . Zarlenga和j·j·格林,“interferon-modulated扩散cDNA序列的识别,”美国国家科学院院刊》上的美利坚合众国,卷84,不。23日,第8457 - 8453页,1987年。
视图: 谷歌学术搜索
m . Schena d . Shalon r·w·戴维斯和p . o . Brown声称,“定量监测与互补DNA微阵列基因表达模式,”科学,卷270,不。5235年,第470 - 467页,1995年。
视图: 谷歌学术搜索
d . a . Lashkari j·l·Derisi j . h . Mccusker et al .,“酵母基因组微宽平行基因和基因表达分析,“美国国家科学院院刊》上的美利坚合众国,卷94,不。24日,第13062 - 13057页,1997年。
视图: 出版商的网站 | 谷歌学术搜索
j·r·波拉克c . m . Perou a . a . Alizadeh et al .,“全基因组分析DNA的人类基因组变化使用互补脱氧核糖核酸微阵列,”自然遗传学,23卷,不。1,41-46,1999页。
视图: 出版商的网站 | 谷歌学术搜索
m·j·巴克和j . d . Lieb ChIP-chip:考虑的设计、分析和应用的全基因组染色质免疫沉淀反应实验,”基因组学,卷83,不。3、349 - 360年,2004页。
视图: 出版商的网站 | 谷歌学术搜索
r·梅p·c·阿斯·c·普拉斯et al .,“全基因组检测等位高密度DNA微数组使用人类的单核苷酸多态性和失衡,“基因组研究,10卷,不。8,1126 - 1137年,2000页。
视图: 出版商的网站 | 谷歌学术搜索
j . y . Hehir-Kwa m . Egmont-Petersen i m·詹森·d·史密兹,a·g·范·凯塞尔和j·a . Veltman“全基因组拷贝数分析在高密度细菌人工染色体,单核苷酸多态性,与寡核苷酸微阵列:一个平台比较基于统计能量分析,“DNA研究,14卷,不。1、1 - 11,2007页。
视图: 出版商的网站 | 谷歌学术搜索
业务y和a·c·Tamhane多重比较过程约翰·威利& Sons,纽约,纽约,美国,1987年。
j·p·谢弗,“多重假设检验:复习一下,”年度回顾的心理学,46卷,第584 - 561页,1995年。
视图: 出版商的网站 | 谷歌学术搜索
y Benjamini和y .业务控制错误发现率:一个实用和强大的多个测试方法,”英国皇家统计学会杂志》上卷,57号1,第300 - 289页,1995。
视图: 谷歌学术搜索
b·埃夫隆”,引导方法:另一个重叠,”统计年报,7卷,不。1,1-26,1979页。
视图: 出版商的网站 | 谷歌学术搜索
b·埃夫隆和r . Tibshirani介绍了引导,CRC出版社,纽约,纽约,美国,1994年。
d·a·弗里德曼“引导回归模型”,统计年报,9卷,不。6,1218 - 1228年,1981页。
视图: 出版商的网站 | 谷歌学术搜索
p .大厅”,引导和置信区间。”统计年报,14卷,不。4、1431 - 1452年,1986页。
视图: 出版商的网站 | 谷歌学术搜索
k·s·波拉德和m .范德朗k”选择一个空分布resampling-based多个测试,”杂志的统计规划和推理,卷125,不。1 - 2、85 - 100年,2004页。
视图: 出版商的网站 | 谷歌学术搜索
p·h·威斯特法和s . s .年轻的时候,Resampling-Based多个测试:例子,假定值调整的方法约翰·威利& Sons,纽约,纽约,美国,1993年。
v . g .獠牙,r . Tibshirani g .楚”意义的分析微阵列应用于电离辐射反应,”美国国家科学院院刊》上的美利坚合众国,卷98,不。9日,第5121 - 5116页,2001年。
视图: 出版商的网站 | 谷歌学术搜索
y通用电气、美国Dudoit和t . p .速度,“Resampling-based多个测试微阵列数据的分析,测试,12卷,不。1、1 - 77、2003页。
视图: 出版商的网站 | 谷歌学术搜索
d·鲁宾,s . Dudoit范德朗m .,“一个方法增加多个测试过程通过样本分裂的力量,”统计应用遗传学和分子生物学,5卷,不。1,第十九条,2006。
视图: 谷歌学术搜索
a . Jemal r·西格尔·e·沃德et al .,“癌症统计数据,2006年,”CA:临床医生的癌症杂志》上卷,56号2、106 - 130年,2006页。
视图: 出版商的网站 | 谷歌学术搜索
c·s·莫雷诺、l . Matyunina e·b·迪克森et al .,“证据表明p53-mediated细胞周期阻滞抑制化疗治疗卵巢癌,”《公共科学图书馆•综合》,卷2,不。5篇文章e441 2007。
视图: 出版商的网站 | 谷歌学术搜索
r·埃德加·m·Domrachev, a . e .睫毛”基因表达综合:NCBI基因表达和杂交数组数据存储库,”核酸的研究,30卷,不。1,第210 - 207页,2002。
视图: 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

1131年

下载

1225年

引用