文摘

Resampling-based多个测试程序广泛应用于识别差异表达基因和基因组研究进行全基因组关联研究。然而,这些流行resampling-based多个的权力和稳定性能测试程序尚未广泛评估。我们的研究着重于调查的权力和稳定七resampling-based多个测试程序经常用于高通量数据分析对小样本数据通过模拟和肿瘤基因的例子。引导单步分 程序和引导降压分钟 程序执行最好的在所有测试程序,当样本量小如3在每组和familywise错误率或错误发现率控制需要。当样本容量增加到12和错误发现率控制,排列max 程序和排列分钟 程序执行最好的。我们的研究结果为高通量数据分析提供指导,当样本容量很小。

1。介绍

与快速发展的生物技术、微阵列和下一代测序技术已经广泛应用于生物医学和生物学领域识别差异表达基因,检测转录因子结合位点,映射复杂特征使用单核苷酸多态性(snp) [1- - - - - -7]。多个测试错误率与成千上万,甚至上百万的假设测试,需要考虑。公倍数测试错误率控制在多个假设测试是familywise错误率(弗兰克-威廉姆斯),这是至少一个虚假拒绝的概率(8,9)和错误发现率(罗斯福),这是预期的比例错误地拒绝零假设(10]。

Resampling-based多个测试程序广泛应用于高通量数据分析(如微阵列和下一代测序),尤其是当样本量很小或检验统计量的分布非正态的分布是未知的。Resampling-based多个测试程序可以占从属结构中 值或测试统计,导致降低II型错误。常用的重采样技术包括置换测试和引导方法。

排列测试非参数统计显著性测试,测试数据的分布在零假设下构造通过计算所有可能的值或一个具体的测试数据(通常是1000或以上)排列观测下的零假设。排列测试的理论是基于工作费舍尔和皮特曼在1930年代。排列测试传播变为免费,可以提供准确的 值甚至当样本容量很小。

引导的方法,首先介绍了埃夫隆(11],进一步讨论·埃夫隆和Tibshirani [12),是一种近似的方法只有一个样本的抽样分布。而许多简单随机样本的人口找到样本统计量的抽样分布,引导方法反复和样品替代从一个随机样本。埃夫隆(11)表明,引导方法提供了一个渐近无偏估计量的方差错误率的样本值和一个线性歧视问题(优于交叉验证)。弗里德曼(13)结论显示,引导近似的最小二乘估计的分布是有效的。最后,大厅(14)表明,引导方法的覆盖概率减少错误, 引导方法,使一个数量级比δ法更准确。的 值计算的精确不如引导方法 排列方法中获取的值,另外, 值估计的渐近收敛到正确的引导方法 值(15]。

不同的重采样方法可以得出不同的结论,然而,当应用到相同的数据集。调查多个检测错误率控制,权力,和稳定的重采样方法在不同的情况下是必要的,为数据分析提供指导,以便优化方法在不同的场景中可以使用权力,最大限度地减少多个测试错误率。

在本文中,我们专注于研究力量和稳定性能的几个常用resampling-based多个测试步骤:(1)排列测试(16];(2)permutation-based微阵列(SAM)的重要分析程序(17];和(3)引导多个测试程序15]。

2。材料和方法

2.1。排列测试

进行排列测试基于测试统计测量感兴趣的大小的影响,我们进行如下。(1)计算的测试统计观测数据集,如两个示例 以及统计数据。(2)交换原始数据的方式匹配的零假设交换重新取样和构造参考分布使用测试统计数据计算出交换重新取样。(3)计算水平的临界值 根据上面的测试 参考分布的百分比,或者获得的原始 值通过计算排列测试统计的比例比观察到极端,甚至更极端的测试数据。

威斯特法和年轻16提出两种方法来调整原始 值来控制多个测试错误率。一个是单步分 过程,另一个是单步max 过程。

单步的最小值 调整 值被定义为(18] 单步max 调整 值定义的测试数据 ,即(18] 在哪里 是完整的零假设。 是原始的 th假说, 观察到的测试数据吗 假设。

2.2。意义的分析微阵列(SAM)过程

微阵列(SAM)的意义分析过程提出的獠牙et al。17)确定基因表达式使用一组gene-specific将发生重大变革 测试。山姆,基因被分配分数相对基因表达的改变和重复测量的标准偏差。散点图观察到的相对差异和预期的相对差异估计通过排列基于固定阈值识别统计上显著的基因。

基于描述山姆的獠牙et al。17,山姆过程可以概括如下。(1)计算检验统计量 对于每一个基因 (2)计算次序统计量 这样 (3)执行 排列的反应/协变量 。对于每一个排列 ,计算交换测试统计数据 和相应的次序统计量 (4) 排列,估计次序统计量的期望值 (5)形成一个quantile-quantile (qq) (SAM情节)观察到的阴谋 与预期的 (6)对于一个给定的阈值 ,从原点开始,找到第一个和移动 这样 。过去所有的基因 被称为重大的促进因素。同样,从原点开始移动到左边,发现第一 这样 。过去所有的基因 被称为重要的底片。定义上减少一点 和较低的点 (7)对于一个给定的阈值,将错误的拒绝 预计通过计算基因的数量 以上 或低于 为每个 排列和平均数字 排列。(8)一个阈值 选择控制 在完整的零假设,在一个可接受的名义水平。

2.3。引导方法

基于零分布估计的引导方法的测试统计数据介绍了范德朗波拉德和(15)和收益如下:(1)计算观察检验统计量的观测数据集。(2)重新取样数据替换在每组获得引导重新取样,计算每个resampled resampled测试统计数据集,并构造参考使用集中和/或分布比例resampled测试统计数据。(3)计算水平的临界值 根据上面的测试 参考分布的百分比,或者获得的原始 值通过计算比例的引导测试统计一样极端或更极端比观察检验统计量。

MTP函数基于引导方法包括单步分钟 和马克斯 调整 值,以及降压min 和降压马克斯 调整 值。单步max 和最小 调整 值定义为之前。

降压的最小值 调整 值被定义为 和降压马克斯 调整 值被定义为 在哪里 表示命令测试统计数据(18]。

2.4。仿真设置

模拟研究进行了比较的权力和稳定resampling-based多个测试程序的独立测试统计数据和相关的测试数据。根据鲁宾et al。19),被定义为预期的真阳性的比例。稳定性是衡量真正的发现的方差和方差的发现。

在我们第一次模拟研究中,每一组包括100个独立生成与样本大小相等的两个样本组每组3到12。100年重复选择因为计算100比1000或更高的重复更有效率。1000年重复也试过,得到了类似的结果。因此,100年重复选择计算效率。的基因总数 将2000年真正的零假设的分数吗 在50%。在两群比较,生成基因表达水平的标准化的对数多元正态分布。一组有50%的基因与手段 和其余意味着在0。另一组的所有基因意味着在0。的表达水平 log2规模将从1到6的步骤0.50第一个模拟研究。标准化的对数的差异基因表达水平在两组等于1。因此,不同的意思 在两组之间的基因表达是科恩的 影响大小。测试数据设置的两两相关系数为0在我们的模拟研究。使用的测试统计方差相等 以及整个模拟研究。弗兰克-威廉姆斯/罗斯福级别设置为5%

我们进行了另一项模拟研究,考察对权力的一部分真正的零假设的影响与稳定。在我们的第二个仿真研究中,每个数据集都包含100份独立生成样本与样本大小相等的两组3。基因(的总数 )被设置为1000,分数的差异表达基因 10%,25%,50%,75%,90%,覆盖所有可能的场景。在两群比较,基因表达水平log2规模从多元正态分布是随机生成的 。基因之间的相关性是随机波动在0和1之间模仿真正的微阵列数据的相关性。1和2之间的差异是集,一步相当于逆的差异表达基因的数量 。方差是设置为1。平等的方差 测试用于仿真研究,和弗兰克-威廉姆斯/罗斯福级别设置为5%

的mt.max 和mt.min 函数 被用来评估西部荒野和年轻的排列测试。山姆函数 用于山姆过程。引导范德朗波拉德和提出的方法(15)使用MTP函数被执行死刑 。MTP函数包括马克斯 方法,最小值 方法、单步过程和降压过程,结果分为四个不同的功能,包括单步max (ss.max ),单步分 (ss.min ),降压马克斯 (sd.max )和降压min (sd.min )。

2.5。癌症微阵列的例子

卵巢癌是女性癌症死亡的常见原因20.]。微阵列实验确定化疗的患者之间的差异表达基因和化疗的患者(21]。这些差异表达基因可以用来开发最佳治疗新的卵巢癌化疗,病人通过预测可能的回应。12625个基因的基因表达数据6例的信使rna样本,获得莫雷诺et al。年代卵巢癌微阵列研究中,被用来显示的总数量的差异发现其中resampling-based多个测试程序与弗兰克-威廉姆斯或罗斯福控制在5%(数据访问在NCBI GEO数据库(22),加入GSE7463)。卵巢癌的预处理数据集使用RMA背景校正完成,分位数正常化,健壮的线性模型总结。原始的 价值和调整 值之间的比较有利的化疗组(3科目)和不利的化疗组(3科目)计算使用resampling-based多个测试函数在siggenes multitest包和包

3所示。结果

模拟研究进行了比较的力量和稳定在所有测试多个测试程序与独立或随机正态分布数据相关的测试数据。样本大小是独立的测试统计每组3 - 12和3在每组随机相关的测试数据。

3.1。仿真结果对于独立测试统计数据

独立测试统计数据与弗兰克-威廉姆斯控制在5%,两个引导min 程序比其他所有测试程序当样本容量3在每组(图1)。引导程序单步最小 和引导降压分钟 程序比其他更强大的测试程序,和弗兰克-威廉姆斯估计接近5%的名义水平。两个(mt.max permutation-based过程 和mt.min )没有发现任何团体之间的显著差异,以及他们的弗兰克-威廉姆斯估计接近0。的力量引导马克斯 过程(ss.max 和sd.max )之间的排列程序和引导min 程序。真正发现和总数的估计方差的发现在0 resampling-based多个测试程序进行测试。估计弗兰克-威廉姆斯、电力、跨尺度效应和稳定常数。

引导程序单步和降压min 程序仍然拥有最大的权力在所有测试程序罗斯福控制在5%时,样本大小是每组(图32)。罗斯福估计引导单步和降压的分钟 程序也名义水平保持在5%左右。山姆过程和两个permutation-based max 和最小 程序没有发现任何显著性差异,及其罗斯福估计也接近于0。罗斯福估计和两个引导单步和降压马克斯 山姆之间的程序过程中,置换过程,引导分钟 程序。resampling-based多个测试程序所估计的方差真正发现和发现总数约0。估计罗斯福、电力、跨尺度效应和稳定常数。

引导降压敏 过程有最大的权力在所有测试程序当样本容量增加到每组(图123)。引导单步马克斯 程序,引导降压马克斯 过程和排列单步分钟 程序显示几乎零功率检测组之间的任何差异。所有测试程序在0和弗兰克-威廉姆斯估计显示非常小的估计方差总拒绝的真正的拒绝和方差。估计弗兰克-威廉姆斯跨尺度效应和功率保持不变。

排列单步马克斯 程序和排列单步分钟 程序执行罗斯福时最好控制在5%,样本大小是每组(图124)。这两个排列马克斯 和最小 过程有更大的权力比四个引导MTP程序,也估计罗斯福不到5%。山姆过程控制不了罗斯福在所需的5%的水平,尽管它有更大的权力比所有其他测试程序。总从山姆发现过程的估计方差比所有其他程序时更大的效应大小大约是1。排列单步马克斯 和最小 真正的发现程序有小差异和总发现。四个引导MTP程序低功率,但类似的稳定排列马克斯 和最小 程序。估计罗斯福和权力效应大小也不变。

3.2。仿真结果对相关的测试数据

这两个引导敏 过程(ss.min 和sd.min 显示权力高于所有其他测试程序在不同的比例nontrue零假设,当测试统计数据依赖和弗兰克-威廉姆斯的控制。这两个引导敏 程序所需的给水控制,当nontrue的比例大于50%(表零假设1和图5)。这两个引导马克斯 过程(ss.max 和sd.max )比两个引导最小功率较低 程序。他们期望的弗兰克-威廉姆斯控制,然而,当nontrue零假设的比例超过25%。排列单步马克斯 和最小 程序没有发现任何团体之间的显著差异。所有resampling-based程序真正的发现和估计方差总发现约0跨各种比例的nontrue零假设,当样本容量是小3每组中。

的力量和稳定性四个(ss.min引导方法 ,sd.min ,ss.max ,sd.max )和两种排列方法(mt.max 和mt.min )显示了类似的结果,当罗斯福被控制,当弗兰克-威廉姆斯(表控制2和图6)。山姆过程有像样的罗斯福控制,但非常低功率nontrue零假设的比例不到50%。估计罗斯福和力量增加当nontrue零假设的比例大于50%山姆过程。

3.3。真实数据的例子

12625个基因的基因表达水平上从6 log2按总数进行比较发现确认所有测试resampling-based多个测试程序(表3)。这两个引导敏 比两个引导马克斯过程有更多的拒绝 过程中,当弗兰克-威廉姆斯被控制在5%。引导降压敏 和单步分 程序仍然拒绝的数量高于引导降压max 和单步马克斯 过程中,当罗斯福被控制在5%。山姆过程只拒绝2基因。排列马克斯 和最小 程序拒绝了这些基因。引导多个测试程序的权力高于所有其他测试程序和拒绝零假设多而排列测试程序。引导敏 假设程序拒绝超过引导max 程序。拒绝的总数从这个真正的微阵列数据分析与仿真研究的结果是一致的。

4所示。讨论

本文研究了几种流行的权力和稳定性能resampling-based既独立又依赖多个测试程序测试统计数据,当样本量很小或适中,使用可用的函数 。我们的仿真结果和实际数据示例表明,该引导程序单步和降压分钟 程序执行最适合小样本数据在每组(3)和温和的样本数据在每组(12)当弗兰克-威廉姆斯控制需要。引导程序单步和降压min 程序最好的罗斯福控制时所需的数据和小样本大小在每组(3)。排列马克斯 和最小 程序执行最好的数据与温和的样本量时罗斯福控制需要。山姆过程高估了罗斯福,虽然它的权力高于排列和引导max 和最小 程序。

仿真结果还表明,排列测试过程没有发现任何权力组间显著差异当样本容量小如3在每组;排列测试过程表现良好在每组当样本容量增加到12;山姆过程没有发现显著差异的权力当nontrue零假设的比例小于50%,样本大小是3;引导多个测试步骤执行比排列测试程序和山姆过程对小样本数据。

排列的零功率测试过程是由于其有限数量的改变与小样本测试统计数据集大小。例如,完整的枚举数都只有20排列单步max 程序和排列单步分钟 过程当样本容量是每组只有3。因此,最小的原料 值的排列程序将0.05。调整后的原始 值来控制弗兰克-威廉姆斯或罗斯福,所有调整 值将大于0.05,因此没有假设将被拒绝。因此,估计弗兰克-威廉姆斯、罗斯福和权力都是零。

我们目前的调查只侧重于正态分布数据。进一步研究需要扩展分布的模拟多元正态分布,如对数正态和二项分布。检查的权力和稳定性能resampling-based多个测试程序,在非正态的分布,将会对我们未来的研究重点。

利益冲突

作者宣称没有利益冲突有关的出版。

确认

作者感谢教授卡洛斯·s·莫雷诺许可使用他的微阵列数据。这项工作是支持由国家研究所的部分人群健康状况及风险的奖项U54MD007584 (j .树篱π)和G12MD007601 (m·贝瑞π)。