文摘
许多微阵列研究的目标是确定两个类之间的差异表达的基因或人口。许多数据分析师选择估计错误发现率(罗斯福)宣布与列表相关基因差异表达。富兰克林•德兰诺•罗斯福很大程度上降低了估计的估计的比例在所有分析基因的差异表达基因。估计通常是通过P值,但计算P值可以被视为一种公害和潜在问题的步骤。我们评估的方法来评估直接从测试统计,绕过需要计算P值。我们适应现有的方法估算从t- - -z统计数据,可以从其他统计估计。我们比较这些估计的质量估计所产生的两个已确定的估算方法从P值。总的来说,方法差异很大的偏见和多样性。最少的偏见和最不变量的估计差异表达基因的比例,由应用“挂”混合模型方法P从集中值计算零分布排列。从测试数据而不是直接估计计算P值不可靠地执行。
1。介绍
基因表达微阵列是一个标准的大规模测量基因表达的工具。微数组技术被广泛用于检测基因差异表达(DE)在不同的组。方法检测基因在过去的十年已经成熟。方法已经从简单的叠化规则,经典统计方法的使用,测试数据的使用专门为芯片开发环境(这里称为专业测试统计数据)。
寻找DE基因通常是在统计假设检验的框架。为每个基因进行假设检验。从微阵列研究通常涉及数以万计的基因,基因检测DE自动涉及多个测试问题。而不是通过传统的控制假阳性family-wise错误率(弗兰克-威廉姆斯),大多数研究者倾向于考虑错误发现率(罗斯福)。弗兰克-威廉姆斯的错误发现率是一个替代最初提出的Benjamini和业务1]。假阳性的罗斯福是预期的比例在所有基因宣布德。例如,5%的罗斯福宣布DE意味着在所有基因,这些是真正non-DE平均的5%。
控制弗兰克-威廉姆斯在微阵列设置过于保守,因为通常调查人员愿意得到一小部分假阳性换取可观的潜在基因进行进一步的研究。有近乎FDR-estimation程序的首选方法是解决微阵列的多个测试上下文(2,3]。一个典型的过程如下。(1)计算每一个基因的检验统计量。(2)获得值为每一个基因。(3)对于一些阈值α接近于0(例如,),调用所有基因值小于α有很重要的意义。(4)估计罗斯福与列表相关的重要基因。在现实中步骤(3)和(4)可能会被迭代完成的,与值阈值调整根据估计罗斯福(4)造成的一步。接下来,我们回顾这四个步骤的方法,将介绍本文将解决的问题。
步骤(1)涉及检验统计量的选择。最早的方法来识别基因简单的叠化规则。叠化规则的一个例子是声明一个基因DE如果其平均一个多因子表达水平不同的两组之间的比较。然而,这些规则通常被认为是不满意的,因为他们不包含数据的可变性,而且没有相关的信心水平的结论声明一个基因德(2]。这是自然的统计学家提出古典测试程序,而不是叠化规则。让(可能是对数转换)给定样本中的基因的表达水平的人口。让样本来自人口的数量。定义样本的基因的表达人口的平均水平。还定义样本方差的人口基因的表达水平。通常表达水平比较在两个群体或团体()。识别基因,可以使用经典的两个示例t -统计数据: 然而,由于大量的基因微阵列数据的性质,这个统计不适合不同的基因。分母的t -数据依赖的估计方差的表达式。大多数微阵列研究的典型样本大小(只有少数样本每组),这些估计很不稳定。鉴于大量基因微阵列研究,一些基因会表现出较低的方差。在实际数据往往与最大的发现的基因t -统计数据是那些最小的分母,不一定是那些团体之间。
呸! et al。4)提出了一个专门的微阵列数据,称为“山姆”或s -统计, 请注意,s -统计数据是相同的t -统计的一个常数,分母。常数δ有稳定的分母的影响t -统计。我们将参考的稳定常数。
没有共识的最佳方式选择δ。呸! et al。4),他们选择状态确保的方差s -统计”是独立的基因表达。“Broberg (5]第五百分位的使用t -统计分母是δ和谢et al。6)使用中位数。埃夫隆et al。75选择相比):0;5、50和90百分位数,当它接近无穷大,发现第90百分位效果最好。
除了山姆统计,微阵列已经开发的其他专业测试统计值。专门的测试数据有超越绝大多数被发现t -统计检测基因。在上面提到的论文([8- - - - - -13),包括模拟比较的性能提出了专门的检验统计量的经典t -统计。使用真实的微阵列数据从一组“激增”化验,秦et al。14评估六个不同的性能统计数据。结果明确了性能优越的专业测试统计均值或t -统计识别DE基因虽然没有专门测试统计“赢家”。同样,张,曹15]采用仿真和实际“激增”数据和证明,专业测试统计数据进行相对很明显优于经典统计的t -统计。
步骤(4)包括评估相关的罗斯福宣布重要基因的列表。许多不同的“混合模型方法”(嗯)16]开发了估计基因列表的罗斯福宣布德。嗯假定有一个有效的值计算为每个基因测试的零假设不是德。嗯考虑这些值的混合物值为零假设是正确和基因值的零假设是错误的。估计罗斯福的表单 在哪里α是值阈值,non-DE基因的比例,德基因的比例,是所有的累积分布函数值。大多数嗯使用的观察值值小于估计。因此,大多数只嗯不同的估计。
为了计算一个-value-step(2)——需要知道检验统计量的分布在零假设下。获得实证零分布微阵列的排列是一个非常受欢迎的选择环境。然而,克尔(17)表明,值产生的排列自排列检定测试和嗯可能是不兼容的值可能无法满足所有的假设隐含在嗯方法。因此,估计罗斯福直接从测试statistics-skipping步骤(2)裸体可以是有利的。
有几个工具可以直接从测试数据估计罗斯福。一个这样的工具,“locfdr”[18),作用直接测试统计,但已发现的轻微变化高度敏感或转换的测试统计数据(17]。因此,在本文中,我们调查的方法论是否“fdrtool”[19,20.)可以很容易地适应估计罗斯福直接从专门的测试数据。
有许多不同的专业测试统计数据可供选择;我们在调查中使用SAM-statistic由于其简单性和流行。我们比较结果的一种程序当前的惯例,这是使用排列检定的变体价值加上嗯值。在这种方法中,一个零检验统计量的分布估计池在基因排列空所有测试数据。克尔(17)显示,这样的“池为空从排列测试值”是不同的值。然而,“池为空值“有吸引力的特性,他们有一个单调与检验统计量的关系。我们的第二个类的方法估算,我们计算池零排列值,然后估计罗斯福嗯。我们使用两个嗯,我们看到了:“问价值”(21和“挂”22]。
2。结果与讨论
2.1。方法
“fdrtool”不是设计的方法论s -统计数据或其他专门的测试统计数据作为输入。因为“fdrtool”接受t -统计数据,s -统计数据是相似的t -统计数据,我们调查是否能用“fdrtool”s -统计并得到准确的结果。我们的想法是计算两个s -统计数据和t -相同的数据统计,然后重新调节s -统计相应的传播一样t -统计数据。我们考虑两种措施的变化:标准差和四分位范围。此外,我们考虑四种不同s -统计,每一个使用不同的稳定常数项的分母。我们设计了模拟探讨使用“fdrtool”罗斯福的估计精度s -以这种方式统计。我们的模拟数据是基于真正的微阵列数据。
作为一个简单的例子,假设我们有100个基因表达水平测量两组的两个样本我们希望比较。我们计算一个t -统计和一个s -统计每个基因。由于添加的稳定常数的分母s -统计,100s -统计值将比100年更接近零t -统计值。换句话说,增加分母把s -统计值对零,这样的方差s -统计在比的方差小的基因t -统计数据。
因此,我们使用一个测量的可变性的统计数据的差异基因的重新调节因素重新调节s -统计数据。我们检查了两种措施的变化:标准差(SD)和四分位范围(差)。我们带的变化的比率t -统计数据的变化s -统计作为我们重新调节因素。SD,我们改变了s -统计数据乘以他们的因素,SDT和SD年代的标准偏差在基因吗t -统计数据和s -分别统计。重新调节因子的差是类似的定义,与差SD的地方。请注意,重新调节s -数据维护他们的等级次序,保留了s -统计的优势准确检测基因。
在计算s -统计数据必须选择一个稳定的值不变δ在s -统计分母。我们考虑四个选择δ,所以四个不同的定义s -统计数据:年代30.年代50岁,年代70年,年代90年。的年代30-statistic使用30的百分比t -统计分母是,年代50-statistic使用50百分位t -统计分母是δ,等等。总之,对于每一个模拟的数据集,我们计算了t -统计和四s -统计数据。我们改变了s -统计数据由两个不同尺度改变因素(SD和位差)。当加载新s -统计到“fdrtool”,我们评估两种不同规格的软件。我们可以指定输入t -统计数据或z -统计数据。我们评估这五个统计的性能使用四个不同尺度改变因素和两个不同的输入选项的组合。
2.2。设计仿真研究
模拟研究的设计是一样的克尔(2009)(17),我们简要描述在这里。我们模拟基于真正的微阵列数据的EBV-transformed lymphoblastoid细胞系组织从60个人与欧洲血统(CEU)和45华人(慢性乙肝)。有47293的数据记录。
对于每一个基因,我们计算的样本均值和样本标准差,在每个群体基因(CEU和慢性乙肝)。我们的样本均值的值到最近的十位数,这意味着可以明确地声明之间平等或不平等的团体。我们模拟CEU和慢性乙肝示例数据(我们知道“真相”对于微分表达式)的程度从独立正态分布参数的基础上,从实际的数据值。我们模拟数据集10000年的记录。
我们跑了三种类型的模拟:电动车、UV1, UV2。在每个仿真,基因的比例()中差异表达的意思。模拟DE基因,为模拟CEU和慢性乙肝样本均数差从实际数据中观察到的样本均值。模拟CEU和慢性乙肝样本方差的三种模拟之间的不同。
电动车(等于方差)模拟,模拟CEU样本的标准差和模拟慢乙肝样本来自观察CEU数据的标准差。这不是在紫外线(“不平等的方差”)模拟。UV1模拟,模拟CEU样本的标准偏差从CEU数据,观察到的标准偏差和标准偏差的模拟慢乙肝样本来自观察慢性乙肝的标准差的数据。UV2模拟,这是逆转:模拟CEU样本的标准差来自观察慢性乙肝的标准偏差数据,和模拟的标准差慢乙肝样本来自观察CEU数据的标准差。
我们最初模拟数据为四个不同的值:0.01,0.05,0.10,0.25,和三个不同的样本大小:大,中间,和小。让nCEU和nCHB表示CEU样本大小和慢性乙肝,分别样本大小如下:大(nCEU nCHB) =(60, 45岁)、中级(nCEU nCHB) =(16日12),和小(nCEU nCHB) =(8, 6)。请注意,所有的样本大小保持4:3比原始数据。有三个样本大小、4的值三种模拟,两个尺度改变因素(SD和位差),和两个输入规范选项(t -分数,z -分数),总共有144种不同的模拟场景。检查结果后,我们执行额外的电动汽车模拟,0.02,0.03,0.04,三个样本大小,两个尺度改变因素,和两个输入规范选项,添加额外的48模拟场景中,共有192个模拟场景。我们每个场景重复20次。
2.3。适应fdrtool方法的评价
首先,我们确认s -统计数据表现t -统计识别基因。图1表明,s -统计数据表现t -统计所有样本的大小和价值。这种差异表现更为明显的比增大样本量较小的样本大小,所有的值。这四个s -统计数据通常关闭性能。的年代30 -,年代50 -,和年代70年统计数据执行相对。的年代90 -统计(紫色曲线)站略除了其他三个,给少敏感性较低的假阳性和更好的灵敏度更高的假阳性的比例。在ROC曲线的差异年代90 -统计和其他s -统计学是在较小的样本大小。然而,之间的差别年代90 -统计和其他s -统计是不一样大的区别t -统计和四s -统计数据。
我们调查了“fdrtool”的性能s -统计当“fdrtool”对待他们t -统计数据或z -统计数据。指定“fdrtool”输入s -统计数据t -统计(图2运作良好的低比例的基因(0.05)。在第一行的数字2,我们看到的估计有温和的保守的偏见吗30 -和50-statistics两个较小的样本大小。然而,对于更高比例的基因(0.25),“fdrtool”的估计很穷,过度保守的偏见。这个结果无论举行统计与差(图新1)或SD(见补充文件1在网上补充材料doi: 10.6064 / 2012/519394)。然而,SD-scaling往往给更少的可预测的结果。
其他方面的结果呈现在图2是值得注意的。首先,当π= 0.25,曲线趋势的估计当我们离开t -统计在s90-statistic在另一个极端。第二,估计的偏差当t -统计计算的数据往往是至少一样大的偏见s -统计数据。这是令人惊讶的,因为“fdrtool”了t -统计数据。第三,有很大的区别的模拟和模拟。当的估计,年代70年,年代90年统计数据显示anticonservative偏见,然而,当这些统计数据显示,保守的偏见。图3扩充了的图2,与仿真结果,0.01,0.02,0.03,0.04和0.05。有一个减少从anticonservative偏向保守的偏见从0.005增加到0.05。
相反的结果t -统计输入规范,告诉“fdrtool”输入数据z -统计(图4德基因(比例较高的)更好的工作了0.25),但显示anticonservative偏差低百分比的基因()。偏见和差异主要是改进的图2除了。这里介绍的所有结果均为电动汽车模拟;UV1和UV2模拟结果相似(见补充文件1)。
3所示。混合模型的评估方法集中排列Null值
在实践中一个流行的方法是计算排列检定的变体价值。在这种方法中,一个零检验统计量的分布估计池在基因排列空所有测试数据。“池零值”可以计算零分布从一个经验。我们还获得的估计使用池零值,然后估计罗斯福嗯。我们获得的估计使用两个嗯,我们看到了:“问价值”(21和“挂”22]。
图5显示了”问价值”电动汽车仿真结果。低比例的基因(0.05),“问(前两排图价值”的结果5)主要显示偏差小于“fdrtool”(前两排的数据结果2和4)。不过,也有例外,例如,年代50多个年代70年统计数字显示,在较小的样本量少偏见在“fdrtool”结果比”问价值”的结果。“问估计价值”表现出相当大的可变性比“fdrtool”估计,所以它并不完全清楚,一种方法更好。为更高比例的基因(0.25),这个故事是相似的,”问价值”的估计通常显示偏差小于“fdrtool”估计,但更大的可变性。然而,高可变性在“问价值”似乎更明显时可接受的结果,0.25,显著减少偏见。有趣的是,“问表现价值”没有出现更糟的t -比它的统计s -统计数据,而“fdrtool”几乎总是表现更好s -统计数据。比较的结果“fdrtool问值“UV1和UV2模拟结果相似(见附加文件1)。
图6显示了“挂”的估计电动汽车仿真。总的来说,“挂”估计显示少偏见和可比或可变性比“fdrtool”或“问价值”的结果。因此,尽管它依赖值可以被认为是无效的排列测试值(17),“挂”可能产生优越的估计(因此罗斯福)的偏见和可变性。类似于“问价值”的结果,“挂”执行相对t -统计数据的s -统计数据。
4所示。讨论
“挂”方法比“fdrtool”的方法来计算时间较长(约20倍)。然而,计算时间的6.5秒1组10000值并没有禁止的。更重要的区别在于,“挂”要求值,我们通过计算排列,而“fdrtool”是直接用于测试统计数据和不需要任何数据排列。
这项研究的一个重要限制是所有模拟是基于一个数据集。我们也没有探索不同的关联结构的模拟基因表达。
5。结论
我们比较方法估算差异表达基因的比例,从微阵列数据。的方法是在两个类:(1)“fdrtool”的方法论适应专业测试统计数据和(2)应用混合模型方法(嗯)从集中值计算零分布排列。表现最好的方法是在第二个类,使用嗯“挂”从集中值计算零分布排列。总的来说,估计至少表现出偏见和可变性,偏见往往是保守的,而不是anti-conservative。
第一节课的估算方法适应现有的“fdrtool”的方法s -统计数据。有趣的是,“fdrtool”通常表现得更好s -统计比t -统计数据,尽管实证建模设计t -统计数据。“fdrtool”的方法的性能差异很大比例的差异表达基因。然而,“挂”的方法优于fdrtool方法在几乎所有的场景。
作者的贡献
k·f·克尔设计研究和模拟微阵列数据。汉森应用的所有方法估算DE基因的比例,使所有数据。两位作者写道,编辑和批准最终的手稿。
承认
这份出版物被授予来自NIEHS ES007033数量成为可能。其内容是完全的责任作者和不一定代表NIEHS的官方观点。
补充材料
补充材料文件包含完整的结果所有仿真场景进行研究。