研究文章|开放获取
陈Oluyemi Oyeniran,瀚峰, ”估计真正的零假设的比例在多个测试问题”,概率论与数理统计》杂志上, 卷。2016年, 文章的ID3937056, 7 页面, 2016年。 https://doi.org/10.1155/2016/3937056
估计真正的零假设的比例在多个测试问题
文摘
估计这一比例的问题,,真正的零假设的多个测试问题是重要的情况下大规模并行独立假设的测试被执行。而问题是兴趣的应用程序的数量,估计的可用于评估或控制整体错误发现率。在本文中,我们开发一种创新的非参数极大似然估计方法。提出了非参数可能限制多项式模型和一个EM算法也是发达的近似估计。仿真研究表明,该方法优于现有的其他方法。使用实验微阵列数据集,我们证明了新方法在实践中提供了满意的估计。
1。介绍
估计这个比例真正的零假设在多个测试的设置非常重要希望评估和/或控制错误发现率,这是很重要的在基因组学、疾病的发现,和癌症的发现。Langaas et al。1说“想要估计的一个重要原因是它自己的数量是正确的。此外,一个可靠的估计是很重要的,当我们要评估或控制多个错误率,如错误发现率罗斯福Benjamini和业务2]。“对于测试DNA微阵列的微分表达式,差异表达基因的比例,重要的是要知道5%或35%的基因,例如,在差异表达,即使我们不能识别这些基因(见Langaas et al。1])。多个测试指任何实例涉及到同步测试的几个假设。在基因组研究中一个共同的特征就是大量的同步测量的分析在一个小数量的样品。一个必须决定是否发现真正病因相关性或多重假设检验的副产品(Gyorffy et al。3])。如果不考虑测试的多重性,然后一些真正的零假设的概率拒绝就可能过分大的机会。
在多重假设检验问题,米零假设同时进行测试;也就是说,我们的测试 为同时,。假设米基于观察到的测试构造p值,,分别。未知的数量估计是真正的零假设之间的比例。介绍了我。维伯努利随机变量与。然后可以解释的多个测试问题如下: 为
我们假设p值,连续的和独立的随机变量,这样p价值观是独立和同分布当零假设是真实的。一个选择拒绝或无法拒绝零假设基于相应的价值。总结了测试表的后果1。
|
||||||||||||||||||||||||||||||||
在表1 零假设的数量;是可观测的随机变量代表的数量假设拒绝。请注意,所有其他随机变量,在表1是不可见的。
估计这一比例的问题有自然出现在评估或控制整个假废品率在同时假设测试问题。一个可靠的估计是至关重要的,当我们想要控制和/或评估错误发现率(罗斯福)Benjamini和业务提出的2),定义为 在哪里和
Benjamini和业务2)证明西梅斯的过程(西梅斯(4])的罗斯福控制水平如果底层测试和相应的统计数据值是连续的和相同的独立分布的。具体地说,他们 因此,如果是一个希望的罗斯福水平实现如果可以有效地估计,说,然后可以选择获得额外的测试力量在罗斯福的多个测试问题得到控制。如果然而,是高估了大幅的价值吗大幅低估,导致显著狭窄同时置信区间为多个比较,显著降低测试能力的多个测试问题。另一方面,如果说,选择通过其他程序中的Bonferroni方法多重比较的问题,评估罗斯福通过估算准确吗有效的极大兴趣。
本文组织如下。部分2回顾现有的评估方法;部分3介绍了新的估算过程;部分4包含仿真结果和部分5提出了应用新的估算过程现实生活的例子。
2。现有的评估方法
2.1。混合模型框架
可以使用一个混合模型以适应为了估计比例,值真正的假说,大规模并行独立假设执行。的估计可以基于混合模型的常见的密度的值描述如下: 在哪里的条件概率密度函数是价值在另一个(见Langaas et al。1])。使用这种混合表示法,我们能够描述的最大似然估计估计方法是独立同分布的假设下,派生而来值。零值均匀分布。我们应该注意到描述了配置中真正的另类人群底层人群;似乎一个非参数估计的方法是更有吸引力。不失一般性,我们定义备择假设,在本节将使用。三个非参数估计其他作者最近提出的续集部分描述和讨论。
2.2。层的方法
考虑到常见的边际混合物的密度值,对任何 : 在此基础上,通常是小,绝大多数的吗值的时间间隔应该对应于真正的零假设,从而均匀分布区间,其中最应该接近1,所以大约是零。让。请注意,应该约等于产品的和间隔的长度;也就是说,。因此,层(6)提出,真正的零假设的比例,,估计是一个适当的选择) 的价值有影响的行为吗。有巨大的偏差和方差小的什么时候是小的和一个小偏差和大方差更待何时分别是大。因为极端的价值观有一个偏见方差平衡层等。7提出引导,这是一个重采样技术,选择当估算的均方误差最小化。得到的估计量是用。
注意,这个想法导致层的估计量治疗的吗项为零的并发症引起的分布未知的选择。因此,层的估计量往往会高估的大小,至少理论上。然而,高估的预期规模就变得不那么重要更接近于1;也就是说,更接近于0。的biasedness的估计量可以控制,什么时候接近于1,明显在部分仿真结果4其他作者观察到,例如,Langaas et al。1]。
2.3。挂法
让和是定义在(6)。Langaas et al。1证明,如果是两次可微凸,减少,可以表示为 在核密度 与任何概率测度。因此Langaas et al。1)能够描述的非参数最大似然估计的密度作为 在哪里非参数最大似然估计的吗。让值的订购统计数据值。非参数的极大似然估计量是由 Langaas et al。1然后提出估计比例通过 它指出,估计量通过构造密度估计在或上界的支持,也就是说,,它可以保守和高估当假设有问题或慢慢地,。高估的问题时可以更严重不是大;也就是说,不是那么小。然而,在部分的结束2。2适用于。
2.4。平均预测方法
平均估计方法是出于层的方法。江和Doerge8]观察(和许多其他作者指出)层的估计量有巨大的偏差和小方差时是小的和一个小偏差和大方差更待何时是大的。因为两个极端有一个偏见方差权衡,江泽民和Doerge8提出结合层的不同值的估计一个小极端不同的极端。
让,假设层的估计 江和Doerge8提出估算的平均的值;也就是说, 这个估计的目的是最小化偏差和方差同时,如果适当的选择。
定义等距的点的时间间隔的时间间隔分为小间隔相等的长度;具体地说,。让和为。定义 江和Doerge8然后提出估计通过 应用估计,有选择的值。江和Doerge8)开发一个引导算法选择最优。应该注意的是,作为一个层的平均估计,这个估计预计将从层继承稳当的方法。
3所示。新方法
我们提出一个有限混合模型的均匀分布和多项分布与混合比例以适应值。表示嗯对于这个有限混合分布。通过这种方法,替代分布中定义的(6)仅限于多项分布的家人,M。或者,多项分布可以被视为一种参数近似未知非参数密度,同样的想法,经验似然方法(参见欧文(9])。所以这个过程视为非参数。
应用这一方法,我们首先需要解决两件事:(a)将连续式观察为离散数据类别和(b)选择一个整数。
3.1。的选择
这是通常情况下在应用程序值是高度扭曲(见层和Tibshirani [10),赵et al。11],Markitsis和赖12])。在这种情况下,我们建议多恩斯特奇斯的规则选择的修改如下所示,计算混合物的偏态分布(6)(见多恩13和斯特奇斯14): 在哪里是一个估计的偏态系数。在对称的情况下,我们建议适应斯特奇斯的规则确定的选择:
3.2。的变换的
转换的年代,单位区间分割成小区间以同样的宽度。定义 为,。请记住, 从楼的贝叶斯解释多个测试问题,考虑到另一个选择是真实的概率,遵循价值分布。以同样的方式,转换后的数据可以解释如下。鉴于概率的选择是正确的,是一个多项随机向量和分布M,因为。因此,都是独立和恒等分布的有限混合分布嗯和最大似然估计为因此从转换后的数据结果的年代。明确地,在一起最大化对数似函数
3.3。EM算法
注意,最大化非线性对数似函数(22可以复杂)。EM算法可以很容易地得到一个近似。为了这样做,我们引入一个潜在的伯努利方程变量表明组件加入有限混合分布。也就是说,鉴于,是米。请注意,有分布 为或1和或1,。
让,,是一个随机样本的大小从模型(23)。在目前的问题,的只是为分析和可用的数据的是不可见的,所以认为是缺失值。这定义了一个缺失值模型。完整数据的对数似是由 在哪里,,因为。我们已经准备好描述了EM算法。
E-Step。让是当前近似下的极大似然估计模型。在接下来的近似,E-step建立预期的对数似功能
M-Step。M-step,产生下一个近似最大化吗和。考虑 在哪里
从,我们有
总之,让是最大似然估计的近似最大化对数似函数中定义(22)。然后近似的EM算法 所以EM迭代过程算法所示1。
|
||||||||||||||||||||||
众所周知,每个EM迭代接近最大对数似,但只在一个线性收敛速度。如果组件的密度是相似的,那么收敛非常缓慢。融合也将缓慢的最大似然解需要一些重量参数为零,因为算法无法达到这样一个边界点。一个额外的和相关的问题是,决定何时停止算法。一个天真的用户的一个风险是自然倾向于使用的停止规则算法基于参数的变化或可能被足够小。采取smalls步骤并不表明我们是接近的解决方案。
为了解决这一问题,林赛(15)利用EM算法过程的规律,预测,通过设备被称为艾特肯加速度,在最大似然值的对数似解决方案。艾特肯的加速度规则通常是建议预测的最大有效时,适当地使用线性收敛算法收敛速度缓慢。如果我们让,是三个连续的迭代对数似值,然后预测最终的价值 在哪里。终止EM迭代时是足够小。
4所示。模拟研究
为了研究估计的属性描述的部分2并比较性能的新开发的评估过程中所描述的部分3我们进行了仿真实验。模拟数据的生成和估计的计算都是在语言完成的。进行了仿真研究基于一个片面的值以及在有限正态混合模型与不同的值和性能比较。
蒙特卡罗模拟独立于数据和每个值计算。在哪里是标准正态累积分布函数的。生成的模拟数据,三个真正的价值被认为是,即样本大小和1000。在每种情况下,蒙特卡罗试验进行。EM算法实现的计算提出了新的估计EM算法的确定规则。EM算法融合的模拟数据集。在每种情况下,拟议的新估计的性能与一些现有的程序通过蒙特卡罗的同一组数据。确切地说,在模拟中,我们认为以下现有的方法:(1)层的引导估计用(2)Langaas et al .凸估计用(3)江泽民和Doerge平均法估计用层的估计计算通过使用吗包nFDR和凸估计由包limma与函数挂。表2总结了仿真结果。显然表明,新的估计大大优于现有方法可比标准错误,执行比像预期的那样。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
5。应用到现实生活中微阵列数据
进一步评估新方法的性能相比,三个现有的方法,考虑到现实生活中,DNA微阵列实验的数据报道Golub et al。5可以下载的包乘。数据集被许多作者(见[11,16)和引用其中)来说明我们提出的应用评估方法在多个测试真正的零假设的比例问题。数据集由38个骨骨髓样本,27个急性淋巴细胞白血病(ALL)和11个样品急性髓系白血病(AML)样本,从急性白血病患者在诊断时,在化疗。从骨髓单核细胞RNA制备杂化高密度寡核苷酸微阵列,由Affymetrix和包含调查7129人类基因。但预处理后,只有3051个基因准确地读导致微阵列矩阵。比较两组之间的基因表达,让和每个基因的真正意思是强度,在组1和2,分别确定差异表达的基因,也就是说,测试 每3051个基因,两个示例韦尔奇统计计算和它的两面计算价值在一个中央——学生分布与36的自由程度。的柱状图值显示在图1。很明显,值是高度向右倾斜。
四个比例的估计nondifferentially表达基因的3051个基因中,,,,,,给出了表3。看来这四个估计是明显不同的,不同的从低至0.4150。指出它已经被许多作者评论估计,,通常是保守的,我们得出结论,较低的估计提出了新的估算过程出现的0.42,可能更接近的真正价值。
|
||||||||||||||||||||
相互竞争的利益
作者宣称没有利益冲突有关的出版。
引用
- m . Langaas b h . Lindqvist, e . Ferkingstad”的比例估计真正的零假设,应用DNA微阵列数据,”皇家统计学会杂志》的系列B:统计方法,卷67,不。4、555 - 572年,2005页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- y Benjamini和y .业务控制错误发现率:一个实用和强大的多个测试方法,”皇家统计学会杂志》的系列B:方法论卷,57号1,第300 - 289页,1995。视图:谷歌学术搜索|MathSciNet
- b . Gyorffy a Gyorffy, z . Tulassay”问题的多个测试全基因组研究和解决方案”Orvosi Hetilap卷,146年,第563 - 559页,2005年。视图:谷歌学术搜索
- r . j•西梅斯”,一种改进Bonferroni过程多个测试的意义,“生物统计学,卷73,不。3、751 - 754年,1986页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- t·r·Golub d·k·尼姆,p . Tamayo et al .,“发现癌症的分子分类:类和类基因表达监测预测,“科学,卷286,不。5439年,第537 - 531页,1999年。视图:出版商的网站|谷歌学术搜索
- j·d·层”,直接的方法错误发现率,”英国皇家统计学会杂志》上。系列b .统计方法,卷64,不。3、479 - 498年,2002页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- j·d·层、j·e·泰勒和d . Siegmund“强有力的控制,保守点估计和同步保守的一致性错误发现率:一个统一的方法,”皇家统计学会杂志》的系列B:统计方法,卷66,不。1,第205 - 187页,2004。视图:出版商的网站|谷歌学术搜索|MathSciNet
- 江h和r . w . Doerge,“估计真正的零假设的比例为多个比较,”癌症信息学》第六卷,25-32,2008页。视图:谷歌学术搜索
- 答:欧文,“线性模型,经验似然”统计年报,19卷,不。4、1725 - 1747年,1991页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- j·d·层和r . Tibshirani“全基因组研究统计学意义”美国国家科学院院刊》上的美利坚合众国,卷100,不。16,9440 - 9445年,2003页。视图:出版商的网站|谷歌学术搜索|MathSciNet
- h .赵,吴x h·张,h·陈,“估计真正的零假设在非参数指数的比例混合模型与appication白血病基因表达数据,”通信数据。模拟和计算第41卷。。9日,第1592 - 1580页,2012年。视图:出版商的网站|谷歌学术搜索|MathSciNet
- A . Markitsis和y赖”,审查测试混合模型估计的比例non-differentially表达基因,”生物信息学,26卷,不。5,640 - 646年,2010页。视图:出版商的网站|谷歌学术搜索
- d·p·多恩”审美频率分类,“美国统计学家,30卷,不。4、181 - 183年,1976页。视图:出版商的网站|谷歌学术搜索
- h·a·斯特奇斯”类的选择区间”,美国统计协会杂志》上,21卷,不。153年,第66 - 65页,1926年。视图:出版商的网站|谷歌学术搜索
- b·g·林赛,“混合模型:理论、几何和应用程序”诉讼NSF-CBMS地区会议系列的概率和统计数理统计研究所,1995。视图:谷歌学术搜索
- z关、吴b和h .赵,”伯恩斯坦多项式的应用程序错误发现率的估计,”Statistica中央研究院18卷,第923 - 905页,2008年。视图:谷歌学术搜索
版权
版权©2016 Oluyemi Oyeniran陈和瀚峰。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。