, of the true null hypotheses in a multiple testing problem is important in cases where large scale parallel hypotheses tests are performed independently. While the problem is a quantity of interest in its own right in applications, the estimate of can be used for assessing or controlling an overall false discovery rate. In this article, we develop an innovative nonparametric maximum likelihood approach to estimate . The nonparametric likelihood is proposed to be restricted to multinomial models and an EM algorithm is also developed to approximate the estimate of . Simulation studies show that the proposed method outperforms other existing methods. Using experimental microarray datasets, we demonstrate that the new method provides satisfactory estimate in practice."> 估计真正的零假设的比例在多个测试问题 - raybet雷竞app,雷竞技官网下载,雷电竞下载苹果

概率论与数理统计》杂志上

PDF
概率论与数理统计》杂志上/2016年/文章

研究文章|开放获取

体积 2016年 |文章的ID 3937056 | https://doi.org/10.1155/2016/3937056

陈Oluyemi Oyeniran,瀚峰, 估计真正的零假设的比例在多个测试问题”,概率论与数理统计》杂志上, 卷。2016年, 文章的ID3937056, 7 页面, 2016年 https://doi.org/10.1155/2016/3937056

估计真正的零假设的比例在多个测试问题

学术编辑器:Shein-chung周润发
收到了 2016年7月26日
修改后的 2016年10月19日
接受 2016年11月08
发表 2016年12月08

文摘

估计这一比例的问题, ,真正的零假设的多个测试问题是重要的情况下大规模并行独立假设的测试被执行。而问题是兴趣的应用程序的数量,估计的 可用于评估或控制整体错误发现率。在本文中,我们开发一种创新的非参数极大似然估计方法 。提出了非参数可能限制多项式模型和一个EM算法也是发达的近似估计 。仿真研究表明,该方法优于现有的其他方法。使用实验微阵列数据集,我们证明了新方法在实践中提供了满意的估计。

1。介绍

估计这个比例 真正的零假设在多个测试的设置非常重要希望评估和/或控制错误发现率,这是很重要的在基因组学、疾病的发现,和癌症的发现。Langaas et al。1说“想要估计的一个重要原因 是它自己的数量是正确的。此外,一个可靠的估计 是很重要的,当我们要评估或控制多个错误率,如错误发现率罗斯福Benjamini和业务2]。“对于测试DNA微阵列的微分表达式,差异表达基因的比例 ,重要的是要知道5%或35%的基因,例如,在差异表达,即使我们不能识别这些基因(见Langaas et al。1])。多个测试指任何实例涉及到同步测试的几个假设。在基因组研究中一个共同的特征就是大量的同步测量的分析在一个小数量的样品。一个必须决定是否发现真正病因相关性或多重假设检验的副产品(Gyorffy et al。3])。如果不考虑测试的多重性,然后一些真正的零假设的概率拒绝就可能过分大的机会。

在多重假设检验问题,零假设同时进行测试;也就是说,我们的测试 同时,。假设基于观察到的测试构造p值, ,分别。未知的数量 估计是真正的零假设之间的比例 。介绍了我。维伯努利随机变量 。然后 可以解释的多个测试问题如下:

我们假设p值, 连续的和独立的随机变量,这样p价值观是独立和同分布 当零假设是真实的。一个选择拒绝或无法拒绝零假设基于相应的 价值。总结了测试表的后果1


不拒绝 拒绝了

真正的


在表1 零假设的数量; 是可观测的随机变量代表的数量假设拒绝。请注意,所有其他随机变量 , 在表1是不可见的。

估计这一比例的问题 有自然出现在评估或控制整个假废品率在同时假设测试问题。一个可靠的估计 是至关重要的,当我们想要控制和/或评估错误发现率(罗斯福)Benjamini和业务提出的2),定义为 在哪里

Benjamini和业务2)证明西梅斯的过程(西梅斯(4])的罗斯福控制水平 如果底层测试和相应的统计数据 值是连续的和相同的独立分布的。具体地说,他们 因此,如果 是一个希望的罗斯福水平实现如果 可以有效地估计,说 ,然后 可以选择 获得额外的测试力量在罗斯福的多个测试问题得到控制。如果 然而,是高估了大幅的价值吗 大幅低估,导致显著狭窄同时置信区间为多个比较,显著降低测试能力的多个测试问题。另一方面,如果 说,选择通过其他程序中的Bonferroni方法多重比较的问题,评估罗斯福通过估算准确吗 有效的极大兴趣。

本文组织如下。部分2回顾现有的评估方法;部分3介绍了新的估算过程;部分4包含仿真结果和部分5提出了应用新的估算过程现实生活的例子。

2。现有的评估方法

2.1。混合模型框架

可以使用一个混合模型以适应 为了估计比例,值 真正的假说,大规模并行独立假设执行。的估计 可以基于混合模型的常见的密度 值描述如下: 在哪里 的条件概率密度函数是 价值在另一个(见Langaas et al。1])。使用这种混合表示法,我们能够描述的最大似然估计 估计方法是独立同分布的假设下,派生而来 值。零 值均匀分布 。我们应该注意到 描述了配置中真正的另类人群 底层人群;似乎一个非参数估计的方法 是更有吸引力。不失一般性,我们定义 备择假设,在本节将使用。三个非参数估计其他作者最近提出的续集部分描述和讨论。

2.2。层的方法

考虑到常见的边际混合物的密度 值,对任何 : 在此基础上, 通常是小,绝大多数的吗 值的时间间隔 应该对应于真正的零假设,从而均匀分布区间 ,其中最应该接近1,所以 大约是零。让 。请注意, 应该约等于产品的 和间隔的长度 ;也就是说, 。因此,层(6)提出,真正的零假设的比例, ,估计是一个适当的选择 ) 的价值 有影响的行为吗 有巨大的偏差和方差小的什么时候 是小的和一个小偏差和大方差更待何时 分别是大。因为极端的价值观 有一个偏见方差平衡层等。7提出引导,这是一个重采样技术,选择 当估算 的均方误差最小化 。得到的估计量是用

注意,这个想法导致层的估计量 治疗的吗 项为零的并发症引起的分布未知的选择。因此,层的估计量 往往会高估 的大小 ,至少理论上。然而,高估的预期规模就变得不那么重要 更接近于1;也就是说, 更接近于0。的biasedness 的估计量 可以控制,什么时候 接近于1,明显在部分仿真结果4其他作者观察到,例如,Langaas et al。1]。

2.3。挂法

是定义在(6)。Langaas et al。1证明,如果 是两次可微凸,减少, 可以表示为 在核密度 任何概率测度 。因此Langaas et al。1)能够描述的非参数最大似然估计 的密度 作为 在哪里 非参数最大似然估计的吗 。让 的订购统计数据 值。非参数的极大似然估计量 是由 Langaas et al。1然后提出估计比例 通过 它指出,估计量 通过构造密度估计 在或上界的支持,也就是说, ,它可以保守和高估 当假设 有问题或 慢慢地, 。高估的问题时可以更严重 不是大;也就是说, 不是那么小。然而,在部分的结束2。2适用于

2.4。平均预测方法

平均估计方法是出于层的方法。江和Doerge8]观察(和许多其他作者指出)层的估计量有巨大的偏差和小方差时 是小的和一个小偏差和大方差更待何时 是大的。因为两个极端 有一个偏见方差权衡,江泽民和Doerge8提出结合层的不同值的估计 一个小极端不同的极端。

,假设 层的估计 江和Doerge8提出估算 的平均 的值 ;也就是说, 这个估计的目的是最小化偏差和方差同时,如果 适当的选择。

定义 等距的点的时间间隔 的时间间隔 分为 小间隔相等的长度 ;具体地说, 。让 。定义 江和Doerge8然后提出估计 通过 应用估计,有选择的值 。江和Doerge8)开发一个引导算法选择最优 。应该注意的是,作为一个层的平均估计,这个估计预计将从层继承稳当的方法。

3所示。新方法

我们提出一个有限混合模型的均匀分布和多项分布 与混合比例 以适应 值。表示嗯 对于这个有限混合分布。通过这种方法,替代分布 中定义的(6)仅限于多项分布的家人,M 。或者,多项分布可以被视为一种参数近似未知非参数密度 ,同样的想法,经验似然方法(参见欧文(9])。所以这个过程视为非参数。

应用这一方法,我们首先需要解决两件事:(a)将连续式观察 为离散数据 类别和(b)选择一个整数

3.1。的选择

这是通常情况下在应用程序 值是高度扭曲(见层和Tibshirani [10),赵et al。11],Markitsis和赖12])。在这种情况下,我们建议多恩斯特奇斯的规则选择的修改 如下所示,计算混合物的偏态分布(6)(见多恩13和斯特奇斯14): 在哪里 是一个估计的偏态系数。在对称的情况下,我们建议适应斯特奇斯的规则确定的选择 :

3.2。的变换

转换 的年代,单位区间分割成 小区间以同样的宽度 。定义 , 。请记住, 从楼的贝叶斯解释多个测试问题,考虑到另一个选择是真实的概率 , 遵循价值分布 。以同样的方式,转换后的数据 可以解释如下。鉴于概率的选择是正确的 , 是一个多项随机向量和分布M ,因为 。因此, 都是独立和恒等分布的有限混合分布嗯 和最大似然估计 因此从转换后的数据结果 的年代。明确地, 在一起 最大化对数似函数

3.3。EM算法

注意,最大化非线性对数似函数(22可以复杂)。EM算法可以很容易地得到一个近似 。为了这样做,我们引入一个潜在的伯努利方程变量 表明组件加入有限混合分布 。也就是说, 鉴于 , 是米 。请注意, 有分布 或1和 或1,

, ,是一个随机样本的大小 从模型(23)。在目前的问题, 的只是为分析和可用的数据 的是不可见的,所以认为是缺失值。这定义了一个缺失值模型。完整数据的对数似是由 在哪里 , ,因为 。我们已经准备好描述了EM算法。

E-Step。让 是当前近似下的极大似然估计模型 。在接下来的近似,E-step建立预期的对数似功能

M-Step。M-step, 产生下一个近似最大化吗 。考虑 在哪里

,我们有

总之,让 最大似然估计的近似 最大化对数似函数中定义(22)。然后 近似的EM算法 所以EM迭代过程算法所示1

输入: 从观察到的
输出:估计
(1)开始
(2)初始化:设置
(3)重复
(4)设置 年代(当前)近似。
计算
,
(5)直到 ;
(6)然后

众所周知,每个EM迭代接近最大对数似,但只在一个线性收敛速度。如果组件的密度是相似的,那么收敛非常缓慢。融合也将缓慢的最大似然解需要一些重量参数为零,因为算法无法达到这样一个边界点。一个额外的和相关的问题是,决定何时停止算法。一个天真的用户的一个风险是自然倾向于使用的停止规则算法基于参数的变化或可能被足够小。采取smalls步骤并不表明我们是接近的解决方案。

为了解决这一问题,林赛(15)利用EM算法过程的规律,预测,通过设备被称为艾特肯加速度,在最大似然值的对数似解决方案。艾特肯的加速度规则通常是建议预测的最大有效时,适当地使用线性收敛算法收敛速度缓慢。如果我们让 , 是三个连续的迭代对数似值,然后预测最终的价值 在哪里 。终止EM迭代时 是足够小。

4所示。模拟研究

为了研究估计的属性描述的部分2并比较性能的新开发的评估过程中所描述的部分3我们进行了仿真实验。模拟数据的生成和估计的计算都是在语言完成的 。进行了仿真研究 基于一个片面的值 以及在有限正态混合模型 与不同的值 性能比较。

蒙特卡罗模拟独立于数据 和每个 值计算 。在哪里 是标准正态累积分布函数的 。生成的模拟数据,三个真正的价值 被认为是,即 样本大小 和1000。在每种情况下, 蒙特卡罗试验进行。EM算法实现的计算提出了新的估计 EM算法的确定规则 。EM算法融合的模拟数据集。在每种情况下,拟议的新估计的性能 与一些现有的程序通过蒙特卡罗的同一组数据。确切地说,在模拟中,我们认为以下现有的方法:(1)层的引导估计用 (2)Langaas et al .凸估计用 (3)江泽民和Doerge平均法估计用 层的估计 计算通过使用吗 nFDR和凸估计 limma与函数。表2总结了仿真结果。显然表明,新的估计大大优于现有方法可比标准错误, 执行比 像预期的那样。


的估计

200年 0.25 0.235 0.30 0.500 0.314 0.430
(0.016) (0.021) (0.035) (0.022) (0.03)
0.5 0.489 0.613 0.660 0.584 0.626
(0.035) (0.043) (0.047) (0.041) (0.044)
0.75 0.78 0.717 0.79 0.685 0.773
(0.055) (0.051) (0.056) (0.048) (0.054)

500年 0.25 0.249 0.34 0.528 0.33 0.491
(0.011) (0.015) (0.024) (0.014) (0.022)
0.5 0.52 0.646 0.720 0.623 0.704
(0.023) (0.028) (0.032) (0.027) (0.031)
0.75 0.72 0.806 0.860 0.785 0.819
(0.032) (0.036) (0.038) (0.035) (0.035)

1000年 0.25 0.242 0.393 0.482 0.349 0.394
(0.005) (0.012) (0.015) (0.011) (0.013)
0.5 0.51 0.61 0.66 0.61 0.63
(0.016) (0.019) (0.021) (0.019) (0.019)
0.75 0.72 0.67 0.86 0.79 0.81
(0.023) (0.021) (0.027) (0.025) (0.026)

5。应用到现实生活中微阵列数据

进一步评估新方法的性能相比,三个现有的方法,考虑到现实生活中,DNA微阵列实验的数据报道Golub et al。5可以下载的 。数据集被许多作者(见[11,16)和引用其中)来说明我们提出的应用评估方法在多个测试真正的零假设的比例问题。数据集由38个骨骨髓样本,27个急性淋巴细胞白血病(ALL)和11个样品急性髓系白血病(AML)样本,从急性白血病患者在诊断时,在化疗。从骨髓单核细胞RNA制备杂化高密度寡核苷酸微阵列,由Affymetrix和包含调查7129人类基因。但预处理后,只有3051个基因准确地读导致微阵列 矩阵。比较两组之间的基因表达,让 每个基因的真正意思是强度,在组1和2,分别确定差异表达的基因,也就是说,测试 每3051个基因,两个示例韦尔奇 统计计算和它的两面 计算价值在一个中央 ——学生分布与36的自由程度。的柱状图 值显示在图1。很明显, 值是高度向右倾斜。

四个比例的估计 nondifferentially表达基因的3051个基因中, , , , , ,给出了表3。看来这四个估计是明显不同的,不同的从低至0.4150 。指出它已经被许多作者评论估计 , , 通常是保守的,我们得出结论,较低的估计提出了新的估算过程出现的0.42,可能更接近的真正价值



0.4150 0.4643 0.4701 0.4913

相互竞争的利益

作者宣称没有利益冲突有关的出版。

引用

  1. m . Langaas b h . Lindqvist, e . Ferkingstad”的比例估计真正的零假设,应用DNA微阵列数据,”皇家统计学会杂志》的系列B:统计方法,卷67,不。4、555 - 572年,2005页。视图:出版商的网站|谷歌学术搜索|MathSciNet
  2. y Benjamini和y .业务控制错误发现率:一个实用和强大的多个测试方法,”皇家统计学会杂志》的系列B:方法论卷,57号1,第300 - 289页,1995。视图:谷歌学术搜索|MathSciNet
  3. b . Gyorffy a Gyorffy, z . Tulassay”问题的多个测试全基因组研究和解决方案”Orvosi Hetilap卷,146年,第563 - 559页,2005年。视图:谷歌学术搜索
  4. r . j•西梅斯”,一种改进Bonferroni过程多个测试的意义,“生物统计学,卷73,不。3、751 - 754年,1986页。视图:出版商的网站|谷歌学术搜索|MathSciNet
  5. t·r·Golub d·k·尼姆,p . Tamayo et al .,“发现癌症的分子分类:类和类基因表达监测预测,“科学,卷286,不。5439年,第537 - 531页,1999年。视图:出版商的网站|谷歌学术搜索
  6. j·d·层”,直接的方法错误发现率,”英国皇家统计学会杂志》上。系列b .统计方法,卷64,不。3、479 - 498年,2002页。视图:出版商的网站|谷歌学术搜索|MathSciNet
  7. j·d·层、j·e·泰勒和d . Siegmund“强有力的控制,保守点估计和同步保守的一致性错误发现率:一个统一的方法,”皇家统计学会杂志》的系列B:统计方法,卷66,不。1,第205 - 187页,2004。视图:出版商的网站|谷歌学术搜索|MathSciNet
  8. 江h和r . w . Doerge,“估计真正的零假设的比例为多个比较,”癌症信息学》第六卷,25-32,2008页。视图:谷歌学术搜索
  9. 答:欧文,“线性模型,经验似然”统计年报,19卷,不。4、1725 - 1747年,1991页。视图:出版商的网站|谷歌学术搜索|MathSciNet
  10. j·d·层和r . Tibshirani“全基因组研究统计学意义”美国国家科学院院刊》上的美利坚合众国,卷100,不。16,9440 - 9445年,2003页。视图:出版商的网站|谷歌学术搜索|MathSciNet
  11. h .赵,吴x h·张,h·陈,“估计真正的零假设在非参数指数的比例混合模型与appication白血病基因表达数据,”通信数据。模拟和计算第41卷。。9日,第1592 - 1580页,2012年。视图:出版商的网站|谷歌学术搜索|MathSciNet
  12. A . Markitsis和y赖”,审查测试混合模型估计的比例non-differentially表达基因,”生物信息学,26卷,不。5,640 - 646年,2010页。视图:出版商的网站|谷歌学术搜索
  13. d·p·多恩”审美频率分类,“美国统计学家,30卷,不。4、181 - 183年,1976页。视图:出版商的网站|谷歌学术搜索
  14. h·a·斯特奇斯”类的选择区间”,美国统计协会杂志》上,21卷,不。153年,第66 - 65页,1926年。视图:出版商的网站|谷歌学术搜索
  15. b·g·林赛,“混合模型:理论、几何和应用程序”诉讼NSF-CBMS地区会议系列的概率和统计数理统计研究所,1995。视图:谷歌学术搜索
  16. z关、吴b和h .赵,”伯恩斯坦多项式的应用程序错误发现率的估计,”Statistica中央研究院18卷,第923 - 905页,2008年。视图:谷歌学术搜索

版权©2016 Oluyemi Oyeniran陈和瀚峰。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。


更多相关文章

PDF 下载引用 引用
下载其他格式更多的
订单打印副本订单
的观点2270年
下载611年
引用

相关文章

文章奖:2020年杰出的研究贡献,选择由我们的首席编辑。获奖的文章阅读