具有异方差误差的所有线性均值组合的同时推断

摘要

我们提出了一种统计方法，用于构建手段的所有线性组合的同时置信区间，而不假设古典舍福的同步置信区间不再保留家庭错误率（FWER）。当线性组合的比较数量非常大时，所提出的方法是有用的。通过模拟评估了在各种配置下进行各种配置的提出的同时置信区间的FWERS，并且发现非常好地保护预定义的标称水平。给出了异源间装置的成对比较的一个例子来说明所提出的方法。

1.介绍

对大量均值线性组合的多次比较在许多应用中具有普遍的兴趣。如果推理统计过程依赖于比较的数量，那么由于比较的数量在增加，这可能是相当困难的。另外，我们通常不能假设所有的均值方差都是相等的。过去，许多学者提出了多种方法对平均值进行多重比较。矫正人员(1[提出了一种方法，用于构造用于所有线性组合的同时置信区间，同时保持I型错误控制。由于Scheffé的方法构造了用于所有可能的线性组合的同步置信区间，他的方法在处理大量比较手段的手段时具有自身的优势。据了解，Scheffé的同步置信区间有三个主要假设是正确构建的。（1）样品是独立的，（2）群体通常分布，（3）种群具有相同的方差。通常称为同性恋的第三个假设是最脆弱的。违反同性恋性的行为通常会导致各方误差率（FWER）的膨胀。如Scheffé所指出的[2，他的方法在群体样本大小相同，即使方差不相等时也具有一定的稳健性。然而，在方差和样本容量不相等的情况下，wer是失控的。在方差不等的情况下，所有均值线性组合的同时置信区间没有明确的公式。

在总体方差不相等的情况下，对两种均值进行比较的问题称为贝伦斯-费舍尔问题[3.]．Dunnett [4，5Nel和van der Merwe [6]发表了基于模拟的结果，以评估不等方差情况下不同的两两平均比较程序。金(7]利用两个平均向量的置信椭球几何，提出了贝伦斯-费舍尔问题的实用解决方案[8]通过修剪方法解决了贝伦斯-费舍尔问题。克里斯滕森和伦舍[9]比较了Behrens-Fisher问题中的I型错误率和功率水平。Fouladi和Yockey[10.]进行蒙特卡罗研究，以评估均值测试在正常和异常条件下的性能。胡佛[11.探讨了临床试验中具有异质亚组效应的行为干预。本文提出了在所有方差不等的均值线性组合上同时构造置信区间的方法。由于对平均数的线性组合的数目没有限制，建议的方法可用于认为有必要对大量平均数的线性组合进行比较的情况。提出的同时置信区间，我们称之为广义Scheffé的置信区间，具有与经典置信区间相似的显式格式。不再需要等均值方差假设。此外，当所有总体方差和样本容量相等时，这些同时置信区间成为经典的Scheffé置信区间。最重要的是，所提出的同时置信区间在所有方差和样本大小的配置下保持了FWER。

2.广义Scheffé置信区间

假设我们有人口与let是总体的真实均值和方差．让是样本的样本量、样本均值和样本方差第th个群体。在群体间方差相等的情况下人群中,， Scheffé同时置信区间所有平均数的线性组合由以下公式给出：均值误差在哪里是共同方差的合计估计吗人群;是上层吗的分位数自由度分布，；是总样本量。如果常数满足， Scheffé的同时置信区间所有合同由以下公式给出：如果对两两比较感兴趣，我们可以设置一对成为休息S等于零。这是对比的一个特例。注意，Scheffé的区间在处理大量均值的线性组合时很有用。当观测总数和种群数量确定后，数量保持不变，不管同时存在多少置信区间。对于Bonferroni方法，如果均值的线性组合的数目增加，置信区间的宽度会变宽。假设有10个总体，每个样本容量都是10。如果我们有100个同时存在的置信区间对于均值的线性组合在Scheffé的方法中.如果我们采用Bonferroni的方法这意味着Scheffés间期的宽度可能比Bonferroni间期的宽度短。存在一个断点，当平均数的线性组合变得更大时，Scheffés间期可能比Bonferroni间期短。这提醒了人们普遍的看法，即Scheffés间期比Bonferroni s间期短比邦弗罗尼的间歇期保守。

现在我们考虑在不假设等方差的情况下构造同时间隔的问题。定义

注意和．因此,和是线性组合变量与．

找到线性组合的确切分布被称为Satterthwaite问题的变量是相当困难的。Satterthwaite试图将这种类型的变量近似为随机变量除以其自由度（见[12.])。这个自由度然后通过矩估计法求解。如Casella和Berger所述[12.为变量，我们有．因此

然后我们组,哪里和是各自的自由度和．通过应用上述结果，我们可以估计和．首先我们考虑一下，可以找到为自然估计是由对于，我们有

它可以估计和．此外,请注意,独立于因此约了自由度分布和.原来有一个非常简单的形式注意，如果总体方差相等，，我们有; 此外，如果所有群体的样本量相同，即，,然后．

为了导出广义的Scheffé区间，我们需要下面的投影引理(参见[13.)页231 - 232)。为实数诸如此类满足下列不等式: 充要条件为．然后我们选择,让满足什么构成了a的内部-以点为中心的三维球体半径.将投影引理应用于向量哪里，我们有选择,分位数分布与和自由度，基于(2.7),我们有

应用投影引理，这个概率可以被旋转，得到以下广义的结果同时置信区间，对于人口意味着's及其成对差异，广义Scheffés置信区间为哪里. 通过比较(2.1)与(2．11）可以看出，广义的Scheffé的置信区间与他们的经典同行非常相似。

3.家庭错误率的评估

多个比较中的I型错误被称为错误地拒绝构成家庭的NULL假设中的至少一个的概率。拟议的广义Scheffé的置信度的有效性在很大程度上在于成功地控制了给定的名义级别的FWER．

有两个主要因素，总体样本大小和方差，影响Scheffé的置信区间的性能。我们将通过模拟表明，在总体方差不相等的情况下，花开会膨胀。

将选择各种方差和样本大小的配置来评估广义Scheffé方法的性能。为此，组的数量被选择为．为了不失一般性，我们用0表示所有总体均值，也就是说，．样本容量和方差的规格见表1．


样本大小	平方差异				不等方差
样本大小	(0.1, 0.1, 0.1, 0.1)		(1, 1, 1, 1)		(0.3, 0.3, 0.1, 0.1)		(3, 3, 1, 1)

平衡	年代	GS	年代	GS	年代	GS	年代	GS
(5, 5, 5, 5)	98.00	98.60	98.45	99.00	93.60	96.85	94.05	97.35
(10, 10, 10, 10)	97.90	98.45	98.20	98.65	94.75	97.10	95.10	97.30
(20, 20, 20, 20)	97.70	97.90	98.20	98.35	93.90	96.25	94.80	96.45
(50, 50, 50, 50)	97.90	97.95	98.35	98.35	94.35	96.75	94.55	96.60
不平衡
(5, 5, 10, 10)	98.20	98.75	98.20	98.70	87.70	97.50	87.20	97.40
(5, 5, 20, 20)	98.40	99.10	97.90	98.45	73.00	96.20	76.50	96.65
(10,10,20,20)	97.95	98.05	98.35	98.35	88.40	97.30	87.05	96.65
(10, 10, 50, 50)	98.60	98.80	98.70	98.65	73.95	96.70	72.55	97.10

虽然Scheffé的区间适用于所有线性组合的推断，但为了简单起见，我们只关注两组推断:总体均值和它们的成对差异。对于每个配置，我们进行了5,000次模拟运行，计算了总体均值和两两均值差异上的95% Scheffé的间隔和广义Scheffé的间隔。然后我们得到了所提出的区间包含真均值的覆盖率，这些真均值都等于0。

桌子1报告基于这两种方法的覆盖率。请注意，经验FWER将为1减去覆盖率。显然，在方差相等的情况下，两种方法对平衡设计或非平衡设计的覆盖率非常相似。在方差不等的情况下，Scheffé方法的覆盖率下降。但是，其FWER仍然为l保持在标称水平内，即大约，用于平衡设计。这证实了Scheffé的概念，即当总体样本量相等时，他的方法对异方差具有鲁棒性。我们注意到，当总体样本量不同时，FWER会膨胀。可以从表中找到1那，以获取样本量分别为12.3%、27%、11.6%和26.5%。当，以获取样本量，FWER分别为12.8%、23.5%、12.95%和27.45%。请注意，这些FWER均显著高于标称水平可以看出，样本大小的差异越大，相应的FWER将越大。另一方面，广义Scheffé方法的性能更稳健。对于相同的配置设置，基于广义Scheffés间隔的FWER在0.025%和0.038%之间。尽管它是梵蒂冈，但它保持在名义上的．

看看宽度与两种类型的间隔有何不同，它也很有意思。比较（2.1)与(2．12)，可以看出它们之间的区别是由于以下两个术语:

的平均和从5000次模拟运行中显示在表中2．


样本大小	平方差异				不等方差
样本大小	(0.1, 0.1, 0.1, 0.1)		(1, 1, 1, 1)		(0.3, 0.3, 0.1, 0.1)		(3, 3, 1, 1)

平衡
(5, 5, 5, 5)	0.343	0.370	3.422	3.680	0.754	0.909	7.598	9.182
(10, 10, 10, 10)	0.322	0.331	3.229	3.323	0.718	0.813	7.166	8.105
(20, 20, 20, 20)	0.315	0.319	3.153	3.194	0.703	0.778	7.032	7.780
(50, 50, 50, 50)	0.310	0.312	3.105	3.120	0.694	0.759	6.945	7.595
不平衡
(5, 5, 10, 10)	0.329	0.350.	3.284	3.490	0.602	0.905	6.052	9.125
(5, 5, 20, 20)	0.318	0.340	3.196	3.423	0.489	0.905	4.894	9.093
(10,10,20,20)	0.318	0.326	3.173	3.250	0.597	0.812	5.951	8.092
(10, 10, 50, 50)	0.312	0.321	3.128	3.218	0.466	0.810	4.669	8.138

可以看出，在相同的差异的情况下，它们非常接近彼此。但是，在差异不平等的情况下，变得过于乐观地小于，这导致了弗尔的通货膨胀。最后，Scheffé的区间是由统计资料跟随在许多假设下分发。当这些假设被侵犯时，Scheffé的间隔的性能将取决于上述内容统计数据偏离了分布对于广义Scheffés区间，FWER在很大程度上取决于准确度近似. 图形1绘制的经验分布函数和统计(2．13)，以及指定的分布。我们选择了以下四种不同的差异配置和样本尺寸，其对应于同性恋/异源型和平衡/不平衡情况：（1），，，（2），，．

（一种）

（b）

配置(1)表示在样本大小相同或不同的情况下，4个均值的方差相等。配置(2)表示在样本大小相同或不同的情况下，4个均值的方差不相等。我们计算的经验分布函数，可以看出它们几乎是重叠的在所有四种情况下，方差和样本量的配置（图1（a）–4（a）1).公司的预期违约概率之间的重叠和提出了一个极好的近似分布的比率和．另外，EDF的统计数据也与分布相吻合（图1（b）-3（b）1）除非在施舍伯的方法失败的不平衡异级型案例中（图4（b）中1)这就解释了为什么在方差不相等的情况下FWER会膨胀。

最后，以上模拟结果表明，广义Scheffé区间的宽度往往比Scheffé区间的宽度更宽。这是我们的总体印象，但可能并不总是正确的。在模拟中，我们不时地观察到更窄的广义Scheffé间隔。我们将在下一节的数据分析示例中看到这个特性。

4.数据分析示例

所罗门等人[14.研究了孕妇的吸烟行为。他们检查了这些女性在怀孕期间戒烟的决心。他们在第一次产前检查时采访了349名女性，这些女性在怀孕时都是吸烟者，并将她们分为四组:他们的目的是观察这些受试者在怀孕过程中随后的吸烟行为，但一个重要的考虑是这些女性在怀孕时吸烟的数量。这四组的样本量、平均值和标准差，以她们怀孕时每天的吸烟量计算，见表4. 注意到最小样本量是37，我们不需要担心正态性假设，即使感兴趣的响应是count或integer。

桌子3.介绍了Scheffé的间隔和四组手段的间隔和普遍的舍甫法间隔及其差异。由于样本尺寸和差异彼此完全不同，因此广义的Scheffé间隔更可靠。


参数	菸害	广义Scheffé

意思是
	(20.66, 28.94)	(20.76, 28.84)
	(10.95, 22.25)	(11.08, 22.12)
	(26.02, 31.58)	(26.09, 31.51)
	(10.08, 17.32)	(10.16, 17.24)
两两比较
	(1.19, 15.21)	（1.36,15.04）
	(−8.98, 0.98)	(−8.87,0.87)
	(5.59, 16.60)	(5.73, 16.47)
	(−18.49−5.90)	（-18.35，-6.05）
	(−3.81, 9.61)	(−3.65, 9.45)
	(10.53, 19.67)	(10.64, 19.56)


标签	条件	描述

个人电脑	思考之前	吸烟并且没有戒烟的计划	69	24.8	13.3
C	深思	吸烟，但正在考虑戒烟	37	16.6	5.2
P	准备	吸烟，但已努力戒烟	153	28.8	12.2
一个	行动	已经辞职了	90	13.7	8．8

人们可能会做出一些联合置信水平为的推断对于example, women in the preparation (P) group have an average number of cigarettes every day ranging from 26.09 to 31.51, which seems to be the most frequent smoker group. There is no significant difference found between group P and group PC, because their difference has a confidence interval这包括0。注意到广义Scheffés区间比Scheffés区间更窄，这也很有趣。

5.讨论

其中，Scheffé方法是对所有线性平均值组合进行同时推断的常用方法之一。Scheffé区间适用于所有可能的线性平均值组合，如果需要比较大量的线性平均值组合，这将带来好处。所有平均值方差相等的假设是eded用于控制I型误差。当违反此假设时，所提出的方法可方便地用于构造同时置信区间，其中I型误差控制在预先指定的标称水平。仿真结果表明，所提出的同时置信区间的FWER在标称水平上保持良好l水平和等方差假设可以简单忽略。

工具书类

H.Scheffé，“在方差分析中判断所有对比度的方法，”生物统计学，第40卷，第87-104页，1953。视图:谷歌学者|Zentralblatt数学
h .菸害方差分析，约翰·威利父子公司，美国纽约州纽约市，1959年。
H.Scheffé，“Behrens-Fisher问题的实用解决方案”，美国统计协会杂志，第65卷，第1501-1504页，1970。视图:出版商网站|谷歌学者|Zentralblatt数学
C. W. Dunnett，“在不平等方差案件中成对多重比较”美国统计协会杂志，第75卷，第796-800页，1980年。视图:出版商网站|谷歌学者
C.W.Dunnett，“同质方差、不等样本量情况下的成对多重比较，”美国统计协会杂志，第75卷，第789-795页，1980年。视图:出版商网站|谷歌学者
D.G.Nel和C.A.van der Merwe，“多元贝伦斯-费舍尔问题的解决方案，”通信数据。模拟和计算，第15卷，第12期，第3719-3735页，1986年。视图:出版商网站|谷歌学者
S.J.Kim，“多元贝伦斯-费舍尔问题的实用解决方案，”生物统计学，卷。79，没有。1，pp。171-176,1992。视图:出版商网站|谷歌学者|Zentralblatt数学|数学网
R.R.Wilcox，“多元贝伦斯-费舍尔问题的修剪平均解的模拟结果，”统计学家，第44卷，第213-225页，1995年。视图:出版商网站|谷歌学者
W.F.Christensen和A.C.Rencher，“多元贝伦斯-费舍尔问题七种解决方案的I型错误率和功率级比较，”通信数据。模拟和计算，第26卷，第4期，第1251-1273页，1997年。视图:出版商网站|谷歌学者|Zentralblatt数学
R. T. Fouladi和R. D. Yockey，“异质性相关结构和多种多元分布条件下两组多变量均值检验的I型误差控制”，通信数据。模拟和计算，卷。31，不。3，pp。375-400，2002。视图:出版商网站|谷歌学者|Zentralblatt数学|数学网
D. R. Hoover，“具有异质教学亚组效应的行为干预的临床试验”医学统计，卷。30，PP。1351-1364,2002。视图:出版商网站|谷歌学者
G.Casella和R.L.Berger，统计推断，Duxbury，2001年。
J. C. Hsu，多重比较、理论与方法，查普曼和霍尔/CRC，伦敦，英国，1999。
L. J. Solomon，R.H.塞克尔 - 沃克，J. M. Scelly和B. S. Flynn，“妊娠期妇女怀孕期间减少吸烟的阶段”行为医学杂志，卷。19，没有。4，pp。333-344，1996。视图:出版商网站|谷歌学者

概率与统计杂志

摘要