优势比估计在二项分布极其罕见的事件

文摘

我们引入新的估计量的优势比稀有事件使用经验贝叶斯方法在两个独立的二项分布。我们比较优势比的建议预算有两个估计,修正极大似然估计量(MMLE)和修改值无偏估计量(MMUE),使用估计的相对误差(之前)作为比较的标准。发现新的估计量与其他方法相比更有效率。

1。介绍

的比率衡量的是两个独立的组分类响应之间的联系有两个可能的结果,成功和失败。两个独立的团体可以两个治疗组或治疗和控制。的优势比广泛用于医学和社会科学研究的许多领域。在流行病学最常用来表达一些临床试验的结果,如在病例对照研究。

每组的受试者人数下跌在每个类别可以概括在一个双向列联表。总数1组和2组的受试者和,认为是固定的。数字1组和2组的成功和,被认为是独立的二项随机变量。让和成功的概率在组1、组2,分别。组1定义的成功的可能性,类似于第二组。常用的极大似然估计量的比值比的定义是优势比负的实际价值。当成功在两组相似,比值比等于1,这意味着组织是独立的响应。当积极回应的几率更高比组2组1,比值比大于1的值小于1,反之亦然。优势比的父亲从1在一个给定的方向代表了强大的协会。此外,它的抽样分布是高度倾斜。样品自然对数的比值比,更少的倾斜,常用于推理。然而,比值比可以零(如果零细胞计数出现在分子(1))或无穷(如果零细胞计数的分母(1))或未定义的(如果有0细胞计数的分子和分母(1))。霍尔丹(1)和加里Zweifel (2)建议添加一个修正项0.5到每一个细胞,当有0细胞计数,提供修改后的最大似然估计(MMLE) 尽管仍然把0到无穷大之间,有些研究人员劝阻0.5添加到每一个细胞,因为外表添加“假数据”;看到主教et al。3和Agresti和阳4]。在争议中,几个类似的替代这个修改提出了极大似然估计量。Hirji et al。5]提出了无偏估计量中值(MUE)的优势比,从有条件获得非中心超几何分布。然而,中值无偏估计量的比值比仍然引起了问题和或,然后MUE是未定义的。Parzen et al。6)提出了一个估计量的比值比基于MUE称为修改值无偏估计量(MMUE)的估计成功概率总是间隔,即使有0或每组成功。因此,估计优势比总是0到无穷大之间。此外,该方法表现良好在小样本对偏见,另一个添加“假数据。”

在本文中,我们专注于“小概率事件”,偶尔观察到零个或小项有趣的事件发生在一个给定的时期或一个给定的样本,如自然灾害或一些疾病。正如上面提到的,罕见的事件造成难以估计的优势比0的发生或小分子或分母观察数量或在两者中,导致大的标准误差,因此较少的精确置信区间。因此只有粗略估计的优势比。研究涉及关联分类变量列联表一直研究,使用经典和贝叶斯方法。好(7]研究协会的因素,在早期阶段,在大列联表小条目,假设对数正态分布和皮尔逊III型分布。作者还提到,这些假设可能不准确,但容易搬运。费雪(8]估计基于超几何分布的优势比使用精确的方法表。托马斯和加里(9)构建一个表的95%置信区间的差异和比例两个比例,包括优势比和单侧在各种类型的值Fisher-Irwin准确测试表。Altham [10]研究协会和精确价值列联表的基础上累积后验概率不容易提取。Nurminen和Mutanen11)提出了贝叶斯估计的方法区别两个比例,风险率和优势比,使用积分表达式提供独立的测试之前和累积的后验分布。他们也该方法应用于实际数据对恶性淋巴瘤和结肠癌病例暴露于苯氧基酸和氯酚在农业。努里·et al。12]介绍了评估的优势比表是不是接触时。他们比较矩阵和逆矩阵的方法来标定方法使用模拟研究,发现逆矩阵方法在一个封闭的形式比矩阵法更有效。

正如前面提到的,估计协会双向列联表的测量可以进行基于古典和贝叶斯方法。确切的分布使用经典的方法,然而,相当困难的数学温顺。在贝叶斯方法,之前的信念是纳入推导的后验密度,hyperparameters,描述前密度,研究人员往往是未知的,需要评估无论当前数据。然而,争议仍然存在。另外,hyperparameters的估算是进行合理的使用当前数据与经验贝叶斯方法的概念来估计未知的hyperparameters,与贝叶斯方法。因此,我们专注于利用经验贝叶斯估计方法的优势比双向列联表,关注小成功的比例。我们计划的评估往往比传统的估计量,MMLE, MMUE没有干涉原始数据。

本文的其余部分被组织在以下序列。在下一节中,我们将讨论中值的无偏估计量。第三部分描述了使用EB的优势比估计的方法。第四部分说明了模拟结果和EB的效率相比MMLE和MUE。第五部分显示我们的方法应用到真实的数据。我们在最后一部分得出结论。

2。修改后的值无偏估计量的比值比

Parzen et al。6)建议修改后的中值无偏估计量(MMUE)两个独立的二项分布。让成功概率的估计量满足获得他们使用二项分布,,在那里表示随机变量代表的成功集团。让的观测值可以计算MMUE充分统计二项分布的数据。

计算的值和这些价值的在哪里和最小的和最大的价值是什么,分别。然后,MMUE被定义为当,我们可以找到的值和它满足然后,解决从和解决从的值和可以是通过使用累积贝塔分布之间的关系和累积二项分布函数如下(Daly [13和约翰逊等。14])。

让: 我们需要找到和这样特别是, 在哪里是分位数的贝塔分布参数和

现在假设,然后任何价值在这一期间满足在哪里是最小的可能值的

同样的,当,满足因此,;= 同样的,当最大的可能值吗,然后满足当和

然后,MMUE优势比估计的定义是在哪里和在组1和2表示成功概率估计,分别。

3所示。提出优势比估计

在本节中,我们提出了一种新的方法优势比使用经验贝叶斯方法估计在两个独立的二项分布。让和是随机变量,分布与二项平等和不平等的样本大小和未知的概率,和,在那里和表示两个样本大小和两个未知的成功概率。采用先验信息,,,在那里和表示未知hyperparameters。hyperparameters的评估可以从后获得的边际分布函数如下: 因此,后的边际分布函数是beta-binomial分布(bdd)。

然后,hyperparameters每组可以使用最大似然估计方法。后边际似然函数的分布函数然后写成应用牛顿迭代法解非线性方程,hyperparameters的极大似然估计量可以获得在哪里的矩估计hyperparameters beta-binomial分布作为初始值;看到星(15]。

的后验分布函数因此计算,收益用的估计和,我们获得让和是估计的和分别在哪里因此,EB估计量的比值比可以获得如下: 在哪里和在组1和2表示成功概率估计,分别。

4所示。仿真研究MMLE、MMUE和EB的方法

模拟研究进行了使用R程序(3.2.0版)(16]EB的效率评估方法相比,两个现有的方法。二项数据生成与平等和不平等的样本大小:与成功的概率在组1:和0.15。为每个值不同的是0.01,0.03,0.05,0.1,和每种情况下重复5000次后删除第一个1000次迭代(1000老化)。提出了估计量的效率是评价使用估计的相对误差(之前),定义为在哪里表示一般的优势比极大似然估计量表示使用EB估计的优势比,MMLE, MMUE,分别。

仿真结果与优势比样本大小的估计和表中给出1- - - - - -3。表中给出的性能估计使用之前4- - - - - -6并比较结果与图在图1;其他情况提供了类似的结果。发现使用EB的优势比估计方法大多收益率最小之前有78.67%,而使用MMLE和MMUE方法导致最小之前只有6.67%和14.66%,分别。




(0.01,0.01)	1.0000	1.3665	1.1514	1.2043
(0.01,0.03)	0.3266	0.3931	1.0029	1.0377
(0.01,0.05)	0.1919	0.2248	0.8723	0.8935
(0.01,0.10)	0.0909	0.1040	0.6219	0.6184
(0.01,0.15)	0.0572	0.0650	0.4481	0.4307
(0.03,0.01)	3.0619	3.8746	1.6008	1.7848
(0.03,0.03)	1.0000	1.1119	1.3933	1.5383
(0.03,0.05)	0.5876	0.6363	1.2128	1.3244
(0.03,0.10)	0.2784	0.2942	0.8640	0.9156
(0.03,0.15)	0.1753	0.1838	0.6227	0.6378
(0.05,0.01)	5.2105	6.5657	2.0724	2.4094
(0.05,0.03)	1.7018	1.8851	1.8036	2.0763
(0.05,0.05)	1.0000	1.0787	1.5693	1.7868
(0.05,0.10)	0.4737	0.4989	1.1181	1.2356
(0.05,0.15)	0.2982	0.3116	0.8059	0.8609
(0.10,0.01)	11.0000	13.7434	3.3472	4.1489
(0.10,0.03)	3.5926	3.9471	2.9135	3.5759
(0.10,0.05)	2.1111	2.2585	2.5352	3.0777
(0.10,0.10)	1.0000	1.0445	1.8068	2.1288
(0.10,0.15)	0.6296	0.6523	1.3027	1.4839
(0.15,0.01)	17.4706	21.7299	4.7827	6.1533
(0.15,0.03)	5.7059	6.2349	4.1625	5.3026
(0.15,0.05)	3.3529	3.5678	3.6225	4.5648
(0.15,0.10)	1.5882	1.6498	2.5812	3.1568
(0.15,0.15)	1.0000	1.0303	1.8602	2.1990




(0.01,0.01)	1.0000	1.3656	2.9352	2.7925
(0.01,0.03)	0.3266	0.4023	2.0063	1.8490
(0.01,0.05)	0.1919	0.2279	1.4146	1.2576
(0.01,0.10)	0.0909	0.4043	0.6802	0.5486
(0.01,0.15)	0.0572	0.0652	0.3981	0.2971
(0.03,0.01)	3.0619	3.8640	4.0816	4.1395
(0.03,0.03)	1.0000	1.1385	2.7872	2.7376
(0.03,0.05)	0.5876	0.6452	1.9663	1.8632
(0.03,0.10)	0.2784	1.1466	0.9457	0.8131
(0.03,0.15)	0.1753	0.1845	0.5536	0.4406
(0.05,0.01)	5.2105	6.5508	5.2833	5.5870
(0.05,0.03)	1.7018	1.9307	3.6077	3.6950
(0.05,0.05)	1.0000	1.0940	2.5446	2.5144
(0.05,0.10)	0.4737	1.9430	1.2236	1.0969
(0.05,0.15)	0.2982	0.3128	0.7163	0.5944
(0.10,0.01)	11.0000	13.7159	8.5346	9.6223
(0.10,0.03)	3.5926	4.0427	5.8289	6.3651
(0.10,0.05)	2.1111	2.2907	4.1132	4.3339
(0.10,0.10)	1.0000	1.0327	1.6556	1.5221
(0.10,0.15)	0.6296	0.6549	1.1578	1.0247
(0.15,0.01)	17.4706	21.6662	12.1932	14.2687
(0.15,0.03)	5.7059	6.3850	8.3278	9.4395
(0.15,0.05)	3.3529	3.6181	5.8732	6.4225
(0.15,0.10)	1.5882	6.4257	2.8237	2.8019
(0.15,0.15)	1.0000	1.0345	1.6529	1.5181




(0.01,0.01)	1.0000	1.5096	4.2803	3.9580
(0.01,0.03)	0.3266	0.4210	2.3790	2.0799
(0.01,0.05)	0.1919	0.6975	1.4513	1.1915
(0.01,0.10)	0.0909	0.1057	0.6167	0.4475
(0.01,0.15)	0.0572	0.0656	0.3656	0.2515
(0.03,0.01)	3.0619	4.2760	5.9515	5.8667
(0.03,0.03)	1.0000	1.1926	3.3063	3.0810
(0.03,0.05)	0.5876	1.9756	2.0173	1.7653
(0.03,0.10)	0.2784	0.2992	0.8578	0.6636
(0.03,0.15)	0.1753	0.1856	0.5083	0.3728
(0.05,0.01)	5.2105	7.2486	7.7012	7.9149
(0.05,0.03)	1.7018	2.0224	4.2796	4.1586
(0.05,0.05)	1.0000	3.3494	2.6114	2.3833
(0.05,0.10)	0.4737	0.5073	1.1100	0.8954
(0.05,0.15)	0.2982	0.3147	0.6579	0.5031
(0.10,0.01)	11.0000	15.1780	12.4415	13.6337
(0.10,0.03)	3.5926	4.2347	6.9165	7.1666
(0.10,0.05)	2.1111	7.0132	4.2213	4.1087
(0.10,0.10)	1.0000	1.0621	1.7938	1.5433
(0.10,0.15)	0.6296	0.6589	1.0631	0.8669
(0.15,0.01)	17.4706	23.9776	17.7763	20.2195
(0.15,0.03)	5.7059	6.6884	9.8777	10.6225
(0.15,0.05)	3.3529	11.0773	6.0256	6.0860
(0.15,0.10)	1.5882	1.6775	2.5614	2.2869
(0.15,0.15)	1.0000	1.0408	1.5181	1.2848




(0.01,0.01)	36.6535	15.1385	20.4316
(0.01,0.03)	20.3505	206.7910	217.7388
(0.01,0.05)	17.1281	354.5204	365.6116
(0.01,0.10)	14.3630	584.0771	580.2372
(0.01,0.15)	13.4914	682.8616	652.4367
(0.03,0.01)	26.5436	47.7187	41.7082
(0.03,0.03)	11.1895	39.3332	53.8303
(0.03,0.05)	8.2767	106.3838	125.3783
(0.03,0.10)	5.6857	210.3971	228.9552
(0.03,0.15)	4.8556	255.2977	263.9451
(0.05,0.01)	26.0092	60.2273	53.7592
(0.05,0.03)	10.7763	5.9852	22.0098
(0.05,0.05)	7.8661	56.9330	78.6812
(0.05,0.10)	5.3167	136.0498	160.8427
(0.05,0.15)	4.4721	170.2257	188.6564
(0.10,0.01)	24.9404	69.5705	62.2831
(0.10,0.03)	9.8685	18.9032	0.4659
(0.10,0.05)	6.9818	20.0893	45.7877
(0.10,0.10)	4.4467	80.6791	112.8820
(0.10,0.15)	3.6016	106.9073	135.6854
(0.15,0.01)	24.3801	72.6244	64.7792
(0.15,0.03)	9.2720	27.0495	7.0675
(0.15,0.05)	6.4085	8.0392	36.1422
(0.15,0.10)	3.8773	62.5224	98.7588
(0.15,0.15)	3.0338	86.0169	119.9015




(0.01,0.01)	36.5558	193.5166	179.2467
(0.01,0.03)	23.1721	514.2925	466.1248
(0.01,0.05)	18.7270	637.0581	555.2608
(0.01,0.10)	344.7753	648.1943	503.4379
(0.01,0.15)	13.8933	595.4561	419.0998
(0.03,0.01)	26.1981	33.3063	35.1969
(0.03,0.03)	13.8541	178.7227	173.7624
(0.03,0.05)	9.7978	234.6089	217.0772
(0.03,0.10)	311.9138	239.7364	192.0982
(0.03,0.15)	5.2578	215.8678	151.3923
(0.05,0.01)	25.7219	1.3963	7.2250
(0.05,0.03)	13.4545	112.0004	117.1259
(0.05,0.05)	9.3998	154.4641	151.4381
(0.05,0.10)	310.1875	158.3124	131.5756
(0.05,0.15)	4.8844	140.1677	99.2831
(0.10,0.01)	24.6897	22.4126	12.5246
(0.10,0.03)	12.5282	62.2482	77.1730
(0.10,0.05)	8.5055	94.8364	105.2921
(0.10,0.10)	3.2693	65.5584	52.2104
(0.10,0.15)	4.0198	83.8863	62.7515
(0.15,0.01)	24.0150	30.2071	18.3274
(0.15,0.03)	11.9013	45.9518	65.4338
(0.15,0.05)	7.9089	75.1670	91.5471
(0.15,0.10)	304.5808	77.7868	76.4163
(0.15,0.15)	3.4464	65.2920	51.8093




(0.01,0.01)	50.9628	328.0343	295.7966
(0.01,0.03)	28.9076	628.4030	536.8268
(0.01,0.05)	263.4419	656.1777	520.8249
(0.01,0.10)	16.2619	578.3828	392.2232
(0.01,0.15)	14.5797	538.7736	339.4512
(0.03,0.01)	39.6535	94.3767	91.6069
(0.03,0.03)	19.2635	230.6324	208.1003
(0.03,0.05)	236.1914	243.2889	200.4045
(0.03,0.10)	7.4747	208.1561	138.4178
(0.03,0.15)	5.8990	190.0357	112.7091
(0.05,0.01)	39.1153	47.8002	51.9027
(0.05,0.03)	18.8401	151.4810	144.3693
(0.05,0.05)	234.9386	161.1356	138.3292
(0.05,0.10)	7.0955	134.3384	89.0341
(0.05,0.15)	5.5239	120.5896	68.6865
(0.10,0.01)	37.9815	13.1041	23.9423
(0.10,0.03)	17.8718	92.5224	99.4826
(0.10,0.05)	232.2048	99.9578	94.6234
(0.10,0.10)	6.2116	79.3838	54.3286
(0.10,0.15)	4.6546	68.8420	37.6836
(0.15,0.01)	37.2457	1.7496	15.7345
(0.15,0.03)	17.2201	73.1152	86.1673
(0.15,0.05)	230.3755	79.7100	81.5120
(0.15,0.10)	5.6227	61.2754	43.9902
(0.15,0.15)	4.0763	51.8150	28.4826

5。说明性的例子使用真实的数据

我们的第一个例子是来自良好的研究(7和哈17]。如表所示7、主题与恶性淋巴瘤和结肠癌病例和控制那些暴露于苯氧基酸在农业和林业不久观察,包括真正的优势比及其使用EB估计,MMLE, MMUE。对结果的的病例和控制,分别使用EB方法优势比收益率的估计至少在0.5523,而使用MMLE和MMUE方法导致之前为1.2805和4.1483,分别。


		方法
		真正的	海尔哥哥	MMLE	MMUE

1例		2.4444	2.4309	2.4131	2.3430
1例	之前	- - - - - -	0.5523	1.2805	4.1483

第二个例子		0.1169	0.1230	0.1642	0.1350
第二个例子	之前	- - - - - -	5.2097	40.4643	15.5305

第二个例子是取自Perondi等的研究。18),如表所示7儿童相比,大剂量肾上腺素和标准剂量肾上腺素与心脏骤停和34岁的孩子在每个治疗,包括真正的优势比及其使用EB估计,MMLE, MMUE。测量结果是生存在24小时的分别对高剂量和标准剂量。使用EB方法优势比收益率的估计至少在5.2097,而使用MMUE和MMLE方法导致之前为15.5305和40.4643,分别。

6。结论

基于模拟的优势比估计的研究罕见的事件有两个独立的二项数据,结果表明,该方法很好地执行。EB估计量的比值比也比其他两个更有效的估计,MMLE MMUE。另外,我们计划的估计量的另一种方法是优势比估计MMLE方法没有令人不安的原始数据。

相互竞争的利益

作者宣称没有利益冲突。

确认

作者感谢研究生学院,蒙国王科技大学北曼谷的金融支持。

引用

j·b·霍尔丹,“估计和频率之比的对数的意义,“《人类遗传学,20卷,不。4、309 - 311年,1956页。视图:出版商的网站|谷歌学术搜索
j·j·加里和j . r . Zweifel”分对数的各种估计量的偏差和方差与量子生物测定的应用,”生物统计学,54卷,不。1 - 2、181 - 187年,1967页。视图:出版商的网站|谷歌学术搜索|MathSciNet
y . m .主教s e . Fienberg, p . w .荷兰,离散多变量分析:理论和实践施普林格,纽约,纽约,美国,2007年。视图:MathSciNet
答:Agresti M.-C。杨,“实证调查一些应急表中稀疏的影响,“计算统计和数据分析,5卷,不。1、9、1987页。视图:出版商的网站|谷歌学术搜索
k . f . Hirji a . a . Tsiatis和c·r·梅塔”为二进制数据值无偏估计,“美国统计学家,43卷,不。1、7 - 11,1989页。视图:出版商的网站|谷歌学术搜索|MathSciNet
m . Parzen s Lipsitz j·易卜拉欣,n . Klar)”估计的优势比总是存在,”计算和图形统计杂志》上,11卷,不。2、420 - 436年,2002页。视图:出版商的网站|谷歌学术搜索|MathSciNet
i . j .好”,在应急表小频率的估计,”英国皇家统计学会杂志》上。系列b方法18卷,第124 - 113页,1956年。视图:谷歌学术搜索|MathSciNet
r·a·费舍尔“归纳推理的逻辑,英国皇家统计学会杂志》上,卷98,不。1,页39 - 82,1935。视图:出版商的网站|谷歌学术搜索
d·g·托马斯和j·j·加里,”一个表的精确置信区间差异和比率两个比例和他们的优势比,”美国统计协会杂志》上,卷72,不。357年,第76 - 73页,1977年。视图:出版商的网站|谷歌学术搜索
p . m . e . Altham”确切的贝叶斯分析 $2 \times 2$ 列联表,费舍尔的确切的显著性检验,”英国皇家统计学会杂志》上。系列B(方法论)31卷,第269 - 261页,1969年。视图:谷歌学术搜索
m . Nurminen和p . Mutanen“精确的贝叶斯分析两个比例,”斯堪的纳维亚杂志统计,14卷,不。1,第77 - 67页,1987。视图:谷歌学术搜索|MathSciNet
b .努里·n·Zare, s m t . Ayatollahi“验证的研究方法评估优势比 $2 \times 2 \times J$ 表暴露分类错误时,“计算和数学方法在医学ID 170120条,卷。2013年,8页,2013。视图:出版商的网站|谷歌学术搜索
l·戴利,”简单的SAS宏确切二项式分布和泊松分布置信区间的计算,”计算机在生物学和医学,22卷,不。5,351 - 361年,1992页。视图:出版商的网站|谷歌学术搜索
n·l·约翰逊,a·w·坎普,s .科孜单变量离散分布约翰•威利& Sons新泽西,新泽西,美国,2005年。
t p星途,“估计狄利克雷分布,”科技。代表,麻省理工学院出版社,伦敦,英国,2000年。视图:谷歌学术搜索
R发展核心团队介绍R,维也纳,2010年,http://R-project.org
l·哈”关系的软组织肉瘤,恶性淋巴瘤和结肠癌苯氧基酸、氯酚和其他代理商,“斯堪的纳维亚杂志工作,环境和健康,7卷,不。2、119 - 130年,1981页。视图:出版商的网站|谷歌学术搜索
m . b . m . Perondi A·g·里斯e . f . Paiva v . m . Nadkarni和r·A·伯格”比较高剂量和标准剂量的肾上腺素与心脏骤停,孩子”《新英格兰医学杂志》上,卷350,不。17日,第1730 - 1722页,2004年。视图:出版商的网站|谷歌学术搜索

概率论与数理统计》杂志上

文摘