数学杂志

在这一页上

文摘介绍符号结论数据可用性的利益冲突引用版权相关文章

特殊的问题

分析方法模型

把这个特殊的问题

研究文章|开放获取

体积2022年| 文章的ID4530489| https://doi.org/10.1155/2022/4530489

基于分层抽样的分位数估计使用乘法偏差纠正的方法

尼古拉斯Makumi ,^1、2 Romanus奥德海波Otieno ,³ 乔治Otieno Orwa ,² 和亚历克西斯Habineza ¹

学术编辑器: 答:Ghareeb

收到了 2022年3月01

接受 07年4月2022年

发表 2022年5月13日

文摘

分层抽样的上下文中,我们开发一种非参数回归方法估计有限总体分位数在基于模型的框架使用一个乘法偏差校正策略。此外,提出了估计量的渐近行为,在满足特定的条件下,估计是渐近无偏和渐近一致。进行了模拟研究来确定提出了三个四分位数的估计量的表现两个虚构的人群在不同的分布假设。基于相对偏差、均方误差和相对均方根误差,提出了估计量可以非常满意,根据这些发现。

1。介绍

许多的活动由官方统计机构是基于调查有限总体上采用分层随机抽样,没有更换。据汤普森[1),分层简单随机抽样描述如下:人口细分为不同的互斥和详尽的子组地层,其中每个表示一个已知的整个人口的一部分。研究人员选择了特定的实例从每个层为样例使用随机抽样2),而这些不同的样品的结果适当合并,产生一些指定的总体参数的估计。这些调查收集信息在三个类别的变量:二进制变量,分类变量和两个以上的模式,和连续定量变量。当大量的均匀和互斥的地层或种群在人群中发现,分层抽样是一个适当的策略。分层可以帮助增加样本代表性抽样误差最小化。地层之间的差异越大,精度增益越大。此外,某些地层可能小但重要的研究中。在这种情况下,建议彻底抽样,这意味着所有人都从这些地层将包含在示例。

在抽样调查与农业、市场、行业和社会的研究,例如,多个特征通常观察到每个选定的单元的人口。经济和效率的原因,分层随机抽样比替代调查设计收集信息从一个异构的人口。分层抽样的原则是只与理想的估计量的性质由分层简单随机样本,以及最好的(最优)样本量选择从不同的地层,要么最大化设计估计的准确性定额或降低调查费用估计的一个固定的特异性。当几个特性从有限总体的每个选择单元分层抽样,样本分配困境变得更具挑战性。分配最优的一个属性为他人,除非可能不是最优的特征是显著相关的。

科学家经常真的估计累积分布函数分析调查数据。Sedransk和Sedransk3]研究使用估计累积分布函数的适用性比较患者在放射治疗中心治疗使用一个巨大的全国性调查癌症病人的医疗数据。累积分布函数的功能,如分位数和四分位范围,也是相关的。例如,美国劳工统计局(Bureau of Labor Statistics)公布工资和薪水的工人的工资中位数期刊新闻定期。中位数是源自一个分层多级子样品的当前人口调查。尽管大规模调查几乎总是使用某种分层整群抽样的方法,对分位数估计的研究对于有限的人口是有限的简单随机抽样和分层随机抽样。

简单随机抽样(SRS)广泛利用只有当变量的值并不改变显著,人口是均匀的。SRS是最基本的抽样程序在许多方面,并且不需要任何进一步的信息。此外,当使用SRS创建一个样本,样本的重量并不是真正从一项调查使用评估所需数据,例如,回归或多变量分析。SRS的缺点是管理的准确性和效率低下的复杂性不使用补充数据,这可能会导致巨大的样品是不需要的。此外,由于没有使用辅助信息,总有倾斜的样本的潜力。

分层被广泛用于提高估计的精度,并确保样本调查区域内充分通过亚种群分布。有时,这是一个设计用于土壤的特征在土壤科学调查和研究。人口(如调查区域)分为类相互排斥或地层,将人口划分为调查区域类别。在每一个层,独立样本选择。时可以获得更可靠的估计方差在每一层的功能利益小于地层中的变化。此外,如果感兴趣的亚种群是由地层,分配方案可以实现以确保足够数量的样本单位进行推断在这些种群在位于每个层。

分层抽样的好处是,可以决定在每一层的准确性。此外,实际反应的特点、测量和辅助信息可能改变从一个群,和这些信息可以帮助预测人口和提高效率。地理区域可以利用各种地理行政目的层。

简单随机抽样(SRS)设计是最常用的文献中。获取感兴趣的具有代表性的人口,一个更有组织的抽样方法,如分层抽样和系统抽样,在实践中可能使用。在许多农业和环境研究,以及最近在人类和可靠性分析(见,例如,Samawi和Al-Sagheer [4),实际测量的抽样单位可能更昂贵的比物理收购。结果,当所有可用的抽样单位为选择过程只是一小部分(实验单位)用于实际的量化,显著降低成本可以获得调查取样和实验研究。分层简单随机抽样(SSRS)方法可以做到这一点。

在文献中,重点放在了分位数估计问题。估计的cdf实验组的估计量是必需的分位数,根据定义。虽然经验分布函数是最著名的非参数估计提供,这是一个阶跃函数,因此不够光滑。

多数的贡献在文学使用简单随机抽样(SRS)来估计的th分位数利用核密度函数;我们直接的读者看到信息例如Nadaraya [5),利奥和帕吉特6琼斯],[7]。此外,一些研究的估计p分位数使用SSRS的方案。例如,Samawi et al。8)开发了一个人口分位数的估计技术预测分层简单随机抽样(SSRS)以及分层排序集抽样的经验分布函数(srs)使用分层的人口,和Eftekharian Samawi [9)最近推出了基于人口分位数的估计基于SSRS和srs。

核估计方法长期以来一直声称内核的平滑带宽确定方法的有效性超过内核的选择。绝大多数的内核使用预配置的是对称的内核。这种方法可能是有益的曲线估算无限的支持,但它是无效的紧凑支持曲线不连续边界点。这样的曲线,一组内核形状引起边界的偏见。外固定对称的重量分配内核支持生成这个边界偏差分布在靠近边界的平滑。

边界的偏见是一个广为人知的挑战,各种研究人员提供方法去减少它。读者建议(10- - - - - -16]。在这项研究中,我们提出一个非参数估计的分位数函数SSRS有限总体预测,解决边界问题的偏见在分位数估计使用乘法中描述bias-corrected技术(17]。这个方法有两个显著特点。其中之一是,它确保精确的估计,最后,它减少了估计偏差,同时增加方差微不足道。

2。符号和基本概念

让表示有限总体分为子组,是已知数量的单位在每个层 : 在哪里为。假定每一个单位与一个独特的价值功能, 。在每个层物品的编号, ,被认为是独立的。为和 ,让的值表示相关单位。让是分布函数的人口: 在哪里

相反,的分布函数在每一层可以用来定义 : 在哪里

人口的th分位数的被描述为在哪里需要的值在0和1之间。简单随机样本的预先确定的大小是来自于地层相互依存地没有更换。让表示特性的值对应的样本单位的地层为。合并后的样本 ,加权经验分布函数表示指定的重量单位嗨是 ,和

重量, ,成反比的可能性单元层将包含在示例。也可以写加权经验分布函数在哪里

的样本分位数表示

以下的假设被认为是:(我)底层的人口th层提供的这是座连续二阶导数与精确性吗。(2) 是一个绝对连续函数,这样吗和。(3)内核函数满足下列条件的

3所示。MBC SSRS的分位数估计

在本节中,我们描述了乘法偏差纠正分布函数提出的基于SSRS Onsongo et al。18),后来用它来介绍分位数估计量及其渐近性质。为层,让相关的调查测量的辅助变量主要从单变量分布函数。假设一个简单的随机样本的大小来自地层不重复,样本分数作为以及。因此,为一个有限的人口,因此经验分布函数定义为

分层人口,估计量的分布函数的定义是有关在这也许是一步一组特定的函数, - - - - - -分位数,代表测量取自地层。是地层分布函数的随机变量。假设表示一组数据单位选择层使用简单随机抽样没有更换, 代表nonsampled单位地层。假设调查变量生成的帮助下一个超级种群模型,为代表在哪里和

结果,预测的经验分布函数形式的分层人口获得使用基于模型的技术。

第二项的方程(17)是未知的,令人担忧的是决定如何准确估计。Onsongo et al。18)提出了一个乘法bias-corrected估计量有限的人口分布在分层抽样估计方程(17)。在这个术语代表了非参数估计量在基于模型的技术和表示残差估计分布函数,给出了残差为地层。根据Onsongo et al。18),导致的无偏估计量和方差表示为

我们有。因此,SSRS MBC-based cdf实验组的估计量, ,可以考虑估算分位数函数。与 ,的分位数的分布定义如下: 或者用。基于样本SSRS的大小和使用的方法类似于Eftekharian和Samawi [9),它是直接的MBC估计量分位数是提议在哪里是一个指数之间的值和。也就是说,的最小值至少在这的人口值小于或等于这个值。此外,从(18),可以通过解决计算。然而,在假设(i),它可以很容易地看到在两次可微的。

现在,假设按比例分配到层,然后使用泰勒级数展开的函数周围 ,我们可以写在哪里和 (19]成为可以忽略不计。从方程(22),阁下的表示20.估计量的), ,是由

与 ,个人的人口的比例小于或等于人口分位数如下: 在哪里遵循一个超几何分布的参数 , ,和。从旧金山使用发现21),期望和方差估计量的计算

4所示。提出了估计量的属性

4.1。提出了估计量的渐近无偏性

现在,考虑非参数估计量的偏差定义为

然后,从方程(23),它遵循

利用方程的结果(25),它可以很容易地看到

自变得可以忽略不计 (19),右边的方程(29日)倾向于0,因此,渐近无偏。

4.2。渐近方差的估计量

的方差现在将计算如下。从方程(23),双方的差异,我们有

应用方程的结果(26),它是直接的

4.3。渐近均方误差

渐近估计量的均方误差表示为

从方程(29日)和(31日),直接后果以下结果:

方程(33)趋向于零 ,因此, 。这表明是一致的估计。此外,有一个渐近正态分布在Serfling [22]。

5。实证研究

5.1。描述的人口

在本部分中,模拟研究进行了调查的性能提出了分层人口乘法bias-corrected分位数估计量。两个数据变量、线性和余弦被用来模拟人口规模1000。线性函数是构造使用线性模型具有以下关系。

余弦函数的关系被用来获得第二项研究变量或函数。辅助变量被认为是均匀分布在一系列吗。错误的词被认为是一个标准正态变量之后。

调查提出了估计量的实用性能,每个种群(即。 )分为5平等、分离和相互排斥的子组吗 ,是尽可能均匀,确保单位在每个地层变化小。此后,样本的大小了,每个层提供一个样本容量的采用简单随机抽样与不能替代每个场景。Epanechnikov内核,定义为, 是用于内核平滑不同人群。

5.2。估计包括在实证研究中

我们比较了MBC分位数估计在SSRS定义为(21)的一些流行的分位数估计在SSRS提出文学以来我们的目标之一是发展与理想的特性对偏见,估计方差,渐近均方误差。比较的目的,下面估计被使用,首先,我们在研究中包括估计的8)定义为在哪里。我们在实证研究中还包括基于分位数的估计基于SSRS Eftekharian和Samawi提出9]。在这种情况下, 最后,在实证研究中,我们包括钱伯斯和克拉克估计研究[23]。

对应的分位数的估计函数根据钱伯斯和克拉克(23)是由

5.3。结果

无条件的偏见,无条件的相对平均误差(RME),和无条件的相对均方根误差(推定)估计的各种分位数的值(例如, ,和0.75)如表所示1。研究结果列表使用线性和余弦函数。额外的功能,包括肿块、二次循环,和正弦,可以提供类似的结果和得出类似的结论。对于任何估计量 ,说,我们相对平均误差定义为和相对均方根误差在哪里相对应的分位数吗模拟样品。

很明显从表1的偏见,MBCQE不如ESQE偏见和RCQE值因为它展示一个更小的偏差。在性能方面以RME推定,MBCQE比ESQE RCQE因为它有较小的值RME和推定为线性和余弦函数。

表2列出了分位数估计结果的意思是两套不同的函数。使用 ,和 ,和0.75,这个表展示了真正的人口分位数 ,MBCQE、RCQE ESQE。的比较上市估计表明,MBCQE更好的估计量的真实人口分位数,因为它接近它概率水平。

我们现在来谈谈条件表现的评估人员通过研究条件偏差(CB)的情节,有条件的相对的绝对偏差(蟹),和条件估计的均方误差(CMSE)策划与组织的辅助变量的方法手段,分位数水平 ,和0.75。目标是确定各种估计量之间是否存在显著差异。在数据1- - - - - -6,红、绿、蓝线,分别代表RCQE, MBCQE, ESQE。

数据1- - - - - -3显示条件偏差(CB),有条件的相对的绝对偏差(蟹),和条件均值(CMSE)线性均方误差函数被认为是和数字4- - - - - -6显示条件偏差(CB),有条件的相对的绝对偏差(蟹),和有条件的均方误差(CMSE)当一个余弦函数是使用。

期望值、偏差和均方误差函数的样本大小和分位数的水平,他们可以用来展示个人估计的性能特征。偏差和均方误差是两个标准估计可以相比。估计应该有低偏压和最小均方误差。

很明显,该估计量MBCQE偏见和最小均方误差较低的值 - - - - - -分位数,如图1- - - - - -6对于线性和余弦函数。很明显,MBCQE优于所有其他估计调查。我们的结果表明,该估计量MBCQE表现良好,无条件和有条件的。

6。结论

基于分层分位数估计提出了简单随机抽样。我们研究了该估计量的性质,发现它具有渐近正态分布。SSRS下,这也是一个渐近无偏估计量和渐近一致的人口分位数的估计量。从仿真结果很明显,分位数估计基于SSRS的结果在一个更大的减少偏见比通过使用钱伯斯和克拉克(23),Samawi et al。8),和Eftekharian Samawi [9]。在性能方面,MBCQE一直生产的结果比现有的分位数估计更精确。因此,我们可以得出这样的结论:MBCQE可用于估计有限总体分位数为分层的人群在不同的行业,因为它会产生很好的结果。

进一步研究建议的置信区间估计的构造可以做,和研究可以探讨其他偏差纠正程序分位数估计,包括自适应促进和引导减少偏见的策略。此外,设计分层等级设置抽样下的分位数估计,以及使用复杂的样本设计,比如集群抽样,是研究讨论的焦点。

数据可用性

用于备份的数据集使用R-GUI统计理论断言是通过仿真软件。

的利益冲突

作者宣称没有利益冲突。

引用

s . k .汤普森“简单随机抽样”,抽样卷。755年,9-37,2012页。
视图: 谷歌学术搜索
r . Scheaffer w .林业局三世,l·奥特和k•格勒,调查取样布鲁克斯/ Cole-Cengage学习,斯坦福,CT,美国第七版,2012年版。
n Sedransk和j . Sedransk”区分使用数据从复杂样品中分布的设计,“美国统计协会杂志》上,卷74,不。368年,第760 - 754页,1979年。
视图: 出版商的网站 | 谷歌学术搜索
h . m . Samawi和o . a . Al-Sagheer”估计使用极端的分布函数和平均排名设置采样,”生物统计学杂志》,43卷,不。3、357 - 373年,2001页。
视图: 出版商的网站 | 谷歌学术搜索
e·a·Nadaraya“一些新的对分布函数的估计,”概率论及其应用,9卷,不。3、497 - 500年,1964页。
视图: 出版商的网站 | 谷歌学术搜索
y利奥和w·帕吉特”,注意nadaraya分位数的估计量的渐近最优带宽,”统计和概率的信件,11卷,不。3、243 - 249年,1991页。
视图: 出版商的网站 | 谷歌学术搜索
m·c·琼斯,“估计密度、分位数、分位数密度和密度分位数,“研究所的年报统计数学,44卷,不。4、721 - 727年,1992页。
视图: 出版商的网站 | 谷歌学术搜索
h . Samawi a . Chatterjee j .阴,h . Rochani“基于分位数估计与最优分配在不同的分层抽样,”通信在统计理论和方法,48卷,不。6,1529 - 1544年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
a . Eftekharian和h . Samawi”基于分位数估计使用不同的分层抽样与优化配置方案,“杂志的统计计算和模拟,卷91,不。5,1040 - 1056年,2021页。
视图: 出版商的网站 | 谷歌学术搜索
t天然气井和H.-G。穆勒:“内核回归函数的估计,”平滑曲线估计的技术施普林格,柏林,德国,1979年。
视图: 谷歌学术搜索
r·约翰,“边界修改内核回归,”通信在统计理论和方法,13卷,不。7,893 - 900年,1984页。
视图: 出版商的网站 | 谷歌学术搜索
m·c·琼斯,“简单边界修正核密度估计,“统计和计算,3卷,不。3、135 - 146年,1993页。
视图: 出版商的网站 | 谷歌学术搜索
j·s·欧洲栗子,d . Ruppert转换核密度估计,减少边界的偏见”英国皇家统计学会杂志》:系列B卷,56号4、653 - 671年,1994页。
视图: 出版商的网站 | 谷歌学术搜索
H.-G。穆勒,“光滑优化内核估计端点附近”生物统计学,卷78,不。3、521 - 530年,1991页。
视图: 出版商的网站 | 谷歌学术搜索
H.-G。穆勒和J.-L。王”,故障率估计随机审查不同的内核和带宽下,“生物识别技术,50卷,不。1,第76 - 61页,1994。
视图: 谷歌学术搜索
e . f .舒斯特尔,”将支持约束纳入非参数密度估计,“通信在统计理论和方法,14卷,不。5,1123 - 1136年,1985页。
视图: 出版商的网站 | 谷歌学术搜索
欧林惇和j·p·尼尔森,”一个乘法偏见减少非参数回归方法,”统计与概率的信,19卷,不。3、181 - 187年,1994页。
视图: 出版商的网站 | 谷歌学术搜索
w·m·Onsongo r . o . Otieno, g . o . Orwa“分层人口分布函数的非参数估计,”概率和统计的国际期刊,7卷,不。5,125 - 129年,2018页。
视图: 谷歌学术搜索
j·基弗的比赛中,“阁下的样本分位数表示,“数理统计年鉴中,38卷,不。5,1323 - 1342年,1967页。
视图: 出版商的网站 | 谷歌学术搜索
r . r .阁下”,注意在大样本分位数,“数理统计年鉴中,37卷,不。3、577 - 580年,1966页。
视图: 出版商的网站 | 谷歌学术搜索
c·a·弗朗西斯科评估分位数和四分位范围在复杂的调查美国爱荷华州立大学艾姆斯,IA, 1987,博士论文。
r . Serfling数理统计的逼近定理约翰·威利& Sons,纽约,纽约,美国,1980年。
r·钱伯斯和r·克拉克介绍基于模型的调查抽样的应用程序英国牛津,牛津大学出版社,2012年。

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

330年

下载

293年

引用