文摘

分层抽样的上下文中,我们开发一种非参数回归方法估计有限总体分位数在基于模型的框架使用一个乘法偏差校正策略。此外,提出了估计量的渐近行为,在满足特定的条件下,估计是渐近无偏和渐近一致。进行了模拟研究来确定提出了三个四分位数的估计量的表现两个虚构的人群在不同的分布假设。基于相对偏差、均方误差和相对均方根误差,提出了估计量可以非常满意,根据这些发现。

1。介绍

许多的活动由官方统计机构是基于调查有限总体上采用分层随机抽样,没有更换。据汤普森[1),分层简单随机抽样描述如下:人口细分为不同的互斥和详尽的子组地层,其中每个表示一个已知的整个人口的一部分。研究人员选择了特定的实例从每个层为样例使用随机抽样2),而这些不同的样品的结果适当合并,产生一些指定的总体参数的估计。这些调查收集信息在三个类别的变量:二进制变量,分类变量和两个以上的模式,和连续定量变量。当大量的均匀和互斥的地层或种群在人群中发现,分层抽样是一个适当的策略。分层可以帮助增加样本代表性抽样误差最小化。地层之间的差异越大,精度增益越大。此外,某些地层可能小但重要的研究中。在这种情况下,建议彻底抽样,这意味着所有人都从这些地层将包含在示例。

在抽样调查与农业、市场、行业和社会的研究,例如,多个特征通常观察到每个选定的单元的人口。经济和效率的原因,分层随机抽样比替代调查设计收集信息从一个异构的人口。分层抽样的原则是只与理想的估计量的性质由分层简单随机样本,以及最好的(最优)样本量选择从不同的地层,要么最大化设计估计的准确性定额或降低调查费用估计的一个固定的特异性。当几个特性从有限总体的每个选择单元分层抽样,样本分配困境变得更具挑战性。分配最优的一个属性为他人,除非可能不是最优的特征是显著相关的。

科学家经常真的估计累积分布函数分析调查数据。Sedransk和Sedransk3]研究使用估计累积分布函数的适用性比较患者在放射治疗中心治疗使用一个巨大的全国性调查癌症病人的医疗数据。累积分布函数的功能,如分位数和四分位范围,也是相关的。例如,美国劳工统计局(Bureau of Labor Statistics)公布工资和薪水的工人的工资中位数期刊新闻定期。中位数是源自一个分层多级子样品的当前人口调查。尽管大规模调查几乎总是使用某种分层整群抽样的方法,对分位数估计的研究对于有限的人口是有限的简单随机抽样和分层随机抽样。

简单随机抽样(SRS)广泛利用只有当变量的值并不改变显著,人口是均匀的。SRS是最基本的抽样程序在许多方面,并且不需要任何进一步的信息。此外,当使用SRS创建一个样本,样本的重量并不是真正从一项调查使用评估所需数据,例如,回归或多变量分析。SRS的缺点是管理的准确性和效率低下的复杂性不使用补充数据,这可能会导致巨大的样品是不需要的。此外,由于没有使用辅助信息,总有倾斜的样本的潜力。

分层被广泛用于提高估计的精度,并确保样本调查区域内充分通过亚种群分布。有时,这是一个设计用于土壤的特征在土壤科学调查和研究。人口(如调查区域)分为类相互排斥或地层,将人口划分为调查区域类别。在每一个层,独立样本选择。时可以获得更可靠的估计方差在每一层的功能利益小于地层中的变化。此外,如果感兴趣的亚种群是由地层,分配方案可以实现以确保足够数量的样本单位进行推断在这些种群在位于每个层。

分层抽样的好处是,可以决定在每一层的准确性。此外,实际反应的特点、测量和辅助信息可能改变从一个群,和这些信息可以帮助预测人口和提高效率。地理区域可以利用各种地理行政目的层。

简单随机抽样(SRS)设计是最常用的文献中。获取感兴趣的具有代表性的人口,一个更有组织的抽样方法,如分层抽样和系统抽样,在实践中可能使用。在许多农业和环境研究,以及最近在人类和可靠性分析(见,例如,Samawi和Al-Sagheer [4),实际测量的抽样单位可能更昂贵的比物理收购。结果,当所有可用的抽样单位为选择过程只是一小部分(实验单位)用于实际的量化,显著降低成本可以获得调查取样和实验研究。分层简单随机抽样(SSRS)方法可以做到这一点。

在文献中,重点放在了 分位数估计问题。估计的cdf实验组的估计量是必需的 分位数,根据定义。虽然经验分布函数是最著名的非参数估计提供,这是一个阶跃函数,因此不够光滑。

多数的贡献在文学使用简单随机抽样(SRS)来估计的 th分位数利用核密度函数;我们直接的读者看到信息例如Nadaraya [5),利奥和帕吉特6琼斯],[7]。此外,一些研究的估计p分位数使用SSRS的方案。例如,Samawi et al。8)开发了一个人口分位数的估计技术预测分层简单随机抽样(SSRS)以及分层排序集抽样的经验分布函数(srs)使用分层的人口,和Eftekharian Samawi [9)最近推出了基于人口分位数的估计基于SSRS和srs。

核估计方法长期以来一直声称内核的平滑带宽确定方法的有效性超过内核的选择。绝大多数的内核使用预配置的是对称的内核。这种方法可能是有益的曲线估算无限的支持,但它是无效的紧凑支持曲线不连续边界点。这样的曲线,一组内核形状引起边界的偏见。外固定对称的重量分配内核支持生成这个边界偏差分布在靠近边界的平滑。

边界的偏见是一个广为人知的挑战,各种研究人员提供方法去减少它。读者建议(10- - - - - -16]。在这项研究中,我们提出一个非参数估计的分位数函数SSRS有限总体预测,解决边界问题的偏见在分位数估计使用乘法中描述bias-corrected技术(17]。这个方法有两个显著特点。其中之一是,它确保精确的估计,最后,它减少了估计偏差,同时增加方差微不足道。

2。符号和基本概念

表示有限总体分为 子组, 是已知数量的单位在每个层 : 在哪里 假定每一个单位 与一个独特的价值功能, 在每个层物品的编号, ,被认为是独立的 , 的值表示 相关单位 分布函数的 人口: 在哪里

相反,的分布函数 在每一层可以用来定义 : 在哪里

人口的 th分位数的 被描述为 在哪里 需要的值在0和1之间。简单随机样本的预先确定的大小 是来自于 地层相互依存地没有更换。让 表示特性的值 对应的样本单位的地层 合并后的样本 ,加权经验分布函数表示 指定的重量单位 ,

重量, ,成反比的可能性 单元层 将包含在示例。也可以写加权经验分布函数 在哪里

样本分位数表示

以下的假设被认为是:(我)底层的人口 th层提供的 这是座连续二阶导数与精确性吗 (2) 是一个绝对连续函数,这样吗 (3)内核函数 满足下列条件的

3所示。MBC SSRS的分位数估计

在本节中,我们描述了乘法偏差纠正分布函数提出的基于SSRS Onsongo et al。18),后来用它来介绍分位数估计量及其渐近性质。为 层,让 相关的调查测量的辅助变量 主要从单变量分布函数。假设一个简单的随机样本的大小 来自地层 不重复,样本分数 作为 以及 因此,为一个有限的人口,因此经验分布函数定义为

分层人口,估计量的分布函数的定义是有关 在这 也许是一步一组特定的函数, - - - - - -分位数, 代表测量取自 地层。 地层分布函数的随机变量 假设 表示一组数据 单位选择 层使用简单随机抽样没有更换, 代表nonsampled单位 地层。假设调查变量生成的帮助下一个超级种群模型,为代表 在哪里

结果,预测的经验分布函数形式的分层人口获得使用基于模型的技术。

第二项的方程(17)是未知的,令人担忧的是决定如何准确估计。Onsongo et al。18)提出了一个乘法bias-corrected估计量有限的人口分布在分层抽样估计方程(17)。 在这个术语 代表了非参数估计量在基于模型的技术 表示残差估计分布函数,给出了残差 地层。根据Onsongo et al。18), 导致的无偏估计量 和方差表示为

我们有 因此,SSRS MBC-based cdf实验组的估计量, ,可以考虑估算分位数函数。与 , 分位数的分布 定义如下: 或者用 基于样本SSRS的大小 和使用的方法类似于Eftekharian和Samawi [9),它是直接的MBC估计量 分位数是提议 在哪里 是一个指数之间的值 也就是说, 的最小值 至少在这 的人口 值小于或等于这个值。此外,从(18), 可以通过解决计算 然而,在假设(i),它可以很容易地看到 在两次可微的

现在,假设 按比例分配到 层,然后使用泰勒级数展开的函数 周围 ,我们可以写 在哪里 (19]成为可以忽略不计 从方程(22),阁下的表示20.估计量的), ,是由

,个人的人口的比例小于或等于人口分位数如下: 在哪里 遵循一个超几何分布的参数 , , 从旧金山使用发现21),期望和方差估计量的计算

4所示。提出了估计量的属性

4.1。提出了估计量的渐近无偏性

现在,考虑非参数估计量的偏差 定义为

然后,从方程(23),它遵循

利用方程的结果(25),它可以很容易地看到

变得可以忽略不计 (19),右边的方程(29日)倾向于0,因此, 渐近无偏。

4.2。渐近方差的估计量

的方差 现在将计算如下。从方程(23),双方的差异,我们有

应用方程的结果(26),它是直接的

4.3。渐近均方误差

渐近估计量的均方误差 表示为

从方程(29日)和(31日),直接后果以下结果:

方程(33)趋向于零 ,因此, 这表明 是一致的估计 此外, 有一个渐近正态分布在Serfling [22]。

5。实证研究

5.1。描述的人口

在本部分中,模拟研究进行了调查的性能提出了分层人口乘法bias-corrected分位数估计量。两个数据变量、线性和余弦被用来模拟人口规模1000。线性函数是构造使用线性模型具有以下关系。

余弦函数的关系 被用来获得第二项研究变量或函数。辅助变量 被认为是均匀分布在一系列吗 错误的词 被认为是一个标准正态变量之后

调查提出了估计量的实用性能,每个种群(即。 )分为5平等、分离和相互排斥的子组吗 ,是尽可能均匀,确保单位在每个地层变化小。此后,样本的大小 了,每个层提供一个样本容量的 采用简单随机抽样与不能替代每个场景。Epanechnikov内核,定义为, 是用于内核平滑不同人群。

5.2。估计包括在实证研究中

我们比较了MBC分位数估计在SSRS定义为(21)的一些流行的分位数估计在SSRS提出文学以来我们的目标之一是发展与理想的特性对偏见,估计方差,渐近均方误差。比较的目的,下面估计被使用,首先,我们在研究中包括估计的8)定义为 在哪里 我们在实证研究中还包括基于分位数的估计基于SSRS Eftekharian和Samawi提出9]。 在这种情况下, 最后,在实证研究中,我们包括钱伯斯和克拉克估计研究[23]。

对应的分位数的估计函数根据钱伯斯和克拉克(23)是由

5.3。结果

无条件的偏见,无条件的相对平均误差(RME),和无条件的相对均方根误差(推定)估计的各种分位数的值 (例如, ,和0.75)如表所示1。研究结果列表使用线性和余弦函数。额外的功能,包括肿块、二次循环,和正弦,可以提供类似的结果和得出类似的结论。对于任何估计量 ,说,我们相对平均误差定义为 和相对均方根误差 在哪里 相对应的分位数吗 模拟样品。

很明显从表1的偏见,MBCQE不如ESQE偏见和RCQE值 因为它展示一个更小的偏差。在性能方面以RME推定,MBCQE比ESQE RCQE因为它有较小的值RME和推定为线性和余弦函数。

2列出了分位数估计结果的意思是两套不同的函数。使用 , ,和0.75,这个表展示了真正的人口分位数 ,MBCQE、RCQE ESQE。的比较 上市估计表明,MBCQE更好的估计量的真实人口分位数,因为它接近它概率水平。

我们现在来谈谈条件表现的评估人员通过研究条件偏差(CB)的情节,有条件的相对的绝对偏差(蟹),和条件估计的均方误差(CMSE)策划与组织的辅助变量的方法手段, 分位数水平 ,和0.75。目标是确定各种估计量之间是否存在显著差异。在数据1- - - - - -6,红、绿、蓝线,分别代表RCQE, MBCQE, ESQE。

数据1- - - - - -3显示条件偏差(CB),有条件的相对的绝对偏差(蟹),和条件均值(CMSE)线性均方误差函数被认为是和数字4- - - - - -6显示条件偏差(CB),有条件的相对的绝对偏差(蟹),和有条件的均方误差(CMSE)当一个余弦函数是使用。

期望值、偏差和均方误差函数的样本大小和分位数的水平,他们可以用来展示个人估计的性能特征。偏差和均方误差是两个标准估计可以相比。估计应该有低偏压和最小均方误差。

很明显,该估计量MBCQE偏见和最小均方误差较低的值 - - - - - -分位数,如图1- - - - - -6对于线性和余弦函数。很明显,MBCQE优于所有其他估计调查。我们的结果表明,该估计量MBCQE表现良好,无条件和有条件的。

6。结论

基于分层分位数估计提出了简单随机抽样。我们研究了该估计量的性质,发现它具有渐近正态分布。SSRS下,这也是一个渐近无偏估计量和渐近一致的人口分位数的估计量。从仿真结果很明显,分位数估计基于SSRS的结果在一个更大的减少偏见比通过使用钱伯斯和克拉克(23),Samawi et al。8),和Eftekharian Samawi [9]。在性能方面,MBCQE一直生产的结果比现有的分位数估计更精确。因此,我们可以得出这样的结论:MBCQE可用于估计有限总体分位数为分层的人群在不同的行业,因为它会产生很好的结果。

进一步研究建议的置信区间估计的构造可以做,和研究可以探讨其他偏差纠正程序分位数估计,包括自适应促进和引导减少偏见的策略。此外,设计分层等级设置抽样下的分位数估计,以及使用复杂的样本设计,比如集群抽样,是研究讨论的焦点。

数据可用性

用于备份的数据集使用R-GUI统计理论断言是通过仿真软件。

的利益冲突

作者宣称没有利益冲突。