文摘
在这个手稿,三个新类的日志类型归责技术提出了处理缺失数据时进行调查。相应的点估计已经派生类估计总体均值。它们的属性(均方误差和偏差)进行了研究。产生一个广泛的模拟研究使用数据正常,泊松分布、伽玛分布,以及真实的数据集,进行了评估相比,该估计量如何执行一些当代的估计。结果总结,讨论实际的应用程序的估计量。
1。介绍
任何项目有几个约束条件,如预算限制,时间限制,和最后期限。因此,这不是可行的研究整个人口,和抽样是必不可少的任何的研究领域1- - - - - -4]。抽样有巨大的应用在各种行业,如制造业和质量控制。它可以用来收集信息在项目的显著特点,如电器和家用电器、机器零件螺丝和螺栓、汽车、和计算机芯片等零部件。抽样在环境问题中也有应用,需要估计的物理,地理,经济,和其他特点,在数据分析开始之前(5,6]。意思是,中位数,方差等统计数据是必不可少的研究涉及各种环境参数,如接收到的降雨量估算区域容易发生干旱和一个城市的空气质量和交通密度高。抽样调查可以用来收集这样的信息。
缺失的数据是一个频繁的元素的主要动因是在抽样调查和数据质量下降以及不正确的推论。因此,它是至关重要的,调查统计人员处理不完整数据的随机性质。这必须了解需要做的假设和方法可以用来处理ignorability完整性机制的问题。的作者(7,8)和许多其他研究了缺失数据的机制。其中的大部分人失踪调查相关文献完全随机(MCAR),随机缺失(MAR),和失踪不是随机(MNAR)。当随机数据缺失或偶然,据说MCAR发生。3月发生在missingness并不取决于所研究的变量(可能是未被注意的),但在其他一些变量(这是完全观察到)。MNAR时missingness取决于所研究的变量。
大量的统计技术已经发展在过去的几十年中处理缺失数据的情况。这项研究在9)是第一个显示的子样品nonrespondents再联系邮寄调查。另一个广泛使用的技术是归责,一个合适的函数的变量是用来填补缺失值。这样可以确保样品的完整性的结构开始前统计分析。一些流行的归责方法包括的意思是,回归,热甲板,甲板,归属和最近邻方法等等。归责技术调查文献中是由于[10- - - - - -27),等等。
信息从一个辅助变量可以用来提供一个改进的估计人口特征。可能容易获得这些信息作为辅助数据从先前的调查或普查或在调查过程中收集在没有额外的成本。这种辅助信息的一些例子包括前一批灯泡的寿命研究当前的生活许多灯泡和汽车的速度学习时汽车的里程。
这手稿提出三个小说logarithmic-type归责方法调查样本中中和nonresponse所带来的麻烦。相应类别的点可能用于估计总体均值的估计量作了详细研究。手稿的后续部分的理论分析提出了估计量的性质,用偏差和均方误差(MSE)和实证研究来检验提出的性能估计与当代估计相比,基于模拟数据和真实数据和结论。这些结构化如下:部分2和3介绍了样本结构和符号和一些传统的总体均值的估计量,分别应用随后的手稿。部分4介绍了拟议中的类估计,评价它的存在,一致性,性能和实现在r .实证研究涉及模拟数据和真实数据部分中给出5和6,分别。部分7总结了主要研究结果和结论。
2。抽样方案和符号使用
让感兴趣的特性是用 。一个相关的辅助变量有完整的信息的可用性和已知总体均值。
样品结构以及在后续部分中使用的符号的手稿已经介绍了表1。
3所示。一些传统的估计
是至关重要的进行全面的文献回顾和研究一些现有的属性总体均值的估计量,可以提出新的估计。本节讨论了几个这样的估计。
均值估计量是一个简单的和广泛使用的估计量,它提供了一个总体均值的估计使用的平均响应。比率估计量提高了平均估计利用辅助信息相关的变量。许多其他估计使有效利用辅助信息已经被开发出来,例如,估计提出了(28和回归估计量提出了29日),等等。
这些估计得到的结构表2,而各自的方差的表达式(V)和均方误差(为了)表3。
是指出,大多数传统估计利用简单的函数形式,如线性组合,指数函数和链。对数函数是罕见的。这可以部分归因于计算限制等功能。不过,计算能力的超级计算机的出现和改进消除这些障碍。对数是有用的因为他们表达数量在合理范围内,很容易理解。对数计算乘法运算步骤,因此可以表达事件的大小可以改变以激烈的方式,如地震,一个单一的规模有一个紧凑的范围。对数刻度图等图形描绘的是有效的不同大小在一个单一的规模。在对数尺度图,直线通常代表指数变化,从而使他们更容易解释。举一些现实生活中的例子使用对数是测量声音的分贝,里氏震级测量地震、量表测量酸性,pH值等对数也可以用来研究指数增长和衰减,如细菌生长在培养皿中,利率(隐含的增长率),放射性衰变放射性碳年代测定法。因此,它是合理的探索使用日志类型的各种估计总体参数的估计。 This has been the motivation behind the construction of the proposed classes of logarithmic-type estimators.
4所示。制定Logarithmic-Type提出类的估计
让在哪里 或 分别表示的值人口的特点和 。让和分别表示集的受访者和nonrespondents。以下归责方法可能建议处理缺失数据的问题: 在哪里 是常数,确定以这样一种方式,他们最小化均方误差。
点估计的归责方法
使用方程(4参数方程中概述(下),1)- (3),分别对应的表达式类logarithmic-type点估计的得到了,
4.1。存在和估计量的一致性
域的值应该指定一个估计量的存在,所以调查统计学家或那些在地里干活就可以确定它是否合理使用估计在实际场景中。
提出的估计包含的类函数,它的存在对所有积极的价值观 。因此, ,存在积极的价值观 。
因此,拟议的估计可以用于所有真实的,积极的价值观下人物的研究。对于现实世界的场景,许多感兴趣的人物只需要正面的价值观。例如,测量,如长度、宽度、高度、重量、直径、货币和一个项目的数量不采取消极的价值观。因此,该估计量可用于这样的实际场景。
要指出的是,结构的大样本近似的估计量是一致的。作为 , , ,和 , 。因此, ,为 。
4.2。提出了估计量的属性
各种属性可以用来衡量一个估计量的“善良”。两个这样的属性,即偏差和均方误差(MSE),讨论了在这个手稿。偏见描绘预期偏离真实价值的参数,而MSE给出了一个关于扩散的程度。大样本的假设被认为是为目的。表达式是派生的一阶近似。一些转换涉及错误方面曾目的,给出如下:
预期误差方面有以下:
获得偏差和均方误差的表达式,在第一步中,方程的转换(8)应用于方程(5)- (7)。在第二步中,代数的扩张产生的表达式,使用下面的泰勒级数: 。
代数操作后估计有以下形式:
因此,
期望在双方收益的平方家中小企业的表达式 。他们得到的一阶近似的估计 ,如下:
如上所述,当引入归责方法,常量 ,和要确定让他们减少各自的家中小企业的估计。设置 各自的最佳值 ,和得到如下:
因此,表达式的最小均方误差(Min())的类logarithmic-type最佳条件下估计如下:
偏见的表达式 ,使用的最优值 ,发现如下:
评论实用性:一个主要的问题在logarithmic-type估计的使用建议的类 ,是常数的选择 ,和 。的最优值 ,和取决于总体参数 。这些值视为整体稳定当反复进行调查(见[30.]);然而,有时候,值仍然未知。在这样的情况下,以下的估计 ,和建议: 在哪里之间的相关系数是吗和 , 样本均值的平方 ,和样本变异系数 ,基于响应的一部分的样本大小 。
4.3。在R中实现
在当今世界技术先进,大多数计算在一些合适的软件环境。的R(31日]中给出以下代码片段可以用来执行该罪名在感兴趣的数据集和计算对应点估计量的值:#的受访者从文件导入数据dfresp < - read.table (file.choose ())# non-respondents从文件导入数据dfnonresp < - read.table (file.choose ())xrbar =意味着(dfresp [1])yrbar <意味着(dfresp [2])xbar < - XXX #指定xbar这里的已知值rhosamp = corr (dfresp [1], dfresp [2])sxr = var (dfresp [1])湖浆= var (dfresp [2])cyr =湖浆/ yrbarcxr = sxr / xrbarxbarnonresp =意味着(dfnonresp [1])r= nrow (dfresp) #。的受访者nonresp = nrow (dfnonresp) #。的non-respondentsn=r+ nonresp #样本大小xnbar = (r xrbar + nonrespxbarnonresp) /nconst = rhosamp湖浆/ cxrα=常量β=常量γ=常量#归责t1 <−c ()t2 <−c ()t3 <−c ()(我在1:n−r)){t1 (我)= yrbar +αn x(我]日志(xnbar / Xbar) / ((n−r)xbarnonresp)t2 (我)= yrbar +βn x (我]日志(xrbar / Xbar) / ((n−r)xbarnonresp)t3 (我)= yrbar +γn x(我]日志(xnbar / xrbar) / ((n−r)xbarnonresp)}#点估计est1 = yrbar +α日志(xnbar / Xbar)est2 = yrbar +β日志(xrbar / Xbar)est3 = yrbar +γ日志(xnbar / xrbar)
5。实证研究
估计在实际场景中,可以使用前必须检查其性能,它的属性。为此,估计量的偏差计算,为了在最优条件下进行比较与当代估计给定的表2框架内的百分比相对效率(总统)。
类的总统logarithmic-type估计w.r.t.当代估计,在最优条件下,定义如下:
最小值的表达式。为了logarithmic-type提出类的估计 ,给出了方程(16)- (18),而当代的估计表3。
使用R(31日),一个广泛的模拟研究进行了足够大的虚构的人口来计算上面的偏见和定义的总统。数据来自三个不同的概率分布,即正常(连续分布),泊松(一种离散分布),和伽马(连续分布)分布。一些重要的属性分布已经列在下表中4。这样的分布已经被选择,因为他们经常发生在现实生活中。
正态分布在建模的高度个人使用,考试成绩的学生,血压,日常的回报任何特定的股票,制造过程产生的重量的物品,等。可以使用泊松分布的概率模型给定的事件发生在一个特定的时间间隔,例如,每月保险索赔申请的数量,每周网络故障发生的数量,和灯泡的数量每分钟生产。它还发现使用在医学统计,比如评估新生儿的数量可能会在一个特定的晚上,传染病患者的数量在一个给定的小时内到达诊所,和突变的数量在给定每个时间单位的DNA链。伽马分布可用于建模等待时间、可靠性、服务时间在排队论,等等。例如,它可以用于模型的降雨在给定的水库,积累的物品通过生产以及销售过程,贷款违约的大小,等等。因此,这三种分布在实际场景中选择根据他们的重要性。
仿真的步骤如下:(1)人口的大小、样本和样本的响应部分定义。研究的目的,足够大的值 ,和 已被选定。(2)人口定义的参数。数据来自正态分布的参数为和为X,从伽马分布参数与手段和方差为和 ,分别从泊松分布的意思为和 ,分别。(3)各种价值观进行了仿真 。这项研究的目的,范围内 ,即。,positively correlated variable ,被认为是。
仿真研究的结果与总统已经提出了表5- - - - - -13,而偏差表中给出14- - - - - -16。
6。应用程序的真实数据
辅助数据被用于演示的目的利用该估计量下SRSWOR抽样方案。数据集“陶瓷样品的化学成分数据集”获得了从UCI机器学习库(32),用来说明的使用提出了估计总体均值估计在实际场景中。数据集由88名19岁的实例属性和关注陶瓷样品的分类根据其化学成分能量色散x射线荧光。我们使用数据集的子集,属性“部分”以“身体”,这样的价值 。在这里, :的比例分别以(wt %) :曹的百分比(wt %)
见过, 。采取 ,总统发现为给定的表17。提出了估计和当代的家中小企业估计已经被绘制在图1。
7所示。结论
实证研究使我们学习的行为提出了估计量在不同场景中涉及各种参数的值。的主要结论,给出下一个:(1)表5- - - - - -7表明,该类型的logarithmic-type估计 ,更有效比当代估计数据来自正态分布。(2)PRE的类估计w.r.t.当代估计是增加价值的增加 ,即。,the correlation coefficient between the study and the auxiliary variables, as evident from Tables5- - - - - -7。(3)从表8- - - - - -10,观察该logarithmic-type估计类 ,主导在当代估计数据时产生伽马分布。(4)提出的估计 ,执行比当代的估计总统当数据生成从泊松分布,从表11- - - - - -13。(5)表14- - - - - -16表明该估计量的偏差可以忽略不计,订单和 ,当数据从正常生成,γ,分别和泊松分布。(6)表17显示使用的真实数据在这个手稿,手稿中的类logarithmic-type估计提出了控制变量时在当代估计情况和有一个温和的正面价值的相关系数。此外,从图1的家中小企业,生动地看到提出的估计 ,当代估计不到的。
因此,该估计量是一致的,不存在对所有真正积极的值的参数,可以忽略不计的偏见,是当代估计更有效率比其他6。因此,拟议的估计可能被推荐用于现场工作。
数据可用性
在这项研究中使用的数据生成方程从理论上给出。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
作者扩展他们的感谢哈立德国王大学科研院长以来,沙特阿拉伯,经费申请这项工作通过研究小组计划授予数量以序列。2/110/42。