文摘
在这项研究中,一种新的exponential-cum-sine-type混合归罪技术提出了处理缺失数据时进行调查。对应点的属性总体均值的估计量已被检查的偏差和均方误差。产生一个广泛的模拟研究使用数据正常,泊松和伽玛分布进行了评价相比,该估计量如何执行一些当代的估计。结果总结,讨论实际的应用程序的估计量。
1。介绍
不切实际的测量整个人口对于任何现实的项目由于预算,使抽样不可或缺的任何时间或其他约束的研究领域(1- - - - - -12]。验收抽样的广泛应用在各种行业生产和其他进程已经指出了相当一段时间。抽样也可以应用来获取重要信息的主要特点的物品从电器螺丝和螺栓等机器零件,汽车和电脑零件如芯片。此外,许多环境问题涉及物理、地理、经济、和其他特征需要估计数据分析之前,模型制定和预测。研究有关降雨量每年收到的洪水易发地区,饮用水的质量在一个工业区,附近农田的土壤质量,等等一些情况估计意思是,中位数,方差等统计数据是至关重要的。这些信息可以通过抽样调查收集(4,6,7,9,13]。
缺失的数据是一个普遍的出现在抽样调查,导致数据质量的下降和并发症进行推论。是关键的调查统计不完整的数据的随机性质的因素。这带来了的问题需要做假设或技术是用来处理ignorability完整性机制的问题。机制的缺失数据详细研究了(9,13),等等。三个缺失数据机制大多是文学的兴趣调查,即缺少完全随机(MCAR),随机缺失(MAR),和失踪不是随机(MNAR)。MCAR据说当随机数据缺失或偶然发生,3月发生在missingness并不取决于所研究的变量(可能是未被注意的),但在其他一些变量(这是完全观察到),和MNAR时missingness取决于所研究的变量。
许多统计方法已经发明了多年来克服缺失数据的问题。二次抽样的nonrespondents通过邮件问卷调查率先在8]。另一个常用的方法是归责,缺失值由一个合适的填充函数可用的值,以确保样品的结构完整性分析开始之前。受欢迎的归责方法包括意味着归罪,回归归罪,热甲板归罪,冷甲板归责、最近邻方法。归责技术的调查文献[3,5,14- - - - - -21),等等。最近的一些工作领域的归责和总体均值的估计已经完成(22- - - - - -29日和其他人。
信息从一个辅助变量可以用来提供一个改进的估计人口特征。可能容易获得这些信息作为辅助数据从先前的调查或普查或在调查过程中收集在没有额外的成本。这种辅助信息的一些例子包括前一批灯泡的寿命研究当前的生活很多灯泡,汽车的速度当研究汽车的里程,等等。
在这个手稿,一个新的论断exponential-cum-sine-type混合动力技术和提出了对应点估计总体均值的估计。动机对于这个估计量,它的属性,它的使用已经在后续部分中讨论。今后的手稿是分为以下部分:部分2介绍了样本结构和符号使用的手稿。部分3讨论了传统的总体均值的估计量。部分4讨论了该估计量,包括它的存在、一致性、属性和实现在r .仿真研究中提出了部分5结果和讨论部分6,和结论部分7。
2。样品结构和符号使用
让感兴趣的人物用 。我们考虑的场景,在该场景中,完整的信息相关的辅助变量可以调查统计学家和人口的意思是已知的。
示例介绍了结构和今后使用的符号表1。
3所示。一些传统的估计
介绍了之前提出的估计量,重要的是检查一些现有估计总体均值和研究自己的长处和局限性。本节讨论了几个这样的估计。
均值估计量是一个简单的和传统的估计量,这使得使用的平均反应提供一个总体均值的估计。比率估计量意味着试图做一个改进估计,将辅助信息合并到一个相关的变量。其他各种估计,提出了创新利用辅助信息,例如,估计提出了(30.在[],回归估计提出10],指数型估计(31日),等等。
这些估计得到的结构表2,而各自的方差的表达式(V)和均方误差(为了)表3。
是指出,大多数传统估计利用简单的函数形式,如线性组合,指数函数和链。结合多种数学函数是罕见的。这可以归因于计算限制等功能。然而,随着超级计算机的出现和提高计算能力,这些障碍已经消除。值得探索的数学函数组合是否比传统的估计产生更好的估计。这是背后的动机的建设提出的估计量。
有两种这样的功能,即指数和正弦函数。这种特定功能选择基于他们在现实生活中使用。指数函数通常用来模拟与衰亡中观察到自然,如与衰亡的微生物,如细菌、人口、流行病的传播,复合利益。正弦函数通常用于建模的目的自然现象,在本质上是周期性的,如声波、光波,潮汐,阳光强度,和平均温度的变化,以及弹道轨迹,电流,和GPS的位置。
4所示。制定该估计量
让和的值和 ,分别为单位的人口。下面的归责方法可能建议处理缺失数据的问题:
点估计的归责方法
使用方程(2参数方程中概述(下),1),点估计量的表达式获得的是
4.1。存在和估计量的一致性
指定的域值是很重要的一个估计量存在,所以调查统计学家或那些在地里干活可以决定是否可以合理估计在实际场景中使用。
给定的估计包含两个主要功能:三角函数和指数函数 。这两个和存在于 ,所以存在于 。
因此,该估计量可用于所有真实值下人物的研究。对于现实世界的场景,大部分,如果不是全部,人物感兴趣的唯一真正的价值。例如,测量,如长度、宽度、高度、重量、直径、货币和一个项目的数量不采取nonreal值。因此,该估计量可用于所有实际的场景。
要指出的是,结构的大样本近似的估计量是一致的。作为 , , , ,和 。因此, 。
4.2。提出了估计量的属性
估计量的“善良”可以测量各种属性。两个这样的属性,即偏差和均方误差(MSE),已经在这里了。偏差给出了一个期望偏离真实值的参数,而MSE处理蔓延的程度。相同的表达式派生在大样本假设下的一阶近似。一些转换涉及错误条款已使用的目的,表示如下:
预期误差方面有以下:
获得偏差和均方误差的表达式,在第一步中,代数方程表达式给出的估计量的扩张(3),使用下面的泰勒级数:(1) (2) (3)
估计需要以下形式:
在第二步中,方程的转换(4)应用于方程(6)获得以下形式的估计量:
因此, 。
预期双方采取和使用的预期值 ,产生预期的偏见和均方误差 ,获得的一阶近似的估计 ,如下: 在哪里 。
4.3。在R中实现
在当前的时代,大部分的计算都是使用一个合适的软件环境。下面的R (32]代码片段进行了拟议中的归责于感兴趣的一个数据集和计算对应点估计量的值:#的受访者从文件导入数据dfresp <−阅读。table (file.choose())# nonrespondents从文件导入数据dfnonresp <−阅读。table (file.choose())xr酒吧=意味着(dfresp [1])年酒吧<−的意思(dfresp [2])xbarnonresp =意味着(dfnonresp [1])r=n行(dfresp) #。的受访者nonresp =n行(dfnonresp) #。的nonrespondentsn=r+ nonresp #样本大小xn酒吧= (r xr酒吧+ nonrespxbarnonresp) /nnum =罪(xnbar)−sin (xrbar)穴= 1 +罪(xn酒吧)+ sin (xrbar)#归责t<−c()(我在1:n−r)){t(我]=n/ (n−r)x(我]−exp (num /穴)r/ (n−r)年酒吧}#点估计美国东部时间=年酒吧exp (num /穴)
5。模拟研究
估计在实际场景中,可以使用前必须检查其性能,它的属性。为此,估计量的偏差和均方误差计算与当代估计比较表2的比例相对效率(总统)。
估计量的总统对当代估计定义如下: ,提出了估计量的均方误差的表达式在方程(9),而当代的估计表给出3。
使用R (32),一个广泛的模拟研究进行了足够大的虚构的人口来计算偏差和上面定义的总统。数据来自三个不同的概率分布,即正常和伽马分布(连续分布)和泊松分布(离散分布)。一些重要的属性分布总结表4。这样的分布选择基于他们在现实生活中发生。
数据来自正态分布猖獗。它可以用于模型高度的个人、考试成绩的学生,血压,日常的回报任何特定的股票,制造过程产生的重量的物品,等。可以使用泊松分布的概率模型给定的事件发生在一个特定的时间间隔,例如,每月保险索赔申请的数量,每周网络故障发生的数量,和灯泡的数量每分钟生产。等医学统计学家,它还发现使用估算的新生儿的数量可能会在一个特定的晚上,传染病患者的数量在一个给定的小时内到达诊所,突变的数量在给定的DNA链/时间单位,等。伽马分布可用于建模等待时间、可靠性、服务时间在排队论,等等。例如,它可以用于模型的降雨在给定的水库,积累的物品通过生产以及销售过程,贷款违约的大小,等等。因此,这三种分布在实际场景中选择根据他们的重要性。
通过试验和错误,估计量时表现良好和小值和变化比在吗 。
仿真的步骤如下:(1)人口的大小、样本和样本的响应部分定义。研究的目的,足够大的值 ,和 已被选定。(2)人口定义的参数。(3)各种价值观进行了仿真 。这项研究的目的,范围内 ;即。,positively correlated variable被认为是。
仿真研究的结果与总统已经提出了表5- - - - - -11,而偏见已经展示在表12。
6。结果与讨论
仿真研究使我们能够研究的行为提出了估计量在不同场景中涉及各种参数的值。主要结论如下:(1)的值在表5,看到该估计量是更有效的比所有的值正常数据和 γ和泊松响应率的不同值的数据。(2)看到,该估计量执行比所有的值正常和伽马数据和 为泊松数据的各个值的响应率值在表6。(3)的值在表7看到,该估计量占主导地位所有的值正常数据和 γ和泊松响应率的不同值的数据。(4)的值在表8表明,该估计量是更有效的比所有的值正常数据和 γ和泊松响应率的不同值的数据。(5)在表9的值,表明,该估计量执行比所有的值和各种价值观的响应率正常,γ,泊松数据。(6)的值在表10看到,该估计量占主导地位所有的值和各种价值观的响应率正常,γ,泊松数据。(7)看到,该估计量是更有效的比所有的值和各种价值观的响应率正常,γ,泊松的值的数据在表11。(8)从表12,估计是负面的。偏差可以忽略不计,订单的和对各种参数的值和各种反应率,因此,不需要偏差纠正。
7所示。结论
以下趋势总统注意到从表:增加的价值的增长 ,而 减少的价值的增长 。
该估计量是一致的,存在所有真实值的参数,可以忽略不计的偏见,是当代估计更有效率比其他7。因此,拟议的估计可能被推荐用于现场工作。
数据可用性
在这项研究中使用的数据生成方程从理论上给出。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是支持的塔伊夫大学的研究人员支持项目TURSP-2020/318数量,塔伊夫大学,塔伊夫,沙特阿拉伯。