文摘
有限的人口总量的非参数估计的问题尤其是在处理高维数据集处理。一个健壮的有限总体的覆盖特性总估计基于前馈反向传播神经网络的帮助下开发superpopulation模型计算,并与现有的基于模型的估计比较能够处理高维数据集进行评价估计量的性能使用模拟数据集。本文给出的结果显示良好的性能方面的偏差,均方误差、平均绝对误差前馈反向传播神经网络估计量相比其他识别现有有限的人口总数在高维数据集的估计。在这方面,本文建议使用该等估计总体参数的估计人口总数在高维数据集的存在。
1。介绍
假设有一个有限的人口独特的和可识别的单位; 。让每个人口单位感兴趣的变量Y。它假定辅助变量 存在有密切联系和闻名整个人口(即, )。研究人员遇到的问题估计人口(即函数。的一个函数 ),例如,人口总数。
虽然估计人口总数 ,一个示例被这两人 和 ,从变量获得吗和 。然后使用这些设计、评估、或两个阶段。对于这些辅助变量,superpopulation模型(1,2在估计阶段可以使用的推理。应该注意的是,所有的这些方法都是基于简单的统计模型来描述潜在的调查和辅助变量之间的关系(线性回归模型)。汉森(3)表明,在参数superpopulation模型misspecification可以导致重大错误的推论。为了解决这个问题,非参数回归稳健估计参与提出了有限总体抽样(4- - - - - -6]。
在应用基于非参数回归估计在一个有限的范围估计有限总体参数,遇到的最常见问题之一是偏差在边缘7]。它也知道内核和多项式回归估计提供良好的人口总数的估计 和 (6,8]。
尽管高维辅助知识可以在上述估计占,稀疏的问题在设计空间使内核中解释变量和局部多项式方法不可行,性能显著恶化随着维度的增加(8- - - - - -10]。这背后的原因表现不佳是由于维度的诅咒。维度的“诅咒”是一个稀疏的数据在高维空间引发的现象导致下降最快的实现收敛率的回归函数估计对他们的目标曲线随着解释变量向量的维数。弗里德曼(11)概述了概念的维度的诅咒。
鉴于维度的诅咒的挑战,我们必须使用不同的非参数估计保留很大程度的灵活性。在基于模型的方法(使用递归的覆盖12)和广义可加模型在model-assisted框架(13]是一种绕过这个维度的诅咒在处理多元辅助信息。这些评估方法的成本减少的灵活性与相关的风险增加的偏见(9- - - - - -11,14]。
在这方面,一个健壮的非参数估计量的有限总体总提出了基于前馈反向传播神经网络方法在本文中帮助解决先前确定的故障估计方法。尽管内核和地方接近者有相同的财产作为人工神经网络(ann),他们通常需要大量的组件来实现类似的近似精度(15]。因此,人工神经网络被认为是一个有效的执行参数和非参数函数分析方法。
2。神经网络有限的人口总量的估计量
在描述这个估计量,[提供的程序16是紧随其后。让调查变量与一个辅助变量认为遵循superpopulation模型下基于模型的方法。常用的工作模型的有限的人口 这样 , 还有我。d意味着零和 被认为是作为辅助信息。
也让 是有限的人口总数样本单位和吗是nonsampled单位。假设给出根据方程(2), , 估计先验知识。基于前馈反向传播神经网络。神经元作为基本构建块可以被视为一个非线性变换的输入变量 。
前馈神经网络有至少一层隐藏的单位被认为是一个复杂的网络,可以指定允许信息反馈。不失一般性,本文将只专注于结构提出了方程(4),这是通常用于广泛的应用和统计软件中实现的有吸引人的特性。
在最简单的情况下一个隐藏层 神经元网络可以写代表网络函数如下: 与 和 在哪里 代表了所有参数的权重的向量网络。 是一个给定的激活函数。关于回归问题,乙状结肠的功能类似于一个真正的随机变量的分布函数,例如,通常产生好结果。物流乙状结肠和两极乙状结肠是两个广泛使用的s形的函数,可以使用取决于所需的输出。只要目标是近似的函数映射到概率空间,物流功能优先。激活函数被视为一个光滑的指标函数当输入信号“压扁”在0和1之间。作为一个逻辑函数的例子,考虑如下: 往往一个(0)以来参数方法无穷(负无穷)。因此,根据接收到的输入信号,激活函数创建物流部分开关信号。
对于这个工作, 指定了一个一维输入空间的映射输出空间。 ;对于每一个连续函数 ,任何 ,和任何紧集 ,存在一个函数 与均匀近似的品质(17- - - - - -19),例如,
这表明,任何回归函数可以估计,一个足够数量的神经元和正确的参数吗 。
因此,一个非参数估计通过第一选择吗 ,作为优化参数,决定了平滑的估计。的参数从数据的非线性最小二乘估计: 与
在适当的情况下,在概率收敛 和 ,常数的参数向量 相当于最佳逼近的一个函数的类型 与
同时,在一些更强的假设下,渐近的常态因此的估计量 也跟着回归函数 。因此,这些是的直接后果 为 。
的估计误差可以分解成两个渐近独立的部分: ,的价值 最小化的样品版本(20.]。 回归函数收敛为 ,由于通用神经网络的逼近性质。作为随着在一个适当的利率, 成为一个一致的非参数估计量 。由于这些发现,和Orwa16]表明,相应的有限的人口总量的估计如下: 即提出了有限的人口总数估计在哪里 。
如前所述(16),是一个基于模型的估计量,因此,所有的推断是对的模型吗 ,调查设计。这个估计量是相同的,提出了(5),除了基于回归神经网络代替。最后,这个估计可以用来估计人口有限的人口总数,只要每个未取样的元素具有相同的分布的样本。
应该注意的是,(1)。在满足一定的条件下,如果激活函数李普希兹连续和严格增加,那么它可以证明神经网络估计的人口总数由(12), 和由(8)在下列意义上是一致的。 在哪里 与 ,提供的数量和绑定满足网络的权重 这样 在哪里决定了如何快速的尾概率和减少。白色(19)表明,适当的选择是这样的, 作为 和 ,也就是说, 作为 。(2)。在某些条件得到满足,它可以显示定义的均方误差在哪里表示真正的人口总估计量的减少 估计的给药 这些属性的细节和完整的证据,看到16]。
3所示。覆盖属性
为了计算和理解报道该估计量的性质,以及它是如何与其他现有的非参数回归估计相比,提出了估计量的性能进行比较,确定估计:多元自适应回归样条函数(火星),广义相加模型(GAM)和局部多项式(LP),它可以处理高维数据通过一个模拟研究。
场景真实的函数是二维线性函数的总和,二维二次函数,和三维混合函数下面被认为是:2-dim线性: 。2-dim二次: 。3-dim混合模型: 。
所有的模拟执行,数据生成模型2 。辅助变量向量 是来自统一的(0,1)随机向量。的错误生成的先验知识噪音水平 。 用作激活函数的神经网络。
1000个样本的大小和生成使用简单随机抽样从人口规模 。因为研究变量之间的假设关系和辅助变量,必须描述的模拟、抽样与指标完成。
表1- - - - - -3总结这个模拟调查的结果。无条件的偏见(乌兰巴托),无条件的均方误差(UMSE),无条件的相对均方误差(URMSE),和无条件的平均绝对误差(UMAE)说估计在不同样本大小如表所示1- - - - - -3。估计被附近的美揭示了如何检查是真正的价值,而MSE和RMSE代表估计量的精度。例如,如果TNN的UMSE URMSE可比,它将被合理认为是“更好”或者“更理想的”比其他的估计。
估计量的偏差的期望值从真正的总价值被称为人口总数估计量的偏差。讨论的所有有限的人口总量的估计这是有偏见的,但是至少是有偏见的。可以被视为最有效的估计量有限的人口总数在所有模型和样本大小,紧随其后的是吗 。因为他们的相对较大的偏差值,广义添加剂估计量和当地的多项式回归估计量高估了有限总体总在所有模型。
此外,有较低的均方误差、相对均方误差和平均绝对误差的估计量后关闭吗 。也注意到,随着样本的增加,所有的估计记录显著改善他们的表现估计有限的人口总数。当地的多项式回归估计量显著减少偏见和均方误差是值得注意的。这石头的参数(10]:改善局部平滑的效率在高维空间中,必须使用大样本大小。神经网络估计量仍优于其他估计显著减少偏见,均方误差,相对均方根误差、平均绝对误差、平均绝对百分比误差随着样本量的增加。
结果表中提供3提供的结果表现为一个三维混合模型估计是值得注意的。相比,二维情况下,所有的估计的性能略有降低的边际增加偏见,均方误差、相对均方误差和平均绝对误差的估计在所有有限的人口总数。也观察到广义添加剂估计量和局部多项式回归仍然记录表现不佳的偏见,均方误差、相对均方误差、平均绝对误差估计有限的人口总数。在其他情况下,有较低的偏见,均方误差,相对均方根误差、平均绝对错误,和平均绝对百分比误差估计量T紧随其后的吗火星。
即使增加样本容量,估计记录显著改善他们的表现估计有限的人口总数。例如,局部多项式回归估计量中有意义的减少偏见和均方误差随着样本容量的增加。神经网络估计量的估计量仍然选择与其他估计随着样本量的增加。
估计量的条件相比,性能评估和其他有限的人口总数估计在高维空间中,已确定。要做到这一点,1000年简单随机样本排序使用的样本均值价值标准。样品被分成20个样本集,第一组是由样品样本均值最低的值,第二组由样本的方法更大比第一组的样本均值,等等,直到最后一集,由样本的最大样本均值值。在每个组,偏见,均方误差、相对均方误差和平均绝对误差计算。
组条件的结果偏差(CB),有条件的均方误差(CMSE),条件相对均方误差(CRMSE)和有条件的平均绝对误差(CMAE)有限的人口总数估计 , , ,和策划反对组平均值表示为X酒吧里的50组均值 。
条件为二维线性模型下的估计结果,二维二次模型和三维混合模型图所示1- - - - - -3。无数的偏差特征估计在绝大多数的情况下显著差异。仔细看看情节显示和偏见水平整体较低,如显示曲线的接近水平(无偏差)0.0在纵轴上。因此,尽管一些情节的复杂结构,估计量成为几乎每一组辅助变量的至少有偏见的手段和不同的模型。
同样,策划条件MSE和组合意味着辅助变量的显示,估计以类似的方式。均方误差值是由最低和 。 ,例如,最低MSE的任何其他在绝大多数情况下估计。偏见,MSE和梅,始终优于所有其他的估计。
4所示。结论
本文报道有限总体的一个估计量的性质完全基于前馈反向传播神经网络技术在非参数回归研究了。等属性偏差,均方误差,和平均绝对误差计算了高维数据集的情况下通过一个模拟,并研究结果相比现有估计等多元自适应回归样条函数(火星),广义相加模型(GAM)和局部多项式(LP)能够处理高维数据。
从结果,以下的观察和结论了:(我)神经网络估计估计有限总体总比所有其他强劲的估计在高维情况下。(2)局部多项式估计的性能有限总体的估计变得贫穷随着数据的维数增加。(3)估计,随着样本量的增加,偏见,均方误差,相对均方根误差、平均绝对误差、平均绝对百分比误差降低为4个模型考虑。(iv)估计,随着维数的增加,偏见,均方误差,相对均方根误差、平均绝对误差、平均绝对百分比误差降低为所有四个模型考虑。
为此,主要结论是,有限的人口总量的估计基于前馈反向传播神经网络已被证明产生结果的精度,因此建议估算有限的人口总数。应该注意的是,该估计量被认为是在简单随机抽样的情况下没有替代(SRSWoR)。扩展到其他抽样技术,如分层可能因为他们依靠SRSWoR完成,并假设效率将提高与其他现有估计在文献中。
数据可用性
使用的数据都是人工的数据使用一个指定的模型模拟过程。
的利益冲突
作者宣称没有利益冲突。