文摘

我们提出一个新的方法单一的归责,重建,nonreported估计,正确,难以置信,或排除值在多个领域的记录。特别是,我们将关注数据集涉及数字,序数,二进制,分类变量。我们的技术是一个变化的流行的最近邻热甲板归咎(NNHDI)中定义的“最近”的全球距离得到的凸组合的距离矩阵计算各种类型的变量。我们解决这个问题合适的权重部分距离矩阵,以反映它们的意义,可靠性和统计充分性。性能的几个权重方案比较与归责在各种设置协调的权力意味着至少Box-Cox变换应用于捐赠者的值。通过分析模拟和实际数据集,我们将表明,这种方法是适当的。我们的主要贡献是证明混合数据可能最佳组合允许缺失值的精确重建的目标变量,即使一些数据没有其他字段的记录。

1。介绍

缺失值的信息遗漏,丢失,错误、不一致,显然荒谬,或者无法访问统计单位的其他有用的数据是可用的。失败数据收集都是主要关心的问题,因为他们减少有效病例数进行分析,进而可能导致的潜在损失宝贵的知识,因为,当有一个大区别完整和不完整的记录,他们引入偏差估计和预测的过程。

带来的问题的观察,真正失踪或被认为是可以通过使用不同的策略来处理。这些包括额外的数据收集;不完整的数据的应用程序基于可能性的过程,可以建模;演绎重建;只有部分的可用数据的使用(listwise或成对删除);加权记录;归责,修订的数据集,以取代丢失的数据和合理的值。本文以后者的方法。

归责技术都进行了广泛的研究在过去的几十年里,和许多方法被提出。概述的方法,例如,小和鲁宾(1]和Kalton Kasprzyk [2]。这些方法现在可用在标准统计软件(或可以很容易地实现)虽然没有共识作为最合适的技术来使用一个特定的情况。这不是我们的意图提供一个详尽的回顾数据归责方法;相反,我们讨论的最近邻热甲板归咎(NNHDI)已被用于许多年,享有很高声望的理论和计算特点。

NNHDI方法需要一个非随机样本不重复从当前数据集(这就解释了“热甲板”一词的方法的名称)。更具体地说,NNHDI寻找最近的子集最相似的记录缺失值的记录,在接近指定的最小化前者和后者之间的距离。这一目标,一般距离测量的比较两个记录,分享一些,但不一定,辅助变量必须是派生的。实际上,这只是问题的一部分。另一个是现实世界的数据集常常涉及数值、序数,二进制,名义变量。

处理同时出现的变量有不同的测量尺度,我们的出发点从一个距离矩阵的计算常数限制为每个组件类型的变量。通过这种方式,一个妥协的距离可以通过使用组合的所有部分的距离(“部分”,因为每个人都是与一个特定类型的变量而不是全球性的问题报告的数据集)。我们解决问题指定微分重量为每个类型的变量以反映其意义,可靠性和统计充足率NNHDI过程。

本文的其余部分组织如下。下一节NNHDI方法的简要概述。这里,我们引入一个归责方法的缺失值最低的目标变量代替权力意味着Box-Cox变换应用于观测值的选定的捐助者。节3,我们给的描述方法用于计算距离,强调对混合数据的测量距离。节4之间的距离,我们设计一个妥协的记录。节5,一个应用程序的各种系统的权重,其次是评估我们的方法。最后,在节6为未来的工作,我们将重点介绍一些地区。

2。最近邻热甲板非难

是一个数据集组成的 记录 一个区间或ratio-scaled变量 (感兴趣的目标变量或变量)与其他记录在一起 辅助或匹配的变量 。我们假设 记录的有效观测目标变量形成了集 的第一个 的记录 。在实际应用中,许多因素影响值是失踪,这并不是这样裂陷数据通常是不局限于特定的领域,但可以在任何位置内的记录。因此,一个或多个辅助变量可能失踪虽然有缺失值的记录所有的辅助变量被排除在可用的数据。

为每个受体记录 , 失踪,NNHDI选择一个社区或引用 类似的记录或捐赠者 是固定大小的引用集。捐赠,记录必须有一个有效的价值 和至少一个辅助变量完全出现在受体。

捐赠者提供依据确定估算值。如果的基数 th参考集 值,然后 最近的记录 简单的可以复制到吗 或辅助变量的转换 可以应用到相应的数据吗 确定的估算值 。Bankier et al。3,4)指出,收件人的估算值应该来自一个记录捐赠者如果可能的话而不是两个或两个以上的捐赠者。Welniak和编码器5)指出,如果 ,那么所有丢失的信息估算来自同一个捐赠者支持保存变量之间的相互关系。然而,当属性包括大量的定性和定量变量在同一时间或当有辅助变量与许多不同的值,它是很难找到一个单一捐赠者记录精确匹配接收记录。

NNHDI方法的想法是每个受体记录不是一个孤立的案例,但属于一个特定的集群,因此表现出特定的模式。事实上,NNHDI首先收集记录,类似于受体利用辅助变量,然后选择记录的数据集成到一个一致的和逻辑相关参考集。因此,一些捐助者可能参与完成单个缺陷记录。富有(6)注意到,这可能是一个来源的一些担忧,但这样的担心减少如果一个考虑最好的一段收件人捐赠记录可能不同于另一段的最佳供体时不完备也影响辅助变量。例如,获得完美的社区使用名义变量可能会缺乏集群为数值变量。Wettschereck和Dietterich7)指出,在嘈杂的数据集 最近的邻居比简单的最近邻算法性能更好。

减少偏见的可能性与NNHDI可能增强如果未报告的值具有随机缺失(MAR)机制。在这一领域的措辞,这意味着缺失值在目标变量遵循一个模式,它不依赖于未报告的数据 ,但只在观测数据。让 是一个向量的指标变量th记录, 在3月动态,选择概率验证下列条件: 。这相当于说,考虑到观测数据,无法观察的实现 不是没有观察到的数据的结果。missingness模式,然而,可能取决于辅助变量可能missingness或联合的原因导致,因此可以有助于填补空洞。事实上,辅助变量的观察值为受赠人和捐赠者比较隐性的假设下,如果距离,然而定义,很小的辅助变量,记录也将接近另一个目标变量。因此,强大的存在目标和辅助变量之间的关系有积极的影响的能力NNHDI确定更紧凑和均匀的引用集,因此,提高质量的估算值。看到Abbate(前者8]。不幸的是,3月的验证假设通常是困难的,因为没有太多信息未被注意的数据。然而,更相关和相关辅助变量对目标变量,越有可能3月假说。

2.1。形成集的引用

NNHDI方法被实现为一个两阶段的过程。在第一阶段,数据集 搜索形成社区或引用集吗 为每个受体 。在接下来的阶段,的值 观察到的参考集是用来计算替换值。同时参考集构建 以下规则:记录 被添加到 如果 或者,如果 在哪里 之间的距离是两个记录的辅助变量。的过程中,相对应的记录 距离成为邻居 。的解决方案 数学(非随机)固定大小的样本 。我们承认 s是人造的,他们可能是人口因为每个目标变量的非代表性样本 是观察记录的一个子集的一个子集(准确地说,记录类似吗 一个有效的值 )。然而,应该强调,归责缺失值的情况下有偏见的选择最好是概率抽样。看到戴明(9,页面32-33]。

一个显著的特征 -NNHDI是一个预定义的基数的限制 , 之后不能更改(见[10])。这样的约束可能会造成困惑先天的就不可能有公司实验证据表明每个受体属于一个紧凑和齐次集群形成的至少 记录是有效使用捐赠者;此外,NNHDI无情地发现这一事实 捐助者,即使没有人实际上是在受体,会增加无关的风险记录在参考集。

虽然有一些链接的规则 大小 数据集的基数 仍然有些武断。的价值 应该保持足够小以提高算法的速度和带过程值派生最相似的记录到归责。另一方面,如果 非常小和捐赠者不附近发现由于数据稀疏,估算值往往很差。NNHDI噪声数据的可靠性与捐赠者的数量预计将提高用于非难,但是太多的捐助者增加计算成本和可能放大比例估算值的变化。此外,正如 增加,受体和捐赠者之间的平均距离变大,特别是如果很大一部分的数据丢失。在文献中,只有小 值, 已经被测试。Wettschereck和Dietterich7)选择 归责算法的性能的基础上,尝试所有可能的 在一个巨大的范围和经纪关系的较小值 。弗里德曼et al。11从]发现经验值 当寻找一个最近邻。来确定 在我们的实验中,我们使用他是法则 讨论,例如,在Hyndman [12]。

计算NNHDI的缺点是算法搜索捐助者通过整个数据集,和这个限制可以严重的大型数据库。形成了社区 ,NNHDI考虑 距离(尽管只有少数必须保存在内存中)和比较 , 与最遥远的元素在每个社区。巨大的进步的电脑,NNHDI方法不像以前那么高昂。然而,如果数据集被认为是太大一个可接受的期限内治疗,寻找捐赠者可以局限于的一个子集 。见,例如,威尔逊和马丁内斯(13]。

NNHDI不一定产生不同的引用集; 可能大于零 。此外,它的叶子未使用的记录,不符合任何社区。出于这个原因,一个反对NNHDI是一些记录数据可以使用许多倍的捐赠者和其他记录被排除在“捐款”,因此剥夺了归责的好处可能是派生的使用更多的信息。根据富有爱心6),这将增加方差,可能减少偏差的估计。此外,它可能意味着通货膨胀数据集的某些亚种群的大小。Kaiser (14)指出,单一捐赠者的过度使用会导致贫穷的估计,和Schieber15建议每个完整的记录是只允许一次捐赠。如果重复的捐款和省略的贡献是缓解问题,一个可以申请科莱奇提出的策略等。16贾尔斯]或[17]。

2.2。冠之为缺失的数据

被引用的 在第一阶段形成的。上的信息 包含在 合成到估计 缺失值。这个操作应该进行治疗和控制因为估算值将被视为实际观测值,并进行统计分析使用标准的过程开发的数据没有任何失踪的观察。

,然后需要一个合成的所有证据。许多建议估算 先进的。一个共同的归责技术使用的意思 中观察到的值引用集。在这篇文章中,注意力集中在权力意味着估计量最小化 关于 。一个经典的选择是一个简单的意味着非难 获得了 。如果我们将 , , ,我们获得归责中值。为 ,(2。3)收益率中档。在我们的程序, 不是固定的,而是必须优化以适应目标变量的观测值吗 。这一目标,我们使用过程由Mineo和Ruggieri [18)(参见[19])集中在指数概率密度函数 这些符号 , 分别表示位置、规模、密度和形状参数。如果 生成的曲线(2。4“钟”形。为了增强的可靠性(2。4)不对称的经验分布,我们应用Box-Cox权力转换为了达到目标变量的分布的对称性 的价值 据估计最小化标准化第三中央时刻在紧凑的时间间隔内吗 。看到泰勒(20.]。一旦发现的价值 ,模型(2。4)安装到目标变量的转换 考虑之间的关系 在(2。3)和尾指数配电的行为。看到Mineo Ruggieri [18]。

缺失值必须在原规模估算,而(2。5)提供了一种替代的价值Box-Cox规模,必须转换回原来的估计。然而,当转换回来,最少的权力意味着发生偏差,除非 (因为变换是线性)或除非 因为中位数单调变换下是不变的。基于前期工作,没有报告,已经设计了一个启发式偏差纠正因素如下: 通用汽车和我在哪里的几何和算术平均在最初的规模和目标变量 是一个调优常数。因素(2。6)是一个单调递减函数的指数:更大的 ,系数越小,因此,biascorrection越大。在我们的实验中,我们尝试过(2。6), 在离散时间间隔 和选择的相对平均误差的污名 记录是最小的。

3所示。混合数据的距离测量

是一个包含测量object-by-variable数据矩阵 对象的混合变量的类型。不失一般性,我们可以假设 变量区间或比例缩放; 是序数变量排名记录的程度没有建立数字数据点之间的差异; 变量是二进制对称(0 - 0和1 - 1的比赛被视为同样表明相似); 是二进制对称(0 - 0或1 - 1的比赛并不被视为表明相似因为1是用来表示存在的一些特性和0缺席)。重要的是要区分两种情况:如果两个记录有几个copresences大量的二进制变量被认为是对称的,那么它们之间的相似度可以判断很大,即使他们几乎没有共同之处。相反,如果是二进制的变量不对称,那么大量的coabsences可以判断微不足道。最后, 变量是名义上的三个或三个以上的类别和一个潜在的不同数量的州 。当然,一些组织可能是空的,和其他一些可能分成组相同类型的变量。在每种情况下,

非空的变量的子集的数量。不同的测量通过一个距离函数,考虑所有类型的变量可以在许多方面实现。首先,可以为每个组执行一个单独的分析,然后比较和综合结果归责替代来源。冲突可能偶尔出现,因为模式之间的不可调和的差异中发现不同的距离矩阵。在真实的应用程序中,不太可能单独罪名将生成兼容的结果;此外,重复分析大型数据集的成本可能太高了。

最简单的方法处理的混合变量类型是将变量分为类型和限制分析的主要类型。虽然很容易判断哪些类型是“主导”,这种做法不能推荐可能是正确的,因为它丢弃数据相关,但在错误的生产规模。当同时处理名义,序数,二进制,等等特点,可能会忽视他们的分歧和用距离测量,适用于定量变量,但不适合其他类型。自然,这是一个荒谬的解决方案,但在实践中,它会运转地很好。

另一种方法是将一种类型的变量,同时保留尽可能多的原始信息,,然后,使用距离函数适用于选定的类型。Anderberg [21,94页)认为,面临的主要问题是应该选择哪个变量类型。例如,名义变量可以被转换为类与1和0编码从而将他们视为不对称二进制变量随着原始二进制变量;随后,记录目前只包含数值变量可以比较使用传统距离函数定量变量(参见[22,92页)。一个明显的缺点是使用大量的二进制变量之间是高度相互依存的概念,因为他们暗示如果选择相互排斥的可能性。另外,定量变量可以在一个固定的水平,这样一分为二新值可以使用距离函数设计了二进制变量。结果是,大量的记录都可以考虑,从而减少定量变量的影响。在任何情况下,尺度之间的转换涉及信息和知识的流失。

3.1。一般距离系数

NNHDI方法的性能主要取决于用来形成的距离参考集。一个特别有前途的方法包括处理所有变量在一起,执行一个归责过程基于不同系数显式地为混合数据而设计的。在这项工作中,我们采用了以下衡量全球的距离: 在哪里 部分记录之间的距离 。通常,距离在单位时间按比例缩小的变化 0时,才可能有两个记录是相同的所有非空的字段,和一两个记录时达到最大限度地在所有的领域有效而不同。条件(3所示。3)是必要的,否则的组合表示的距离将复制的结构指标最大的距离。

因为捐赠者可能有缺失值,距离,一定,计算变量都具有完整的信息记录,而值中包含一个记录但缺少其他被忽略。的指标 的表达式(3所示。1如果比较)是零 是有效的吗 变量,而 如果字段是空的。一般来说,我们 。如果 ,然后(3所示。1)成为通用的衡量高尔半岛(提出的不同23]。参见考夫曼和Rousseeuw2419页],Di Ciaccio [25),没吃等。26],seb (27,357 - 358页)。

归责会失败如果没有至少一个捐赠者和一个有效的数据就至少有一个变量不是失踪的受体。顺便,我们注意到在辅助变量缺失值可以减少捐助者,归责的社区变得不可能,至少在案件的一个子集。看到恩德斯(28,50页]。在这种情况下,受体或许应该被排除在组可用的记录和使用不同的治疗方法。

全球的距离(3所示。1)符合原则的可靠性随距离的减少有意义的比较。因此,记录少有效的字段是惩罚为了弥补其较低的可用性。这个选择另外的阻止捐助者的选择理想的效果与受体分享功能太少。

限制(3所示。1),变量可以互相替换,也就是说,一个更高的距离在一个变量可以弥补在另一个较低的价值。的影响 可以通过重新调节增加或减少的贡献成正比吗 和评分范围 。如果变量的数量很高,然而,一个非常复杂的过程需要将所有部分的距离矩阵合并成一个全球的距离矩阵。计算到一个可控的水平,我们决定变量的组分配不同的权重,但不是每一个变量 在哪里 , 。在这里, 是一个矩阵1 s, 表明两个矩阵之间的阿达玛的产品。的选择(3所示。4)降低了灵活性一般不同的系数,但是寻找一个最优加权系统简化。这里重要的是要强调,如果部分距离矩阵有相似的结构,产生重叠的引用集,没有优势可以通过结合他们(3所示。4)。

高尔半岛(23)要求每个 不同系数,生成一个欧氏距离矩阵 。Pavoine et al。29日表明,如果 s是欧几里得 也是欧氏。尽管如此,作为欧几里得的状态矩阵可以修改(3所示。1)。如果 不是欧几里德,可以确定常数 这样一个矩阵的元素 , 欧几里得。看到高尔半岛和Legendere [30.定理7]。

3.2。距离系数

一般来说,不可能设计一个系数,可以推荐给一个特定类型的变量,因为除了固有的特性系数,数量和辅助变量的值有一个行列式的角色。对于本文,我们选择了一些常用的距离函数的范围 ,无论数量的变量,这样距离不受影响的数量字段。(1)比例和等距量表。欧氏距离 在哪里 的观察到的范围吗 变量。(2)等级分类。线性分歧指数 在哪里 。的值 序数变量是整数 (3)二进制对称。类变量的记录的数量有不同的值除以总数量的二进制对称变量: (4)二进制不对称。都记录的二进制不对称的变量数量有积极价值这些变量的总数 (5)名义。许多州的多分枝的两个记录比较有相同的状态下,除以总数量的州politomies 在哪里 。每个比较可以得分 不同的二分法通过设置 这些1时 一致的 politomy或为0 是不同的。

所有该指数生成欧几里得距离矩阵。

4所示。结合距离

使用距离函数(3所示。4),用户必须提供适当的权重为各种类型的变量。Bankier et al。31日]假设权重应该较小的变量时,它被认为是不太重要,他们匹配或变量被认为更有可能被missingness错误或受到影响。Istat [32决定,关于3月缺失值的动态,权重根据目标之间的关联程度和辅助变量的完整记录。目前,我们忽略这些权重方案尽管他们应该认真考虑在未来的研究。

4.1。等比例的权重

权重 可以确定的基础上一个先天的判断什么是重要的,应优先对部分距离矩阵。换句话说,研究人员给权重类型基于直观的理解数据,但是如果他们不知道上下文,评估可能不足,引入偏差。Chiodi [33]发现平等权重更有价值的数据: 。这个公式对所有类型的变量时同样有效确定全球距离矩阵。这样的解决方案可能是完全可以接受的,因为我们很少知道先天的如果某些类型是比其他人更有帮助。事实上,平等权重时似乎是一个有效的实践没有理论或经验理由选择一个不同的计划。然而,不宜将变量的重量没有进一步研究他们的贡献,整个数据集的可变性。

Romesburg [34]基于权重的比例每个类型的变量: , 。如果所有的辅助变量被假定拥有平等的功效,独立于它们的产量规模,那么这个选择是正确的选择。一个明显的例子是当所有的辅助变量与目标变量密切相关。的原始版本高尔半岛的系数是一个加权平均的三种不同措施的不同权重的比例是每种类型的变量。

4.2。均衡的标准偏差部分距离

类型的变量决定的意义取决于全球距离,除此之外,在的可变性 这类型导致高方差的成对的距离,因此,更有可能向全球的距离有很大的影响。确保对这一原则的尊重,我们可以使用“可变性的倒数为部分距离。“例如, 在哪里 标准差的距离严格下三角的一部分吗 。如果 基于(4所示。1),然后下三角的元素的一部分 规范化的标准偏差。

4.3。均衡意味着部分距离

明确的变量如二进制和分类变量往往有更多的影响全球距离的计算。Kagie et al。35)观察到没有理由假设,不考虑问题的特定方面,名义变量比数量更重要。因此,适应是必要的。后Kagie et al。35和李et al。36),严格的距离下三角的一部分 可以归一化平均价值的 在哪里 在严格的平均距离下三角的一部分吗 部分距离矩阵。

4.4。Distatis权重

获得一个最优的权重系统,我们需要一个表达多少某种类型的变量会影响全球的距离。这可以从广场的总额部分距离矩阵中的元素 选择权重,以最大化的方差在全球距离矩阵的元素 ,反过来,导致Distatis过程是由Abdi et al。37)(参见[38])。

在Distatis的第一步,每一个 转换成向量矩阵 有相同的信息内容 但更适合于协。让 是一个 向量的1 s,让 是单位矩阵 。归一化向量矩阵 在哪里 是矩阵的 元素的平方 , 表示最大的特征值 。众所周知(见,例如,39)), 是对称的,半正定和行金额为零。

的列向量叠加得到的列 除此之外,组织成一个 矩阵 。Distatis的核心步骤是创建矩阵 ,在那里 是一个对角矩阵的元素是倒数的平方根值的对角吗 。通用元素 是矢量相关系数(40)向量矩阵来源于部分之间的距离矩阵 , , 自然地, 。自(4所示。4)验证的关系 由于 对称半正定,呢 ,在那里 是最小的特征值的 (见[41]);由此可见,

Distatis的范围是要找到一个凸线性组合 向量的 解释的方差的最大数量 可能的。从这个意义上讲,Distatis只是的主成分分析 ,也就是说, 。自 是积极的,或者至少,非负不可约,然后Perron-Frobenius定理(见,例如,(42)确保有一个特征值,说 ,积极的和大于或等于其它所有特征值的模量和有一个严格的积极特征向量 对应于 。全球向量矩阵可以发现使用 权重 是这样类型的变量类似于其他人获得更高的权重比那些不同意的其他变量。有关全球距离矩阵 Distatis重量要求从计算的观点因为它们涉及eigenanalysis潜在的非常大的矩阵。(只有 重量(4所示。6容易计算:0.5和0.5)。然而,可以简化计算任务执行一次性测定重量在一个足够大的随机样本的完整记录。

5。实验结果

在本节中,我们提出一个数值实验来测试的结果如何NNHDI重建缺失值。更具体地说,我们研究部分中讨论的五个不同的加权方法4获得全球距离矩阵的最小功率的改动意味着捐助者。确定哪些是特别感兴趣的加权方案部分矩阵最小的不利影响数据在使用估算值的准确性。在这个意义上,我们使用的数据集和变量是完全已知的所有单位(必要时,我们已经删除了不完整的记录)。然后我们模拟缺失值根据3月机制来评估我们的偏见NNHDI算法。所有模拟进行使用 (43]。

5.1。实验中使用的数据集的描述

我们的实验进行了使用十个数据集来表示不同大小的文件是常见的。这些数据集是有趣的,因为他们表现出各种各样的特点和有一个好的混合属性:连续的,二进制和名义。在我们的研究中,我们使用了真实的数据集,因为他们的现实主义和缓解他们可以适应实验设置。在某些情况下,我们没有使用整个数据集,但不重复通过画一个子集的一个随机样本数据集。(一)心脏病克利夫兰数据库(高夫的库)弗兰克和亚松森(44]。公开的克利夫兰心脏病数据库用于测试内核的方法。它由303例心脏病的障碍是四种类型之一或其缺席。这个数据库包含76个属性,但所有实验是指使用的一个子集14日发表。实验与克利夫兰数据库仅仅集中在试图区分从没有疾病的存在。总结医学症状视为重要的变量指标的一个病人的病情被归类为度量: 顺序: 二进制对称: 二进制不对称: ,名义上的: 。“目标”字段或者结果指的是存在心脏病的病人。问题是预测结果的其他13个值特征。为了让事情更倾向于我们的目的,我们稍微改变了问题和使用mg / dL的血清胆固醇作为目标变量。原始数据集包含了270个完整的记录,但是我们分析了一个随机的子集 记录。(b)汽车数据集(包的质量 )。数据从 在美国汽车销售在1993年。汽车是随机选择从1993轿车模型在消费者报告问题和上市速度购买指南。皮卡和运动/多功能车在消费者报告消除了由于不完整的信息来源。复制模型(例如,道奇阴影和普利茅斯圣丹斯电影节)上市最多一次。变量被归类为度量: 顺序: 二进制对称: 二进制不对称: ,名义上的: ;目标变量 最大的价格。进一步的描述中可以找到锁(45]。(c)医疗保健需求(1988 nm,包的爱尔兰 )。横截面数据来自美国国家医疗支出调查(nm)在1987年和1988年提供一个全面的美国人如何使用和支付医疗服务。纳米是基于代表全国概率抽样的平民和个人在1987年承认长期护理设施。年龄在66岁及以上的数据指的是个体,他们都被医疗保险覆盖(公共保险计划提供实质性保护医疗成本)。这些数据都验证了反复观察受访者所提供的信息与医疗服务的提供者。除了医疗数据,纳米健康状况提供信息,就业,社会人口特征和经济地位。在我们的实验中使用的数据集的版本包含 我们分类如下:变量度量: 顺序: 二进制对称: 二进制不对称: ,名义上的: 。个人的收入被选为目标变量 。保持在合理范围内的数据量,我们随机选择 记录。细节是由卡梅隆和Trivedi [46]。(d)死亡,在包的爱尔兰 我们每年交通事故面板数据从1982年到1988年的48个国家(不包括阿拉斯加,夏威夷,和哥伦比亚特区)。研究人员使用此数据集研究啤酒税的影响和各种酒精管制政策机动车死亡率。特别注意偏差造成未能充分控制基层努力减少酒后驾车,同时其他法律的制定运作减少公路死亡事故,和当时的经济状况现有立法通过。交通事故发现的最有趣的特征数据集的饮酒年龄变量,指示一个因素是否合法饮酒年龄是18岁,19日或20;两个二进制惩罚变量描述状态的最低量刑要求一个初始酒后驾车的信念;人均死亡率从事故发生在晚上,18到20岁。数据集由336对 变量。然而,记录28排除由于缺乏有效的观察两个字段。总而言之 记录没有缺失值。分类变量的度量: 顺序: 二进制对称: 二进制不对称: ,名义上的: 。酒车辆事故的数量作为目标变量。看股票和沃森(47为更多的细节。(e)澳大利亚信贷数据集(高夫的库)弗兰克和亚松森(44]。这个文件涉及信用卡应用程序。每种情况的担忧申请信用卡设施由16个属性描述。度量: 顺序: 二进制对称: 二进制不对称: ,名义上的: 。第一个指标变量被选为目标变量。数据帧包含690年的观察,但37例 有一个或多个缺失值,因此从进一步分析。因此,有效的记录数量 。这个数据集被认为是缺乏和吵闹,可能是因为这个原因,已成为非常受欢迎的在测试构建分类树算法。从我们的观点来看,这个数据集很有趣,因为有一个很好的混合属性:连续的,数量不多的名义值,并与大量的名义值。也有一些缺失值。可以找到更多的信息在昆兰(48]。

5.2。实验:随机缺失值的比例在所有的变量

在第一阶段,我们省略了一小部分 确保没有行 包含多 不完整的领域。的 记录的辅助变量的值必须移除被画一个简单的随机样本选择不重复的 记录,一旦数据集被按升序排序 。这一步是为每个重复辅助变量。通过这种方式,一个温和的协会之间的都可以看到 因为最大的一半 可以依赖更丰富的信息来源的辅助变量。在第二个阶段,我们省略了一个比例 后的目标变量,随机排列的辅助变量。记录的升序排序 分配的缺失值 在最后的位置。记录的缺失 被选出的是一个随机样本不重复的尺寸吗 ,在那里 遗漏直到缺失值的总数。的样品 是Midzuno的方法。比例的因素 这是逆相关的外观的顺序记录在当前安排的数据集。因此,目标变量的值更容易失踪情况下辅助变量的值较低。上述过程是迭代的辅助变量 ,足以完成缺失值的数量被注入到目标变量。通过以这种方式操作,失踪的值 有一个概率与辅助变量的最大数量。此外,同时存在缺失值 是阻止。之间的双重关系 的存在使得MAR missingness模拟模式的合理机制。每个组合的 一直在重复 次减少不规则变化。NNHDI算法的重建进程的效率是衡量平均相对误差(绝笔) 在哪里 是获得五项NNHDI过程中从一个目标变量的值被认为是失踪。该指数 有关预测和观测值之间的大小差异。显然,一个小的价值 代表了一种成功的方法。结果被发表在表1

实验中没有发现了强有力的证据支持或反对一个五部分的权重系统矩阵中讨论部分4当目标和辅助变量missingness影响。这意味着使用推定的实践体系的权重结合部分距离矩阵不这样做,显然,惩罚太大估算值的准确性,尤其对于大型的数据集。一个潜在的原因发现是,每一个变量的影响在全球距离很小而其他变量的影响在同一类别或与的影响占主导地位的集团。在这些情况下,灵活的选择在比较两个记录重量不是很有用,和蒙特卡罗实验证实没有算法在这些数据条件下明显比其他的更有效。然而,在测量的总体质量缺失值估计由给定NNHDI变异,权重变量组的数量成正比的均衡意味着部分距离略优于其他NNHDI算法执行的。

一般来说,一个期望的增加比例的不完整记录,或缺失值的数量记录,或者两者兼有,估计会减少由于质量的减少潜在的有用的信息。的确,这似乎证实了高的值 。尽管如此,该指数的值对实验中的缺失值的百分比 不是高得多,在很多情况下更低,比实验的比例是什么

2显示的平均值 所有的9个组合权重系统缺失的百分比在目标和辅助变量。总平均相对误差的变化趋势是不符合逻辑的反应是什么信息的数量减少,也就是说,有效地处理。这可以通过多种方式来解释。,这是合理的辅助变量中的遗漏值的影响降低,因为他们很少出现在记录的缺失值 。这也是合理的 相互作用有一个坚实的MAR机制,增加缺失值的百分比 温和的不利影响在重建过程的准确性;另一方面,高百分比的缺失值 甚至可能加强凝聚力在有关记录可用的值。根据我们的实验中,缺失数据的比例似乎没有污名错误的主要决定因素。

6。结论和未来研究的建议

缺失值经常发生在现实世界的应用程序和代表一个数据质量领域的重大挑战,特别是当数据集变量混合类型。在这篇文章中,我们已经进行了广泛的研究的最近邻热甲板归咎(NNHDI)方法,为每个收件人记录不完整的数据为目标变量,一组捐助者被选中,这样类似于他们的接受者对于辅助变量。然后使用捐赠者的已知值获得的价值缺失的数据通过计算最小的力量意味着(连同Box-Cox转换)的目标变量的集合。

特定的本文的焦点是“有问题的”数据集包含缺失值在目标和辅助变量和涉及数字的混合物,序数,二进制,名义变量。日益明显,疗效和NNHDI铰链的有效性至关重要的是如何记录之间的距离测量和测量距离的不同方式导致不同的解决方案。在这项工作中,我们设计了一个新的全球距离函数的基础上,部分距离矩阵得到的各种类型的变量出现在(或失踪)的记录数据集。单独的距离矩阵结合加权平均,然后由此产生的全球距离矩阵用于寻找捐赠者。每组变量的贡献全球距离与重量是按合同/扩展的影响。在这项研究中,我们比较了五个加权方案的性能。

重建过程的准确性判断,我们认为是一个绩效指标与预言与观测值之间的大小差异。更具体地说,相对绝对平均误差计算为每个方法基于五个真实数据集在三个不同的实验:离开一个不完备的目标变量,并在所有变量不完备。最后两个实验中的遗漏值插入据3月机制。

实证研究结果表明,数据驱动部分距离矩阵的权重是适度比推定重量虽然比目标更理论的原因,实验提出了工作给小证据来支持一个特定的权重系统。这主要是由于强大的测试数据集的变量之间的关系;低变异性也显示了至少权力意味着用于将缺失的值可能会给nonmarginal贡献程度不足的discernability权重系统。另一方面,调查使用NNHDI演示这个方法来弥补缺失的能力值几个类型的变量时发生在相同的数据集,即使一些记录裂陷在辅助变量。的关键好处NNHDI结合新的全球距离和最小的力量意味着估计是好的结果可以实现低的重建误差不应补偿通过强大的分布假设或复杂的建模。

我们的结果也表明,权重的选择并不显著影响质量的估算值,但我们不能排除选择权重可能达到更高的性能。也许,这不是无关紧要的,缺失值最高的影响是在数据集指标变量过多了。我们计划研究加权系统基于目标之间的相互依赖程度和辅助变量,所以我们可以更好地理解这些差异的影响,不同NNHDI算法。

NNHDI结果的质量密切相关的具体的观察分析。因此,而不是使用一个固定的值 在整个数据集,一个局部自适应的选择的参考集的基数可能在实践中更有用。另外,的价值 可以由执行初步分析的数据集的子集。评估的替代策略构建参考集可能是一个很有潜力的进一步研究NNHDI。