文摘

流行病学研究通常利用分层数据中罕见的结果或暴露在人为地丰富。这个设计可以提高精度协会测试但扭曲对nonstratified数据预测应用分类器时。几种方法纠正这种所谓的样本选择偏差,但他们的表现仍不清楚尤其是对机器学习分类器。重点是两阶段病例对照研究中,我们的目标是评估,修正执行设置和获取方法适用于机器学习技术,特别是随机森林。我们提出两个新的resampling-based方法类似于原始数据和协方差结构:随机反概率采样过密和参数反概率装袋。我们比较所有随机森林和其他分类器技术,理论上和模拟和真实的数据。实证结果表明,随机森林的利润只有参数反概率装袋提出的我们。对于其他分类器,校正主要是有利的,执行统一的方法。我们讨论的后果不合适的分布假设和原因不同的行为之间的随机森林和其他分类器。总之,我们提供指导选择校正方法在训练分类器有偏见的样本。 For random forests, our method outperforms state-of-the-art procedures if distribution assumptions are roughly fulfilled. We provide our implementation in the R package荷德

1。介绍

统计是一门艺术推断信息大量人口从相对小的随机样本。这是必要的,因为在实践中经常是不可能收到所有测量个体在人群中(例如,由于组织或成本原因)。在临床环境,例如,一个可能的目标预测某种疾病的风险基于临床特征为整个人口。风险模型将来自信息从一个小得多的随机抽样的人口。在构建这样的模型时,一个常见的假设是,遵循相同的子样本的分布随着人口样本来自。然而,这种假设是无效的,如果样品不是随机。在流行病学情况下,例如,这种情况下发生在众所周知的病例对照研究(1]。在这里,一个感兴趣的发现之间的关联特性和罕见疾病的结果。为了提高精度,实现更高的统计力量寻找重要的关联,案例丰富,这样情况下和控制也同样代表在示例。当一个病例对照研究用于风险预测在一个公正的人口(例如,通过逻辑回归),某些需要做一些调整,已被阐述在2- - - - - -5]。

设计出现在一个更复杂的示例两阶段病例对照研究(6,7]。在这里,不仅丰富了一个罕见的疾病的结果,但也是一个罕见的协变量(例如,曝光)。这个措施可以防止样品只包含一些个人,分为两个罕见的类别。从这样的一个样本,几乎能够得出罕见的组合。图1(一)说明了在实践中执行抽样程序。图1 (b)病例显示了一个典型数据表/控制和暴露/ nonexposed个人人口和样本。这和其他复杂的调查设计(例如,群抽样设计(8)已经使用为了获得亚种群罕见的特色功能感兴趣的(9- - - - - -11]。的效率和分析中描述的设计(6]。

在上述情况下,示例遵循不同于人口的分布。这可以影响统计分析。在一般情况下,这个问题被称为样本选择偏差(12- - - - - -14]。它通常发生在从人口中并不是所有的人都有相同的样本选择的概率。如果一个统计估计是受到样本选择偏差的影响,一个人应该正确。是否校正是必要的类型取决于样本选择偏差,考虑分类器,研究需要回答的问题。例如,不需要调整要是结果变量是丰富和逻辑回归预测应用的目的,因为斜率系数的线性预测保持渐近不受样本影响选择性偏差对于这种情况(如果函数形式和解释功能模型是正确的)(15]。不过,总体而言,调整是必需的,和有几种解决方案遇到这个问题在复杂的调查设计(16,17]。这些现有方法主要关注经典预测方法或简单的调查设计。策略的适用也已经提出机器学习方法在一般样本选择偏差上下文(12,18,19]。这些方法重建人口数据或其协方差结构和通常涉及非参数重采样技术引导。然而,他们忽略了复杂的调查设计。因此,虽然在逻辑回归校正样本选择偏差调查,大多数机器学习方法的考虑还不清楚。

本文评估、提出和比较的方法对样本选择偏差在复杂的调查,特别是在两阶段病例对照研究。因此,我们关注的是二进制的结果。图2说明了需要解决的问题。重点是一种广泛使用的机器学习方法:随机森林。我们正确的样本的协方差结构,通过融合知识样本选择过程为非参数和参数重采样技术。随机森林是基于重采样(的装袋;参见3.2),我们将调整进入固有的重采样过程。我们比较校正方法类似的最先进的方法,对随机森林和其他常见的分类器,即逻辑回归,逻辑回归包括交互方面,和朴素贝叶斯分类器。我们特别地址是否修正是必要的随机森林,如果是这样的话,电流校正方法能否成功转移到随机森林和改进是否可能通过其他方法。我们评估和比较的预测性能校正技术在合成模拟研究和实际数据的应用程序。我们提供R包荷德所以,读者可以很容易地应用本文提供的方法对他们的数据。

本文的结构如下。我们形式化样本选择偏差和地址修正的必要性2。部分3解释当前的有偏样本,纠正学习方法和我们提出的两个新方法根据图的观察从理论分布假定为给定的数据。我们进一步分析各种方法的属性在样本选择偏差。部分4提出了一种模拟研究比较所有关于性能的新方法的测试数据。部分5对真实数据显示了一个类似的分析。我们讨论和总结工作6

2。预赛

本节介绍了一般的定义和背景信息:一个正式的描述样本选择偏差(部分2.1两阶段病例对照研究),特殊情况(部分2.2),偏向样本的属性(部分2.3)。

2.1。样本选择偏差

以下设置类似于Zadrozny [12)和区别样本选择偏差分成三个类型。我们假设一组观测 是独立于一个分布 的领域 的功能和空间 作为一个可测量的空间。在这里, 是一个离散的二进制标签空间因为我们专注于二元分类器在这个工作。在整个论文中,我们将用大写字母表示随机变量和实现(即。在样例),观察小写的字母。

设置的样本选择偏差问题,我们除了 是一个二元空间。 是控制的变量选择的观察: , th观察被选中;为 ,观察不选中。因此,观察 来自一个分布吗 与域

一般来说,一个样本 可以在三种不同的方式是有偏见的。这些类型的样本选择偏差可以描述如下12,19]:(我)标签的偏见:biasedness取决于 只有,所以 (2)特性偏差:biasedness取决于 只有,所以 (3)完整的偏见:biasedness取决于 ;也就是说,之间没有独立 ,所以

在标签的偏见, 不一定是独立的 ([19];详情,参见附录一个),和特性的偏见 不一定是独立的

每当有样本选择偏差,选择的概率 (尤其是 标签的偏见和 特性的偏见)。在实践中,这些概率通常可以估计,如果他们是未知的。在这篇文章中,我们假设他们提供。方法本文提出将把这些选择概率的权重对应逆概率

2.2。在两阶段病例对照研究样本选择偏差

在本文中,我们将讨论两阶段病例对照研究的特殊情况,因此把它们放进样本选择偏差的背景下在本节。

样本选择偏差的病例对照研究是一个在临床背景:某些疾病在调查中是非常罕见的在整个人口。随机样本的研究参与者将包含很少的病例。统计分析将遭受低精度,因此低功耗。为了提高精度和权力,病例数量丰富,这样的比例情况下,控制样本中是相同的。特别是, 而流行率 要小得多,所以呢 。通过贝叶斯定理 ,因此有标签的偏见。

病例对照研究大多是用于研究疾病和功能之间的联系。底层标签偏见并不改变假设检验的效果估计疾病之间的联系和特性。然而,这是真的只渐近,在小样本情况下可能会有影响。如果一个专注于预测,例如,通过逻辑回归,我们本文中描述的拦截估计可以调整范德朗玫瑰和(4]或Steyerberg et al。2]。埃尔坎(20.任意的分类器)提供了一个解决方案。

两阶段病例对照研究,另一方面,选择另外由分类特征变量控制。这样的研究受到标签特性偏差,所以有完整的偏见。我们关注的是这种情况下(即。,complex survey designs which involve complete bias).

2.3。分层随机抽样

当数据采样是在单阶段或阶段病例对照研究,有团体选择概率是相等的。这些团体被称为地层。在本文中,我们集中在两阶段的病例对照研究地层是由直言地层特性(通常是曝光) 和结果 其余的特性

对于一个人口规模 和样本容量 , 层的索引。实现落入地层 是用 , , 或结合 。我们表示 层的大小 在样例 人口规模。然后,很明显, 在哪里 表示层由 在整个论文中,我们将简单的缩写

如果确定选择概率分类的特性,可以将数据集划分为相应的地层以同样的选择概率。这不是如果,例如,导致选择性偏差的特性是连续的。在分类的情况下,选择概率可以用于调整分布样本的原始分布的人口。

考虑选择概率 观察地层 我们定义 随着反概率(IP)的重量对地层 平方括号表示舍入到最接近的整数。这个词IP重量有时是在文献中用于简单的逆选择概率呢 在这项工作中,我们使用 而不是 新生成的观测的数量最少。

在我们的校正方法,我们将使用 这可以视为再加权观测的数量(即。,观察的总和乘以权重)。如上所述,我们感兴趣的调整方法,可应用于任意的分类器。之后,在下一节中声明一个典型的设置统计的学习过程中,我们将介绍几个样本选择偏差纠正方法提出了在文献中。

3所示。方法

在本节中,我们描述、修改和分析IP weight-incorporating分类器是专为学习在一个公正的数据集,当只有一个有偏见的学习的数据集。

3.1。校正方法

所有方法调整给定数据集样本选择偏差的纠正重建原始(公正)之前或在学习数据结构分类器。我们考虑分类器 在给定的学习数据集 映射到预测(在我们的例子中)分类规则和应用到随机变量

3.1.1。国家的艺术

方法在文献中提出了在这一节中,部分修改了我们的目的。

没有修正。天真的方法学习一个带有偏见的例子就是忽略了偏见。没有使用IP权重,分类器是在给定的训练样本。如图所示,Zadrozny [12),这种方法是有效的,某些情况下的样本选择偏差,即为一种特定类型的分类器特性的偏见。

反概率采样过密。一个直观的方法,样本选择偏差的纠正是纯复制样本中的每个观察(即根据其IP重量。分层随机抽样,一个复制层的观察 的因素 )。然后,重构样本的观测的数量 这个示例是用来学习的。在广义回归模型等基于可能性最大的方法,这种方法等于加权单可能每观察。过程,有时简单地叫反概率权重,早期使用21),与应用程序在回归(22和一般统计学习20.]。我们称这种技术为IP采样过密:由于分层过程中一些观察采样过量,这种方法是一种reoversampling弱势分层样本观察。由于IP过采样是适用于任意的分类器,我们考虑这个问题进行进一步的比较。一个缺点是,它改变了每层协方差结构 3.1。2,我们提出一个方法来修正这个问题。

反概率装袋。另一个回调方法使用引导聚合和平均,通常缩写为缩略词装袋。过程平均几个预测引导的合奏训练样本,从而使学习者更健壮(23]。非参数引导由随机产生的样本图 次从原始数据集的大小 与更换。装袋过程符合这些引导学习者在每个样本,结合学习者的平均预测或通过多数票。在构建引导样本偏置数据集,在我们的案例中,重采样可以考虑IP权重:而不是随机图的观察,选择概率成正比 为各自的地层 这个过程提出了Nahorniak et al。24),贴上IP装袋在这里。

成本核算。Zadrozny et al。18)辩称,在IP装袋放回抽样是不合适的自组的独立观察连续分布包含两个相同的元素只有零概率,而非参数引导样品通常包含重复观测。Zadrozny et al。18提出一个方法调用成本核算,这是类似于IP装袋从学习数据重采样和聚合的学习算法 新的样品。它在重采样的实现有所不同 学习集:在这里,一组观察从最初的学习进入重新取样数据集最多只有一次。它被选中的概率 根据相应的地层 因此,新样本的大小是小于 和一般不同 学习集。后者表明这种方法的差异方面没有更换二次抽样。算法的详细描述的方面可以在Zadrozny et al。18),第2.3.2 2.3.4。

成本核算方法的一个缺点,以防地层较低数量的观察结果如下:可能有次级样本不包含观测地层,这意味着没有分类规则可以学到失踪的地层与次级样本。对于本文的目的,我们调整了成本算法不考虑这种不完整的样品。这个修改会导致偏见,我们考虑可以忽略不计。

修改后的击杀。到目前为止,所有校正方法复制给定的观测。相比之下,(25)提出了一个合成少数过采样技术(打)产生新合成数据。战略设计的解决方案类不平衡问题,在罕见的情况下(少数类)在(nonstratified)并不代表样本,主要由一般情况下的多数类。在这种情况下,多个分类器的表现不佳,因为不平衡的比例结果类别的数据。

它的最初形式打生成合成少数类观察如下:固定 ,一个决定了 最近的邻居少数类的。取决于所需的一些新的观察,然后随机选择一个相应的实例从这个社区。新的观察出现原始特征向量之间的加权平均,选择最近的邻居。为此,重量从单位间隔是随机抽样。

我们打适应分层随机样本的背景:而不是扩大只有少数类,我们为所有地层生成合成观察 。因此,我们应用击杀 次,每一次层需要更多的观察。我们将这种算法称为修改后的击杀从今以后。

3.1.2。修正协方差结构

上面的方法旨在重建原始数据分布以然后学习分类器在一个公正的样本。然而,不包含几个方面:IP过采样复制观察和偏见地层内的协方差结构。应提供一个校正biasedness。同样,修改打偏见的数据,特别是大的重量 ,在多次使用了相同的观测合成数据生成和缺乏足够的变异。IP装袋和成本都是完全基于重采样观测数据。这可能成为问题尤其是对小样本大小或只有小层大小(可以发生在这两种方法的重新取样数据集):精细结构在给定的数据可以假由于赤字的观察。同时,由于小样本大小,因此样本中的值太少只覆盖范围限制,可能低估方差和协方差的数据。

在本节中,我们提出两个程序旨在克服问题的小层通过增加观察每层的数量,同时适当的人口估计的协方差。这两种方法背后的理念是利用在每个层的事实 所有的观察都是分配同样的重量 这使得在每个地层参数重新采样。

的分布 遵循。我们的目标是近似的 通过理论为每个地层分布和它们的参数估计 在实践中,确定的多元分布特性是困难的和依赖的假设。例如,人们可能会假定正态分布特性, 然后将需要估计 对所有 ,这通常是由他们的经验吊坠。虽然我们专注于正态分布在我们的实证调查,我们提出以下方法,这样他们可以应用于任意分布的假设。

随机反概率采样过密。第一个方法建立在再保险——或者节中描述过采样技术3.1。1。然而,重复发生的连续观测特性伪造的协方差结构重构样本。因此,我们添加噪声数据集获得通过IP采样过密,因此调用我们的程序随机IP采样过密

当添加噪音,我们想保留重要的各自的地层分布特征。如上所述,分层样本包含的特性 。执行IP过采样后,重建功能 不遵循 了。我们的目标是调整 通过添加噪声方面 这样 大约是原来的分布 在某种意义上,它同意在期望和方差。在下面,我们推导出各自的分布

我们寻求两个条件: 对所有 表示的索引功能。因为(6)和自 ,我们获得 在附录中(附录一个,(B.3)),我们推导出调整噪声协方差矩阵 ,从而导致 例如,当假设多元正态分布 ,噪音词 将保留地层期望和协方差(因此在高斯情况下整个分布)。

为了使一个相应的校正方法更健壮,我们重复加噪声过程和平均模型安装在每一个重复。算法1显示的单一步骤随机IP过采样。

输入:观察到的样本 的大小 ,IP的重量
输出:无偏预测 为新的公正的数据
(1)执行IP采样过密,导致重构样本 的大小
(2)
(一)估计 的分布
(b)画噪声向量 的长度
(c)重建原始地层
结束
(一)结合地层样品:
(b)适合分类器
结束
(3)输出的学习者
(4)总平均预测新数据集:

参数反概率装袋。随机IP过采样由确定性复制以上的观察,后跟一个随机改变通过增加噪音。现在,我们提出一个完全参数化的方法我们称之为参数IP装袋。在IP装袋,我们画引导原始样本分层数据集。这一次,然而,我们使用参数代替非参数引导并设置引导样本大小 在随机IP采样过密,我们假设一个多元分布stratum-wise底层原始数据和估计参数。定义的程序算法2

输入:观察到的样本 的大小 ,IP的重量
输出:无偏预测 为新的公正的数据
(1)
(一)估计参数的分布
(b)绘制参数引导样本 的大小
(c)重建地层 ,,“ ”表示 倍连接
结束
(一)结合地层样品:
(b)适合分类器
结束
(2)输出的学习者
(3)总平均预测新数据集:
3.1.3。校正方法的属性

到目前为止,我们描述了七种处理样本选择偏差:没有校正,IP采样过密,IP装袋,成本,修改击杀,随机IP过采样和参数IP装袋。本节比较了他们的特点。总结了他们在左表的一部分1

(我)的重量。除了noncorrection方法,校正方法结合权重。就像前面提到的3.1。1有例样本选择偏差,偏差不影响分类器,以便修正权重不是必需的。然而,当我们将在本文两阶段病例对照研究,精心设计的修正是必要的上下文中的完整的偏见。

(2)纠正学习数据的协方差结构。样本选择偏差可能会导致偏见的协方差结构的数据。一些但不是全部校正方法纠正这种偏见:noncorrection方法显然使用带有偏见的协方差结构。另外,IP过采样不正确;观察的复制通常会导致低估了协方差(cf。B.2在附录中)。修改的击杀,由此产生的协方差结构取决于权重的大小 和功能的分离程度不同的集群。例如,一个大重量的地层 将导致大量的新生成的观察比原始的观测。相同的邻居将选择几次,这样无法保证足够的变异的新观察。这可能会导致类似的问题对于IP上面描述过采样。所有其他方法的目标是获得正确的协方差结构每层和整个重构样本。

(3)重构样本的大小。作为一个众所周知的事实在统计学习中,分类器的偏见增加当学习样本容量减少。IP装袋是基于重构样本大小相同 与原始分层数据集。成本更小样本大小和不同引导样品。尤其是小地层含有少量的观察这两个重构样本的方法。因此,一定的数据结构可能会失去学习(例如,适当的小层内差异可能不是给了)。IP采样过密,修改击杀,和我们自己的方法,随机IP过采样和参数IP装袋,另一方面,使用重构样本更大的尺寸 中定义的(3)。,我们打算在每个层足够数量的观察可能提高学习的分类器相比,使用较小的样本。在非参数IP采样过密,更大的样本量诱发大量的完全重复观测。再次,这偏见协方差结构。在我们的参数方法,随机IP过采样和参数IP装袋,这个缺点不发生。

3.2。分类器

在部分3.1。13.1。2,几个样本选择偏差的调整方法并提出。我们实现了所有方法以下分类:经典逻辑回归基于最大似然估计作为分类器作为参考自校正方法已经很成熟,基于树的随机森林的利益为我们的主要对象,和逻辑回归包括交互条款和朴素贝叶斯分类器作为进一步的算法进行比较。

如Zadrozny所述12),分类器的输出可以依赖 只或两 第一种分类器/定义不受特性偏差的影响,而第二种类型的影响。因此,必须考虑到完整的偏见,下两种类型不同。

逻辑回归。我们使用逻辑回归26)作为一种常见的经典二进制分类方法。该模型假设 伯努利分布与成功概率 在哪里 是未知参数代表的影响特征吗 对结果变量

我们研究该模型的两个变体:一次,所有功能只是线性输入模型。精致,功能是另外包括所有可能的双向交互项组合,不仅为了检测可能的交互作用也获得更复杂的决策边界。

随机森林。随机森林的各个决策树和装袋的修改27]。学习算法的基本过程如下:(1)引导样本是学习从给定的数据集。(2)决策树种植通过构建递归二分分裂给定的基于特征的数据。(3)在每个节点只有一个子集的特征是随机选择的。(4)重复步骤(1)(3)和所有树木都平均;类概率可以被估计的相对频率类感兴趣的一个终端节点。

的关键的一步是不同于常见的装袋(cf。部分3.1。1)(3)步。随机选择的特性decorrelates树木,使装袋过程更有效率。所有方法的部分3.1。13.1。2基于重采样后聚合,即IP装袋,成本核算,随机IP采样过密,参数IP装袋,我们把这些方法融入相应的随机森林。这意味着,而不是执行装袋内另一个装袋,我们把这两个程序。注意,IP过采样纳入随机森林装袋的方式方法。事实上,IP过采样是完全相同的方法作为IP装袋时使用的样本大小 而不是 因此,对于我们的实现方法随机森林,我们隐式地考虑两个版本的IP装袋。

朴素贝叶斯。朴素贝叶斯分类器是另一种常见的机器学习分类算法(见,例如,Hastie et al。28])。它假定之间的独立 为每个类特性和简单计算 可以达到的 边际分类器 通过估算feature-wise分类器 通过一维核密度估计。这意味着每个特性的影响 估计整个分类器单独和组合。

4所示。模拟研究

到目前为止,我们已经提出和发展合适的策略分类器下完整的偏见。在本节中,我们研究他们的表现当样本两阶段病例对照研究给出学习的数据集,但测试数据是无偏(即。,它是一个随机样本的人口)。我们这样做在一个模拟的研究。后陈述部分的设置4.1引入校正方法,我们比较表演(部分3.1)和分类器(部分3.2节),并报告结果4.2

4.1。设计

评估性能的修正方法对训练样本的两阶段病例对照研究和客观的验证数据集,我们需要三种数据集:第一,有偏见的学习数据集源于两阶段病例对照研究;第二,一个公正的大型参考学习进行比较的数据集(我们称这个数据人口;它在实践中不可用);第三,一个公正的测试数据集分布的人口。我们人为地模拟等数据集在下面描述。

我们开始通过生成大的人口数据集。为此,我们随机取样 特征向量组成的一个二进制变量 连续的其他特性 , 。曝光 是为了作为地层特性比例较低( )的暴露( )个人和大多数nonexposed ( )人。的 生成独立于其他特性 和彼此。我们研究了以下四个分布家庭:(我)正态分布: 对所有 (2)学生的t分布: 对所有 (3)泊松分布: 对所有 (iv)伯努利分布: 对所有

均匀分布参数来自以下设置 : , , , ,

也为了调查更现实的分布情况,我们另外生成和分析数据集和依赖特性和不同分布的特性。这些研究产生相似的结果如上设置和描述在本文的补充材料(网上https://doi.org/10.1155/2017/7847531)。

考虑到共 ,结果 是根据生成的逻辑回归模型: ,在那里 。我们选择了回归系数的影响 如下:暴露对结果有负面影响 。的影响 主要特点是随机变化的,即在间隔均匀 为了获得一个中间的性能分类器应用于一个独立的数据集。 选择这样 。通过这个设置,人口与一种罕见的接触, 罕见的情况下, ,是完全生成。

为了获得一个有偏见的分层抽样,我们模拟一个两阶段随机选择过程从人口(图1(一)),这样 。在第一步,随机用同等数量的观察 。在第二个步骤中,在每一个两层的第一步,同等数量的观察 被选中。通过这个,我们分区人口为四个同样大小的地层对应

测试数据集的大小 在完全相同的方式创建。对于我们的模拟研究,我们生成的人口数据集,分层数据集和测试集1000倍为每个特性分布的假设。这种方式,我们可以实证评估的性能调整的可变性和分类方法。

分类器的应用。我们应用七个校正方法(部分3.1)结合的四个分类器(部分3.2合成数据)。为此,随机IP过采样和参数IP装袋,我们提出的部分3.1。2),需要一个分布假设的主要特征 我们总是认为他们是正态分布,即使功能实际上遵循学生的t -,泊松、伯努利分布。我们的目标是找出算法假设没有得到满足时受到影响。

事实上,四个不同分布场景满足高斯假设递减顺序:正态分布非常满足。t分布仍持续的和对称的,这样的违反常态假设可能不太严重。泊松分布是离散但大致正常 ;然而,为了保证正常的假设违反,我们 。伯努利分布不能被看作是连续的,违背了正常的假设。

评估。我们测量的性能不同的分类器结合的各种校正方法Area-under-the-Receiver-Operating-Characteristic曲线(AUC) [29日]。AUC是合适的尤其是在样本选择偏差,因为它不需要二进制预测(即。,discretizing continuous risks by choosing a cut-off) and is unaffected by linear transformations of the predictions as only ranks are considered. Thus, differences in performance should not be influenced by good or bad calibration of the prediction.

比较的目的是校正方法是否执行明显好于不纠正。对于每一个分类器,我们适合AUC作为目标变量的线性回归模型和校正方法作为协变量。后者与“没有校正”变量是dummy-coded参考类别。的方法确定显著差异noncorrection如果系数的方法 以及置信区间不包含零。对于所有的比较,我们使用的意义

软件。我们使用的R统计软件分析(30.]。更具体地说,为构建逻辑回归模型,我们使用R包统计数据(30.),随机森林R包管理员(31日),朴素贝叶斯R包e1071(32]。修改后的攻击算法的实现是基于R包smotefamily(33]。我们通过ROC分析验证我们的结果,使用R包pROC(34),ROCR(35]。

4.2。结果

仿真研究取得了以下的结果(参见图3- - - - - -6):正如预期的那样,每一个分布情况(见以前的分段)分类器,学习在整个人口的性能明显优于学习没有修正小偏见学习数据集。同时,对于所有分类器和分布场景,至少有一名校正技术,优于noncorrection方法(有两个例外:逻辑回归和额外的交互条款和朴素贝叶斯、正态分布的主要特征)。

然而,有分类器之间的差异有关成功的校正方法。我们开始通过对比逻辑回归和随机森林的这种比较是我们的主要兴趣。

逻辑回归(图的总体结果3)是所有校正方法比noncorrection表现更好。例外是成本核算和修改打在正态分布情况下的平均执行比noncorrecting,但并不显著。t-distributed和泊松分布的特性,区别noncorrection和其他方法的性能比正态分布场景更加突出。在伯努利的情况下,这种差异是最高的。分布在每个场景中,修正彼此相似的方法执行。

随机森林的图片(图,而不同4):只有一个校正方法执行明显比noncorrecting:本文提出的参数IP装袋。事实上,对于通常和t-distributed特性,其他所有校正方法执行比noncorrecting更糟糕。在泊松的场景中,他们同样执行比noncorrection或好(IP装袋和成本)。只有在不断的场景,在该场景中,假设主要特点(我们)提出的方法所需的(即不满足。伯努利分布)做几乎所有的校正方法执行比不纠正。一个例外是我们提出的随机IP过采样。这种方法没有在所有随机森林的分布情况。

1总结了校正方法(部分的属性3.1。3)一起刚刚描述的结果。我们标签性能的一个方法是足够的,如果它导致显著增加AUC noncorrection方法相比的正态分布情况。成本核算和修改打不产生明确的改善逻辑回归,因为他们的置信区间略有重叠值在零假设下。然而,正如我们将看到的部分5,这两种方法执行明显好于noncorrection真实数据。

为了获得一个更全面的图片的好处校正样本选择偏差,我们应用结合两个分类器的校正方法,逻辑回归和额外的双向交互项除了线性项和朴素贝叶斯,导致以下结果。

逻辑回归与交互条款产生一个类似的图片作为标准逻辑回归(图5):所有校正方法执行类似于对方。t -和伯努利方程的情况下,再一次所有校正方法优于noncorrection方法,除了t-distributed特性的成本,执行类似于noncorrecting。正常和泊松分布,所有校正方法执行明显比不纠正。一个异常参数IP装袋:类似于随机森林的情况下,只有这个方法执行明显比没有修正为泊松分布场景。正态分布的方法是唯一一个不执行明显比noncorrecting方法。

朴素贝叶斯(图6),再次校正方法同样表现在逻辑回归。根据数据分布的不同,执行糟糕或比noncorrection校正方法。特别是在正态分布的情况下,校正方法都不成功。

5。实际数据的应用程序

本节探讨校正方法的性能在实际数据的例子。在合成数据以外的情况在上一节中,我们不知道整个人口的真实分布。为了仍然能够适当评估预测,我们选择了一个非常大的真实数据集,我们可以从中提取一组小分层学习和一个大公正的测试集如下列所述。

5.1。设计

数据。我们评估了各种预测方法的例子肝炎数据集(数据ID: 269年,确切的名字:“BNG(肝炎),“版本:1)从OpenML36]。它包含 观察一个二进制的结果 和20的特性。 捕获一个肝炎病人是否仍活着,因此需要的类别生活。我们选择了二进制变量作为地层特性 从剩下的变量,我们考虑了四个连续的特性白蛋白,碱性磷酸酶,凝血酶原时间,年龄,用 这些特性是近似正态分布(转换后部分;看到quantile-quantile阴谋在图7),与结果密切相关。

分层的过程。我们旨在评估预测方法对数据集进行了样本选择偏差。我们因此建立一个学习的数据集上执行两阶段分层随机选择过程肝炎数据集。为此,我们选择 出了 观察,丰富的结果 特征变量,用 8显示了四层的大小类比图1 (b)。作为测试数据集,我们选择10000观察肝炎数据集的一个子集,独立学习数据。我们首先定义了 观察(没有测试数据)的人口作为参考前面章节中学习的数据集。

5.2。结果

我们训练有素的偏见上的所有方法学习数据和评估他们的公正的测试数据。由此产生的auc七成对比较的假设测试根据(37]。我们纠正了通过Bonferroni调整(即多个测试。,设置的门槛 )。

真正的数据仿真研究的结果证实这项发现。逻辑回归,所有加权方法执行非常相似,明显优于nonweighting方法,甚至在人口众多(图与学习9(一个))。

随机森林,我们获得类似的结果在模拟研究(图9 (b)):只有参数IP装袋表现明显优于nonweighting方法。成本核算和IP装袋执行无关紧要的更好;IP采样过密,修改击杀,和随机IP过采样执行明显恶化。

也与交互条款和朴素贝叶斯、逻辑回归得到的结果匹配与仿真研究:满足正常的假设只有大致的真实数据,在这种情况下,校正方法都执行同样的和比没有校正(图9 (d))。

6。讨论和结论

我们如何学习分类器在分层随机抽样调查结果从两阶段病例对照研究。在这里,我们重点是随机森林分类由于先前的偏差校正方法没有特别注意resampling-based分类器。然而,我们广泛的分类技术进行了研究。这项工作因此导游这样的方法也为其他分类器的选择。适用的方法是立即将R包中提供的实现荷德

我们的仿真研究和实际数据应用表明,对偏置数据集分类器训练在无偏预测数据集可以改进的分层过程是否考虑和修正。然而,最先进的校正方法从经典统计(IP采样过密,IP装袋,成本,和修改打)不产生所需的改进随机森林。事实上,他们甚至可以导致更糟糕的AUC值比不执行任何校正时获得的。从我们提出两个方法(随机IP过采样和参数IP装袋),另一方面,后者总是能超越noncorrection方法。

我们也感兴趣的所有修正方法的成功的上下文中使用逻辑回归的时候。原来任何方法提高预测在一个独立的数据集相比没有校正,以及所有执行同样的校正技术。

1有助于解释这两个分类器的不同的行为:校正方法是基于一个或多个的原则(i) IP权重,(2)重建原来的协方差结构,(3)增加学习观察的数量相比,分层抽样。显然,权重(财产(i))应该应用为了获得任何改善性能。此外,协方差结构应当予以纠正(属性(ii))当应用随机森林。IP过采样和部分修改打未能实现这一标准。逻辑回归,相比之下,协方差结构并不重要因为点估计回归系数不受影响,当方差数据被低估了。最后,样本大小(财产(iii)似乎更重要比逻辑回归随机森林。这是合理的因为太小样本大小可以限制一个特性的值的范围,从而低估他们的差异导致同样的问题至于财产(ii)。这使得IP装袋和成本的随机森林表现不佳。这让我们具有随机IP过采样和参数IP装袋,都提出了。然而,尽管随机IP过采样是为了满足属性(我),(2),(3),我们无法为随机森林产生成功的结果。

在随机森林和校正方法相比在逻辑回归,可以得出这样的结论:参数的选择IP装袋时建议分布假设的这种方法。为了再次修改这个结论,我们调查了所有校正方法的行为在两个分类器,逻辑回归模型和附加条款和朴素贝叶斯分类器的交互。逻辑回归模型与交互方面,再一次只有参数IP装袋一贯优于noncorrection方法。朴素贝叶斯、彼此之间的所有方法同样执行,确认上面提到的规则。

失败对我们的期望,朴素贝叶斯正态分布场景的模拟研究,但所有其他发行版做得很好。通常一个意想不到的结果是随机的穷人成就IP过采样。它表现比noncorrection几个场景和成功只有在这种情况下,所有其他的校正方法是成功的。

随机森林参数IP装袋预测是一种有效的方法在一个公正的数据集,也可以为其他分类器首选。然而,在这篇文章中,我们限制我们的模拟和实际数据的例子的情况主要特点大致可以认为是正态分布(转换后,如果有必要的话),这样多元正态分布的假设是合适的。参数通常IP装袋的成功取决于会议的假设的分布特性。因此,该方法应小心选择。另一方面,我们的模拟显示,即使在场景假设仅仅满足(例如,对泊松分布的特性),该方法仍能工作。显然,一个家庭也可以调整分布参数的参数引导IP装袋。甚至混合分布的双峰分布特征(例如,)。

到目前为止,参数IP装袋没有专为二进制或分类主要功能或不同类型的组合。这可以通过子群相应的类别(或结合类别的几个分类特性)和估计参数在每个子组的假定分布家庭类似地我们在不同的地层。再次,将参数引导所有子组内样本,构造一个新的无偏样本参数范围内的IP装袋。

即使我们的新方法是随机森林,他们通常是专门针对学习的分类器,可以纳入其他机器学习算法。参数IP装袋可以表现良好,即使不符合理论假设。它可以应用于任何分层随机抽样,并不局限于两阶段病例对照研究。更一般的,它适合任何样本遭受样本选择偏差的地层特性分类和剩余的功能大致遵循多元分布参数引导样本可以画。一般分类器,其性能主要与其他的校正方法。参数IP装袋是第一校正方法为随机森林,在这种情况下明显优于其他方法。

附录

a的依赖关系 在X和 标签和功能的偏见

标签偏见并不意味着 是独立于 ;也就是说,

证明。 ,在那里 是一个函数映射 然后,

类似地,一个人可以偏见并不意味着显示功能 是独立于

b .噪声的协方差矩阵随机IP过采样

在这里,我们得到一个适当的噪声协方差矩阵被添加到功能 造成IP过采样。

一层 ,我们看的协方差的特性 , 。样本大小 ,我们得到了每层每一对样本协方差 , ,给出的 在哪里 对于任何

对于IP采样过密,我们复制数据点的因素 ,每层各不相同。因此,修改后的样本的协方差 除了简单的IP采样过密,随机IP采样过密了一些噪音的总和(矩阵) 我们希望以下保持两个随机向量 , 的大小 : 在哪里 , 复制所带来的随机变量的一个因素 (过采样)。

我们可以简化 由于噪声组件 不应与特性随机向量 (既不 ,职责)。这也适用于

我们可以估计协方差矩阵的组件 通过 。替换成(B.3)收益率的条目噪声协方差矩阵,

随机变量而言,经验协方差矩阵结合所有条目 对所有 将会被 和经验协方差矩阵结合所有条目 对所有 通过

附加分

补充材料。额外的数据,代码和数据是可用的https://www.helmholtz-muenchen.de/index.php?id=47085

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

克丽丝汀Fuchs书和费边j .支持由德国研究基金会(DFG)合作研究中心1243年第A17子项目。

补充材料

额外的文件包含结果模拟和预测变量设置不同分布的家庭。

  1. 补充材料