文摘
回归模型引入接受者操作特性(中华民国)分析适应协变量的影响,如基因。如果有许多协变量,变量选择问题。传统的诱导方法单独模型的结果病变和nondiseased团体;因此,单独应用变量选择两个模型在解释会带来障碍,由于不同的选择模型。此外,在中华民国回归,曲线下面积(AUC)的准确性应重点而不是针对模型选择的一致性或良好的预测性能。在本文中,我们获得一个目标函数与集团竹荚鱼选择分组变量,适应流行的模型选择标准,提出一个两阶段框架应用集中信息准则(FIC)。提出的设计方法的一些渐近性质。仿真研究表明,该分组变量选择优于单独的模型选择。此外,膜集成电路提高了估计的准确性AUC相比其他标准。
1。介绍
在现代医学诊断或基因研究,接受者操作特性曲线(ROC)是一个流行的工具来评估的歧视表现一定的生物标志物在疾病状态或表型。例如,在一个连续量表测试,疾病的诊断取决于测试结果是否高于或低于指定的截断值。同时,全基因组关联研究在人类的目标创建基因组资料,结合许多相关的遗传变异的影响来预测疾病风险的一个新的主题与歧视精度高(1]。对于一个给定的截断值生物标志物或生物标记的组合,敏感性和特异性是用来定量评价区别的性能。通过改变截止值在整个实线,结果灵敏度阴谋反对1-specificity ROC曲线。ROC曲线下的面积(AUC)是一个重要的一个数字摘要指数整体区别的ROC曲线的准确性,通过所有截止值的影响考虑在内。让病变主体的反应,让nondiseased主题的反应;然后,AUC可以表示为(2]。佩佩(3和周et al。4)提供了广泛的评论在许多统计方法评价的诊断测试。
传统的ROC分析不考虑研究对象的特征或操作条件的影响的测试,所以测试结果可能受到影响的影响分布的测试测量病变和/或nondiseased科目。此外,虽然基因的数量是巨大的,他们可能只是一小部分与疾病风险或表型有关。因此,回归模型引入到ROC分析。第六章在佩佩3)提供了一个精彩的介绍的协变量调整ROC曲线。综述了在Rodriguez-Alvarez et al。5),有两种主要方法的回归分析民国:(1)“诱导”的方法,首先模型的结果分别患病和nondiseased科目,然后使用这些结果诱导ROC和AUC,(2)“直接”方法,直接模型AUC协变量在所有。在本文中,我们集中在诱导方法,目前的模型选择技术可以延长。
如果有许多协变量,变量选择问题的解释和estimability考虑模型。有两个主要的变量选择过程。一个是best-subset选择相关标准,如交叉验证(简历,6]),广义交叉验证(GCV [7另类投资会议[]),8],BIC (9]。另一种是基于正则化方法如套索(10,竹荚鱼11),和自适应套索(12),调优参数选择同样的标准简历和BIC等。程序在第二组最近成为流行,因为他们是稳定的13和适用于高维数据14]。
到目前为止,没有太多的注意力已经被吸引在中华民国回归变量选择的主题。两种可能的原因也许可以解释这种情况。首先,如果我们的模型结果病变和nondiseased科目分别选定的子可能是不同的。的差异将导致难以解释,因为它是自然期待相同的一组变量有助于辨别病变和nondiseased科目。其次,目前大多数标准变量选择过程关注预测性能或变量选择的一致性。然而,在中华民国回归,而不是预测模型选择,估计的精度AUC是我们关注的焦点,这意味着最受欢迎的标准可能不合适。Claeskens和Hjort15)认为,这些“一个万能”模型选择标准瞄准选择单个模型具有良好的整体性能。或者,他们开发了集中信息准则(FIC),其重点是一个参数指出利益。这一标准背后的洞察力是出好一个模型精度的一个estimand可能用于推断另一个estimand时更糟。小王和方16)成功地应用膜集成电路在线性模型变量的选择,证明了FIC完全将参数的估计性能的改善。这种“个性化”标准完全符合中华民国回归。
本文的其余部分组织如下。节2,我们改写中华民国回归到一个分组变量选择形式,这样可以应用当前的标准。然后,一般两级框架和BIC选择器组竹荚鱼在本地模式下的假设提出了部分3。仿真研究和实际数据分析部分4和5。提供了一个简短的讨论部分6。所有的证明都提出了补充;见补充材料网上http://dx.doi.org/10.1155/2013/436493。
2。中华民国回归
在本节中,我们改写处罚ROC回归与诱导方法竹荚鱼的分组变量选择的问题。最初,我们要求所有反是被集中在0可比性的考虑。也为符号,简单,响应变量为中心。如果没有,我们可以中心反应完成选型,然后添加中心评估AUC。遵循当地的符号模型,给出常用的稀疏的假设,同方差的回归模型对病变和nondiseased科目假设如下: 在哪里包括变量总是补充说,包括变量可能是也可能不是补充说,,和是维的向量,和是维的向量,和为患病的样本大小和nondiseased组,分别和是维的向量,和独立跟进。特别是,如果稀疏模型。然后,AUC可以写成 在哪里是标准正态分布的累积分布函数。显然,狭窄的模型,包括所有常数影响和。更多细节局部模型的假设提供了以下部分。
假设观察我。样品的d,,,。而不是选择单独的模型,我们考虑下面的单目标函数与一群点球,调优参数: 在哪里一个二维向量,th组件的和th组件的,与。更一般的,而不是标准,我们可以定义用一个正定矩阵。然后,考虑到的最小值(3)可以获得的估计。考虑这样一个点球的动机联合,而不是单独的包含或排除某些变量的影响应该同时患病和nondiseased组。它可能不是适当的包括或在模型中,将问题解释的模型。这正是集团套索方法元的动机和林17)来处理分类变量,和王集团竹荚鱼等。18解决花键基地)。
请注意,有两个独立的残余和广场(3)。为了遵守的框架选择分组变量,修改后的版本的目标函数(3)是必需的。让克罗内克积算子。定义,,,,。在矩阵形式,我们有 在哪里是一个维向量与组件,,是一个维矩阵。很明显,有分组变量和可以分为余子式,每一个都包含两个连续的列反过来。同样的,与,。此外,由于不同方差的健康和患病的主题,应该应用加权最小二乘法。让是一个对角矩阵,每个对角条目 然后,目标函数(3)是写成
此外,为了方便计算与当前R包,我们会通过加权定义转换的观察。简单,把和。因此, 最后,惩罚民国回归(3)已经被写进一群SCAD-type问题(7)。然后,当前模型选择标准,如简历,GCV, AIC和BIC,可以应用于选择最后一个模型。对于这个特定的ROC回归问题,AUC是重点,这些标准可能不合适。因此,所提出的Claeskens和Hjort15),膜集成电路可以在这里发挥作用。
在本地模式的假设,应用膜集成电路的小说过程分组变量选择是发达,由王动机和方16]。简要来说,过程由两个步骤组成。首先,一个狭窄的模型,确定添加总是包含变量,通过目标函数(7)。其次,应用膜集成电路选择剩余变量的子群。因此,最终的模型变量选择的组合在两个步骤。以下部分提供了细节。膜集成电路而言,自然,集中在一个给定的参数是AUC;也就是说,与。
之后,在模拟研究中,单独的变量选择病变和nondiseased模型也将用来做个比较。我们预计,该集团选择优于单独的选择。
3所示。BIC选择器组竹荚鱼在本地模式下的假设
本节是两个基本的论文中使用的符号的膜集成电路:Hjort和Claeskens19]和Claeskens Hjort [15]。此外,我们允许分组变量,每一个都代表一个因素,比如一系列的虚变量编码的多级分类变量。FIC的开始的假设是,一些变量添加到回归模型总是和其他人可能会或可能不会被添加;也就是说, 在哪里包括添加变量,包括变量可能会或可能不会被添加,。不失一般性,两者兼而有之和是标准化的截距项。此外,我们假设实际上包含因素,也就是说,和相应的,维为每一个和,,这样。同样的,由因素,也就是说,和相应的,维为每一个和,,这样。让,维度,每个有维度,,这样和。让,,,。为简单起见,假定剩余方差估计基于完整的模型,而不是作为一个参数。
在文献中变量的选择,为了显示选择一个变量选择过程的一致性,通常情况下,真正的模型被认为是稀疏的。因此,稀疏的假设中扮演着一个关键的角色在当前模型选择文学。很多程序都是选择一致的稀疏的假设下(20.]。例如,许多通过BIC与调优参数选择已被证明是由王选择一致的et al。21,22张,et al。23]。
然而,它是可疑的或太严格的假设真正的模型是稀疏的。更合理和灵活考虑当地的模型(8),和作为一个真正的模型,在哪里为目的的变量选择,下膜集成电路的发展。这个模型是接近稀疏的模型,但它不同于它。稀疏的假设,符号,相当于假设和。因此,这里使用的局部模型的假设是一个稀疏的自然延伸的假设。所有“一致性”结果本文仍然适用于稀疏模型与分组变量。
膜集成电路中心一定estimand或推理的焦点,用。众所周知,使用一个更大的模型通常意味着更小的偏差但更大的方差。因此,FIC试图平衡的偏差和方差估计estimand一定参数。具体而言,像什么任何现有的标准,在一系列可能的模型中,FIC始于一个狭窄的模型,包括唯一的变量包括一些和搜索的子因素。整个过程会导致完全子,每个子集的一个。
在这个框架中,焦点的不同估计参数范围来。一般来说,膜集成电路试图选择一个子集与最小均方误差(MSE),在那里的补充和下标意味着相应的向量索引的一个子集。
3.1。阶段1:狭窄的模型的一致选择
一旦假设真正的模型(8),和以及分组变量,这里就出现了第一个重要的问题对于我们是否可以选择狭窄模型保持一致。类似的问题已经被王解决和方16),他们认为nongrouped变量。在下面,我们表明,该集团与调优参数选择竹荚鱼通过BIC始终可以选择狭窄模型。
王等人。18提出的延长了许多,风扇和李11),后分组变量和建立了甲骨文公司财产,一群优雅的套索(17]。竹荚鱼组生成通过以下惩罚最小二乘估计: 在哪里与维空间,在前一节中定义。让对于一个给定的被选中的狭窄模型。具有相似参数在前面的小节中,规范中使用的处罚可以被任何度量形式所取代这样是一个对称的正定矩阵。
地方模型假设没有分组变量,小王和方16)显示,调优参数选择通过BIC、竹荚鱼选择一致;与概率趋于1,狭窄的模型可以被识别。同样,BIC选择器根据集团竹荚鱼可以定义如下: 在哪里和。我们预计,竹荚鱼仍选择一致的作为,前提是是狭窄的模型。
正式的框架内FIC,假设当地的模型(8),是真正的模型狭窄的模型中,我们显示下面的定理。可以找到证据的补充。
定理1。一些温和的条件下(详见补充)人 只要模型(8),和是真正的模型。
备注2。如果我们假设,也就是说,模型是稀疏的,那么定理1提供了一个BIC选择器的调优参数组竹荚鱼,可以持续识别非零的影响。换句话说,我们扩展的BIC选择竹荚鱼王等人提出的。21与集团竹荚鱼的情况。
定理1也意味着BIC的优点和缺点,这已经被王讨论和方16]。简要来说,BIC牺牲一致性预测(24)的过滤所有的变量的影响大小实现模型选择的一致性。前面的定理提供了一种数据驱动的方法总是指定一个狭窄模型,应用膜集成电路之前这是至关重要的。在以下小节中,我们提出一个两阶段的框架应用膜集成电路通过BIC基于一个狭窄的模型选择,为了恢复BIC的变量筛选的一部分。
3.2。阶段2:膜集成电路
在第一阶段,一个狭窄的模型,已被确定通过集团通过BIC竹荚鱼与调优参数选择。在阶段2中,任何的子集可以添加到。直接应用FIC Claeskens和Hjort提出的(15)不合理的甚至适度的规模,因为有的子集。此外,best-subset选择是不稳定的13]。因此,类似于王,方16),没有双最小化通过子集和Claeskens提出的调优参数(25),我们建议限制这些子集的搜索域从任何团体正规化的解决路径组套索或组竹荚鱼等过程。
与选定的狭窄模型,让,,,。然后,解决路径从以下集团套索生成过程(或组竹荚鱼): 在调优参数控制分组变量包含在子集。作为优化参数从一些大的值为0,增加从空设置为“全部”。然后,我们利用FIC指导的选择在(12)产生的的年代,这包括一个搜索领域。
现在,第二阶段膜集成电路的一个焦点总结如下。对于一个给定的,一个子集是由非零因素的指标(12)。然后,根据子模型,评估根据Claeskens和Hjort[开发的一个公式15公式(3.3)],本质上是一个参数估计的均方误差在一个模型。因此,是选为 最后选择子模型。
4所示。模拟
模拟数据生成模型(下10作为拦截。温和的样本大小设置和,而8和20作为协变量的数量。在以下三种情况的参数被认为是:(1) ,,,,,,,,,,,;(2) ,,,,,,,,,,,;(3) ,,,,。很明显,前两个设置的狭窄模型,而第三个,没有明确指定边界之间的效果和大小的影响。
对应于每一个设置,测试数据集,,选择生成AUC约0.6,0.8,和0.95适应低收入,中等,分别和高精度情况下。考虑以下:(1) ,;,;,;(2) ,;,;,;(3) ,;,;,。
除了提出两级框架(FIC),竹荚鱼,出于比较目的,四个受欢迎的变量选择标准,包括5倍的简历,GCV, AIC和BIC,也使用。此外,竹荚鱼点球分别应用于患病和健康组织的获得应用竹荚鱼。
两个流行的测量,和平均绝对误差(MAE)定义的,是用来评价选择模型的预测性能根据不同的标准,是一个估计的根据最终的模型选择一定的选择标准。由于有限的AUC和倾斜分布范围的估计AUC特别是在边界,美应该是更合适的。
在这篇文章中,一个复合测量,测量,是用来评估的性能选择各种方法之间的狭窄的模型,包括常用的比例选择underfitting正确,分别和过度拟合模型。Lim和Yu指出的26),高测量意味着两个假阳性和假阴性率很低。定义精度= true积极性,回忆= true,然后发现,。所有的结果总结了基于500重复模拟设置表1,2,3。
表1表明BIC具有最佳性能识别狭窄模型,与他人相比。另外,如果有更多的弱信号,如设置2,设置的性能不如1。这是合理的,因为有越来越多的变量由于样本容量,它是更具挑战性的过滤弱信号,即使在稀疏的假设。从表2,我们可以看到,在所有三个设置,这五个方法表现良好。专门为中等和大,AUC情况下,膜集成电路性能略好,提供更小的美。此外,在这些情况下,美国联邦贸易委员会(FIC)大幅提高BIC再次表明BIC将弱信号进行过滤。
为了显示我们如何受益于应用分组变量选择、患病和健康受试者单独的模型选择也考虑,并总结在表结果3。通过比较表2和3,在大多数情况下,为每个标准处罚提供较小的MSE和梅。由于有限的AUC, MSE和梅值表2和3虽小,但是群体选择可以提高独立选择的高达25%。这不是令人惊讶的发现,在高AUC情况下,差异很小,和单独的选择BIC更好。可能的原因如下:(1)没有太多空间估计AUC改变接近1时;(2)独立选择和BIC获得稀疏模型提供更大的灵活性。
5。实际数据分析
在本节中,我们将演示该过程的听力学干草等报道的数据。27),分析了佩佩(3,28]。变形产品的数据集包含结果耳排放(DPOAE)测试用于诊断听力障碍。有208个受试者进行不同组合的三个频率()和三个强度(DPOAE的设备。一个听力阈值为每个组合可以获得。在一个特定的频率,如果听力阈值大于20 dB霍奇金淋巴瘤,一只耳朵被归类为听力受损。在原始数据集,有多个记录为每个主题。在这项研究中,我们为每个主题,随机选择一条记录,在208名调查对象有55个科目听力障碍。测试结果是消极的信噪比,−信噪比。多德所使用的协变量和佩佩29日)=赫兹频率/ 100,= 10 dB /强度=(听阈−20)dB / 10。为了鼓励模型选择,我们将双向互动的条件。二次条件不包括由于高每个变量之间的相关性及其二次项。因此,是为中心为每个元素。
前研究这个数据集显示−提供相当高的信噪比,歧视的表现有一个小的效果。为了避免指定不合适,我们随机选择三个集中观察从整个数据集作为重点对象。
表4显示了每个方法AUC值模型的选择以及相应的模型尺寸。简历、AIC, GCV倾向于选择一个完整的模型。相反,BIC倾向于选择一个稀疏的模型,只包含。完整的模型可能无法提供最大的AUC,因为一个大的模型会带来不稳定和毁了AUC。表中可以看出,对于第二个测试点,AUC BIC和膜集成电路提供高于完整的模型。但是单个变量选择的BIC似乎过于严格。通过关注重点参数估计的精度,膜集成电路提供了一个定制的方式来填补这一缺口:第一测试点选择三个主要影响;第二个,和选择;第三个,只被选中。根据估计的精度AUC, FIC执行作为妥协,选择模型来生成AUC值在中间。
6。讨论
在这篇文章中,我们改写中华民国的模型选择问题回归到一个分组因素选择形式与诱导方法。同时,我们建立一个两阶段框架应用膜集成电路选择最后一个模型与当地组织下竹荚鱼模型假设。具体地说,如果真正的模型是稀疏的,我们的框架自然适应当前模型选择标准。此外,BIC选择器是模型选择一致如果稀疏或本地模型认为,在选择一个稀疏模型或狭窄模型。
最新的模型选择标准旨在预测性能或模型选择的一致性;因此,在中华民国AUC是一个集中参数回归,他们可能不合适。这个观察激励膜集成电路的应用程序,通过模拟研究来执行所示好。因此,我们的方法具有潜在的应用在基因研究中,基因阵列的数量总是大,相比之下,样本的大小。
直接的方法,基于广义估计方程的文学繁荣,这是出于范围的AUC,类似于一个二进制随机变量的概率。我们未来的工作将这里开发的框架扩展到广义估计方程应用到中华民国回归与直接的方法。
正如一个裁判所讨论的,有可能是一些系数都是一样的和。在(1),分别建模将增加的自由度(3),特别是当协变量的大量基因。如果收缩系数,这是已知的先验是相同的患病和健康组,不是必要的,那么它是膜集成电路包括自然在狭窄的模型与一个系数。通过使用该目标函数,一种融合套索的处罚可能适用于获得这样的结构,除了集团套索/竹荚鱼。弗里德曼et al。30.]提供了一个在集团套索和稀疏集团套索,从而阐明这个问题。它也将是一个有趣的话题。
利益冲突
没有关于这篇文章的出版利益冲突。
确认
作者要感谢鑫方博士为他的宝贵的建议和慷慨的支持使本文发表。他们也谢谢主编,副主编,裁判对他们有价值的评论导致实质性的改进。
补充材料
在补充,我们证明了定理1通过建立4关键的前题。这个定理表明发达BIC选择器可以持续识别狭窄的模型与分组变量。