研究文章|开放访问
Prithish Banerjee,Broti Garai,Himel Mallick,Sharabanti Chowdhury,Saptarshi Chatterjee, "关于零充气泊松回归的自适应套索的注意事项",概率与统计杂志, 卷。2018, 文章的ID2834183, 9 页面, 2018. https://doi.org/10.1155/2018/2834183
关于零充气泊松回归的自适应套索的注意事项
抽象的
我们考虑了用零膨胀泊松(ZIP)回归建模有多余零的计数数据的问题。近年来,针对ZIP模型中的变量选择问题,发展了各种正则化方法。其中,电磁套索法是一种常用的变量选择和参数估计方法。然而,EM LASSO存在估计低效和选择不一致的问题。为了解决这些问题,我们提出了一套EM自适应LASSO方法,使用各种数据自适应权值。我们从理论上证明了新方法能够一致地识别真实的模型,并且产生的估计器可以像oracle一样有效。通过广泛的综合实验进一步评估了这些方法,并将其应用于德国的医疗保健需求数据集。
1.介绍
现代研究通常收集大量结果的信息,包括含有过多零的计数测量。对这种零通胀计数结果建模具有挑战性,原因有几个。首先,传统的计数模型,如泊松和负二项是次优的,在解释由于零通货膨胀的过剩可变性[1,2].二,替代零充气模型,如Zero-我nflatedPoisson (ZIP) [2] 和Zero-我nflatedN它的Binomial (ZINB) [1模型是计算上禁止存在高维和共线变量。
已提出正规化方法作为减轻这些问题的强大框架,这往往表现出与传统方法的显着优势[3.,4].基本上所有这些方法通过合适的惩罚功能来强制稀疏性,并通过计算有效的期望最大化(EM)算法来识别预测特征。其中,EM套索是特别有吸引力,因为其能够进行同时模型选择和稳定效果估计。然而,最近的研究表明,EM套索可能没有完全有效,其模型选择结果可能不一致[5,6].这导致了套索惩罚的简单修改,即EM Adaptive Lasso(EM A1)。EM A1通过允许不同的回归系数的不同收缩来实现“Oracle选择一致性”。
然而,以前的研究尚未在足够的深度上调查EM AL,以评估其在多元化和现实情景下的性质。例如,尚不清楚的是,所得参数估计在存在多元性的情况下有多可靠。特别地,EM A1的实际变量选择性能取决于数据自适应权重向量的适当构造。当要关联的特征具有固有的共线性时,EM A1预计会产生次优效果,当样本大小有限时特别明显的现象[7].线性和广义线性模型(GLMs)提出了一些补救措施,如标准误差调整自适应LASSO (SEAL) [7,8].然而,关于零膨胀计数回归模型还缺乏类似的已发表的方法。此外,社区还没有提供这些方法的完整软件包。
我们通过提供一组灵活的变量选择方法来有效地识别ZIP回归框架中与零膨胀计数结果相关的特性来解决这些问题。我们将此方法实现为amazon (一个米UlticollInearity调整一个渴望套索Zero-inflated CounT regressio.n).Amazonn考虑两个数据自适应权重:(i)最大似然(ML)估计(EM A1)和(II)的逆逆除了它们的标准误差(EM密封)。我们从理论上显示了Amazonn能够始终如一地识别真实模型,并且结果估计器与Oracle一样高效。数值研究证实了我们的理论发现。本文的其余部分组织如下。Amazonn方法在下一节中提出,其理论属性在一节中建立3..模拟结果见章节4并在一节中分析一个实时数据集5.然后,本文在第一部分进行了简短的讨论6.所有技术细节都在附录中介绍。
2.方法
2.1。零充气泊松(ZIP)模型
零充气计数模型假设观察结果源自“易感”群体,其根据计数分布或从“非批读”群体产生零和正计数,从而产生额外的零[1,2].因此,计数为正的受试者被认为属于“易感”人群,计数为零的个体可能属于这两个潜在人群中的任何一个。我们将响应变量的观测值表示为 .达尔伯特[2, ZIP混合分布可以写成 在哪里是属于无创群体的概率和泊松均值是否对应于易感人群个人( ).从(1)ZIP缩小到标准泊松模型 .还, ,表示零通胀。属于“非易感”人群的概率, ,泊松均值, ,通过logit和log链接到解释变量是 在哪里和是协调因素的矢量对象( )分别对应计数和零模型,和 和 是相应的回归系数,包括截距。
为独立观测值,ZIP对数似然函数可写为
2.2。Amazonn方法
Amazonn考虑了EM自适应套索框架中的两个数据自适应权重:(i)最大似然(M1)估计(EM A1)和(II)逆率的反比解率除以其标准误差(EM密封)。由Tang等人定义。[6] ZIP回归的EM自适应套索配方由 在哪里 是具有已知权重的感兴趣的参数矢量 和 .正如钱和杨所指出的那样[7],作为权重的最大似然(ML)的逆估计可能并不总是稳定的,特别是当考虑设计矩阵的多重共线性时。为了调整这种不稳定性,亚马逊另外考虑的逆ML估计除以他们的标准误差作为权重。我们将这两种方法分别称为amazon - EM AL和amazon - EM SEAL(表1).
|
||||||||||||||||||
2.3。EM算法
为了有效估计上述优化问题中的参数(5),我们求助于EM算法。为此,我们定义了一组潜在变量如下: 我们考虑潜在变量作为“缺少数据”并重写完整数据日志似然函数(4) 如下: 通过上述配方,目标函数(5)可以重写为 这可以迭代地解决如下:(1)在迭代t,e步骤计算的期望通过代替通过其有条件的期望给出了观察到的数据和当前参数估计 (2)在里面M步,预期惩罚的完整数据日志可能性(5)可以最小化关于作为 (3)继续这个过程直到收敛, .
应该指出的是(10.)可以进一步分解为 在哪里是重量罚款的泊松日志 - 可能定义为 和是惩罚的逻辑日志 - 可能定义为 两者都可以使用为GLMs开发的计算效率高的坐标下降算法分别最小化[9].
2.4。调整参数的选择
我们根据最小BIC选择调优参数[10.据称,与其他信息标准相比,已知标准提供更好的可变选择性能[11.].通过使用零充气计数模型的现有实现,可以毫不费力地纳入我们的配方中[3.,4,6].
3. Oracle属性
最近,Tang等人。[6]显示EM Adaptive Lasso(即,Amazonn-EM AL)享有所谓的Oracle属性,即,估算器能够始终如一地识别真实模型,并且所产生的估计器与甲骨文.本文将这些结果推广到amazon - EM SEAL估计,并证明amazon - EM SEAL估计也保持了相同的理论性质。为了完整起见,我们提供了两种amazonestimator的综合一般证明。
在没有数学上过于严谨,回顾说,ZIP回归模型的日志似然函数由 在哪里是观察到的数据(I.I.D从ZIP分布中的观察), 是Poisson分布与参数的概率质量功能 和 , .相应的惩罚日志可能是给出的 让我们表示真正的系数矢量 .分解 并假设包含所有零系数。让我们把真非零系数的子集表示为 所选非零系数的子集为 .通过这种制定,可以写入Fisher信息矩阵 在哪里为真实非零子模型对应的Fisher信息。amazon的oracle属性可以在一定的温和的规律性条件下发展,如下:(A1):费雪信息矩阵所有值都是有限和积极的 .(A2):存在功能这样 在哪里 对所有人 .
定理1。在(A1)和(A2)项下,如果 , , , ,然后,Amazonn估计器遵循以下Oracle属性:(1)变量选择的一致性: ,和(2)非零系数的渐近常态: .
4.模拟研究
在本节中,我们进行仿真研究以评估Amazonn的有限样本性能。为了比较目的,评估Amazonn和EM套索的性能。对于每个模拟数据集,所关联的调谐参数由所考虑的所有方法的最小BIC标准选择。本节中报告的所有例子都是从公布的论文获得的,目前研究范围内的略微修改[11.,12.].
特别考虑了三种情况:在仿真数据生成模型中1和2,我们考虑所有连续的预测因子,而在仿真中3.,连续变量和分类变量都包括在内。对于每个实验实例,我们将数据随机划分为训练集和测试集:在训练集上拟合模型,并在测试集的保留样本上计算基于平均绝对比例误差(MASE)的预测误差。为了进行详尽的比较,我们考虑了三组样本量 ,和 ,在哪里和分别表示训练数据和测试数据的大小。选择相应的回归系数和截距,以达到所需的稀疏程度已完成。为了保持尽可能稳定的模型 - 不可止结,我们考虑到零和计数子模型的相同预测因子(即, ).此类模型在许多实际应用中很常见,因为这些应用中没有关于零膨胀机制的特定领域的先验信息。下面我们提供两个模拟示例的详细数据生成步骤:
模拟1。(1)产生来自Multi相当于平均载体的多变量正态分布的预测器 ,方差矢量 ,和方差 - 协方差矩阵 ,其中的元素是 .成对相关的值从0(不相关)变化到0.4(中等共线性)至0.8(高相连性)。(2)COUNT和零回归参数如下所示: (3)零充气计数结果根据(1),与上述参数和输入数据。
模拟2。它类似于模拟1除了选择计数和零回归参数,如下所示:
模拟3。(1)第一次模拟 独立于标准正态分布。考虑以下作为连续预测因素: 和 .(2)模拟5个连续变量,从多变量正常分布与平均值 ,方差 ,和基于“增大化现实”技术( )不同的相关结构在和之前一样,根据它们的分位数将它们离散成5个新变量: , , , ,和 ,导致总共分类变量。(3)通过上述输入数据和参数,零充气的计数结果根据(1),其中选择两组回归参数如下: 由此产生的绩效措施迭代200多项重复(表2)的结果表明,在大多数模拟场景中,amazon的性能与EM LASSO一样好,甚至更好。对于高度共线的设计,amazon - EM SEAL脱颖而出,成为几乎每一个样本大小和零膨胀比例的最佳估计器,突出了基于ML估计和它们的标准误差合并数据自适应权值的好处。这一现象在对德国卫生保健数据的分析中也很明显5,其中,amazon - EM SEAL方法的参数估计比其他方法的参数估计更简洁。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
5.申请德国医疗保健需求数据
接下来,我们将我们的方法应用于德国医疗保健需求数据[3.],德国社会经济面板的子集(GSOEP)DataSet [13.],这也被用于前一项研究中的插图目的[3.,14.].原始数据包含医生的就诊次数1994年最后三个月的25岁至65岁的西德男子(感兴趣的回答变量),其中补充了1984年至1995年12次年度波动的补充信息,包括保健利用情况、目前的就业状况和受保护对象的保险安排[3.].最初研究的目的是调查德国国民的就业特点与他们的保健需求之间的关系。因变量的分布(图1),显示许多医生的就诊次数为零( ),证实了经典的方法,如泊松回归是不适合建模这个结果。
在模型拟合过程中,随着原始变量,还考虑年龄组和健康状况之间的相互作用,导致28个候选人预测因子(表3.).完整模型的拟合结果表明,EM自适应LASSO方法都具有竞争的模型选择性能(表1)4),往往导致比EM LASSO更稀疏的模型选择(表5).此外,amazon - EM SEAL方法似乎选择的变量数量更少。amazon - EM SEAL的这种特性在很多实际情况下都很有吸引力,这些情况下需要考虑变量之间的数据共线性,需要进行更积极的特征选择。EM自适应LASSO方法的计算开销相似,但比EM LASSO快一个数量级(表2)4),进一步证实,Amazonn为现有方法提供了可行的替代品。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||
|
(一种)
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
(b)
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
6.讨论
近年来,跨越生物学、公共卫生和医学等多个学科的零膨胀计数方法大量涌入。这推动了零膨胀计数模型在许多实际应用中的广泛使用,如宏基因组学、单细胞RNA测序和卫生保健研究。在本文中,我们提出了ZIP回归模型中自适应变量选择的amazon方法。我们的模拟和真实数据经验都表明,在保持理想的理论性能和计算便利性的同时,亚马逊可以在多种回归设置下优于EM LASSO。我们的初步结果是相当令人鼓舞的,并且出于实际目的,我们提供了一个公开可用的R包来实现这种方法:https://github.com/himelmallick/amazonn..
我们设想了一些可能进一步改进Amazonn性能的改进。虽然Amazonn依赖于ML估计来构建体重向量,但这些估计可能无法在超高尺寸中使用[7].其他初始化方案可以进一步改进这一点,比如岭估计[15.].扩展至其他零膨胀模型,如边缘化零膨胀计数回归[16.,17.,两部分和障碍模型[18.]和多通货膨胀模型[19.可以为进一步的调查提供有用的基础。虽然我们只关注固定效应模型的变量选择,但未来的工作可能包括扩展到其他正则化问题,如分组变量选择[12.,20.]以及稀疏混合效果模型[21.].
附录
证明。值得注意的是,逻辑分布和泊松分布都属于指数分布族。由于(10.)可以分解成加权逻辑和泊松日志似然(每个属于GLM系列,没有处罚),定理1是定理4在zou的直接应用[22.].因此,如果 , , ,和 ,然后,Amazonn - EM AL和Amazonn - EM密封估计值均持有Oracle属性:趋势趋于1,零系数的估计为0,并且非零系数的估计具有渐近的正态分布,其意味着是真实值和真实值的渐近正态分布差异近似等于包含非零系数的Fisher信息矩阵的子矩阵。因此证明是完整的。
数据可用性
论文中使用的德国医疗保健数据集可以从其他人(https://cran.r-project.org/web/packages/hdtweedie/index.html.),该软件可在以下网址获得https://github.com/himelmallick/amazonn..
的利益冲突
作者声明他们没有利益冲突。
作者的贡献
Prithish Banerjee,Broti Garai和Himel Mallick同样地贡献了这项工作。
致谢
作者要感谢匿名审查员,以便他们有价值的意见和建议来改进稿件。这项工作是由阿拉巴马大学获得和管理的研究资源在伯明翰IT研究计算中获得的研究资源。本材料中表达的任何意见,调查结果和结论或建议是作者的任何意见,并不一定反映伯明翰大学阿拉巴马大学的意见。
参考文献
- w·h·格林泊松和负二项式回归模型中过量零和样品选择的核算,纽约大学,纽约,NY,1994。
- D. Lambert,“零充气的泊松回归,申请制造业缺陷”Technometrics.,卷。34,不。1,pp。1-14,1992。查看在:出版商网站|谷歌学术
- 王振中,马顺生,王振春。“零膨胀和过度分散数据的变量选择及其在德国医疗保健需求中的应用”生物习题杂志,卷。57,没有。5,pp。867-884,2015。查看在:出版商网站|谷歌学术|Mathscinet.
- Z. Wang,S. Ma,C.-Y。王,M. Zappitelli,P.Vevarajan和C.Parikh,EM用于正规化的零充气回归模型,其在儿童心脏手术后术后发病率,“医学统计第33卷,第2期。29,pp。5192-5208,2014。查看在:出版商网站|谷歌学术|Mathscinet.
- H. Mallick和H. K.Tiwari,“EM自适应套索 - 一种多层建模策略,用于检测与零充气计数表型相关的SNP,”遗传学的边疆,卷。7日,2016年。查看在:谷歌学术
- 唐勇,向磊,朱志伟,“利率决策中的风险因素选择:零膨胀Poisson回归模型的EM自适应套索”,风险分析,卷。34,不。6,pp。1112-1127,2014。查看在:出版商网站|谷歌学术
- W.钱和Y. yang,“通过标准错误调整自适应套索的模型选择”统计数学研究所,第65卷,不。2, 295-318, 2013。查看在:出版商网站|谷歌学术|Mathscinet.
- Z. Y. Y. alAlamal和M. H. Lee,“调整了高维泊松回归模型的适应套索”,现代应用科学(MAS),卷。9,没有。4,2014。查看在:出版商网站|谷歌学术
- J. Friedman,T. Hastie和R. Tibshirani,“通过坐标血统的广义线性模型的正则化路径”统计软件第33卷,第2期。1,页1 - 22,2010。查看在:谷歌学术
- G. Schwarz,“估计模型的维度”,统计史,卷。6,不。2,pp。461-464,1978。查看在:出版商网站|谷歌学术|Mathscinet.
- J. Huang,S. Ma,H.谢,C.-h。张,“变量选择的群体桥梁方法”Biometrika,卷。96,没有。2,pp。339-355,2009。查看在:出版商网站|谷歌学术|Mathscinet.
- S. Chatterjee, S. Chowdhury, H. Mallick, P. Banerjee和B. Garai,“零膨胀负二项回归模型的群正则化及其在德国医疗保健需求中的应用”医学统计,第37卷,no。20,3012 - 3026页,2018。查看在:出版商网站|谷歌学术|Mathscinet.
- R. T. Riphahn, A. Wambach,和A. Million,“医疗保健需求中的激励效应:一种双变量面板计数数据估计,”应用计量经济学杂志,卷。18,不。4,pp。387-405,2003。查看在:出版商网站|谷歌学术
- M. Jochmann,“什么属于哪里?零充气计数模型的可变选择,具有保健需求的应用,“计算统计数据,卷。28,不。5,pp。1947-1964,2013。查看在:出版商网站|谷歌学术|Mathscinet.
- A. E. Hoerl和R. W. Kennard, <岭回归:非正交问题的有偏估计>Technometrics.第12卷,没有。55-67页,1970年。查看在:出版商网站|谷歌学术
- D. L. Long,J.S.Preister,A.H. Herring和C. E. Golin,“一个边缘化的零充气泊松回归模型,具有整体暴露效果”医学统计第33卷,第2期。29, pp. 5151-5165, 2014。查看在:出版商网站|谷歌学术|Mathscinet.
- V. A. Smith和J.S.Preister,“半连续数据的直接和灵活的边缘推断”医学研究中的统计方法,卷。26,不。6,pp。2962-2965,2016。查看在:出版商网站|谷歌学术|Mathscinet.
- V.A.Smith,B. Neelon,J.S.Preister,以及M. L.Maciejewski,“一个边缘化的两件半连续数据模型,”医学研究中的统计方法,卷。26,不。4,pp。1949-1968,2017。查看在:出版商网站|谷歌学术|Mathscinet.
- X. Su,J. Fan,R. A.Levine,X. Tan和A. Tripathi,“多通货膨胀泊松模型l1正则化”,Statistica中央研究院(第23卷)3, pp. 1071-1090, 2013。查看在:谷歌学术|Mathscinet.
- S. Chowdhury,S. Chatterjee,H. Mallick,H. Banerjee和B. Garai,“零充气泊松回归模型的正规化,并申请保险率,”应用统计学杂志2018年,出版中。查看在:谷歌学术
- Groll和G. Tutz,“广义线性混合模型的变量选择l1- 估计,“统计和计算,卷。24,不。2,pp。137-154,2014。查看在:出版商网站|谷歌学术|Mathscinet.
- H. Zou,《自适应套索及其预言特性》美国统计协会杂志,卷。101,没有。476,pp。1418-1429,2006。查看在:出版商网站|谷歌学术|Mathscinet.
版权
版权所有©2018 Prithish Banerjee等。这是分布下的开放式访问文章知识共享署名许可如果正确引用了原始工作,则允许在任何媒体中的不受限制使用,分发和再现。