我们考虑问题的模型计算数据与使用Zero-Inflated多余零泊松回归(ZIP)。最近,各种正则化方法已经开发了变量选择ZIP模型。其中,EM套索是一个流行的同步变量选择和参数估计的方法。然而,EM套索患有估计效率低下和选择不一致。解决这些问题,我们提出一套电磁适应性套索方法使用各种data-adaptive权重。理论上我们展示,新方法能够识别真正的模型一致,以及由此产生的估计可作为有效的甲骨文。进一步评估的方法通过广泛的合成实验和应用数据集德国卫生保健需求。
现代研究经常收集信息在一个广泛的结果包括与过剩量的0计数测量。建模这种zero-inflated计数结果是具有挑战性的原因有几个。首先,传统的统计模型如泊松和负二项不佳占多余的变化由于零通胀(
gydF4y2Ba正则化方法已经被提议作为一个强大的框架来减轻这些问题,往往表现出显著的优势,超过传统方法(
gydF4y2Ba然而,以往的研究没有调查了EM艾尔在足够的深度来评估其属性在多样化的和现实的场景。例如,目前尚不清楚如何可靠的参数估计的存在多重共线性。特别是,EM AL的实际变量选择性能取决于适当的建设data-adaptive权向量。当有其固有的共线性相关的特性,EM AL预计将产生理想的结果,这一现象尤其明显,当样本容量是有限的(
gydF4y2Ba我们解决这些问题通过提供一组灵活的变量选择方法来有效地识别相关特征与zero-inflated计数的结果在一个ZIP回归框架。我们实现了这个方法AMAZonn (
Zero-inflated计数模型假定观测产生从一个“敏感”人口,生成零和积极的数量根据计数分布或从一个“nonsusceptible”人口,产生额外的零(
gydF4y2Ba为<我nl在e- - - - - -formula>
一个米一个Zonn认为两个data-adaptive权重EM适应性套索框架:(i)的逆最大似然(ML)估计(EM)和(2)逆的ML估计除以标准错误(EM密封)。所定义的唐et al。
为了有效地估计在上面的参数优化问题(
在迭代t,
在哪里<我nl在e- - - - - -formula>
根据(A1)和(A2),如果<我nl在e- - - - - -formula>
变量选择的一致性:<我nl在e- - - - - -formula>
渐近正常的非零系数:<我nl在e- - - - - -formula>
在本节中,我们进行仿真研究来评估AMAZonn的有限样本的性能。作为比较,AMAZonn和EM套索的性能评估。对于每一个模拟数据集,选择相关的调优参数的最低BIC准则考虑的所有方法。本节中的例子报道都来自发表论文用细微的修改范围内当前的研究(
gydF4y2Ba特别,三种情况是:数据生成模型的模拟
生成<我nl在e- - - - - -formula>
数和零回归参数选择如下:
zero-inflated计数结果<我nl在e- - - - - -formula>
它类似于模拟
第一次模拟<我nl在e- - - - - -formula>
模拟5个连续变量的多元正态分布的意思<我nl在e- - - - - -formula>
与上面的输入数据和参数,zero-inflated计数结果<我nl在e- - - - - -formula>
模拟的结果
接下来,我们将我们的方法应用到德国医疗需求数据(
德国卫生保健的医生办公室访问数据。
在模型拟合过程中,随着原始变量,年龄和健康状况之间的交互也认为,导致28候选预测(表
德国卫生保健需求的预测数据的总结。
模型选择的性能EM套索和AMAZonn德国医疗数据。
估计系数的拟合邮政数据分析模型在德国卫生保健需求。
| 方法 | |||||||||||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| (拦截) | |||||||||||||||||||||||||||||||||||||
| EM套索 | |||||||||||||||||||||||||||||||||||||
| AMAZonn - EM艾尔 | |||||||||||||||||||||||||||||||||||||
| AMAZonn - EM密封 | |||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||||||||||||||||||
| 方法 | |||||||||||||||||||||||||||||||||||||
| ag30 | |||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||||||||||||||||||
| EM套索 | |||||||||||||||||||||||||||||||||||||
| AMAZonn - EM艾尔 | |||||||||||||||||||||||||||||||||||||
| AMAZonn - EM密封 | |||||||||||||||||||||||||||||||||||||
| 方法 | |||||||||||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| (拦截) | |||||||||||||||||||||||||||||||||||||
| EM套索 | |||||||||||||||||||||||||||||||||||||
| AMAZonn - EM艾尔 | |||||||||||||||||||||||||||||||||||||
| AMAZonn - EM密封 | |||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||||||||||||||||||
| 方法 | |||||||||||||||||||||||||||||||||||||
| ag30 | |||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||||||||||||||||||
| EM套索 | |||||||||||||||||||||||||||||||||||||
| AMAZonn - EM艾尔 | |||||||||||||||||||||||||||||||||||||
| AMAZonn - EM密封 | |||||||||||||||||||||||||||||||||||||
近年来,有大量涌入zero-inflated计数测量跨越多个学科包括生物学、公共卫生和医学。这动机zero-inflated计数模型的广泛使用在许多实际应用宏基因组等单细胞RNA序列,和医疗研究。在本文中,我们提出了AMAZonn方法自适应变量选择ZIP回归模型。仿真和实际数据的经验表明,AMAZonn可以超越EM套索在各种回归设置,同时保持所需的理论性质和计算方便。我们的初步结果是令人鼓舞的,为了实用的目的,我们提供一个公开的R包实现这个方法:
gydF4y2Ba我们想象一些改进,可以进一步细化AMAZonn的性能。虽然AMAZonn依赖ML估计构造权重向量,这些估计可能不可用超高维(
是指出,物流和泊松分布属于指数的家庭。由于目标函数(
德国医疗数据集使用的纸是由其他人(公开
作者宣称没有利益冲突。
Prithish Banerjee, Broti Garai, Himel Mallick贡献同样这项工作。
作者要感谢匿名审稿人的宝贵的意见和建议改进手稿。这部分工作是支持研究计算资源的获取和管理的伯明翰阿拉巴马大学研究计算。表达的任何意见、研究结果和结论或建议这种材料是作者的,不一定反映伯明翰阿拉巴马大学的意见。