文摘

泊松回归建模统计数据是一个流行的工具,应用于医学科学,工程和其他。然而,真实数据往往或underdispersed,我们不能应用泊松回归。为了克服这一问题,我们考虑一个基于Conway-Maxwell泊松回归模型(COMP)分布。一般来说,使用极大似然估计量的估计COMP回归模型的未知参数。然而,存在多重共线性,估计变得不稳定由于其高方差和标准误差。为了解决这个问题,一个新的COMP刘估计是COMP回归模型提出了,等和underdispersion。评估性能,我们进行蒙特卡罗模拟,均方误差被认为是作为一个评价标准。仿真研究的结果表明,我们的新估计的性能明显比别人更好。最后,应用程序考虑评估拟议的优越性COMP刘估计量。仿真和应用结果清楚地表明,该估计量是优于最大似然估计值。

1。介绍

回归模型是最受欢迎的工具来建模一个响应变量之间的关系和一组解释变量。在许多现实生活中的问题,响应变量是重要的形式即。,在非负整数的值。对于统计数据,使用最广泛的回归模型是泊松回归(1,2]。泊松分布的一个主要特征就是随机变量的均值和方差相等。然而,数据经常展览或分散。在这种情况下,泊松分布往往不提供很好的近似。对于overdispersed数据,负二项模型是一个受欢迎的选择(3]。其他overdispersion模型包括泊松混合物(4]。然而,这些模型不是对underdispersion有益。一种灵活的替代,捕捉,underdispersion Conway-Maxwell泊松分布(COMP),于1962年引入了康威和麦克斯韦的建模与依赖服务排队系统。薪酬分配是一个泊松分布的两个参数泛化,包括伯努利方程和几何分布,特殊情况(5]。·史慕丽et al。5)建立了统计特性和COMP分布的参数估计方法。COMP分布有多个申请数数据建模(5- - - - - -10]。

通常,最大似然估计(标定)方法是一种常用的估计方法来估计未知参数的COMP回归模型(COMPRM)。然而,众所周知,初速坏心肠的数据很敏感。因为贫困估计产生高的存在但不完全多重共线性11]。多重共线性的主要缺点是方差和标准错误变得高12- - - - - -14]。进一步tF比率在统计上是无关紧要的。

减少多重共线性的影响,不同的偏差估计在文献中是可用的。其中,最常见和熟悉的评估方法是刘估计最初引入Keijan [15]。线性回归模型(LRM),我们建议读者看到[16- - - - - -20.]。然而,文学在广义线性模型(glm)是有限的。详细描述,我们参考,Mansson et al。21)提出了刘logit模型的估计量。Mansson et al。22]介绍了泊松刘一些偏置参数估计值,Mansson [23考虑一些收缩负二项回归模型的参数。卡西姆et al。24考虑一些偏置参数γ刘回归模型和吴et al。25]介绍了刘限制几乎无偏估计量的逻辑模型。阿明et al。2]研究性能的一些岭贝尔回归模型中的参数估计。汗等。38]研究了影响泊松回归模型的诊断方法与刘估计量。Majid et al。26)提出了刘贝尔回归模型的参数估计。最近,萨米et al。27]COMPRM建议最好的岭参数估计量。目前的文献表明,没有这样的研究与刘COMPRM估计是可用的。因此,我们提出一个刘COMPRM估计量的减少说明变量之间的共线性的影响。本研究的主要目的是提出一个刘COMPRM刘一些新的参数估计量。评估这些新刘的性能参数,我们进行蒙特卡罗模拟研究在不同的评估场景。

本文的其余部分组织如下:我们提出的统计方法COMPRM节2。然而,模拟布局和蒙特卡罗模拟的结果在部分解决3。一个真实的数据集提出了部分4。本文以一些结束语。

2。预赛:COMPRM和估计方法

考虑到响应变量(y)来自一个 与密度函数定义 在哪里 在哪里 显示的位置参数均值的响应变量和函数 表明色散参数。Z正常化是常数。有不同的适应症的色散参数不同的参数值,如如果 然后数据将underdispersed,如果 然后数据将overdispersed如果 然后同样数据将被分散。薪酬分配也与其他分布在不同参数条件下的关系。例如,如果 ,薪酬分配将成为几何分布,如果 ,薪酬分配将成为伯努利分布,如果 ,薪酬分配将成为泊松分布。自从COMP分布没有封闭的数学表达式来找到它的参数,它可以用不同的近似。

的渐近均值和方差Y(2)分别给出

·史慕丽et al。5建议这些近似时可能无法提供准确的发现 不管它的灵活性和吸引力,薪酬限制在其有用性作为一个广义线性模型的基础(GLM)所示(28,29日]。特别是,既不 也不 提供一个清晰的定位参数。而 ,它大大不同于均值为小 考虑到 会将小over-dispersed数据,这将使一个比较模型基于最初的薪酬制定难以解释和使用over-dispersed数据(29日]。所以,Guikema和Goffelt28)提出了一个使用新的参数即reparameterization。 提供一个明确的中心参数。及新配方的定义是 在哪里

通过插入 在(3)和(4)的均值和方差Y给出的reparameterization一样吗 特别是准确时 现在 表明定心参数和新的参数化 作为一个形状参数。例如,如果 ,方差大于均值表明overdispersion,然而 表明underdispersion。基于新配方,它是值得建立的漠视,并通过使用链接功能和更容易解释的结果系数(28,29日]。的对数似5)是

线性预测在日志链接,然后的对数似功能(7)是由

未知参数的估计使用标定方法,我们使用一个迭代过程。考虑无约束最优化,让 然后,(8)成为

寻找未知的参数标定方法,我们首先区分(9)对 ,分别为,

的估计 ,这是需要修复 关于矩阵的信息的详细描述,我们建议卖家和·史慕丽研究[30.]。自从COMPRM用于建模、协变量均值和方差取决于不同,分别定义为(29日]

对于缓解,我们考虑一个值 在最后一次迭代后,估计的大中型企业 在哪里 代表了调整反应变量 ,在哪里 方程(13)是一个可行的估计未知系数的估计量。费舍尔得分通常是使用迭代方法来评估 为大中型企业有几个不利影响下多重共线性一是它产生较大的差异。为了克服这个问题,我们提出的刘估计COMPRM叫做COMP刘估计量(复合基)定义的 在哪里 是刘参数。如果 ,然后 ,如果如果 ,然后

2.1。MSE性能

的MMSE估计量 的参数 可以被定义为 在哪里 一个估计量的协方差矩阵吗 代表偏差向量。标量估计量的均方误差 通过应用跟踪是指哪一个

两个估计的比较 ,的估计量 优于 当且仅当

标量MSE而言,当且仅当函数是如此

的协方差 在哪里 是色散参数迭代计算使用(11)。得到估计的均方误差的考虑 ,在哪里 正交矩阵的特征值组成的吗 j的元素吗 的患者的 给药 而标量的MSE

惠估计量的偏差、协方差和MMSE,分别计算(14), 在哪里 标量MSE的完整模型的定义 在哪里 jth元素 自从Keijan [15刘]表明,估计提供了更好的性能比普通最小二乘估计量,我们扩展刘COMPRM称为完整模型的估计量。为此,我们遵循Keijan [15)和微分(23)对d,我们有

d= 1,

因此存在 这样 或者说,

因此存在 这样 或者说,

2.2。理论比较基于MMSE和标量MSE

引理1。是一个正定矩阵(pd), 向量的非零常数和c是一个积极的常数。然后 当且仅当 (31日]。

定理1。根据COMPRM,考虑 , 然后 当且仅当

证明。大中型企业的MMSE功能之间的差异并获得的完整模型 然而,对于标量MSE最后一个表达式写成 简化后,(27)可以写成 患者的 下如果 这是进一步相当于 因此,如果 ,然后由引理证明结束1

2.3。收缩参数的选择

完整模型是一个更好的估计方法处理共线比OLS解释变量。选择的最优值d的工作,我们遵循Mansson et al。22)和微分(23)对d,我们将为零

的范围d取决于 基于的理论工作21,24,32),我们定义以下的最优值d这是定义为

此外,卡西姆et al。33)提出了偏置参数,我们也认为评估性能即。 由此,以下是我们建议的估计

3所示。蒙特卡罗模拟研究

本节提供了一个简短的讨论数据的生成与不同因素的建设中扮演着关键角色模拟实验。此外,提出了评估标准来检查完整模型的性能与传统的大中型企业。

3.1。模拟布局

响应变量 从生成的COMPRM 分布,

后(32),生成相关的解释 在哪里 独立标准正态伪随机数, 解释变量之间的相关性。在这项研究中,研究不同程度的共线性的影响,估计以下不同的值被认为是: = 0.80,0.90,0.95,0.99。斜率参数决定,这样 ,这是一个常用的限制,详情参见[32]。此外,四个不同的样本大小的值被认为是50,100,150,200。解释变量的数量被包括在这项研究是3、6、9和12。我们考虑三个分散水平即色散 ,对于均匀分散 在分散,我们考虑 明确监控的性能提出的估计量。不同组合的不同的值 ,生成的数据是2000倍(32]。MSE准则用于提出的评估和其他被认为是估计被定义为 在哪里 估计和真正的区别是参数向量的估计th复制和R表示复制数。

3.2。结果与讨论

完整模型的估计均方误差的刘提出的参数如表所示1- - - - - -12。各种条件被认为是判断完整模型的疗效。一般的评论讨论仿真结果如下:(1)从所提供的证据,我们显示的总体性能提出了复合基在不同收缩估计比大中型企业要好。可以看出,企业是最严重的受感染估计由于其较大的MSE的多重共线性问题。(2)通过修复 , ,多重共线性程度有直接影响的估计均方误差的COMPRM。此外,通过增加水平从中度到重度的多重共线性,即。,0.80 to 0.99 by fixing all other factors, we noticed that the estimated MSE’s increases gradually. However, this increment is quite lower in our proposed estimator as compared to the traditional MLE. As various shrinkage parameters for the COMPLE are considered to assess the superiority under different controlled conditions, one can notice that the performance of the COMPLE under all shrinkage parameters shows consistent behaviour against multicollinearity. More specifically, the shrinkage parameter under COMPLE, i.e., 发现比其他收缩参数。(3)结果也表明了,当我们增加样本容量,所有的估计量的估计均方误差值减少。然而,对于所有的选择n再次,完整模型是更好的比初速和健壮的选项。(4)数量的增加使得增加解释变量模拟COMPRM估计量的均方误差值。同样,企业被认为是在这种情况下最负面影响的估计量。如果我们评估的性能估计关于解释变量,然后我们看到仿真的结果,提出了复合基是一个更好的选择,因为该估计量与初速显示一致的行为。它可以注意到随着解释变量数量的增加,收缩参数的完整模型,例如, 刘表现得更好的与其他参数。(5)色散系数也是一个关键的角色在任何估计的性能。因为我们考虑不同的色散值参数。通过增加分散,有一个逐步增加的估计均方误差的估计。进一步,它是观察到所有的场景, 执行持续更好的比其他收缩参数。

4所示。一个说明性的例子

在本节中,提出的实现策略是一项研究说明了应用于中型木材工业生产层压塑料夹板。这项研究包括在评估解释变量的影响在胶合板生产发现的缺陷的数量。这个数据集包括 观察。我们正在考虑每层压塑料胶合板缺陷区域的数量 虽然四个解释变量。 体积收缩, 显示了装配时间, 代表木材密度, 描述了干燥温度。我们有缺陷的数量伴随着数据输入数据如上所述的四个过程变量。评估响应的离散变量,我们使用色散指数(D)计算 (34]。估计的价值D考虑应用程序的发现是135.64。D大于1,表明,响应变量对色散。此外,我们还计算色散参数所获得的使用(11)迭代。使用COMPoissonReg R包中,我们发现 = 0.9614这清楚地表明,在分散的数据集。

评估认为数据集之间的多重共线性,我们使用条件指数是8634.73 > 30这清楚地表明存在严重的多重共线性问题的解释变量。

估计系数,标准错误,和MSE准则报告在表的值13。初速和完整模型的估计系数在不同收缩参数分别获得使用(13)和(14)。而估计的标量家中小企业分别计算使用(21)和(23)。相反,收缩参数的值 , , , , , , , , , , ,

13清楚地表明,初速负面影响由于其膨胀的MSE相比与完整模型在不同收缩参数考虑。此外,标准误差的标定非常大于所有刘参数的完整模型。当然清楚的是,所有的收缩性能的参数的完整模型比大中型企业要好。然而,更具体地说,拟议的完整模型的性能

显示了一个更健壮的行为由于其较小的SEs以及估计均方误差的值。SEs通过计算平方根的对角元素的估计量的方差。应用结果也持有定理1因为 对所有j= 1,2,3,4。

我们使用其他标准,即。,cross validation (CV) applied to the real-life data set for the assessment of the proposed method. The findings of average validation error with reference to CV method are shown in Table13。详细描述请参阅[35- - - - - -37]。因为简历是全面检查预测估计的性能。结果表明提出的完整模型的性能与所有收缩刘参数比大中型企业要好。然而, 达到一个最小CV值相比其他刘COMPRM参数。所以,这两个标准,即。,米SE and CV shows that the proposed estimator performs consistently better as compared to the competitors. Hence, the findings of real application are also compatible with the results of Monte Carlo simulations.

5。结束语

本文提出了刘估计量在不同收缩参数COMPRM处理多重共线性,在分散。初速的比较和完整模型也都是通过蒙特卡罗模拟和一个现实生活中的例子。为目的的评估,均方误差作为评价标准。基于仿真研究的结果和现实生活中的例子,我们看到的性能提出了估计量是相对更好的比初速下分散。然而,更具体地说, 执行更好的与其他完整模型参数和标定。所以,我们建议使用复合基收缩参数 与多重共线性估计COMPRM下和分散。

数据可用性

的数据支持本研究的发现可以从相应的作者在合理的请求。

的利益冲突

作者宣称没有利益冲突。