文摘
有一个悠久的历史的兴趣建模泊松回归在不同领域的研究。这项工作的重点是在处理问题上发生后建模统计数据。的预测和分析统计数据,它是有价值的研究因素影响的性能模型和决策分析的基础上,模型。在回归分析中,多重共线性和有影响力的观察单独和共同影响模型估计和推断。在本文中,我们专注于多重共线性和有影响力的同时观察。评估的可靠性和质量回归估计和克服模型拟合的问题,我们提出了新的诊断方法基于Sherman-Morrison伍德伯里(南都)定理来检测有影响力的观察使用近似删除公式与刘的泊松回归模型估计量。蒙特卡罗方法完成了该诊断方法的评估。实际数据也考虑提出的评估方法。结果表明该诊断方法的优越性在检测不寻常的观察存在多重共线性,而传统的最大似然估计方法。
1。介绍
如今,在文献中有几个发行版,可以用来去除噪声,然后预测数据。同样,有一个持续的记录问题建模统计数据中有几个应用生物科学和其他学科1- - - - - -4]。这项工作的重点是在处理问题上发生后建模统计数据。的预测和分析统计数据,它是有价值的研究因素影响的性能模型和决策分析的基础上,模型。考虑到合适的统计建模,当因变量是统计数据,最常用的统计模型之一是泊松回归模型(人口、难民和移民事务局)。对准确统计推断,标准的普通最小二乘法(OLS)回归集相关的一些重要的假设模型的错误(5]。一般来说,许多问题可能出现在一个计数变量模型是使用OLS估计的方法,因为噪音水平。对于统计数据的分析,人口、难民和移民事务局提供最相关的结果。根据McCullagh Nelder [6),GLM的人口、难民和移民事务局属于家庭。使用最大似然ML估计方法估计人口、难民和移民事务局估计而不是OLS方法。
人口、难民和移民事务局,当解释变量是线性相关的,那么毫升方法是非常敏感的7]。在文献中介绍了一些带有偏见的估计处理多重共线性,即。斯坦,脊,套索、正规化和刘估计;参见[1,3]和[8- - - - - -10为更多的细节。最受欢迎的一个是岭估计,但它有一定的局限性,即。,selecting the ridge parameter, where the ridge rule is based on two normal distributions. It is a shrinkage rule because it depends on the slope. In contrast, Lasso is based on the slope and the intercept. The best choice is to adopt a Liu estimator to avoid the hindrances of the ridge estimator. The Liu estimator is an ace in this regard as it avoids the disadvantages of the ridge estimator [10],山脊的主要优势是易于使用,并且它可以写在解释和目标公式。在文献中,各种研究可用于克服存在共线性的人口、难民和移民事务局(7,11- - - - - -16]。
评估的可靠性和质量回归估计和克服模型拟合的问题,开发了诊断技术。虽然回归诊断开发方法论上和理论上对线性回归模型和多重共线性(见[17- - - - - -24),一些研究对诊断的影响与不相关的解释变量的漠视,在文献中是可用的。Pregibon [25)提出了影响诊断使用一步逻辑回归方法。为进一步讨论影响诊断的漠视,看到26- - - - - -32]。
影响GLM的诊断和相关解释变量是非常有限的。Ozkale et al。33)提出了首先对物流岭回归研究影响诊断。阿明et al。34)在诊断影响γ岭回归模型。汗等。35)评估的性能影响诊断的人口、难民和移民事务局岭估计量。最近,汗et al。36)检查影响诊断的优越性在人口、难民和移民事务局和两个参数估计量,此外,阿明et al。37]讨论了影响诊断为逆高斯岭回归模型。
现有的文献表明,没有可用的漠视,研究影响诊断的刘估计量。不过,刘泊松回归(PLR)诊断没有细心注意到目前为止。因此,我们目前的工作是为了填补这个空白。所以,在目前的工作中,我们提出了诊断方法下的人口、难民和移民事务局刘估计量,这是竞争的方法。
剩下的研究的组织结构如下:我们专注于制定影响诊断措施下的人口、难民和移民事务局刘估计量(LE)。接下来,在部分4和5,我们进行了蒙特卡洛研究使用2、4和6个独立变量检验检测水平的百分比和新开发的诊断措施,最后,我们证明的有效性提出措施在现实世界的应用程序的帮助。
1.1。模型规范和估计量
假设模型可以写成 在哪里 的观察, 是一个矩阵, 是未知参数, 与和 是独立的。我们假设观察的结果集成形式并试着解决这个问题通过微分矩阵。人口、难民和移民事务局适用于真实的数据,尤其是当响应变量经常是统计数据的形式是已知的。让遵循泊松分布 ,作为其参数。人口、难民和移民事务局的概率质量函数是用来描述当的关系 ,响应变量是统计数据。
人口、难民和移民事务局属于GLM与日志链接功能 在哪里是拦截和 是一组系数。估计均值函数被定义为 。
在这里是行独立的变量和系数,代表的数量解释变量。
假设所有是独立的;然后,联合对数似被定义为
寻找最好的价值 ,我们必须解决以下关系:
自系统方程是非线性的,所以初速与迭代再加权最小二乘(irl)算法用于估计回归系数的显式公式: 在哪里 和 。
存在多重共线性的矩阵是病态的,因为这个问题的时候,情况就变得复杂有效的推论。要克服这些多重共线性的影响,我们使用泛化的刘6定义PLRE]。 在哪里 。在这里,重要的一步是选择收缩参数的最优值影响PLRE的性能。此外,如果 ,然后 。最近,卡西姆et al。38刘]推荐最优参数的刘在人口、难民和移民事务局估计量 在哪里 和 在哪里是的元素和正交矩阵的列代表的特征向量矩阵,这样 ,在哪里 。
2。人口、难民和移民事务局诊断
2.1。帽子矩阵,利用与人口、难民和移民事务局的残差
帽子矩阵是一种常见的用于计算利用措施。根据戴维森和蔡39),这顶帽子矩阵人口、难民和移民事务局的
的对角元素是理解为利用,即 。计算的回归诊断措施,残差扮演最重要的角色(Belsley et al。18])。让象征着皮尔逊残留,对于人口、难民和移民事务局的案例中,我们将它定义为
同样,我们发现标准化皮尔逊残留
另一个有用的残余,是很大的帮助检测不寻常的观察称为异常残留。的人口、难民和移民事务局被定义为异常残留 标志的符号函数(31日]。
2.2。影响诊断方法
Pregibon [25)是第一个在逻辑回归诊断工具,提出了影响诊断措施使用一步近似。提出了影响诊断考虑库克的距离,在异常变化,皮尔森的变化 。人口、难民和移民事务局库克的距离,建议是
的 措施的总体变化时的拟合模型观察从模型中删除。一步的近似表达式被定义为 在哪里是切除后的权重矩阵的对角元素观察。此外,(13)也可以近似
哈丁和Hilbe40]建议的削减点检测不寻常的观察在漠视 ;这个过程是用来指定窗口的漠视。
Pregibon [25皮尔森]建议的改变另一个影响诊断测量检测影响的观察。应用一步近似,我们定义作为 在哪里用于表示完整的数据集和的平方皮尔逊残差吗标志着平方皮尔逊残差的数据集没有分别观察。这个数据是用来研究的影响观察模型的拟合优度和估计。基于同样理由,Pregibon [25]建议的另一个统计测量的影响观察模型的拟合优度的变化异常的统计。改变的一步线性近似定义为异常的统计 完整的数据集在哪里用于表示平方偏差残差平方偏差残留发现后删除吗分别观察。我们提出了一个简化的形式的方程(17)代替通过作为
截止值的变化异常统计检测不寻常的观察(25]。
适合的差异建议由Belsley et al。18)是另一种常见的影响的措施。后删除观察,评估的变化的模型。GLM的作为 在哪里用于表示完整的数据集和预测回归变数删除后代表预测回归变数的情况。此外,它也可以写成
通过使用南都定理,(20.)是使变回原形 在哪里 称为重叠皮尔森残油、 表明,观察的影响力。第二个矩阵将在下一节介绍。
3所示。刘影响措施泊松回归模型(PLRM)
3.1。在PLRM帽子矩阵,利用,剩余
帽子矩阵PLRM被定义为
利用是刘帽子对角线证明有用的检测有影响力的情况下做了一些调整。至于 , 为 当的增加,减少单调。
使用刘估计量,皮尔森PLRM被定义为残差
皮尔森和共线独立变量残差的标准化的形式给出
3.2。影响PLRM诊断
近似的情况下删除公式使用南都定理[41)发现识别影响的观察。
定理1。删除后行 ,我们写作为 在哪里代表了矩阵没有行。使用南都定理,我们近似 。
证明。让
,然后和声明(6)和(7)成为
让和代表的ML和PLRE后删除分别观察。因此,我们有
的帮助下SMV定理,可以改进的
在哪里
是行向量的矩阵和
解决了相对湿度的第一部分年代(27)
在哪里
。我们也有
现在,
因此,这个定理是完成。
后(42]PLRE,库克的距离是重新定义为
的如果之间的距离观察被认为是有影响力的和比较大。可以表示为另一个版本
使用刘估计量,我们定义皮尔逊卡方的变化
方刘皮尔逊残差在哪里用于表示完整的数据集和吗没有计算观察。相应地,刘估计量,我们制定的变化异常统计
在哪里和代表平方刘和完整的数据和异常残差平方刘异常残差计算观察,
在哪里的标志功能吗
。
后(19),我们给DFFITS PLRM作为
在哪里和代表整个数据集的预测回归变数,删除后预测回归变数的情况。
使用南都定理,我们简化(37),
在哪里
是皮尔森重叠与刘估计残留。
4所示。模拟研究
在本节中,我们总结了人口、难民和移民事务局和PLRM影响诊断结果使用蒙特卡罗模拟方案。我们遵循相同的仿真方案所使用的许多研究人员看到[43,44]。响应变量生成从泊松分布函数意味着什么所定义的
我们将模拟与 解释变量与不同的样本大小加上轻微到严重的共线性水平。我们假设样本大小 。此外,我们生成了解释变量使用以下公式:
我们考虑到不同的共线性的水平 ,我们假设的任意值回归系数的方法 。现在我们几个有影响力的观察产生解释变量使用表达式 , 和 ,在哪里 。所有的分析都使用执行R用1000复制软件。
4.1。结果与讨论
研究结果的计算识别的不寻常的观察与LE轻微到严重的存在提供了多重共线性表1- - - - - -6与 与定义的最优和 。从表1- - - - - -3与p= 2,很明显,执行而比较好不同的样本大小和多重共线性的方法。影响检测和方法是相同的和执行明显比和 ,分别。然而,可以看出他们的表现并不发生在一个更好的方法比所有的组合方法 。类似的效果观察方法,发现影响观测的检测比例方法是比 ,尽管的性能有关同样是更好。此外,随着样本量的增加,探测的百分比的影响观察开发措施同样增加。此外,从表4- - - - - -6我们观察到,新开发的诊断措施更有效地执行 ,但提供更好的检测比例相比 此外,不同的解释变量的大小影响的功能方法和方法,分别。和值大于和 ,分别。进一步不断变化的模式样本大小和多重共线性影响明确研究演示了通过图形性能的新开发的措施;参见图1,2,3为定义和 。考虑到数据1- - - - - -3与样本大小的组合定义,解释变量,,和共线性水平,我们清楚地观察到积极增加新开发的性能的措施。
5。应用:英超足球数据
的说明提出的诊断方法,分析了足球联赛数据集,也可以在表7。说数据组成 观察一个响应变量,即。,赢得了比赛和p= 5解释变量,即。,黄色的卡片 ,红牌的数量 ,目标了 ,目标承认 ,和点的数量 。Algamal和Alanaz11)检查后也使用这个数据集。 ,拟合优度的测试发现,它是安装在泊松分布。说数据共线条件指数CI = 31.274。
从表8,一般是发现所有方法确定第一影响力的观察观察。卡方统计量的变化和偏差变化统计与观察的ML估计不检测任何影响力。此外,观察检测到有影响力的DFFITS没有刘估计量和所有的诊断。
删除高亮显示的效果观察的估计人口、难民和移民事务局和PLRM提出了表9。我们发现最大的变化在人口、难民和移民事务局和PLRM估计切除后1圣观察发现的所有选定并提出措施。第二步是确定通过所有提出的措施是19th。发现删除后的观察,我们发现最大的变化和 。在检查这些结果,指出,在存在多重共线性,PLRM诊断措施有效地探测到有影响力的观察。此外,我们将索引块总结提出措施的功效在图4。
6。结论
本研究介绍了刘泊松回归诊断措施使用有偏估计量来处理人口、难民和移民事务局影响力的同时观察和多重共线性。正如前面所讨论的,多重共线性影响人口、难民和移民事务局的传统ML估计的性能。因此,我们采用了刘估计由于其高效的统计特性来解决多重共线性在人口、难民和移民事务局和有影响力的观察。仿真结果支持新的诊断措施的性能检测的ML估计比例和现有的措施是最糟糕的增加样本量,解释变量和多重共线性。结果证明,建议措施更有利于识别影响力的观察和多重共线性。因此,建议这些提议的措施指导用户处理多重共线性的问题估计强劲有效支持。
数据可用性
所有的数据都包含在本文的链接。
的利益冲突
作者声明没有利益冲突。
确认
作者感谢塔伊夫大学的研究人员支持项目TURSP-2020/160数量,塔伊夫大学,塔伊夫,沙特阿拉伯。