计算智能和神经科学

在这一页上

文摘介绍结论数据可用性的利益冲突确认引用版权相关文章

特殊的问题

人工智能和机器学习驱动决策

把这个特殊的问题

研究文章|开放获取

体积2021年| 文章的ID4407328| https://doi.org/10.1155/2021/4407328

影响泊松回归模型的诊断方法与刘估计量

Aamna汗 ,¹ 默罕默德Amanullah,¹ 穆罕默德·阿明 ,² Randa Alharbi ,³ Abdisalam哈桑缪斯 ,⁴ 和m . s .默罕默德⁵

学术编辑器: 艾哈迈德Mostafa Khalil

收到了 2021年8月16日

接受 2021年8月30日

发表 09年9月2021年

文摘

有一个悠久的历史的兴趣建模泊松回归在不同领域的研究。这项工作的重点是在处理问题上发生后建模统计数据。的预测和分析统计数据,它是有价值的研究因素影响的性能模型和决策分析的基础上,模型。在回归分析中,多重共线性和有影响力的观察单独和共同影响模型估计和推断。在本文中,我们专注于多重共线性和有影响力的同时观察。评估的可靠性和质量回归估计和克服模型拟合的问题,我们提出了新的诊断方法基于Sherman-Morrison伍德伯里(南都)定理来检测有影响力的观察使用近似删除公式与刘的泊松回归模型估计量。蒙特卡罗方法完成了该诊断方法的评估。实际数据也考虑提出的评估方法。结果表明该诊断方法的优越性在检测不寻常的观察存在多重共线性,而传统的最大似然估计方法。

1。介绍

如今,在文献中有几个发行版,可以用来去除噪声,然后预测数据。同样,有一个持续的记录问题建模统计数据中有几个应用生物科学和其他学科1- - - - - -4]。这项工作的重点是在处理问题上发生后建模统计数据。的预测和分析统计数据,它是有价值的研究因素影响的性能模型和决策分析的基础上,模型。考虑到合适的统计建模,当因变量是统计数据,最常用的统计模型之一是泊松回归模型(人口、难民和移民事务局)。对准确统计推断,标准的普通最小二乘法(OLS)回归集相关的一些重要的假设模型的错误(5]。一般来说,许多问题可能出现在一个计数变量模型是使用OLS估计的方法,因为噪音水平。对于统计数据的分析,人口、难民和移民事务局提供最相关的结果。根据McCullagh Nelder [6),GLM的人口、难民和移民事务局属于家庭。使用最大似然ML估计方法估计人口、难民和移民事务局估计而不是OLS方法。

人口、难民和移民事务局,当解释变量是线性相关的,那么毫升方法是非常敏感的7]。在文献中介绍了一些带有偏见的估计处理多重共线性,即。斯坦,脊,套索、正规化和刘估计;参见[1,3]和[8- - - - - -10为更多的细节。最受欢迎的一个是岭估计,但它有一定的局限性,即。,selecting the ridge parameter, where the ridge rule is based on two normal distributions. It is a shrinkage rule because it depends on the slope. In contrast, Lasso is based on the slope and the intercept‬. The best choice is to adopt a Liu estimator to avoid the hindrances of the ridge estimator. The Liu estimator is an ace in this regard as it avoids the disadvantages of the ridge estimator [10],山脊的主要优势是易于使用,并且它可以写在解释和目标公式。在文献中,各种研究可用于克服存在共线性的人口、难民和移民事务局(7,11- - - - - -16]。

评估的可靠性和质量回归估计和克服模型拟合的问题,开发了诊断技术。虽然回归诊断开发方法论上和理论上对线性回归模型和多重共线性(见[17- - - - - -24),一些研究对诊断的影响与不相关的解释变量的漠视,在文献中是可用的。Pregibon [25)提出了影响诊断使用一步逻辑回归方法。为进一步讨论影响诊断的漠视,看到26- - - - - -32]。

影响GLM的诊断和相关解释变量是非常有限的。Ozkale et al。33)提出了首先对物流岭回归研究影响诊断。阿明et al。34)在诊断影响γ岭回归模型。汗等。35)评估的性能影响诊断的人口、难民和移民事务局岭估计量。最近,汗et al。36)检查影响诊断的优越性在人口、难民和移民事务局和两个参数估计量,此外,阿明et al。37]讨论了影响诊断为逆高斯岭回归模型。

现有的文献表明,没有可用的漠视,研究影响诊断的刘估计量。不过,刘泊松回归(PLR)诊断没有细心注意到目前为止。因此,我们目前的工作是为了填补这个空白。所以,在目前的工作中,我们提出了诊断方法下的人口、难民和移民事务局刘估计量,这是竞争的方法。

剩下的研究的组织结构如下:我们专注于制定影响诊断措施下的人口、难民和移民事务局刘估计量(LE)。接下来,在部分4和5,我们进行了蒙特卡洛研究使用2、4和6个独立变量检验检测水平的百分比和新开发的诊断措施,最后,我们证明的有效性提出措施在现实世界的应用程序的帮助。

1.1。模型规范和估计量

假设模型可以写成在哪里的观察, 是一个矩阵, 是未知参数, 与和是独立的。我们假设观察的结果集成形式并试着解决这个问题通过微分矩阵。人口、难民和移民事务局适用于真实的数据,尤其是当响应变量经常是统计数据的形式是已知的。让遵循泊松分布 ,作为其参数。人口、难民和移民事务局的概率质量函数是用来描述当的关系 ,响应变量是统计数据。

人口、难民和移民事务局属于GLM与日志链接功能在哪里是拦截和是一组系数。估计均值函数被定义为。

在这里是行独立的变量和系数,代表的数量解释变量。

假设所有是独立的;然后,联合对数似被定义为

寻找最好的价值 ,我们必须解决以下关系:

自系统方程是非线性的,所以初速与迭代再加权最小二乘(irl)算法用于估计回归系数的显式公式: 在哪里和。

存在多重共线性的矩阵是病态的,因为这个问题的时候,情况就变得复杂有效的推论。要克服这些多重共线性的影响,我们使用泛化的刘6定义PLRE]。在哪里。在这里,重要的一步是选择收缩参数的最优值影响PLRE的性能。此外,如果 ,然后。最近,卡西姆et al。38刘]推荐最优参数的刘在人口、难民和移民事务局估计量在哪里和在哪里是的元素和正交矩阵的列代表的特征向量矩阵,这样 ,在哪里。

2。人口、难民和移民事务局诊断

2.1。帽子矩阵,利用与人口、难民和移民事务局的残差

帽子矩阵是一种常见的用于计算利用措施。根据戴维森和蔡39),这顶帽子矩阵人口、难民和移民事务局的

的对角元素是理解为利用,即。计算的回归诊断措施,残差扮演最重要的角色(Belsley et al。18])。让象征着皮尔逊残留,对于人口、难民和移民事务局的案例中,我们将它定义为

同样,我们发现标准化皮尔逊残留

另一个有用的残余,是很大的帮助检测不寻常的观察称为异常残留。的人口、难民和移民事务局被定义为异常残留标志的符号函数(31日]。

2.2。影响诊断方法

Pregibon [25)是第一个在逻辑回归诊断工具,提出了影响诊断措施使用一步近似。提出了影响诊断考虑库克的距离,在异常变化,皮尔森的变化。人口、难民和移民事务局库克的距离,建议是

的措施的总体变化时的拟合模型观察从模型中删除。一步的近似表达式被定义为在哪里是切除后的权重矩阵的对角元素观察。此外,(13)也可以近似

哈丁和Hilbe40]建议的削减点检测不寻常的观察在漠视 ;这个过程是用来指定窗口的漠视。

Pregibon [25皮尔森]建议的改变另一个影响诊断测量检测影响的观察。应用一步近似,我们定义作为在哪里用于表示完整的数据集和的平方皮尔逊残差吗标志着平方皮尔逊残差的数据集没有分别观察。这个数据是用来研究的影响观察模型的拟合优度和估计。基于同样理由,Pregibon [25]建议的另一个统计测量的影响观察模型的拟合优度的变化异常的统计。改变的一步线性近似定义为异常的统计完整的数据集在哪里用于表示平方偏差残差平方偏差残留发现后删除吗分别观察。我们提出了一个简化的形式的方程(17)代替通过作为

截止值的变化异常统计检测不寻常的观察(25]。

适合的差异建议由Belsley et al。18)是另一种常见的影响的措施。后删除观察,评估的变化的模型。GLM的作为在哪里用于表示完整的数据集和预测回归变数删除后代表预测回归变数的情况。此外,它也可以写成

通过使用南都定理,(20.)是使变回原形在哪里称为重叠皮尔森残油、表明,观察的影响力。第二个矩阵将在下一节介绍。

3所示。刘影响措施泊松回归模型(PLRM)

3.1。在PLRM帽子矩阵,利用,剩余

帽子矩阵PLRM被定义为

利用是刘帽子对角线证明有用的检测有影响力的情况下做了一些调整。至于 , 为当的增加,减少单调。

使用刘估计量,皮尔森PLRM被定义为残差

皮尔森和共线独立变量残差的标准化的形式给出

3.2。影响PLRM诊断

近似的情况下删除公式使用南都定理[41)发现识别影响的观察。

定理1。删除后行 ,我们写作为在哪里代表了矩阵没有行。使用南都定理,我们近似。

证明。让 ,然后和声明(6)和(7)成为让和代表的ML和PLRE后删除分别观察。因此,我们有的帮助下SMV定理,可以改进的在哪里是行向量的矩阵和解决了相对湿度的第一部分年代(27) 在哪里。我们也有现在, 因此,这个定理是完成。
后(42]PLRE,库克的距离是重新定义为的如果之间的距离观察被认为是有影响力的和比较大。可以表示为另一个版本使用刘估计量,我们定义皮尔逊卡方的变化方刘皮尔逊残差在哪里用于表示完整的数据集和吗没有计算观察。相应地,刘估计量,我们制定的变化异常统计在哪里和代表平方刘和完整的数据和异常残差平方刘异常残差计算观察, 在哪里的标志功能吗。
后(19),我们给DFFITS PLRM作为在哪里和代表整个数据集的预测回归变数,删除后预测回归变数的情况。
使用南都定理,我们简化(37), 在哪里是皮尔森重叠与刘估计残留。

4所示。模拟研究

在本节中,我们总结了人口、难民和移民事务局和PLRM影响诊断结果使用蒙特卡罗模拟方案。我们遵循相同的仿真方案所使用的许多研究人员看到[43,44]。响应变量生成从泊松分布函数意味着什么所定义的

我们将模拟与解释变量与不同的样本大小加上轻微到严重的共线性水平。我们假设样本大小。此外,我们生成了解释变量使用以下公式:

我们考虑到不同的共线性的水平 ,我们假设的任意值回归系数的方法。现在我们几个有影响力的观察产生解释变量使用表达式 , 和 ,在哪里。所有的分析都使用执行R用1000复制软件。

4.1。结果与讨论

研究结果的计算识别的不寻常的观察与LE轻微到严重的存在提供了多重共线性表1- - - - - -6与与定义的最优和。从表1- - - - - -3与p= 2,很明显,执行而比较好不同的样本大小和多重共线性的方法。影响检测和方法是相同的和执行明显比和 ,分别。然而,可以看出他们的表现并不发生在一个更好的方法比所有的组合方法。类似的效果观察方法,发现影响观测的检测比例方法是比 ,尽管的性能有关同样是更好。此外,随着样本量的增加,探测的百分比的影响观察开发措施同样增加。此外,从表4- - - - - -6我们观察到,新开发的诊断措施更有效地执行 ,但提供更好的检测比例相比此外,不同的解释变量的大小影响的功能方法和方法,分别。和值大于和 ,分别。进一步不断变化的模式样本大小和多重共线性影响明确研究演示了通过图形性能的新开发的措施;参见图1,2,3为定义和。考虑到数据1- - - - - -3与样本大小的组合定义,解释变量,,和共线性水平,我们清楚地观察到积极增加新开发的性能的措施。

5。应用:英超足球数据

的说明提出的诊断方法,分析了足球联赛数据集,也可以在表7。说数据组成观察一个响应变量,即。,赢得了比赛和p= 5解释变量,即。,黄色的卡片 ,红牌的数量 ,目标了 ,目标承认 ,和点的数量。Algamal和Alanaz11)检查后也使用这个数据集。 ,拟合优度的测试发现,它是安装在泊松分布。说数据共线条件指数CI = 31.274。

从表8,一般是发现所有方法确定第一影响力的观察观察。卡方统计量的变化和偏差变化统计与观察的ML估计不检测任何影响力。此外,观察检测到有影响力的DFFITS没有刘估计量和所有的诊断。

删除高亮显示的效果观察的估计人口、难民和移民事务局和PLRM提出了表9。我们发现最大的变化在人口、难民和移民事务局和PLRM估计切除后1^圣观察发现的所有选定并提出措施。第二步是确定通过所有提出的措施是19^th。发现删除后的观察,我们发现最大的变化和。在检查这些结果,指出,在存在多重共线性,PLRM诊断措施有效地探测到有影响力的观察。此外,我们将索引块总结提出措施的功效在图4。

6。结论

本研究介绍了刘泊松回归诊断措施使用有偏估计量来处理人口、难民和移民事务局影响力的同时观察和多重共线性。正如前面所讨论的,多重共线性影响人口、难民和移民事务局的传统ML估计的性能。因此,我们采用了刘估计由于其高效的统计特性来解决多重共线性在人口、难民和移民事务局和有影响力的观察。仿真结果支持新的诊断措施的性能检测的ML估计比例和现有的措施是最糟糕的增加样本量,解释变量和多重共线性。结果证明,建议措施更有利于识别影响力的观察和多重共线性。因此,建议这些提议的措施指导用户处理多重共线性的问题估计强劲有效支持。

数据可用性

所有的数据都包含在本文的链接。

的利益冲突

作者声明没有利益冲突。

确认

作者感谢塔伊夫大学的研究人员支持项目TURSP-2020/160数量,塔伊夫大学,塔伊夫,沙特阿拉伯。

引用

z . y . Algamal,“有偏见的估计在泊松回归模型存在多重共线性的:一个主题评论,”Al-Qadisiyah行政和经济科学》杂志上,20卷,37-43,2018页。
视图: 谷歌学术搜索
a·马吉德·m·阿明,m . n . Akram”在刘贝尔估计回归模型存在多重共线性,”杂志的统计计算和模拟,2021年。
视图: 出版商的网站 | 谷歌学术搜索
m·阿明m . n . Akram和b . m . g . Kibria”一个新的调整刘泊松回归模型的估计量,”并发性和计算:实践和经验美国新泽西州霍博肯市威利,2021年。
视图: 出版商的网站 | 谷歌学术搜索
f·萨米·m·阿明,m . m .屁股”的岭估计conway-maxwell泊松回归模型和多重共线性:方法和应用,“并发性和计算:实践和经验美国新泽西州霍博肯市威利,2021年。
视图: 出版商的网站 | 谷歌学术搜索
w·b·科恩,t . k . Maiersperger s t·高尔半岛和d·p·特纳,“一种改进策略,生物物理变量的回归和陆地卫星ETM +数据”环境遥感,卷84,不。4、561 - 571年,2003页。
视图: 出版商的网站 | 谷歌学术搜索
p . McCullagh和j·a . Nelder广义线性模型,CRC专著统计&应用概率施普林格1 -,柏林,德国,1989年。
k . Mansson和g . Shukur泊松岭回归估计量。”经济模型,28卷,不。4、1475 - 1481年,2011页。
视图: 出版商的网站 | 谷歌学术搜索
c·斯坦因通常的估计量的意思是多元正态分布美国斯坦福大学,斯坦福大学,1956年。
视图: 出版商的网站
a·e·马尔和r . w . Kennard岭回归:偏差估计非正交的问题”,技术计量学,12卷,不。1,55 - 67、1970页。
视图: 出版商的网站 | 谷歌学术搜索
k·刘,”一个新类偏差估计的线性回归,”沟通在统计理论和方法22卷,第402 - 393页,1993年。
视图: 谷歌学术搜索
z . y . Algamal和m . m . Alanaz”,提出的方法在岭回归估计的参数在泊松回归模型中,“应用统计分析的电子杂志11卷,第515 - 506页,2018年。
视图: 谷歌学术搜索
n . k .拉施德y和z Algamal”,一个新岭泊松回归模型的估计量,”伊朗科技期刊、事务:科学,43卷,不。6,2921 - 2928年,2019页。
视图: 出版商的网站 | 谷歌学术搜索
方面他和a . z Algamal”,打出Liu-type估计在泊松回归模型中,“伊朗统计学会杂志》上,19卷,不。1,21-37,2020页。
视图: 出版商的网站 | 谷歌学术搜索
m·卡西姆k . Mansson m·阿明b . m . Golam Kibria, p . Sjolander,“偏置调整泊松岭estimators-method和应用,”伊朗科技期刊、事务:科学,44卷,不。6,1775 - 1789年,2020页。
视图: 出版商的网站 | 谷歌学术搜索
m·阿明m . n . Akram和m . Amanullah”在james-stein泊松回归模型的估计量,”Statistics-Simulation通信和计算,1-13,2020页。
视图: 出版商的网站 | 谷歌学术搜索
A . f . Lukman Dawoud, b . m . g . Kibria z . y . Algamal,和b . Aladeitan”的新估计共线泊松回归模型:模拟和应用程序中,“科学报告卷。11日,1 - 11,2021页。
视图: 出版商的网站 | 谷歌学术搜索
r·d·库克,“检测线性回归的影响力的观察”技术计量学,19卷,不。1、15—18,1977页。
视图: 出版商的网站 | 谷歌学术搜索
d . a . Belsley大肠栏和r . Welsch回归诊断:识别影响数据和共线性的来源美国新泽西州霍博肯市威利,1980年。
Chatterjee和a·s·哈迪”影响力的观察,高杠杆点,和离群值线性回归,”统计科学1卷,第393 - 379页,1986年。
视图: 出版商的网站 | 谷歌学术搜索
e·沃克和j·b·桦树”影响措施岭回归。”技术计量学,30卷,不。2、221 - 227年,1988页。
视图: 出版商的网站 | 谷歌学术搜索
a . Jahufer和c . Jianbao”评估全球影响力的观察修改岭回归,”统计与概率的信,卷79,不。4、513 - 518年,2009页。
视图: 出版商的网站 | 谷歌学术搜索
m·a·Ullah g·r·帕夏,m:“地方影响诊断修改岭回归”,通信在统计理论和方法,42卷,不。10日,1851 - 1869年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
d·佩纳”影响的新统计线性回归,”技术计量学卷,47号1、1 - 12,2005页。
视图: 出版商的网站 | 谷歌学术搜索
m·卡希夫·m·a·Ullah, m .:“有影响力的诊断与佩纳修改的岭回归的统计,“Statistics-Simulation通信和计算,2019年。
视图: 出版商的网站 | 谷歌学术搜索
d . Pregibon“逻辑回归诊断”,统计年报9卷,第724 - 705页,1981年。
视图: 出版商的网站 | 谷歌学术搜索
a·h·李,“诊断显示在广义线性模型,利用和影响评估”澳大利亚杂志统计卷,29号3、233 - 243年,1987页。
视图: 出版商的网站 | 谷歌学术搜索
d·a·威廉姆斯,“广义线性模型诊断使用异常和单一的情况下删除,”皇家统计学会杂志》上的C系列36卷,第749 - 741页,1987年。
视图: 出版商的网站 | 谷歌学术搜索
r . j . o·h·海恩斯和e·m·卡特“改进添加变量和局部残留检测的情节有影响力的观察在广义线性模型中,“皇家统计学会杂志》:系列C(应用统计),42卷,不。1,3-16,1993页。
视图: 谷歌学术搜索
w·托马斯和r·d·库克,“评估影响在广义线性模型的回归系数,”生物统计学,卷76,不。4、741 - 749年,1989页。
视图: 出版商的网站 | 谷歌学术搜索
m·阿明,m . Amanullah和m .:“逆高斯回归残差的经验评估的评估影响点,”化学计量学杂志》,30卷,不。7,394 - 404年,2016页。
视图: 出版商的网站 | 谷歌学术搜索
m·阿明,m . Amanullah g . m . Cordeiro”影响诊断与调整异常残差,语法回归模型”Statistics-Simulation通信和计算,46卷,不。9日,第6973 - 6959页,2017年。
视图: 出版商的网站 | 谷歌学术搜索
z . y . Algamal”,在泊松回归模型诊断,”应用统计分析的电子杂志5卷,第186 - 178页,2012年。
视图: 谷歌学术搜索
m·r·Ozkale s Lemeshow, r·斯特“逻辑回归诊断在岭回归,”计算统计数据,33卷,不。2、563 - 593年,2018页。
视图: 出版商的网站 | 谷歌学术搜索
m·阿明·m·a·Ullah, m:“影响γ岭回归模型,诊断”杂志的统计计算和模拟卷,89年,第556 - 536页,2020年。
视图: 谷歌学术搜索
答:汗,m . Amanullah和m·阿明“泊松回归诊断与岭估计,”通信数据模拟和计算,2021年。
视图: 出版商的网站 | 谷歌学术搜索
答:汗,m . Amanullah h . m . Aljohani和s . a . m .穆巴拉克,“影响诊断的泊松回归模型使用两个参数估计,“亚历山大工程杂志,60卷,不。5,4745 - 4759年,2021页。
视图: 出版商的网站 | 谷歌学术搜索
m·阿明·m·费萨尔,m . n . Akram”影响诊断的逆高斯岭回归模型:应用化学计量学,”化学计量学杂志》,35卷,页1 - 2021。
视图: 出版商的网站 | 谷歌学术搜索
m·卡西姆·b·m·g . Kibria k . Mansson p . Sjolander,”刘新泊松回归估计量:方法与应用,“应用统计学杂志》卷,47页1 - 14,2019。
视图: 出版商的网站 | 谷歌学术搜索
a·c·戴维森和c·l·蔡”,回归模型诊断。”在统计学第一节国际统计审查/ Revue国际歌,60卷,不。3、337 - 353年,1992页。
视图: 出版商的网站 | 谷歌学术搜索
j·w·哈丁和j·m·Hilbe广义估计方程查普曼和大厅/ CRC, 2012年美国佛罗里达州博卡拉顿的。
c·r·拉奥线性统计推断及其应用新泽西州霍博肯市约翰·威利& Sons,美国,1973年。
a . Jahufer“全球影响力的观察刘翔回归模型检测,”开放杂志统计,卷03,不。01,第5 - 11页,2013年。
视图: 出版商的网站 | 谷歌学术搜索
m . Mittlbock和h . Heinzl”措施的解释了伽马回归模型的变化,“Statistics-Simulation通信和计算没有,卷。31日。1,第73 - 61页,2002。
视图: 出版商的网站 | 谷歌学术搜索
a·e·克拉克和c . g . Troskie岭regression-a仿真研究中,“Statistics-Simulation通信和计算,35卷,不。3、605 - 619年,2006页。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

821年

下载

790年

引用