科学

PDF
科学/2021/文章

研究文章|开放访问

体积 2021 |文章ID 5545356 | https://doi.org/10.1155/2021/5545356

阿德瓦尔·卢克曼(Adewale F.,,,, 伽马回归模型的新脊型估计器”,科学,,,, 卷。2021,,,, 文章ID5545356,,,, 8 页面,,,, 2021 https://doi.org/10.1155/2021/5545356

伽马回归模型的新脊型估计器

学术编辑:弗朗西斯科·阿尤加(Francisco Ayuga)
已收到 2021年1月26日
公认 2021年6月4日
出版 2021年6月21日

抽象的

已知的线性回归模型(LRM)主要用于对响应变量(生物活性)与一种或多种生理化学或结构特性之间的QSAR关系进行建模,这些特性主要是当响应变量的分布正常时用作解释变量。伽马回归模型经常用于偏斜的因变量。使用最大似然估计器(MLE)估算两个模型中的参数。但是,在两个模型的多共线性存在下,MLE变得不稳定。在这项研究中,我们提出了一个新的估计器,并提出了一些偏置参数,以估计具有多重共线性时伽马回归模型的回归参数。进行了仿真研究和现实生活应用,以通过平方误差标准评估估计器的性能。模拟和现实生活应用的结果表明,所提出的伽马估计量的MSE值比其他考虑的估计量低。

1.简介

通常采用伽马回归模型(GRM)来模拟一个偏斜的响应变量,该变量遵循具有一个或多个自变量的伽马分布。它用于模拟多个领域的现实数据问题,例如医学科学,医疗保健经济和汽车保险索赔[1]。当偏斜的响应变量遵循具有给定的一组自变量的伽马分布时,首选使用伽马回归模型[2-4]。与线性回归模型一样,解释变量独立性假设在实践中很少存在,因此在伽马回归模型中存在多重共线性问题,这意味着最大似然估计器(MLE)是不稳定的,并且给出了较高的方差[5]。因此,构建置信区间或测试模型的回归参数变得困难[6]。许多作者提出了处理多重共线性的不同估计量。Hoerl和Kennard给出的山脊估计器[7]是MLE的替代方法,可以克服线性回归模型中的多共线性。估计器已扩展到广义线性模型(GLM)(请参阅[参见[8,,,,9])。另外,莫恩森和舒克[10]和Månsson[11]分别将脊估计器引入了泊松回归模型和负二项回归模型。Kurtoglu和Ozkale [12]扩展了刘的刘估计器[13]到伽马回归模型。Batah等。[[14]通过将广义山脊估算器和夹克式山脊估算器的想法结合在一起,提出了修改后的折刀脊估计器。另外,藻类[3]开发了经过改良的夹克脊伽马回归估计器。最近,提出了针对LRM和GRM的两个偏置参数的Ridge回归估计器的修改版本[15,,,,16]。Kibria和Lukman [17]提出了一个名为Ridge型估计器的新估计器,并应用于流行的线性回归模型。

本文中描述的主要目标是扩展Kibria和Lukman的新山脊型估计器[17]到GRM。文章组织如下:在第1节中,我们提出了新的脊型γ估计器,然后我们得出了其属性。此外,我们已经进行了理论比较,并解释了第2节中的偏置参数的估计,进行了仿真研究,以调查和比较新的伽马估计器的性能和第3节中的一些现有估计器。我们还分析了真实的一个。- 第4节中的生活数据,最后,我们在第5节中提供了一些结论。

2.统计方法论

考虑响应变量 遵循已知的伽马分布,具有非负形状的参数 和非负量表的参数 具有概率密度函数: 在哪里 ((1) 是

等式(2)迭代解决,因为它是非线性的 使用Fisher评分方法如下: 在哪里 是迭代学位, 估计系数的最后一步被认为是 在哪里 ,,,, 矩阵, ,,,, 元素, 是通过Fisher评分迭代的程序获得的(请参阅[参见[12,,,,18])。协方差的矩阵形式,平方误差(MMSE)的矩阵以及均方根误差(MSE),是通过algamal和asar [获得的[MSE)[19]和书面,分别如下: 在哪里 在哪里 被认为是j给定矩阵的特征值 和符号 是转置的X

伽马脊估计器(GRE)被认为是 在哪里 是偏置参数。GRE的MMSE和MSE由 在哪里 这样 是特征向量的矩阵

LIU估计器(GLE)由 在哪里 是偏置参数。

GLE的MMSE和MSE由

2.1。新的伽马估计器

对于已知的线性回归模型,Kibria和Lukman [17]提出了以下新的山脊型估计器,并被称为Kibria-Lukman(KL)估计器,该估计器被定义为 在哪里 ,,,, ,,,,

在这项研究中,我们将KL估计量扩展到GRM,并将估计值称为伽马KL估计量(GKL),如下所示: 在哪里

GKL估计量的偏置和协方差矩阵形式分别以: 在哪里

因此,在特征值方面,MMSE和MSE分别定义为

2.2。估计器的理论比较

一些需要的引理如下,用于比较理论中的估计器。

引理1。认为 矩阵 是积极的(P.D.)以及 是P.D.(或者 是非负的);然后, iff ,,,,在哪里 是矩阵的最大特征值 [[20]。

引理2。认为 是一个 P.D.矩阵和 成为矢量;然后, 是P.D.iff [[21]。

引理3。假设 ,,,, 是给定的两个线性估计器 另外,假设 是P.D.,哪里 被认为是协方差矩阵形式 ,,,, 最后, 如果 ,,,,在哪里 [[22]。

2.2.1。GKL和MLE的比较

定理1。 比更好 如果

证明。分散的区别是 我们观察到了 是积极的(p.d.),因为 为了 引理3,证明完成了。

2.2.2。GKL和GRE的比较

定理2。 优越 如果 在哪里

证明。 在哪里
显然,对于偏见参数 ,,,, 如果 ,,,,在哪里 是矩阵形式的最大特征值 引理1,证明完成了。

2.2.3。GKL和GLE的比较

定理3。 优越 如果 在哪里

证明。分散的区别是 我们观察到了 是P.D.自从 为了 引理3,证明完成了。

2.2.4。参数的估计k

最佳价值 是从KIBRIA和LUKMAN研究的KL估计器中采用的[17] 如下:

最佳价值 给出(24)取决于未知参数 因此,我们将相应的无偏估计器代替它们放置。最后,

3.仿真设计

R 3.4.1编程语言用于本研究的仿真设计。跟随algamal [19],响应变量的生成如下: 在哪里 ,,,, 表示 参数向量, ,,,,被选为 [[1,,,,23,,,,24]。跟随kibria [25]和Kibria和Banik [26],给定的解释变量如下: 在哪里 是由标准正常产生的 是解释变量之间的相关性。值 在这项研究中,选择为0.95、0.99和0.999。我们获得了p = 4 and 7 explanatory variables, respectively, for the following sample sizes: 20, 50, and 200. For each replicate, we compute the mean square error (MSE) of the estimators by using the following equation: 在哪里 将是以下任何估计器(MLE,GRE,GLE和GLK)。均方误差值越小,估计器越好。GRE和GLE的偏置参数如下:

我们检查了提出的估计量的两个收缩参数。它们的定义如下:

不同值的仿真结果n,,,,φ, 和ρ在桌子中呈现12为了p = 4 and 7, respectively. For a graphical representation, we also plotted MSE vsn,,,,ρ,,,,φ, 和p在图中1


n ρ mle grk gd gkl( gkl(

0.5 20 0.95 2.008 0.949 1.643 1.193 0.942
0.99 8.195 2.761 7.156 4.083 2.018
0.999 78.599 23.305 75.070 37.119 17.929
50 0.95 1.265 0.643 1.025 0.763 0.601
0.99 4.277 1.257 3.532 1.799 1.102
0.999 38.172 8.044 35.320 13.298 7.051
200 0.95 0.544 0.444 0.478 0.459 0.435
0.99 0.923 0.467 0.682 0.551 0.463
0.999 5.068 0.554 4.067 1.522 0.545

1 20 0.95 3.514 1.758 3.113 2.025 1.357
0.99 15.677 6.753 14.558 8.226 4.568
0.999 154.076 63.790 150.439 79.217 61.203
50 0.95 2.671 1.528 2.406 1.655 1.155
0.99 11.034 5.410 10.200 6.003 2.205
0.999 105.109 48.863 102.240 54.610 26.562
200 0.95 0.628 0.449 0.546 0.473 0.445
0.99 1.392 0.504 1.050 0.683 0.463
0.999 9.837 3.220 8.355 2.948 1.276


n ρ mle grk gd gkl( gkl(

0.5 20 0.95 4.049 2.193 3.473 2.784 2.165
0.99 17.213 6.962 15.174 10.464 6.451
0.999 172.420 63.921 164.530 102.441 55.631
50 0.95 2.393 1.525 2.188 1.800 1.520
0.99 7.742 3.192 7.036 4.588 2.509
0.999 69.729 22.843 67.015 36.936 22.786
200 0.95 1.375 1.155 1.282 1.252 1.103
0.99 2.131 1.210 1.750 1.561 1.207
0.999 9.941 1.658 8.325 4.507 1.431

1 20 0.95 7.397 4.424 6.884 5.075 3.476
0.99 34.889 19.071 33.216 22.709 11.262
0.999 356.808 192.852 350.583 231.657 123.844
50 0.95 4.790 3.348 4.651 3.564 2.779
0.99 19.784 12.398 19.291 13.428 5.905
0.999 191.838 116.591 189.700 126.654 35.276
200 0.95 1.644 1.462 1.549 1.402 1.348
0.99 3.269 1.583 2.839 2.125 1.437
0.999 20.402 4.716 18.550 9.311 4.049

从两张桌子看12和数字1MSE随着多重共线性水平的增加而增加,使其他变量保持恒定。例如,当n = 50, for the MLE, the MSE increases from 1.265 to 38.172 as the level of multicollinearity, 给定的0.95升至0.999 p = 4. We also observed that, as the explanatory variables increases fromp = 4 top = 7, the MSE increases provided other variables are kept constant. For instance, whenn = 20 for  = 0.99 and GRE-K的MSE从6.753上升到19.071。另外,当固定其他变量时,增加样本量n导致所有估计器的MSE减少,例如,GLE-D的MSE值n = 200, p = 7, and  = 0.95 reduces from 1.282 to 1.549. Furthermore, the MSE increases as the dispersion parameter 从0.5增加到1。由于多共线性对估计量的影响,最大似然估计器的性能最低。表中的结果12和数字1表明GKL优于其他估计器。由于所提出的估计器GKL的性能取决于其偏置参数,因此我们检查了GKL估计器的两个不同的偏置参数,并观察到GKL估计器在偏置参数时表现最好, 模拟结果进一步支持了理论上的结果,即GKL估计器的性能是最好的。GRE和GLE的性能比MLE的表现更好。此外,我们通过分析部分中的真实数据来探索提出的估计器和现有估计器的性能4

4.现实生活数据:藻类数据

本研究中采用的化学数据集用于藻类研究[3,,,,19]。他采用定量结构活性关系(QSAR)模型来研究生物学活动之间的关系 在65个Imidazo [4,5-B]吡啶衍生物(一种抗癌化合物)和15个分子描述符中。QSAR模型广泛用于以下领域:化学科学,生物科学和工程。线性回归模型通常用于模拟响应变量(生物活性)与一种或多种生理化学或结构特性之间的QSAR关系,这些特性用作解释变量,尤其是当响应变量正态分布时[27]。但是,当响应变量偏斜时采用回归建模[3,,,,19,,,,24,,,,28]。在这项研究中,经过algamal [3,,,,19],表中描述了感兴趣的变量3


可变名称 描述

MOR21V 信号21/由范德华的加权体积加权
MOR21E 信号21/由桑德森电负性加权
IC3 信息内容索引
MW 分子量
spmaxa_d 拓扑距离矩阵的归一化领导特征值
ATS8V Broto – Moreau的滞后8号自相关8
GATS4P 滞后4的齿轮自相关由极化加权
SPMAX8_BH(P) 最大的特征值n。8的负担矩阵由极化性加权。
spmax3_bh(s) 最大的特征值n。由L州加权的3个负担矩阵。
p_vsa_e_3 sanderson电负性,bin 3类似于p_vsa
TDB08M 基于3D拓扑距离的描述符;滞后8由质量加权
RDF100M 径向分布函数:100/通过质量加权
MATS7V 延迟7的莫兰自相关,由范德华量加权
MATS2S lag 2的moran自相关由l状态加权
hats6v 延迟6的杠杆加权自相关/由Van der Waals加权

根据algamal [3,,,,19];响应变量,y,遵循伽马分布。使用FIT测试的卡方优点,作者检查了响应变量非常适合具有测试统计量的伽马分布( 值)为9.3657(0.07521)。藻类[19]报告说,以下变量,MOR21V和MOR21E,SPMAX3_BH(S)和ATS8V,SPMAXA_D和MW,最后MW和MW和ATS8V之间的相关系数大于0.9,并将其解释为高相关性。特征值 为7.6687e+8,1.3238e+6,85791,5523.6,358.71,250.51,148.46,42.731,27.239,18.015,9.115,9.1197,8.6175,8.6175,8.6175,5.7748,2.4292,1.6532,1.6532,1.6532,1.6532,1.65659,和0.3659。因此,条件号,CN计算如下:

cn =   = 45777.7 which indicates the presence of severe multicollinearity [19]。伽马回归模型和均方误差的结果显示在表中4


COEF。 mle grk gd gkl( gkl(

tpecretni -0.1568 -0.1597 -0.1568 -0.1624 -0.1573
MW 0.0158 0.0155 0.0158 0.0155 0.0148
IC3 0.8251 0.8254 0.8251 0.8255 0.8260
spmaxa_d -0.4681 -0.4418 -0.4681 -0.4407 -0.3816
ATS8V -2.3347 -2.3161 -2.3347 -2.3165 -2.2691
MATS7V -1.1565 -1.1382 -1.1565 -1.1392 -1.0903
MATS2S -2.2127 -2.1479 -2.2127 -2.1452 -1.9987
GATS4P -2.7097 -2.6510 -2.7097 -2.6511 -2.5068
spmax8_bh(p 2.8041 2.7426 2.8041 2.7425 2.5930
spmax3_bh(s) 0.4082 0.3994 0.4082 0.3991 0.3790
p_vsa_e_3 0.0016 0.0017 0.0016 0.0017 0.0020
TDB08M -1.3127 -1.1859 -1.3127 -1.1811 -0.8954
RDF100M -0.0004 -0.0004 -0.0004 -0.0005 -0.0006
MOR21V -0.8682 -0.8448 -0.8682 -0.8446 -0.7882
MOR21E -0.0504 -0.0593 -0.0504 -0.0597 -0.0795
hats6v -0.5290 -0.4030 -0.5290 -0.3803 -0.1723
d/k 0.0077 0.9999 0.0824 0.2871
MSE 5.5599 3.5062 5.5599 3.2351 1.6397

表格中的结果4同意模拟结果。就拥有最高的MSE而言,MLE的性能是最糟糕的。提出的带有偏置参数的估计器 按此顺序有最小的正方形错误,然后是 ,,,,GRE-K和GLE-D估计器。在模拟研究中召回与 由于收缩参数表现最好。

5.一些总结的评论

Kibria -Lukman [17]估计器的开发是为了避免线性回归模型的多共线性问题。该估计器在脊回归和LIU型回归估计器的类别中,并且具有单个偏置参数。在伽马回归模型中,多重共线性也是对回归系数估计中最大似然估计器(MLE)的性能的威胁。在先前的研究中引入了伽马脊(GRE)和伽马刘估计量(GLE),以减轻多重共线性问题。从那以后,Kibria和Lukman [17]声称,KL估计器在线性回归模型中的表现优于脊和LIU估计器,这促使我们开发了GRM中有效估计的伽马KL(GKL)估计器。我们得出了GKL估计量的统计特性,并从理论上将其与MLE,GRE和GLE进行了比较。此外,进行了模拟研究和化学数据分析以支持理论研究。模拟和应用程序结果表明与 由于收缩参数表现最好。总之,当已知的伽马回归模型中存在多重共线性时,首选GKL估计量的使用。

数据可用性

可应要求提供用于支持本研究发现的数据。

利益冲突

作者宣称他们没有利益冲突。

参考

  1. M. Amin,M。Qasim和M. Amanullah,“ Asar andgenç和Huang and Yang和Yang的两参数估计方法的性能,伽马回归模型的两参数估计方法”伊朗科学技术杂志,交易A:科学,卷。43,不。6,第2951–2963页,2019年。查看:发布者网站|谷歌学术
  2. A. M. Al-Abood和D. H. Young,“改善了伽马回归模型的拟合统计数据的偏差优势”,统计理论和方法的通信,卷。15,不。6,第1865– 1874年,1986年。查看:发布者网站|谷歌学术
  3. Z. Y. Algamal,“开发伽马回归模型的脊估计器”,化学计量学杂志,卷。32,不。10,p。E3054,2018。查看:发布者网站|谷歌学术
  4. M. Wasef Hattab,“伽马回归的预测间隔的推导”,统计计算与仿真杂志,卷。86,不。17,第3512–3526页,2016年。查看:发布者网站|谷歌学术
  5. E. Dunder,S。Gumustekin和M. A. Cengiz,“通过人造蜜蜂菌落算法的伽马回归模型中的可变选择”,”应用统计杂志,卷。45,不。1,第8–16页,2016年。查看:发布者网站|谷歌学术
  6. S. Perez-Melo和B. M. G. Kibria,“关于在存在多重共线性的一些测试测试回归系数的测试统计数据:一项仿真研究,”统计,卷。3,不。1,第40–55页,2020年。查看:发布者网站|谷歌学术
  7. A. E. Hoerl和R. W. Kennard,“脊回归:非正交问题的偏见估计”,技术测量学,卷。12,不。1,第55-67页,1970年。查看:发布者网站|谷歌学术
  8. R. L. Schaefer,L。D。Roi和R. A. Wolfe,“山脊逻辑估计器”,统计理论和方法的通信,卷。13,不。1,第99–113页,1984年。查看:发布者网站|谷歌学术
  9. B. Segerstedt,“在普通线性模型中的普通脊回归上”,统计理论和方法的通信,卷。21,否。8,第2227–2246页,1992年。查看:发布者网站|谷歌学术
  10. K.Månsson和G. Shukur,“泊松岭回归估算器”,经济建模,卷。28,不。4,第1475–1481页,2011年。查看:发布者网站|谷歌学术
  11. K.Månsson,“在负二项式回归模型的脊估计器上,”经济建模,卷。29,没有。2,第178–184页,2012年。查看:发布者网站|谷歌学术
  12. F. Kurtoglu和M. R. Ozkale,“广义线性模型中的LIU估计:对伽马分布式响应变量的应用,”统计论文,卷。57,不。4,第911–928页,2016年。查看:谷歌学术
  13. K. Liu,“线性回归中的一种新的有偏见估计”,统计理论和方法中的通信,卷。22,不。2,第393–402页,1993年。查看:谷歌学术
  14. F. S. M.数学及其应用的调查,卷。3,第111–122页,2008年。查看:发布者网站|谷歌学术
  15. A. F. Lukman,K。Ayinde,S。Binuomote和O. A. Clement,“修改后的脊型估计量来对抗多重共线性:应用于化学数据”,”化学计量学杂志,卷。33,不。5,p。E3125,2019。查看:发布者网站|谷歌学术
  16. A. F. Lukman,K。Ayinde,B。M。G. Kibria和E. T. Adewuyi,“伽马回归模型的修饰脊型估计器”,统计模拟和计算中的通信,第1-15页,2020年。查看:发布者网站|谷歌学术
  17. B. M. G. Kibria和A. F. Lukman,“线性回归模型的新山脊型估计器:仿真和应用”,”科学,卷。2020年,文章ID 9758378,16页,2020年。查看:发布者网站|谷歌学术
  18. J. W. Hardin和J. M. Hilbe,广义线性模型和扩展,Stata出版社,美国德克萨斯州大学车站,2012年。
  19. Z. Y. Algamal和Y. Asar,“伽马回归模型的LIU型估计器”,统计模拟和计算中的通信,卷。49,不。8,第2035–2048页,2018年。查看:发布者网站|谷歌学术
  20. S. G. Wang,M。X。Wu和Z. Z. Jia,矩阵不平等,中国科学出版社,北京,中国,第二版,2006年。
  21. R. W. Farebrother,“进一步导致脊回归的均方误差”,皇家统计学会杂志:B系列(方法论),卷。38,不。3,第248–250页,1976年。查看:发布者网站|谷歌学术
  22. G. Trenkler和H. Toutenburg,“偏置估计器之间的平均平方误差矩阵比较 - 最近结果概述”,”统计论文,卷。31,否。1,第165-179页,1990年。查看:发布者网站|谷歌学术
  23. A. F. Lukman,K。Ayinde,S。K。Sek和E. Adewuyi,“线性回归模型中的修改后的新两参数估计器”,”工程建模和模拟,卷。2019年,文章ID 6342702,10页,2019年。查看:发布者网站|谷歌学术
  24. A. F. Lukman,K。Ayinde,B。Aladeitan和R. Bamidele,“具有先验信息的公正估计器”,阿拉伯基础科学杂志,卷。27,否。1,第45-55页,2020年。查看:发布者网站|谷歌学术
  25. B. M. G. Kibria,“一些新脊回归估计器的性能”,统计模拟和计算中的通信,卷。32,不。1,第419–435页,2003年。查看:发布者网站|谷歌学术
  26. B. M. G. Kibria和S. Banik,“一些脊回归估计器及其表现”,现代应用统计方法杂志,卷。15,不。1,第206–238页,2016年。查看:发布者网站|谷歌学术
  27. Z. Y. Algamal和M. H. Lee,“基于加权刑罚逻辑回归的QSAR分类模型中的一种新型分子描述方法,”化学计量学杂志,卷。31,否。10,p。E2915,2017。查看:发布者网站|谷歌学术
  28. A. F. Lukman,A。Zakariya,G。B。M. Kibria和K. Ayinde,“逆高斯回归模型的KL估计器”,,”并发计算实践实验,p。E6222,2021,Inpress。查看:发布者网站|谷歌学术

版权所有©2021 Adewale F. Lukman等。这是根据创意共享归因许可证,只要适当地引用了原始作品,允许在任何媒介中不受限制地使用,分发和繁殖。


更多相关文章

PDF 下载引文 引用
下载其他格式更多的
订单打印副本命令
视图560
下载450
引用

相关文章

我们的首席编辑选择了年度最佳奖:2020年杰出研究贡献。阅读获奖文章