伽马回归模型的新脊型估计器

抽象的

已知的线性回归模型（LRM）主要用于对响应变量（生物活性）与一种或多种生理化学或结构特性之间的QSAR关系进行建模，这些特性主要是当响应变量的分布正常时用作解释变量。伽马回归模型经常用于偏斜的因变量。使用最大似然估计器（MLE）估算两个模型中的参数。但是，在两个模型的多共线性存在下，MLE变得不稳定。在这项研究中，我们提出了一个新的估计器，并提出了一些偏置参数，以估计具有多重共线性时伽马回归模型的回归参数。进行了仿真研究和现实生活应用，以通过平方误差标准评估估计器的性能。模拟和现实生活应用的结果表明，所提出的伽马估计量的MSE值比其他考虑的估计量低。

1.简介

通常采用伽马回归模型（GRM）来模拟一个偏斜的响应变量，该变量遵循具有一个或多个自变量的伽马分布。它用于模拟多个领域的现实数据问题，例如医学科学，医疗保健经济和汽车保险索赔[1]。当偏斜的响应变量遵循具有给定的一组自变量的伽马分布时，首选使用伽马回归模型[2-4]。与线性回归模型一样，解释变量独立性假设在实践中很少存在，因此在伽马回归模型中存在多重共线性问题，这意味着最大似然估计器（MLE）是不稳定的，并且给出了较高的方差[5]。因此，构建置信区间或测试模型的回归参数变得困难[6]。许多作者提出了处理多重共线性的不同估计量。Hoerl和Kennard给出的山脊估计器[7]是MLE的替代方法，可以克服线性回归模型中的多共线性。估计器已扩展到广义线性模型（GLM）（请参阅[参见[8，，，，9]）。另外，莫恩森和舒克[10]和Månsson[11]分别将脊估计器引入了泊松回归模型和负二项回归模型。Kurtoglu和Ozkale [12]扩展了刘的刘估计器[13]到伽马回归模型。Batah等。[[14]通过将广义山脊估算器和夹克式山脊估算器的想法结合在一起，提出了修改后的折刀脊估计器。另外，藻类[3]开发了经过改良的夹克脊伽马回归估计器。最近，提出了针对LRM和GRM的两个偏置参数的Ridge回归估计器的修改版本[15，，，，16]。Kibria和Lukman [17]提出了一个名为Ridge型估计器的新估计器，并应用于流行的线性回归模型。

本文中描述的主要目标是扩展Kibria和Lukman的新山脊型估计器[17]到GRM。文章组织如下：在第1节中，我们提出了新的脊型γ估计器，然后我们得出了其属性。此外，我们已经进行了理论比较，并解释了第2节中的偏置参数的估计，进行了仿真研究，以调查和比较新的伽马估计器的性能和第3节中的一些现有估计器。我们还分析了真实的一个。- 第4节中的生活数据，最后，我们在第5节中提供了一些结论。

2.统计方法论

考虑响应变量遵循已知的伽马分布，具有非负形状的参数和非负量表的参数具有概率密度函数：在哪里和（（1）是

等式（2）迭代解决，因为它是非线性的使用Fisher评分方法如下：在哪里是迭代学位，和。估计系数的最后一步被认为是在哪里，，，，矩阵，，，，，和在我元素，。和是通过Fisher评分迭代的程序获得的（请参阅[参见[12，，，，18]）。协方差的矩阵形式，平方误差（MMSE）的矩阵以及均方根误差（MSE），是通过algamal和asar [获得的[MSE）[19]和书面，分别如下：在哪里。在哪里被认为是j给定矩阵的特征值和符号是转置的X。

伽马脊估计器（GRE）被认为是在哪里和是偏置参数。GRE的MMSE和MSE由在哪里这样是特征向量的矩阵。

LIU估计器（GLE）由在哪里和是偏置参数。

GLE的MMSE和MSE由

2.1。新的伽马估计器

对于已知的线性回归模型，Kibria和Lukman [17]提出了以下新的山脊型估计器，并被称为Kibria-Lukman（KL）估计器，该估计器被定义为在哪里，，，，，，，，和。

在这项研究中，我们将KL估计量扩展到GRM，并将估计值称为伽马KL估计量（GKL），如下所示：在哪里。

GKL估计量的偏置和协方差矩阵形式分别以：在哪里和

因此，在特征值方面，MMSE和MSE分别定义为

2.2。估计器的理论比较

一些需要的引理如下，用于比较理论中的估计器。

引理1。认为矩阵是积极的（P.D.）以及是P.D.（或者是非负的）；然后， iff ，，，，在哪里是矩阵的最大特征值[[20]。

引理2。认为是一个 P.D.矩阵和成为矢量；然后，是P.D.iff [[21]。

引理3。假设，，，，是给定的两个线性估计器。另外，假设是P.D.，哪里被认为是协方差矩阵形式和，，，，。最后，如果，，，，在哪里 [[22]。

2.2.1。GKL和MLE的比较

定理1。 比更好如果

证明。分散的区别是我们观察到了是积极的（p.d.），因为为了。引理3，证明完成了。

2.2.2。GKL和GRE的比较

定理2。优越如果在哪里

证明。 在哪里和。
显然，对于偏见参数和，，，，也。如果，，，，在哪里是矩阵形式的最大特征值。引理1，证明完成了。

2.2.3。GKL和GLE的比较

定理3。优越如果在哪里。

证明。分散的区别是我们观察到了是P.D.自从为了和。引理3，证明完成了。

2.2.4。参数的估计k

最佳价值在是从KIBRIA和LUKMAN研究的KL估计器中采用的[17] 如下：

最佳价值给出（24）取决于未知参数和因此，我们将相应的无偏估计器代替它们放置。最后，

3.仿真设计

R 3.4.1编程语言用于本研究的仿真设计。跟随algamal [19]，响应变量的生成如下：在哪里，，，，表示。参数向量，，，，，被选为[[1，，，，23，，，，24]。跟随kibria [25]和Kibria和Banik [26]，给定的解释变量如下：在哪里是由标准正常产生的是解释变量之间的相关性。值在这项研究中，选择为0.95、0.99和0.999。我们获得了p = 4 and 7 explanatory variables, respectively, for the following sample sizes: 20, 50, and 200. For each replicate, we compute the mean square error (MSE) of the estimators by using the following equation: 在哪里将是以下任何估计器（MLE，GRE，GLE和GLK）。均方误差值越小，估计器越好。GRE和GLE的偏置参数如下：

我们检查了提出的估计量的两个收缩参数。它们的定义如下：

不同值的仿真结果n，，，，φ，和ρ在桌子中呈现1和2为了p = 4 and 7, respectively. For a graphical representation, we also plotted MSE vsn，，，，ρ，，，，φ，和p在图中1。


	n	ρ	mle	grk	gd	gkl（）	gkl（）

0.5	20	0.95	2.008	0.949	1.643	1.193	0.942
		0.99	8.195	2.761	7.156	4.083	2.018
		0.999	78.599	23.305	75.070	37.119	17.929
	50	0.95	1.265	0.643	1.025	0.763	0.601
		0.99	4.277	1.257	3.532	1.799	1.102
		0.999	38.172	8.044	35.320	13.298	7.051
	200	0.95	0.544	0.444	0.478	0.459	0.435
		0.99	0.923	0.467	0.682	0.551	0.463
		0.999	5.068	0.554	4.067	1.522	0.545

1	20	0.95	3.514	1.758	3.113	2.025	1.357
		0.99	15.677	6.753	14.558	8.226	4.568
		0.999	154.076	63.790	150.439	79.217	61.203
	50	0.95	2.671	1.528	2.406	1.655	1.155
		0.99	11.034	5.410	10.200	6.003	2.205
		0.999	105.109	48.863	102.240	54.610	26.562
	200	0.95	0.628	0.449	0.546	0.473	0.445
		0.99	1.392	0.504	1.050	0.683	0.463
		0.999	9.837	3.220	8.355	2.948	1.276


	n	ρ	mle	grk	gd	gkl（）	gkl（）

0.5	20	0.95	4.049	2.193	3.473	2.784	2.165
		0.99	17.213	6.962	15.174	10.464	6.451
		0.999	172.420	63.921	164.530	102.441	55.631
	50	0.95	2.393	1.525	2.188	1.800	1.520
		0.99	7.742	3.192	7.036	4.588	2.509
		0.999	69.729	22.843	67.015	36.936	22.786
	200	0.95	1.375	1.155	1.282	1.252	1.103
		0.99	2.131	1.210	1.750	1.561	1.207
		0.999	9.941	1.658	8.325	4.507	1.431

1	20	0.95	7.397	4.424	6.884	5.075	3.476
		0.99	34.889	19.071	33.216	22.709	11.262
		0.999	356.808	192.852	350.583	231.657	123.844
	50	0.95	4.790	3.348	4.651	3.564	2.779
		0.99	19.784	12.398	19.291	13.428	5.905
		0.999	191.838	116.591	189.700	126.654	35.276
	200	0.95	1.644	1.462	1.549	1.402	1.348
		0.99	3.269	1.583	2.839	2.125	1.437
		0.999	20.402	4.716	18.550	9.311	4.049

（A）

（b）

（C）

（d）

从两张桌子看1和2和数字1MSE随着多重共线性水平的增加而增加，使其他变量保持恒定。例如，当n = 50, for the MLE, the MSE increases from 1.265 to 38.172 as the level of multicollinearity,给定的0.95升至0.999 和p = 4. We also observed that, as the explanatory variables increases fromp = 4 top = 7, the MSE increases provided other variables are kept constant. For instance, whenn = 20 for = 0.99 and GRE-K的MSE从6.753上升到19.071。另外，当固定其他变量时，增加样本量n导致所有估计器的MSE减少，例如，GLE-D的MSE值n = 200, p = 7, and = 0.95 reduces from 1.282 to 1.549. Furthermore, the MSE increases as the dispersion parameter从0.5增加到1。由于多共线性对估计量的影响，最大似然估计器的性能最低。表中的结果1和2和数字1表明GKL优于其他估计器。由于所提出的估计器GKL的性能取决于其偏置参数，因此我们检查了GKL估计器的两个不同的偏置参数，并观察到GKL估计器在偏置参数时表现最好，模拟结果进一步支持了理论上的结果，即GKL估计器的性能是最好的。GRE和GLE的性能比MLE的表现更好。此外，我们通过分析部分中的真实数据来探索提出的估计器和现有估计器的性能4。

4.现实生活数据：藻类数据

本研究中采用的化学数据集用于藻类研究[3，，，，19]。他采用定量结构活性关系（QSAR）模型来研究生物学活动之间的关系在65个Imidazo [4，5-B]吡啶衍生物（一种抗癌化合物）和15个分子描述符中。QSAR模型广泛用于以下领域：化学科学，生物科学和工程。线性回归模型通常用于模拟响应变量（生物活性）与一种或多种生理化学或结构特性之间的QSAR关系，这些特性用作解释变量，尤其是当响应变量正态分布时[27]。但是，当响应变量偏斜时采用回归建模[3，，，，19，，，，24，，，，28]。在这项研究中，经过algamal [3，，，，19]，表中描述了感兴趣的变量3。


可变名称	描述

MOR21V	信号21/由范德华的加权体积加权
MOR21E	信号21/由桑德森电负性加权
IC3	信息内容索引
MW	分子量
spmaxa_d	拓扑距离矩阵的归一化领导特征值
ATS8V	Broto – Moreau的滞后8号自相关8
GATS4P	滞后4的齿轮自相关由极化加权
SPMAX8_BH（P）	最大的特征值n。8的负担矩阵由极化性加权。
spmax3_bh（s）	最大的特征值n。由L州加权的3个负担矩阵。
p_vsa_e_3	sanderson电负性，bin 3类似于p_vsa
TDB08M	基于3D拓扑距离的描述符；滞后8由质量加权
RDF100M	径向分布函数：100/通过质量加权
MATS7V	延迟7的莫兰自相关，由范德华量加权
MATS2S	lag 2的moran自相关由l状态加权
hats6v	延迟6的杠杆加权自相关/由Van der Waals加权

根据algamal [3，，，，19];响应变量，y，遵循伽马分布。使用FIT测试的卡方优点，作者检查了响应变量非常适合具有测试统计量的伽马分布（值）为9.3657（0.07521）。藻类[19]报告说，以下变量，MOR21V和MOR21E，SPMAX3_BH（S）和ATS8V，SPMAXA_D和MW，最后MW和MW和ATS8V之间的相关系数大于0.9，并将其解释为高相关性。特征值为7.6687e+8，1.3238e+6，85791，5523.6，358.71，250.51，148.46，42.731，27.239，18.015，9.115，9.1197，8.6175，8.6175，8.6175，5.7748，2.4292，1.6532，1.6532，1.6532，1.6532，1.65659，和0.3659。因此，条件号，CN计算如下：

cn = = 45777.7 which indicates the presence of severe multicollinearity [19]。伽马回归模型和均方误差的结果显示在表中4。


COEF。	mle	grk	gd	gkl（）	gkl（）

tpecretni	-0.1568	-0.1597	-0.1568	-0.1624	-0.1573
MW	0.0158	0.0155	0.0158	0.0155	0.0148
IC3	0.8251	0.8254	0.8251	0.8255	0.8260
spmaxa_d	-0.4681	-0.4418	-0.4681	-0.4407	-0.3816
ATS8V	-2.3347	-2.3161	-2.3347	-2.3165	-2.2691
MATS7V	-1.1565	-1.1382	-1.1565	-1.1392	-1.0903
MATS2S	-2.2127	-2.1479	-2.2127	-2.1452	-1.9987
GATS4P	-2.7097	-2.6510	-2.7097	-2.6511	-2.5068
spmax8_bh（p）	2.8041	2.7426	2.8041	2.7425	2.5930
spmax3_bh（s）	0.4082	0.3994	0.4082	0.3991	0.3790
p_vsa_e_3	0.0016	0.0017	0.0016	0.0017	0.0020
TDB08M	-1.3127	-1.1859	-1.3127	-1.1811	-0.8954
RDF100M	-0.0004	-0.0004	-0.0004	-0.0005	-0.0006
MOR21V	-0.8682	-0.8448	-0.8682	-0.8446	-0.7882
MOR21E	-0.0504	-0.0593	-0.0504	-0.0597	-0.0795
hats6v	-0.5290	-0.4030	-0.5290	-0.3803	-0.1723
d/k		0.0077	0.9999	0.0824	0.2871
MSE	5.5599	3.5062	5.5599	3.2351	1.6397

表格中的结果4同意模拟结果。就拥有最高的MSE而言，MLE的性能是最糟糕的。提出的带有偏置参数的估计器按此顺序有最小的正方形错误，然后是，，，，GRE-K和GLE-D估计器。在模拟研究中召回与由于收缩参数表现最好。

5.一些总结的评论

Kibria -Lukman [17]估计器的开发是为了避免线性回归模型的多共线性问题。该估计器在脊回归和LIU型回归估计器的类别中，并且具有单个偏置参数。在伽马回归模型中，多重共线性也是对回归系数估计中最大似然估计器（MLE）的性能的威胁。在先前的研究中引入了伽马脊（GRE）和伽马刘估计量（GLE），以减轻多重共线性问题。从那以后，Kibria和Lukman [17]声称，KL估计器在线性回归模型中的表现优于脊和LIU估计器，这促使我们开发了GRM中有效估计的伽马KL（GKL）估计器。我们得出了GKL估计量的统计特性，并从理论上将其与MLE，GRE和GLE进行了比较。此外，进行了模拟研究和化学数据分析以支持理论研究。模拟和应用程序结果表明与由于收缩参数表现最好。总之，当已知的伽马回归模型中存在多重共线性时，首选GKL估计量的使用。

数据可用性

可应要求提供用于支持本研究发现的数据。

利益冲突

作者宣称他们没有利益冲突。

参考

M. Amin，M。Qasim和M. Amanullah，“ Asar andgenç和Huang and Yang和Yang的两参数估计方法的性能，伽马回归模型的两参数估计方法”伊朗科学技术杂志，交易A：科学，卷。43，不。6，第2951–2963页，2019年。查看：发布者网站|谷歌学术
A. M. Al-Abood和D. H. Young，“改善了伽马回归模型的拟合统计数据的偏差优势”，统计理论和方法的通信，卷。15，不。6，第1865– 1874年，1986年。查看：发布者网站|谷歌学术
Z. Y. Algamal，“开发伽马回归模型的脊估计器”，化学计量学杂志，卷。32，不。10，p。E3054，2018。查看：发布者网站|谷歌学术
M. Wasef Hattab，“伽马回归的预测间隔的推导”，统计计算与仿真杂志，卷。86，不。17，第3512–3526页，2016年。查看：发布者网站|谷歌学术
E. Dunder，S。Gumustekin和M. A. Cengiz，“通过人造蜜蜂菌落算法的伽马回归模型中的可变选择”，”应用统计杂志，卷。45，不。1，第8–16页，2016年。查看：发布者网站|谷歌学术
S. Perez-Melo和B. M. G. Kibria，“关于在存在多重共线性的一些测试测试回归系数的测试统计数据：一项仿真研究，”统计，卷。3，不。1，第40–55页，2020年。查看：发布者网站|谷歌学术
A. E. Hoerl和R. W. Kennard，“脊回归：非正交问题的偏见估计”，技术测量学，卷。12，不。1，第55-67页，1970年。查看：发布者网站|谷歌学术
R. L. Schaefer，L。D。Roi和R. A. Wolfe，“山脊逻辑估计器”，统计理论和方法的通信，卷。13，不。1，第99–113页，1984年。查看：发布者网站|谷歌学术
B. Segerstedt，“在普通线性模型中的普通脊回归上”，统计理论和方法的通信，卷。21，否。8，第2227–2246页，1992年。查看：发布者网站|谷歌学术
K.Månsson和G. Shukur，“泊松岭回归估算器”，经济建模，卷。28，不。4，第1475–1481页，2011年。查看：发布者网站|谷歌学术
K.Månsson，“在负二项式回归模型的脊估计器上，”经济建模，卷。29，没有。2，第178–184页，2012年。查看：发布者网站|谷歌学术
F. Kurtoglu和M. R. Ozkale，“广义线性模型中的LIU估计：对伽马分布式响应变量的应用，”统计论文，卷。57，不。4，第911–928页，2016年。查看：谷歌学术
K. Liu，“线性回归中的一种新的有偏见估计”，统计理论和方法中的通信，卷。22，不。2，第393–402页，1993年。查看：谷歌学术
F. S. M.数学及其应用的调查，卷。3，第111–122页，2008年。查看：发布者网站|谷歌学术
A. F. Lukman，K。Ayinde，S。Binuomote和O. A. Clement，“修改后的脊型估计量来对抗多重共线性：应用于化学数据”，”化学计量学杂志，卷。33，不。5，p。E3125，2019。查看：发布者网站|谷歌学术
A. F. Lukman，K。Ayinde，B。M。G. Kibria和E. T. Adewuyi，“伽马回归模型的修饰脊型估计器”，统计模拟和计算中的通信，第1-15页，2020年。查看：发布者网站|谷歌学术
B. M. G. Kibria和A. F. Lukman，“线性回归模型的新山脊型估计器：仿真和应用”，”科学，卷。2020年，文章ID 9758378，16页，2020年。查看：发布者网站|谷歌学术
J. W. Hardin和J. M. Hilbe，广义线性模型和扩展，Stata出版社，美国德克萨斯州大学车站，2012年。
Z. Y. Algamal和Y. Asar，“伽马回归模型的LIU型估计器”，统计模拟和计算中的通信，卷。49，不。8，第2035–2048页，2018年。查看：发布者网站|谷歌学术
S. G. Wang，M。X。Wu和Z. Z. Jia，矩阵不平等，中国科学出版社，北京，中国，第二版，2006年。
R. W. Farebrother，“进一步导致脊回归的均方误差”，皇家统计学会杂志：B系列（方法论），卷。38，不。3，第248–250页，1976年。查看：发布者网站|谷歌学术
G. Trenkler和H. Toutenburg，“偏置估计器之间的平均平方误差矩阵比较 - 最近结果概述”，”统计论文，卷。31，否。1，第165-179页，1990年。查看：发布者网站|谷歌学术
A. F. Lukman，K。Ayinde，S。K。Sek和E. Adewuyi，“线性回归模型中的修改后的新两参数估计器”，”工程建模和模拟，卷。2019年，文章ID 6342702，10页，2019年。查看：发布者网站|谷歌学术
A. F. Lukman，K。Ayinde，B。Aladeitan和R. Bamidele，“具有先验信息的公正估计器”，阿拉伯基础科学杂志，卷。27，否。1，第45-55页，2020年。查看：发布者网站|谷歌学术
B. M. G. Kibria，“一些新脊回归估计器的性能”，统计模拟和计算中的通信，卷。32，不。1，第419–435页，2003年。查看：发布者网站|谷歌学术
B. M. G. Kibria和S. Banik，“一些脊回归估计器及其表现”，现代应用统计方法杂志，卷。15，不。1，第206–238页，2016年。查看：发布者网站|谷歌学术
Z. Y. Algamal和M. H. Lee，“基于加权刑罚逻辑回归的QSAR分类模型中的一种新型分子描述方法，”化学计量学杂志，卷。31，否。10，p。E2915，2017。查看：发布者网站|谷歌学术
A. F. Lukman，A。Zakariya，G。B。M. Kibria和K. Ayinde，“逆高斯回归模型的KL估计器”，，”并发计算实践实验，p。E6222，2021，Inpress。查看：发布者网站|谷歌学术

科学

抽象的