研究文章|开放获取
米子川,萨达姆·侯赛因,阿努姆·伊夫提哈尔,穆罕默德·伊利亚斯,祖拜尔·艾哈迈德,德斯特·穆罕默德·汗,萨达夫·曼祖尔, "一个新的扩展,分布家族:属性和应用",医学中的计算和数学方法, 卷。2020, 文章的ID4650520, 13 页面, 2020. https://doi.org/10.1155/2020/4650520
一个新的扩展,分布家族:属性和应用
摘要
在过去的几年中,统计分布已被广泛应用于可靠性工程、医学和金融科学等应用领域。在这种情况下,我们遇到了建模重尾数据集的各种统计分布。众所周知的分布是log-正态分布,log- ,各种版本的帕累托,逻辑逻辑,威布尔,伽玛,指数,瑞利及其变体以及第二种分布的广义测试版等。在本文中,我们尝试通过纳入新模型来补充分布理论文学,称为新的扩展Weibull分布。所提出的分布非常灵活,表现出理想的性质。获得了模型参数的最大似然估计,并进行了蒙特卡罗仿真研究以评估这些估算器的行为。最后,我们通过分析来自不同学科的三种真实数据,如可靠性工程,医疗和金融科学等三个真实数据,提供了对新提出的和其他一些现有方法的比较研究。已经观察到,所提出的方法在模型选择标准的基础上传出众所周知的分布。
1.介绍
在统计理论的实践中,特别是在工程、医学和金融科学中,数据建模是一个有趣的研究课题。在这种情况下,统计分布是值得建模这样的数据集。最常用的统计分布是指数分布、瑞利分布、威布尔分布、beta分布、gamma分布、对数正态分布、Pareto分布、Lomax分布和Burr分布等等。然而,这些传统的分发版在应对复杂形式的数据集方面不够灵活。例如,在可靠性工程和生物医学科学中,数据集通常是单峰的,并向右倾斜;参见Demicheli et al. ' s [1,赖和谢的[2, Zajicek [3.],以及Almalki和Yuan的[4)的研究。因此,在这种情况下,使用指数分布、瑞利分布、威布尔分布或洛马克斯分布可能不是一个合适的选择。另一方面,伽马、贝塔和对数正态分布没有累积分布函数(cdf)的封闭形式,这造成了估计参数的困难。
此外,在金融和精算风险管理问题中,数据集通常是单峰的,向右倾斜,具有厚右尾;详情请参阅Cooray和Ananda的[5]和Eling 's [6]研究等。展示这种特性的分布可以非常有效地用于建模保险损失数据来估计业务风险水平。文献中常用的分布包括Cooray和Ananda的Pareto [5,《洛马克斯》[7, Burr by Nadarajah and Bakar [8,以及Bakar等人的Weibull [9]这是特别适合对保险损失的建模,财务回报,网络服务器上的文件大小等。不幸的是,这些分布符合某种缺陷。例如,由于密度单调的形状,帕累托分布,不提供许多应用中最合适的,而威布尔模型能够覆盖小损失的行为,但不能涵盖大损失的行为.
此外,Dutta和Perry [10]提供了损失分布的实证研究,使用探索性数据分析和其他经验方法估计风险。他们拒绝了使用指数分布、伽马分布和威布尔分布的想法,因为他们的结果很差,并指出需要使用结构足够灵活的模型。因此,只有很少的概率分布能够建模重尾数据集,而且它们都不够灵活,无法在拟合复杂形式的数据时提供更高的精度。
为了解决上述问题,研究人员对定义新的分布族表现出了越来越浓厚的兴趣,他们将一个或多个附加参数加入到已知的分布中。通过引入额外的、位置、规模、形状和变形参数的许多不同方法来定义新的家庭,以推广现有的分布。这些概括主要基于但不限于以下方法:(i)变量的变换和(ii)两个或两个以上模型的复合;具体而言,我们建议感兴趣的读者参考Tahir和Cordeiro的研究[11],Bhati和Ravi [12,和Ahmad等[13].
将形状参数添加到现有分布的最有趣的方法之一是取幂。穆德霍尔卡和斯里瓦斯塔瓦的家族先驱[14]由以下cdf定义: 在哪里是附加的形状参数。
马歇尔和奥尔金[15开创了一种新的简单方法,将单一尺度参数引入到一系列分布中。马歇尔-奥尔金(MO)家族的cdf是由 在哪里为附加尺度参数。
Cordeiro和Castro提议(2010)提出Kumaraswamy-家庭定义为 在哪里和是附加的形状参数。
到目前为止,大多数文献都是通过引入尺度或形状参数来提出一种新的分布族。将比例和形状参数引入一个分布族可以增加灵活性的水平。但随着参数数量的增加,参数的估计和许多数学性质的计算变得复杂。
上面的前提,一个新的一直尝试引入更多灵活的概率分布,通过引入一个额外的参数作为一个规模以及形状参数,并提供更大的精度拟合真实数据在可靠性工程等应用领域,医疗,金融科学。因此,本文提出了一种引入新的统计分布的新方法。这个被提议的家庭可以被命名为一个新的扩展-(NE - )家庭。一个随机变量如果其基金是由
附加参数的引入在表达式(4)为使用CDF的基线分布增加了更大的分布灵活性 这可能取决于矢量参数 .附加参数播放尺度和形状参数的作用。对应的概率密度函数(PDF)(4)是
我们将焦点专注于拟议家庭的特殊子模型,称为新的扩展Weibull(Ne-W)分销。
最后,我们将我们的注意力放在与三个不同学科的真实生活数据的NE-W模型相关的结果。第一组数据来自生物医学领域,并将所提模型的结果与(i)两参数威布尔分布模型和(ii)三参数模型(如柔性威布尔扩展模型(FWE)、alpha幂变换威布尔模型(APTW)、Marshall-Olkin威布尔模型(MOW)、和改进的Weibull (MW)分布。第二组数据来自可靠性工程,并将所提出模型的结果与其他三种知名分布进行了比较,如(i)三参数扩展alpha幂变换Weibull (Ex-APTW)、(ii)四参数Kumaraswamy Weibull (Ku-W)和(iii) beta Weibull (BW)分布。第三组数据来自金融科学,并将所提模型的结果与Weibull和其他重尾模型(包括Lomax和Burr-XII (B-XII)分布)进行比较。
其余文件组织如下:在部分2介绍了拟议家庭的特殊情况,并研究了其密度和危险功能的形状。拟议的家庭的一些数学特性是派生的部分3..模型参数的极大似然估计在节中得到4.在同一节中,进行了蒙特卡罗模拟研究。本节对实际应用进行了分析5.这里将NE-W分布与上述模型在不同判别测度和其他拟合优度测度下的分布进行比较。最后,在最后一节给出了一些结论。
2.模型描述
在本节中,我们将介绍NE-W分布。考虑带形状参数的双参数威布尔分布的cdf 和尺度参数 ,给出的 ,pdf,由 ,分别在哪里 .然后,NE-W分布的CDF由
NE-W分布的密度函数是
NE-W分布的密度和危险功能的一些可能的形状在图中绘制在图中1和2分别
在图1,我们绘制了不同形状的密度的NE-W分布。当 ,模型的密度表现为指数分布。但随着这些参数值的增加,所提出的模型捕获了瑞利和威布尔分布的特征。然而,与这些分布相比,所提出的模型有一定的优势,因为它提供了对不同学科的数据的最佳拟合,如第一部分所示5.hrf绘制在图中2.该模型的危险函数灵活地适应不同形状,即递减型、递增型、单峰型和浴缸型;因此,NE-W分布成为在可靠性、生存分析、经济和金融等应用领域拟合几个真实寿命数据的重要模型。
3. NE-X分布的数学属性
在本节中,我们研究了NE-X分布的一些数学属性,如定量函数,矩和矩生成函数。
3.1.分位数函数
NE-X分布的定量函数由 在哪里 .从表达式(8),我们可以看到,所提出的模型具有分位数函数的封闭形式解,这使得对于NE-X族的子情形更容易生成随机数。
3.2.时刻
这个小节涉及衍生thNE-X分布的矩。的th得到NE-X分布的矩
使用扩展(https://math.stackexchange.com/questions/1624974/series-expansion-1-1-xn) 和使用 和 在 (11),我们得到
也使用级数表示 和使用 和 在 (13),我们得到
表中给出了某些选定参数的NE-W分布的均值、方差、偏度(Sk)和峰度(Kur)的数值1和2.为了检验附加参数对Sk和Kur的影响,(i)我们保留了参数和常数,并允许θ.改变,然后(ii)保持参数不变θ.和γ并允许α改变。
|
||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||
由表中提供的数值结果1,很明显,作为附加参数增加平均值和方差减少,而增加结果增加了模型的Sk和Kur,表明提出的分布是尖峰的,单峰的,并向右倾斜。从表中提供的结果1,我们还可以检测参数的增加结果产生偏斜向右,表明重尾向右。此外,从表中的结果2,我们可以看到作为参数增加时,分布产生向右偏度,但对偏度和峰度的影响较小。因此,从表中给出的数值结果1和2,我们得出结论,在威布尔模型中引入额外的参数,为NE-W分布的偏态和峰度带来了更多的灵活性。
力矩生成函数 ,的分布形式为:
4.极大似然估计与模拟研究
本节提供模型参数的最大似然估计量,并提供蒙特卡罗模拟研究以评估这些估计量的行为。
4.1。最大可能性估计
文献中提出了许多估计未知参数的方法。其中,极大似然估计是获得点估计量最突出和最常用的方法。最大似然估计(MLEs)具有理想的性质,可用于构造置信区间和其他统计检验。通过MLEs,可以建立各种统计数据来评估模型的拟合优度,如最大对数似然( ),赤池信息准则(AIC)和贝叶斯信息准则(BIC),在下一节中给出。MLEs的正态近似可以很容易地进行数值或解析处理。在本小节中,我们只考虑用最大似然法从完全样本估计NE-X族的未知参数。假设 从NE-X系列用PDF形成观察到的随机样品(5).让 是 参数矢量。对应的日志似然函数(5) 是(谁)给的
对数似然函数可以通过使用ASS (PROC UNMIXED)或通过求解微分得到的非线性似然方程(18).的偏导数18)如下:
使非线性方程组等价 和 为零,并同时求解这些表达式,得到最大似然误差和 ,分别。从表达式(19),很明显,这些表达并不是明确的形式。因此,可以用计算机软件对这些表达式进行数值求解。我们使用带参数的函数 得到最大似然估计量。表达式(18)可用于获得所提议族的任何子情形的最大最大支持度。对于NE-W分布,MLEs的表达式在附录中导出。
4.2.蒙特卡罗模拟研究
在这一小节中,我们研究了所提出的分布的最大似然估计的性能。为了模拟的目的,考虑了NE-W分布。我们使用反cdf方法从NE-W分布生成随机数。如果 而如果G有一个反函数 为NE-W分布的随机变量。随机数是通过带参数的函数 .仿真过程基于以下步骤:(我)生成750个大小的样本由带参数的NE-W分布 , ,和(2)计算最大似然估计 为 (3)计算模型参数的偏差和均方误差(MSEs)(iv)重复步骤(i) - (iii)
仿真结果如图所示3.- - - - - -6,这表明(我)估计相当稳定,更重要的是,接近这些样本量的真实值(2)估计偏差随样本量的增大而减小增加(3)随着样本量的增大,估计的mse趋于零增加
5.比较研究
正如我们之前提到的,研究人员一直在开发新的分布,以便为应用领域的现实数据提供最适合,如可靠性工程,医疗,精算和金融科学。因此,在本节中,我们考虑了来自应用领域的不同学科的三种现实生活应用,包括医疗,工程和金融科学。对于每个数据集,将NE-W分布与不同的众所周知的分布进行比较,我们观察到所提出的分布传播其他竞争对手。
为了确定应用分布之间的拟合优度,我们考虑了某些分析措施。在这方面,我们考虑了两种判别措施,如赤池引入的赤池信息准则(AIC) [16Schwarz的贝叶斯信息标准(BIC)[17和斯考尼克[18].当局已采取下列措施:(我)AIC为 (2)BIC是由 在哪里表示在最大似然值处的对数似然函数,是模型参数的个数,和为样本量。除了判别测度,我们还进一步考虑了其他拟合优度测度,如Anderson Darling (AD)检验统计量、Cramer-von Mises (CM)检验统计量、Kolmogorov-Smirnov (KS)检验统计量值。当局已采取下列措施:(我)AD检验统计量 在哪里样品大小和是th示例,当数据按升序排序时计算(2)CM测试统计 (3)KS检验统计量由 在哪里是经验的CDF和支持x是这组距离的上限值吗
在底层数据集的应用分布中,这些分析度量值较低的分布被认为是一个很好的候选模型。通过考虑这些统计工具,我们观察到NE-W分布与其他分布相比提供了最好的拟合,因为所有选择的拟合优度标准的值对于拟议的分布明显较小。
5.1。生物医学分析的现实应用
膀胱癌是世界上第九大最常见的恶性肿瘤[19是最普遍的癌症之一,代表了全球诊断出的三种癌症[20.].据估计,每年有38.6万人新诊断出膀胱癌,15万人因此死亡。膀胱癌的早期发现仍然是许多研究中最紧迫的问题之一。第一组数据来自Lee和Wang [21];作者研究了随机抽取的128名膀胱癌患者的缓解时间(以月为单位)。他们拒绝了使用指数分布和威布尔分布对具有非一元危险函数的医学科学数据建模的假设。作者观察到,这些经典分布的扩展版本可以非常有效地用于模拟这类数据。将提出的NE-W模型应用于该数据,并与其他知名竞争对手进行对比。竞争模型的分布函数如下:(1)FWE分销 (2)APTW分布 (3)Marshall-Olkin Weibull (MOW)分布 (4)MW分布
表中给出了分析数据模型的最大似然估计量的标准误差(括号中)3..表中给出了本文和其他竞争模型的判别测度和拟合优度测度4.表格中提供的结果4,显然,与其他模型相比,拟议的分布具有较低的这些度量值。对分析数据集拟合的cdf和Kaplan-Meier生存图如图所示7.所提模型的PP图和数据集的Box图如图所示8.从图7,很明显,所提出的模型非常接近估计的cdf和Kaplan Meier生存曲线。箱形图是一种图形化描述数据的工具。它很好地指示了数据中的值是如何分布的。从图8,我们可以很容易地检测到数据有一个向右倾斜的重尾(Box plot),并且所提出的模型与PP plot密切相关。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
5.2。可靠性工程的真实寿命应用
在这里,我们通过分析取自Algamal的可靠性工程数据集来研究NE-W分布[22]代表涂布机的故障时间。为了表明所提出的方法的潜力,所提出的模型和其他竞争分布应用于该数据集,并且观察到NE-W型号再次出现众所周知的分布。为第二个数据集选择的竞争模型的分发功能如下:(1)Ex-APTW分布 (2)KU-W分布 (3)BW分布
与数据集2对应,模型参数值在表中报告5.所提出的和其他竞争模型的分析措施见表6.估计的cdf和Kaplan-Meier生存图如图所示9,这表明所提出的分布与估计的cdf和Kaplan-Meier生存图非常吻合。PP图和箱图如图所示10.从第二个数据集的箱形图中也可以清楚地看到,该数据集有较重的尾部。
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||
5.3。保险科学在现实生活中的应用
第三组数据来自于代表车辆保险损失的保险科学http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finance_and_Actuarial_Studies/research/books/GLMsforInsuranceData.我们将所提出的模型与其他模型进行了比较。竞争模型的分布函数如下:(1)凯文 (2)毛刺
对于第三个数据集,表中报告了参数值7,并在表中提出了分析措施8.估计的cdf和Kaplan-Meier生存图如图所示11.PP图和Box图如图所示12.从数字11和12,很明显,数据集的尾部较重,所提出的模型与估计的cdf和Kaplan-Meier生存图吻合得很好。
|
||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||
6.结束语
在金融科学中首次实现扩展分布的重要性,后来在其他应用领域,如工程和医学科学。为了迎合这些领域的数据,已经介绍了许多方法。在此上下文中,我们提出了一种多功能的三参数分布,称为新的扩展Weibull分发,使用新方法允许一些基本数学和其他相关属性的封闭式表达式。通过来自医疗,工程和金融科学的三个数据集,拟议的家庭的适用性已经通过了三种数据集,而该模型与某些众所周知的分布相比,该模型的性能合理地执行。
这种新开发具有一种很有前景的数据建模方法,对于处理此类数据集的实践者可能非常有用。因此,它可以被视为威布尔和其他知名竞争对手的替代品。
附录
使用 和 在 (18),得到NE-W分布的对数似然函数的表达式,由 在哪里 .的偏导数. 1)如下:
数据可用性
用于支持本研究发现的数据可由通讯作者要求提供。
利益冲突
关于本文的出版物没有竞争利益。
致谢
前三位作者获得了国家社会科学基金(17BTJ010)和山西省“1331计划”重点创新团队资助。
参考
- R. Demicheli, G. Bonadonna, W. J. Hrushesky, M. W. Retsky, P. Valagussa,“乳腺癌原发肿瘤手术切除后复发时间对绝经状态的依赖”,乳腺癌研究,第6卷,第2期6, pp. R689-R696, 2004。查看在:出版商的网站|谷歌学者
- 赖昌东、谢明,可靠性的随机老化与相关性,施普林格Science & Business Media, 2006。
- G. Zajicek,“一种新的医学癌症流行病学”,2011年,https://www.whatis-cancer.com/papers/newmedicine/epidemiologyFrame.htm.查看在:谷歌学者
- S. J. Almalki和J. Yuan,“一种新的修正Weibull分布”,可靠性工程和系统安全, vol. 111, pp. 164-170, 2013。查看在:出版商的网站|谷歌学者
- K. Cooray和M. Ananda,“用复合对数正态-帕累托模型建模精算数据”,斯堪的纳维亚精算杂志, 2005年第5期。5、2005年。查看在:出版商的网站|谷歌学者
- M. Eling,“用偏态分布拟合保险索赔:偏态正态和偏态学生模型好吗?”保险:数学和经济学第51卷第1期2,第239-248页,2012。查看在:出版商的网站|谷歌学者
- D. P. Scollnik,“关于复合对数-正态-帕累托模型”,斯堪的纳维亚精算杂志,第1卷,第20-33页,2007。查看在:谷歌学者
- S. Nadarajah和S. A. Bakar,《丹麦火灾保险数据的新复合模型》,斯堪的纳维亚精算杂志, 2014年第5期。2, pp. 180-187, 2011。查看在:出版商的网站|谷歌学者
- S. A. A. Bakar, N. A. Hamzah, M. Maghsoudi,和S. Nadarajah,“使用复合模型建模损失数据”,保险:数学和经济学, vol. 61, pp. 146-154, 2015。查看在:出版商的网站|谷歌学者
- K. Dutta和J. Perry,“一个尾巴的故事:估计操作风险资本的损失分布模型的实证分析”,SSRN电子杂志, 2006年第17卷。查看在:出版商的网站|谷歌学者
- M. H. Tahir和G. M. Cordeiro,《分布的复合:一个调查和新的广义类》,统计分布与应用杂志,第3卷,第2期。1,第13页,2016。查看在:出版商的网站|谷歌学者
- D. Bhati和S. Ravi,“广义对数- moyal分布:一种新的重尾大小分布”,保险:数学和经济学,第79卷,第247-259页,2018。查看在:出版商的网站|谷歌学者
- Z. Ahmad, G. G. Hamedani, N. S. Butt,“分布理论的最新发展:简要概述和一些新的广义分布类别”,巴基斯坦统计与运营研究,第15卷,第5期。1, pp. 87-110, 2019。查看在:出版商的网站|谷歌学者
- G. S. Mudholkar和D. K. Srivastava,“分析浴缸失败率数据的指数威布尔家族”,IEEE可靠性汇刊,第42卷,第2期2,第299-302页,1993。查看在:出版商的网站|谷歌学者
- A. W. Marshall和I. Olkin,“一种向分布族添加参数的新方法及其应用于指数和威布尔族”,Biometrika(第84卷)3,第641-652页,1997。查看在:出版商的网站|谷歌学者
- H. Akaike,“统计模型识别的新观点”,在赤池弘图文集,pp。215-222,Springer,New York,Ny,1974年。查看在:谷歌学者
- G. Schwarz,“估计模型的维度”,统计年鉴,第6卷,第2期2,页461-464,1978。查看在:出版商的网站|谷歌学者
- D. P. Scollnik,“复合逻辑普通模型”,斯堪的纳维亚精算杂志,卷。2007年,没有。1,pp。20-33,2007。查看在:出版商的网站|谷歌学者
- P. M. Gurung, A. Veerakumarasivam, M. Williamson等,“肿瘤抑制基因AIMP3表达的缺失预测肌肉浸润性膀胱癌放疗后AIMP3基因的存活率”国际癌症杂志第136期3, pp. 709 - 720,2014。查看在:出版商的网站|谷歌学者
- M. Riester, J. M. Taylor, a . Feifer等,“将一种新的基因表达特征与临床nomogram结合,可以提高高风险膀胱癌患者的生存预测。”临床癌症研究第18卷第2期5, pp. 1323-1333, 2012。查看在:出版商的网站|谷歌学者
- E.T. Lee和J. Wang,“生存数据分析的统计方法(Vol.476),”Tech。代表,约翰瓦利和儿子,2003年。查看在:谷歌学者
- “作为失效时间分布的指数指数分布”,伊拉克统计科学杂志,卷。8,pp。63-75,2008。查看在:谷歌学者
版权
版权所有©2020米子川等。这是一篇发布在知识共享署名许可协议如果正确引用了原始工作,则允许在任何媒体中的不受限制使用,分发和再现。