数学杂志

在这一页上

文摘介绍结论数据可用性的利益冲突确认补充材料引用版权相关文章

特殊的问题

新方法在图和因数据分析和处理

把这个特殊的问题

研究文章|开放获取

体积2022年| 文章的ID8467291| https://doi.org/10.1155/2022/8467291

EM算法估计的参数Quasi-Lindley模型与应用程序

m . Kayid ¹ 和Nassr s Al-Maflehi ²

学术编辑器: Lazim阿卜杜拉

收到了 2021年11月10

修改后的 2021年12月12日

接受 2021年12月21日

发表 2022年1月25日

文摘

quasi-Lindley分布是一个灵活的模型用于可靠性分析,管理科学与工程分析。本文采用(EM)算法应用于此模型的参数估计和未经审查的right-censored数据。仿真研究表明,该估计的EM执行比最大似然(ml)估计和未经审查的审查数据。在一个说明性的例子,分析了银行的客户的等待时间和估计的EM算法与大中型企业相比。数据的分析可以为银行的管理是有用的。

1。介绍

提出的quasi-Lindley分布夏克尔Mishra (1)是一种泛化的林德利分布引入林德利(2)和可靠性理论和生存分析中非常有用。的概率密度函数(pdf)是由quasi-Lindley分布伽马分布的混合物和与重量和 ,分别。的故障率函数quasi-Lindley模型这是一个递增函数。

quasi-Lindley模型的一个重要特征是,与林德利模型和许多其他的概括,它是规模不变。然而,它并不复杂但足够灵活。夏克尔Mishra [1]研究了它的一些基本性质和动态可靠性的措施。他们还讨论了极大似然估计量(企业)的参数。初速理论上是一致的和高效的,但在实践中,它强烈依赖于初始值和计算的方法,这可以通过直接最大化对数似函数或通过求解方程的可能性。此外,仿真结果的大中型企业(特别是quasi-Lindley分布 )显示极大值的均方误差(MSE)(见表1和2)。这激励我们调查EM算法估计参数。

在统计数据,当数据被收集从混合物或竞争风险模型,估计的EM算法是一种有效的工具潜变量模型的参数。在他们的基础工作,法官等。3]介绍了EM算法。许多作者都使用他们的想法后他们的工作提供更好的估计模型的参数考虑。例如,对此,Aboutahoun4)和Almhana et al。5)使用EM算法来估计参数的混合威布尔模型和γ的混合模型,分别。此外,蜜蜂et al。6)应用帕累托的EM算法来估计参数混合模型,Ghosh et al。7)使用EM算法的混合威布尔和帕累托(IV)模型,和Balakrishnan和朋友8]EM-based似然推理用于他们的工作。EM算法的详细讨论,我们参考读者克劳克兰和克里希南(9)和Mengersen et al。10]。此外,吴(11证明一些与EM算法的收敛结果。

本文开发的一个特定的EM算法来获得一个更可靠的估计的参数quasi-Lindley未经审查的分布和right-censored数据。本文组织如下。部分2讨论了EM算法quasi-Lindley分布数据是未经审查的。节3EM算法扩展到right-censored数据。部分4检查企业的行为和EM估计通过模拟并比较它们。节5大中型企业和新兴市场估计,计算一个真实的数据集。最后,部分6论文的结论。

2。未经审查的数据

假设是一个独立同分布(iid)随机抽样从quasi-Lindley分布参数 ,短暂的。对数似函数的参数

似然方程可以得到这个对数似函数对偏微分法和如下:

大中型企业可以通过直接计算最大化对数似函数(3)直接或通过求解方程的可能性。让 ,和费舍尔quasi-Lindley分布矩阵的信息

当我们有一个iid随机样本 , 从 ,大中型企业, ,弱收敛于二元正态在哪里是信息的逆矩阵。

2.1。EM算法的完整的数据

自是两个伽马分布的混合物和 ,EM算法可以用来估计其参数。让 , ,的iid随机样本。在新兴市场的方法,为每一个 ,我们考虑一个潜在的随机变量这决定了属于或。换句话说, , , ,和。一个简短的表示, 。似然函数可以写成下面的形式。的指标 = 1时 ,否则等于0。同时, 是底层的pdf伽玛分布和

然后,对数似函数

EM算法经过两个步骤:期望步骤(E)和最大化步骤(米)。在每次迭代中,E一步构造的期望值对数似对当前条件的潜变量的估计。在米一步,建造的E一步是最大化提供估计。可以终止迭代过程的改善期望函数时低于预定的小值。

2.1.1。的E一步

考虑到参数的迭代估计 , ,的条件分布通过贝叶斯定理: 简化后, 和。这些概率被称为成员概率迭代和用于构建期望功能如下:

最后一个表达式(12)表明,期望可以表示为两个语句的总和,其中一个只取决于,另一只 ,也就是说, 在哪里

2.1.2。的米一步

估计的参数迭代,我们最大化而言, 。所以,我们有 ,(13),减少以下单独最大化问题。在哪里和是由(14)和(15),分别。通过求解方程 ,的估计在迭代。

另一方面,解方程 ,我们有

序列将收敛于 ,和迭代过程可以得出当一些预定义的小 , 。这意味着进一步的迭代不大大提高目标函数。EM算法的收敛的详细信息,见吴(11]。

3所示。Right-Censored数据

考虑一个iid随机样本 , ,从这是接触到正确的审查。我们说由审查审查从右边随机变量 ,如果 ,在这种情况下,事件时间的唯一信息是大于审查时间。观察结果包括和 ,在哪里 ,当事件还没有被审查, ,和 ,当事件被审查, 。鉴于right-censored样本 , ,对数似函数在哪里和显示的密度和可靠性功能quasi-Lindley分布,分别。对数似函数简化了在哪里和。

3.1。EM算法Right-Censored数据

EM算法实现,我们应该包括潜变量 , ,在前一节中定义的。然后,审查数据的似然函数在哪里显示了伽马pdf认为在前一节中是相应的可靠性函数。通过对数(21)、对数似函数具有以下形式:

类似于未经审查的数据,我们应该迭代两种E和米找到一种改进估计的步骤。

3.1.1。的E一步

考虑到参数的迭代估计 , ,应用贝叶斯定理,我们可以计算的条件分布如下:

具体地说,为 , 和。然后,使用(22),期望函数迭代可以用以下形式。

类似于未经审查的情况下,它是简单的检查可以写成两个语句只取决于其中的哪一个和其他依赖。更准确地说, 在哪里

3.1.2。的米一步

在这一步中,我们应该最大化函数计算的估计迭代。 ,(26),减少以下单独最大化问题。在这和是由(27)和(28),分别。似然方程经过一些可以简化代数吗不屈服于一个分析的解决方案 ,所以解决方案可以通过数值计算方法。但是,很明显(31日意味着这个方程的解,即 ,满足不等式

另一方面, ,解决方案是一个上界而反过来,(32)和(33),我们有

这些界限可以应用在数值计算过程中找到优化的回答。的解决方案可以通过解方程如下:

类似于未经审查的情况下,迭代过程时可以总结一些预定义的小 , 。

让和他们估计量和实际参数,分别。然后,渐近收敛于一个二元正态分布 ,在哪里可以被观察到的倒数近似信息矩阵的观测数据(见孟和鲁宾(12])。它被评估的海赛矩阵计算对数似函数对观测数据点 ,然后计算获得的海赛矩阵的逆,短暂。幸运的是,在这项研究中,观察到的数据的对数似功能并不复杂,可以用来计算海赛矩阵最后方差近似。为此,图书馆的功能“黑森”“pracma”使用R。因为他们估计量的渐近分布是正常的,使用标准正态分位数来获取参数的近似置信区间。

4所示。模拟

在仿真研究中,我们调查企业的行为和EM估计和比较。quasi-Lindley模型是一个混合的伽马分布应用于生成随机样本。生成right-censored样本 ,我们假设随机变量审查之前的退化分布的意思。因此,如果是审查速度,我们可以计算吗通过求解方程在哪里的分布函数的逆quasi-Lindley模型。现在,未经审查的样本取自quasi-Lindley模型。然后,th的实例所需的right-censored示例。

每个单元的表1和2显示了一个运行的结果。在每次运行, 复制的样本大小或200 quasi-Lindley生成的模型与参数选择,在每次运行,初速和EM估计计算。计算初速,对数似函数最大化利用optim“R内置函数与标准“Nelder-Mead”优化方法。在最大似然法和EM,初始值生成均匀分布。注意,检查电磁过程的终止条件在每个EM迭代结果非常缓慢和耗时的运行。因此,EM算法多次试验找到合适的常数迭代的数量。通过这种方式,我们发现5次迭代就足够了。

偏见(B)四个措施,均方误差(MSE),覆盖概率(CP)和置信区间长度意味着(CILM)和已经被计算。B和MSE被定义的在哪里显示了运行初速/ EM估计量和显示了一个近似的渐近95%置信区间在迭代(看到最后一段的部分3)。此外,指标函数在(30.)= 1时实际参数置信区间内,否则等于零。这些措施被定义类似的。表1和2目前的仿真结果为未经审查的数据与审查制度和审查数据0.2,分别。主要的观察从这些表中列出如下:(我)MSE减少随着样本容量的增加,对大中型企业和新兴市场估计和未经审查的数据和审查数据表明初速和EM估计量是一致的。(2)EM估计优于初速的MSE。(3)结果显示高CPs和低CILMs EM比大中型企业。此外,CP增加和CILM减少随着样本容量的增加。

5。应用程序

表3显示100的客户等待时间银行分析夏克尔[13]。quasi-Lindley分布安装在这个数据集,并使用最大似然参数估计方法和EM。R语言的“optim”功能是用于计算的程序。表4显示拟合的结果。的KS, Anderson-Darling(广告),和Cramer-von米塞斯(CVM)统计,这两种方法都提供一个不错的选择,但他们比大中型企业在一场势均力敌的竞争。经验和安装CDFs图所示1(一)并确定一个合适的选择。直方图和估计概率密度函数也显示在图1 (b)。使用optim的海赛矩阵计算函数,初速的方差估计的参数, 和。使用这些方差和标准正态分位数估计,95%的置信区间和是和 ,分别。的左绑定置信区间是一个负值;的事实 ,这是设置为0。

(一)

(b)

找到他们估计量的方差参数,所使用的引导方法。通过这种方式, 样本提取r的函数“sample”,对于每个样本,他们估计的参数计算。他们估计量的方差的估计是由这些估计的方差近似和。为每个参数,新兴市场的2.5%和97.5%分位数估计可以视为上界和下界的95%置信区间。然后,95%的置信区间和是和 ,分别。

6。结论

quasi-Lindley分布的尺度不变的版本林德利分布形状参数和一个尺度参数和是一个简单而灵活的模型在可靠性理论中,生存分析,管理科学,和许多其他领域。初速和EM方法进行估计的参数模型。仿真结果表明,EM算法比估计的参数的标定和未经审查的审查数据。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究是由研究人员支持项目(RSP-2021/392),沙特国王大学,利雅得,沙特阿拉伯。

补充材料

Censored-MLE准林德利和EM。(补充材料)

引用

r .夏克尔A . Mishra“准林德利分布,”非洲数学和计算机科学杂志》上的研究》第六卷,没有。4、64 - 71年,2013页。
视图: 谷歌学术搜索
d·v·林德利“置信分布和贝叶斯定理,”英国皇家统计学会杂志》:系列B,20卷,不。1,第107 - 102页,1958。
视图: 出版商的网站 | 谷歌学术搜索
a . p .法官:m . Laird, d·b·鲁宾”最大似然估计的不完整的数据通过EM算法,”英国皇家统计学会杂志》:系列B,39卷,不。1、22页,1977页。
视图: 出版商的网站 | 谷歌学术搜索
e . e . Elmahdy和A . w . Aboutahoun”的新方法的有限混合威布尔分布参数估计可靠性建模、”应用数学建模,37卷,不。4、1800 - 1810年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
诉Choulakian j . Almhana z . Liu, r . McGorman“伽马混合模型的递归算法,”《IEEE国际会议通信ICC 06,1卷,页197 - 202,伊斯坦布尔,土耳其,2006年6月。
视图: 出版商的网站 | 谷歌学术搜索
m .蜜蜂r的趣事,g .载荷适配器,”帕累托混合物最大似然估计,“计算统计数据,28卷,不。1,第178 - 161页,2013。
视图: 出版商的网站 | 谷歌学术搜索
Ghosh, g . g . Hamedani n .邦萨尔和m . Maadooliat”的混合威布尔和帕累托(IV)分布:帕累托分布的替代品,”通信在统计理论和方法卷,47号9日,第2084 - 2073页,2018年。
视图: 出版商的网站 | 谷歌学术搜索
n Balakrishnan和美国朋友”,期望maximization-based可能性推理为灵活的治愈率与威布尔寿命模型,”医学研究统计方法,25卷,不。4、1535 - 1563年,2016页。
视图: 出版商的网站 | 谷歌学术搜索
g·j·克劳克兰和t·克里希南EM算法和扩展威利,纽约,纽约,美国,1997年。
k . l . Mengersen c·p·罗伯特,d . m . Titterington混合物:评估和应用程序威利,纽约,纽约,美国,2011年。
c·f·j·吴”EM算法的收敛性质。”统计年鉴,11卷,不。1,第103 - 95页,1983。
视图: 出版商的网站 | 谷歌学术搜索
X.-L。孟和d·b·鲁宾”使用EM得到渐近variance-covariance矩阵:SEM算法,”美国统计协会杂志》上,卷86,不。416年,第909 - 899页,1991年。
视图: 出版商的网站 | 谷歌学术搜索
r .夏克尔”广义林德利分布及其应用程序从生物医学科学和工程模型生命周期数据,”在生物医学见解,1卷,不。2、2016。
视图: 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

544年

下载

395年

引用