文摘

quasi-Lindley分布是一个灵活的模型用于可靠性分析,管理科学与工程分析。本文采用(EM)算法应用于此模型的参数估计和未经审查的right-censored数据。仿真研究表明,该估计的EM执行比最大似然(ml)估计和未经审查的审查数据。在一个说明性的例子,分析了银行的客户的等待时间和估计的EM算法与大中型企业相比。数据的分析可以为银行的管理是有用的。

1。介绍

提出的quasi-Lindley分布夏克尔Mishra (1)是一种泛化的林德利分布引入林德利(2)和可靠性理论和生存分析中非常有用。的概率密度函数(pdf)是由quasi-Lindley分布 伽马分布的混合物 与重量 ,分别。的故障率函数quasi-Lindley模型 这是一个递增函数。

quasi-Lindley模型的一个重要特征是,与林德利模型和许多其他的概括,它是规模不变。然而,它并不复杂但足够灵活。夏克尔Mishra [1]研究了它的一些基本性质和动态可靠性的措施。他们还讨论了极大似然估计量(企业)的参数。初速理论上是一致的和高效的,但在实践中,它强烈依赖于初始值和计算的方法,这可以通过直接最大化对数似函数或通过求解方程的可能性。此外,仿真结果的大中型企业(特别是quasi-Lindley分布 )显示极大值的均方误差(MSE)(见表12)。这激励我们调查EM算法估计参数。

在统计数据,当数据被收集从混合物或竞争风险模型,估计的EM算法是一种有效的工具潜变量模型的参数。在他们的基础工作,法官等。3]介绍了EM算法。许多作者都使用他们的想法后他们的工作提供更好的估计模型的参数考虑。例如,对此,Aboutahoun4)和Almhana et al。5)使用EM算法来估计参数的混合威布尔模型和γ的混合模型,分别。此外,蜜蜂et al。6)应用帕累托的EM算法来估计参数混合模型,Ghosh et al。7)使用EM算法的混合威布尔和帕累托(IV)模型,和Balakrishnan和朋友8]EM-based似然推理用于他们的工作。EM算法的详细讨论,我们参考读者克劳克兰和克里希南(9)和Mengersen et al。10]。此外,吴(11证明一些与EM算法的收敛结果。

本文开发的一个特定的EM算法来获得一个更可靠的估计的参数quasi-Lindley未经审查的分布和right-censored数据。本文组织如下。部分2讨论了EM算法quasi-Lindley分布数据是未经审查的。节3EM算法扩展到right-censored数据。部分4检查企业的行为和EM估计通过模拟并比较它们。节5大中型企业和新兴市场估计,计算一个真实的数据集。最后,部分6论文的结论。

2。未经审查的数据

假设 是一个独立同分布(iid)随机抽样从quasi-Lindley分布参数 ,短暂的 对数似函数的参数

似然方程可以得到这个对数似函数对偏微分法 如下:

大中型企业可以通过直接计算最大化对数似函数(3)直接或通过求解方程的可能性。让 ,和费舍尔quasi-Lindley分布矩阵的信息

当我们有一个iid随机样本 , ,大中型企业, ,弱收敛于二元正态 在哪里 是信息的逆矩阵。

2.1。EM算法的完整的数据

是两个伽马分布的混合物 ,EM算法可以用来估计其参数。让 , ,的iid随机样本 在新兴市场的方法,为每一个 ,我们考虑一个潜在的随机变量 这决定了 属于 换句话说, , , , 一个简短的表示, 似然函数可以写成下面的形式。 的指标 = 1时 ,否则等于0。同时, 是底层的pdf伽玛分布和

然后,对数似函数

EM算法经过两个步骤:期望步骤(E)和最大化步骤()。在每次迭代中,E一步构造的期望值对数似对当前条件的潜变量的估计。在一步,建造的E一步是最大化提供估计。可以终止迭代过程的改善期望函数时低于预定的小值。

2.1.1。的E一步

考虑到参数的迭代估计 , ,的条件分布 通过贝叶斯定理: 简化后, 这些概率被称为成员概率迭代 和用于构建期望功能 如下:

最后一个表达式(12)表明,期望可以表示为两个语句的总和,其中一个只取决于 ,另一只 ,也就是说, 在哪里

2.1.2。的一步

估计的参数 迭代,我们最大化 而言, 所以,我们有 ,(13),减少以下单独最大化问题。 在哪里 是由(14)和(15),分别。通过求解方程 ,的估计 迭代。

另一方面,解方程 ,我们有

序列 将收敛于 ,和迭代过程可以得出当一些预定义的小 , 这意味着进一步的迭代不大大提高目标函数。EM算法的收敛的详细信息,见吴(11]。

3所示。Right-Censored数据

考虑一个iid随机样本 , , 这是接触到正确的审查。我们说 由审查审查从右边随机变量 ,如果 ,在这种情况下,事件时间的唯一信息是大于审查时间 观察结果包括 ,在哪里 ,当事件还没有被审查, , ,当事件被审查, 鉴于right-censored样本 , ,对数似函数 在哪里 显示的密度和可靠性功能quasi-Lindley分布,分别。对数似函数简化了 在哪里

3.1。EM算法Right-Censored数据

EM算法实现,我们应该包括潜变量 , ,在前一节中定义的。然后,审查数据的似然函数 在哪里 显示了伽马pdf认为在前一节中 是相应的可靠性函数。通过对数(21)、对数似函数具有以下形式:

类似于未经审查的数据,我们应该迭代两种E找到一种改进估计的步骤。

3.1.1。的E一步

考虑到参数的迭代估计 , ,应用贝叶斯定理,我们可以计算的条件分布 如下:

具体地说,为 , 然后,使用(22),期望函数迭代 可以用以下形式。

类似于未经审查的情况下,它是简单的检查 可以写成两个语句只取决于其中的哪一个 和其他依赖 更准确地说, 在哪里

3.1.2。的一步

在这一步中,我们应该最大化 函数计算的估计 迭代。 ,(26),减少以下单独最大化问题。 在这 是由(27)和(28),分别。似然方程 经过一些可以简化代数吗 不屈服于一个分析的解决方案 ,所以解决方案可以通过数值计算方法。但是,很明显(31日意味着这个方程的解,即 ,满足不等式

另一方面, ,解决方案是一个上界 而反过来,(32)和(33),我们有

这些界限可以应用在数值计算过程中找到优化的回答。的解决方案 可以通过解方程 如下:

类似于未经审查的情况下,迭代过程时可以总结一些预定义的小 ,

他们估计量和实际参数,分别。然后, 渐近收敛于一个二元正态分布 ,在哪里 可以被观察到的倒数近似信息矩阵的观测数据(见孟和鲁宾(12])。它被评估的海赛矩阵计算对数似函数对观测数据点 ,然后计算获得的海赛矩阵的逆,短暂 幸运的是,在这项研究中,观察到的数据的对数似功能并不复杂,可以用来计算海赛矩阵最后方差近似。为此,图书馆的功能“黑森”“pracma”使用R。因为他们估计量的渐近分布是正常的,使用标准正态分位数来获取参数的近似置信区间。

4所示。模拟

在仿真研究中,我们调查企业的行为和EM估计和比较。quasi-Lindley模型是一个混合的伽马分布应用于生成随机样本。生成right-censored样本 ,我们假设随机变量审查 之前的退化分布的意思 因此,如果 是审查速度,我们可以计算吗 通过求解方程 在哪里 的分布函数的逆quasi-Lindley模型。现在,未经审查的样本 取自quasi-Lindley模型。然后, th的实例所需的right-censored示例

每个单元的表12显示了一个运行的结果。在每次运行, 复制的样本大小 或200 quasi-Lindley生成的模型与参数选择,在每次运行,初速和EM估计计算。计算初速,对数似函数最大化利用optim“R内置函数与标准“Nelder-Mead”优化方法。在最大似然法和EM,初始值生成均匀分布。注意,检查电磁过程的终止条件在每个EM迭代结果非常缓慢和耗时的运行。因此,EM算法多次试验找到合适的常数迭代的数量。通过这种方式,我们发现5次迭代就足够了。

偏见(B)四个措施,均方误差(MSE),覆盖概率(CP)和置信区间长度意味着(CILM) 已经被计算。B和MSE 被定义的 在哪里 显示了运行初速/ EM估计量 显示了一个近似的渐近95%置信区间 迭代(看到最后一段的部分3)。此外,指标函数 在(30.)= 1时实际参数置信区间内,否则等于零。这些措施被定义 类似的。表12目前的仿真结果为未经审查的数据与审查制度和审查数据0.2,分别。主要的观察从这些表中列出如下:(我)MSE减少随着样本容量的增加,对大中型企业和新兴市场估计和未经审查的数据和审查数据表明初速和EM估计量是一致的。(2)EM估计优于初速的MSE。(3)结果显示高CPs和低CILMs EM比大中型企业。此外,CP增加和CILM减少随着样本容量的增加。

5。应用程序

3显示100的客户等待时间银行分析夏克尔[13]。quasi-Lindley分布安装在这个数据集,并使用最大似然参数估计方法和EM。R语言的“optim”功能是用于计算的程序。表4显示拟合的结果。的KS, Anderson-Darling(广告),和Cramer-von米塞斯(CVM)统计,这两种方法都提供一个不错的选择,但他们比大中型企业在一场势均力敌的竞争。经验和安装CDFs图所示1(一)并确定一个合适的选择。直方图和估计概率密度函数也显示在图1 (b)。使用optim的海赛矩阵计算函数,初速的方差估计的参数, 使用这些方差和标准正态分位数估计,95%的置信区间 ,分别。的左绑定 置信区间是一个负值;的事实 ,这是设置为0。

找到他们估计量的方差参数,所使用的引导方法。通过这种方式, 样本提取r的函数“sample”,对于每个样本,他们估计的参数计算。他们估计量的方差的估计是由这些估计的方差近似 为每个参数,新兴市场的2.5%和97.5%分位数估计可以视为上界和下界的95%置信区间。然后,95%的置信区间 ,分别。

6。结论

quasi-Lindley分布的尺度不变的版本林德利分布形状参数 和一个尺度参数 和是一个简单而灵活的模型在可靠性理论中,生存分析,管理科学,和许多其他领域。初速和EM方法进行估计的参数模型。仿真结果表明,EM算法比估计的参数的标定和未经审查的审查数据。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突。

确认

这项研究是由研究人员支持项目(RSP-2021/392),沙特国王大学,利雅得,沙特阿拉伯。

补充材料

Censored-MLE准林德利和EM。(补充材料)