文摘

在生命周期过程中在一些系统中,大多数数据不能属于一个单一的人口。事实上,它可以代表多个亚种。在这种情况下,已知的分布不能用于模型数据。相反,分布的混合物用于调节数据和分类成几个子组。瑞利分布的混合最好是用一生的过程。本文旨在采用(EM)算法进行推断模型参数的极大似然函数。该技术应用于模拟数据通过以下几个场景。估计的准确性检查了平均均方误差(AMSE)和平均分类成功率(钢芯铝线)。结果表明,所有模拟场景中表现良好的方法对不同的样本大小。

1。介绍

配件一个适当分布的数据是最近的全球挑战的问题研究。其中一个来自日期它属于一个以上的人口。因此,有限混合模型是用来解决这样的问题。在许多应用程序中,就可以形成一个大的人口从几个亚种群混合在一个未知的比例。在这种情况下,一个人可以遇到人口的生物或电元素可以分成两个或两个以上的亚种群基于失败的可能原因或任何其他类别,如男性,女性,年龄类别。许多研究人员介绍了几种推理方法来推断数据后重尾分布的某些方面1,2]。

提出了许多方法混合模型应用于数据在物理、生物、工程科学和其他领域作为一个有效的机器学习方法的技术。正常和拉普拉斯分布的混合物是安装在风切变的数据(3,4]。此外,混合模型是用于建模犯罪和司法数据(5]。指数分布的混合物被认为是一个有效的工具来推断设备故障除以人口分成几个亚种群(6,7]。Split-and-merge操作被用来改善可能性通过t分布的混合模型来研究图像压缩和模式(8]。混合模型作为分类器工具集群个体基于估计密度函数为每个单独的基于血细胞的数据(9]。

混合模型可以从密度结构相同的分布或不同的家庭。无论哪种方式,它是有用的作为一个确认或预测工具。事实上,最大似然(ML)的流行方法推断模型(10,11]。然而,挑战是未知数量的分配和观察会员,通过估计的准确性也就被破坏了。这些问题已经被许多提出技术解决多年来。因此,确定组件的确切数字通过执行相关的测试被认为是一个重要的起点在应用混合模型12,13]。以同样的方式,处理上述问题的最常见的方式是通过使用一个潜变量,导致一个完整数据日志可能性而不是使用不完整的(14),然后,采用(EM)算法是用来估计模型参数15- - - - - -17]。

此外,通过添加components-indicator隐藏马尔可夫模型可以使用标签mixtue模型来确定观察会员。这是一个高斯混合模型的扩展模型k分量平稳或非平稳自回归(18),或由非高斯混合模型时间序列数据19]。贝叶斯推理也可以用来推断混合模型的参数假设先验分布的参数进而导致参数的后验分布。这个框架可以由马尔可夫链蒙特卡罗(密度)20.,21]。这个框架的评估可以避免许多困难在其涉及的应用程序(ML)估计22- - - - - -24]。作者在25]介绍了瑞利分布逆解的一般形式,即取幂逆瑞利分布(EIRD),它扩展了更灵活的数据分布建模的生活。

在这篇文章中,我们推导出采用(EM)算法来估计参数的瑞利分布的混合物。这可以通过的最大似然模型,然后,我们可以使用EM算法来更新估计的迭代步骤,直到达到收敛。之后,通过仿真,检验模型推断的准确性基于不同的场景和组件的数量。集群的成功率也相应计算。剩下的纸是组织给理论理论部分的细节部分2。节3,该方法应用于模拟数据通过几个场景。在部分45讨论和结论显示,完整的方法及其结果。

2。材料和方法

瑞利分布的随机变量的定义是连续两个事件之间的时间(26]。概率密度函数写成

在许多一生场景中,数据可以来自多个组件,然后,已知分布成为适合的数据不准确。在这种情况下,可以使用混合模型来处理这个问题。寿命数据时,瑞利分布的有限混合模型数据。的概率密度函数(PDF)混合物的瑞利分布 组件可以写成 在哪里 < ,

3所示。推理方法

经典的方法估计混合模型的参数是由最大似然(ML)。不完整的数据的似然函数k分混合模型定义如下: 在哪里

这里的分配被认为是一个隐藏的状态,需要定义为一个潜在的向量 的变量 是一个马尔可夫链的向量,它的定义是 ,在哪里 被定义为

因此,完整的数据的似然函数写成 在哪里

的对数方程(2)的结果

提出了很多方法来估计参数方程(3)。其中之一是采用(EM)算法用于一些混合模型(27]。摘要EM算法是派生的k分瑞利分布的混合物。下一节包含这样一个方法的细节。

4所示。EM算法

方程(6)是完整的数据需要最大化对数似函数,考虑到数据。这里的EM算法来估计模型参数,考虑 缺失的数据。它由两个迭代步骤,E(期望步骤)(最大化步骤)。为 ,我们重复以下两个步骤。

4.1。E一步一步

不可见的数据(在这里 )是由E一步一步,将完整的数据日志的期望可能有条件地在给定的观测数据 ,使用的价值 当前的迭代。让 最初的价值选择 EM算法的第一次迭代计算条件期望的日志 鉴于 通过使用 ,可以写成

作为日志 缺失的数据是线性的吗 ,E一步一步的 迭代需要当前期望的随机变量 ,这对应于 ,有条件地计算在给定的观测数据

然后,我们得到

的数量 是后验概率,它意味着什么 元素与观测值的样本 属于 组件的混合物。用 在方程(3), ,函数就会

4.2。一步一步

更新后的估计 ,全球的最大化 关于 在参数空间的要求一步一步的 迭代。考虑到更新 在迭代 ,加权参数 可以通过的一阶导数估计 关于 并将它为0,这结果

组件参数 在迭代 可以被推导计算 关于 和将其等同于0,我们得到的

因此,在迭代 ,组件参数可以估计

算法终止后一旦我们得到收敛或指定数量的迭代。注意,最后的迭代 可以估计从多项分布,通过生成

估计的价值 可以用来作为分类器的组成人员根据定义中提到的方程(1)。

组件的元素 ,在哪里

5。评估组件的数量

上述EM算法是基于已知的分配 因此,我们评估的适当数量的组件根据公式计算贝叶斯信息准则(28]: 在哪里 最大似然函数(5), 观察会员可以更新后的贝叶斯估计 如前所述。

6。模拟

检查EM算法的性能有限的瑞利分布的混合物,我们生成的数据遵循双组分混合模型和三分量的场景。接下来的场景是用于生成 根据预定义的参数 ,在哪里 ,(在哪里 样本的大小 比较了计算的平均均方误差(AMSE)估计模型和平均分类成功率(钢芯铝线)复制的数量等于R通过使用以下公式:

在这里, 模型的MSE复制吗

计算钢芯铝线,我们让 会员与正确地估计项目的数量除以样本大小n在复制

7所示。结果

结果在表1代表双组分混合物产生的模型和数据显示,EM算法擅长估计模型的参数对AMSE,这意味着估计参数接近真正的用于生成的数据。可以看出AMSE是随着样本大小的增加而减少。然而,钢芯铝线却降低了组件参数时彼此接近。图表的PDF模型对真实的参数和估计如图1,它显示了概率分布函数的曲线的估计参数相比,一个真正的参数值被用于仿真。应用EM算法的结果如表1所示的三分量模型。

结果应用EM算法对三分量模型如表所示2。的结果可以看出,AMS的大样本大小比小样本大小。然而,很明显,作为组件参数接近对方,钢芯铝线却降低了,这意味着数据的集群变得困难。这是明显的在图2,第三个场景的概率分布函数的不显示之间的距离。

8。结论和讨论

我们推导的公式估算的参数有限混合的瑞利分布的EM算法的一般形式。估计的数学公式是有效的k分瑞利分布的混合物。然而,计算时可以更准确的EM算法的样本尺寸增加。根本原因是成员变量的计算是计算的E一步一步的算法,考虑到观测。这反过来会导致伟大的精度估算时组件参数和权值。我们提出的框架应用于模拟数据。根据两个和三个组件数据模拟的特殊情况一般。从结果可以看出,该算法以良好的方式执行当样本量很大和参数不足够接近对方。我们认为AMSE钢芯铝线为测量工具评估的准确性和集群的数据组。也说明了图形显示方法估计图,比较真实的参数用于生成数据几个场景。

数据可用性

所有的数据是模拟的,没有使用真实的数据。

的利益冲突

作者宣称没有利益冲突。