数学杂志

在这一页上

文摘介绍材料和方法结果结论和讨论数据可用性的利益冲突引用版权相关文章

研究文章|开放获取

体积2022年| 文章的ID7596449| https://doi.org/10.1155/2022/7596449

有限的参数估计采用瑞利分布的混合算法

穆罕默德努尔¹ 和Fadhaa阿里 ¹

学术编辑器: Ding-Xuan周

收到了 2022年9月22日

修改后的 2022年11月16日

接受 2022年12月02

发表 2022年12月30日

文摘

在生命周期过程中在一些系统中,大多数数据不能属于一个单一的人口。事实上,它可以代表多个亚种。在这种情况下,已知的分布不能用于模型数据。相反,分布的混合物用于调节数据和分类成几个子组。瑞利分布的混合最好是用一生的过程。本文旨在采用(EM)算法进行推断模型参数的极大似然函数。该技术应用于模拟数据通过以下几个场景。估计的准确性检查了平均均方误差(AMSE)和平均分类成功率(钢芯铝线)。结果表明,所有模拟场景中表现良好的方法对不同的样本大小。

1。介绍

配件一个适当分布的数据是最近的全球挑战的问题研究。其中一个来自日期它属于一个以上的人口。因此,有限混合模型是用来解决这样的问题。在许多应用程序中,就可以形成一个大的人口从几个亚种群混合在一个未知的比例。在这种情况下,一个人可以遇到人口的生物或电元素可以分成两个或两个以上的亚种群基于失败的可能原因或任何其他类别,如男性,女性,年龄类别。许多研究人员介绍了几种推理方法来推断数据后重尾分布的某些方面1,2]。

提出了许多方法混合模型应用于数据在物理、生物、工程科学和其他领域作为一个有效的机器学习方法的技术。正常和拉普拉斯分布的混合物是安装在风切变的数据(3,4]。此外,混合模型是用于建模犯罪和司法数据(5]。指数分布的混合物被认为是一个有效的工具来推断设备故障除以人口分成几个亚种群(6,7]。Split-and-merge操作被用来改善可能性通过t分布的混合模型来研究图像压缩和模式(8]。混合模型作为分类器工具集群个体基于估计密度函数为每个单独的基于血细胞的数据(9]。

混合模型可以从密度结构相同的分布或不同的家庭。无论哪种方式,它是有用的作为一个确认或预测工具。事实上,最大似然(ML)的流行方法推断模型(10,11]。然而,挑战是未知数量的分配和观察会员,通过估计的准确性也就被破坏了。这些问题已经被许多提出技术解决多年来。因此,确定组件的确切数字通过执行相关的测试被认为是一个重要的起点在应用混合模型12,13]。以同样的方式,处理上述问题的最常见的方式是通过使用一个潜变量,导致一个完整数据日志可能性而不是使用不完整的(14),然后,采用(EM)算法是用来估计模型参数15- - - - - -17]。

此外,通过添加components-indicator隐藏马尔可夫模型可以使用标签mixtue模型来确定观察会员。这是一个高斯混合模型的扩展模型k分量平稳或非平稳自回归(18),或由非高斯混合模型时间序列数据19]。贝叶斯推理也可以用来推断混合模型的参数假设先验分布的参数进而导致参数的后验分布。这个框架可以由马尔可夫链蒙特卡罗(密度)20.,21]。这个框架的评估可以避免许多困难在其涉及的应用程序(ML)估计22- - - - - -24]。作者在25]介绍了瑞利分布逆解的一般形式,即取幂逆瑞利分布(EIRD),它扩展了更灵活的数据分布建模的生活。

在这篇文章中,我们推导出采用(EM)算法来估计参数的瑞利分布的混合物。这可以通过的最大似然模型,然后,我们可以使用EM算法来更新估计的迭代步骤,直到达到收敛。之后,通过仿真,检验模型推断的准确性基于不同的场景和组件的数量。集群的成功率也相应计算。剩下的纸是组织给理论理论部分的细节部分2。节3,该方法应用于模拟数据通过几个场景。在部分4和5讨论和结论显示,完整的方法及其结果。

2。材料和方法

瑞利分布的随机变量的定义是连续两个事件之间的时间(26]。概率密度函数写成

在许多一生场景中,数据可以来自多个组件,然后,已知分布成为适合的数据不准确。在这种情况下,可以使用混合模型来处理这个问题。寿命数据时,瑞利分布的有限混合模型数据。的概率密度函数(PDF)混合物的瑞利分布组件可以写成在哪里 < , 。

3所示。推理方法

经典的方法估计混合模型的参数是由最大似然(ML)。不完整的数据的似然函数k分混合模型定义如下: 在哪里。

这里的分配被认为是一个隐藏的状态,需要定义为一个潜在的向量的变量是一个马尔可夫链的向量,它的定义是 ,在哪里。被定义为

因此,完整的数据的似然函数写成在哪里。

的对数方程(2)的结果

提出了很多方法来估计参数方程(3)。其中之一是采用(EM)算法用于一些混合模型(27]。摘要EM算法是派生的k分瑞利分布的混合物。下一节包含这样一个方法的细节。

4所示。EM算法

方程(6)是完整的数据需要最大化对数似函数,考虑到数据。这里的EM算法来估计模型参数,考虑缺失的数据。它由两个迭代步骤,E(期望步骤)米(最大化步骤)。为 ,我们重复以下两个步骤。

4.1。E一步一步

不可见的数据(在这里 )是由E一步一步,将完整的数据日志的期望可能有条件地在给定的观测数据 ,使用的价值当前的迭代。让最初的价值选择。EM算法的第一次迭代计算条件期望的日志鉴于通过使用为 ,可以写成

作为日志缺失的数据是线性的吗 ,的E一步一步的迭代需要当前期望的随机变量 ,这对应于 ,有条件地计算在给定的观测数据。

然后,我们得到

的数量是后验概率,它意味着什么元素与观测值的样本属于组件的混合物。用在方程(3), ,的问函数就会

4.2。米一步一步

更新后的估计 ,全球的最大化关于在参数空间的要求米一步一步的迭代。考虑到更新在迭代 ,加权参数可以通过的一阶导数估计关于并将它为0,这结果

组件参数在迭代可以被推导计算关于和将其等同于0,我们得到的

因此,在迭代 ,组件参数可以估计

算法终止后一旦我们得到收敛或指定数量的迭代。注意,最后的迭代可以估计从多项分布,通过生成

估计的价值可以用来作为分类器的组成人员根据定义中提到的方程(1)。

组件的元素由 ,在哪里

5。评估组件的数量

上述EM算法是基于已知的分配。因此,我们评估的适当数量的组件根据公式计算贝叶斯信息准则(28]: 在哪里最大似然函数(5), 观察会员可以更新后的贝叶斯估计如前所述。

6。模拟

检查EM算法的性能有限的瑞利分布的混合物,我们生成的数据遵循双组分混合模型和三分量的场景。接下来的场景是用于生成根据预定义的参数 ,在哪里和 ,(在哪里。样本的大小。比较了计算的平均均方误差(AMSE)估计模型和平均分类成功率(钢芯铝线)复制的数量等于R通过使用以下公式:

在这里,模型的MSE复制吗。

计算钢芯铝线,我们让会员与正确地估计项目的数量除以样本大小n在复制。

7所示。结果

结果在表1代表双组分混合物产生的模型和数据显示,EM算法擅长估计模型的参数对AMSE,这意味着估计参数接近真正的用于生成的数据。可以看出AMSE是随着样本大小的增加而减少。然而,钢芯铝线却降低了组件参数时彼此接近。图表的PDF模型对真实的参数和估计如图1,它显示了概率分布函数的曲线的估计参数相比,一个真正的参数值被用于仿真。应用EM算法的结果如表1所示的三分量模型。

结果应用EM算法对三分量模型如表所示2。的结果可以看出,AMS的大样本大小比小样本大小。然而,很明显,作为组件参数接近对方,钢芯铝线却降低了,这意味着数据的集群变得困难。这是明显的在图2,第三个场景的概率分布函数的不显示之间的距离。

8。结论和讨论

我们推导的公式估算的参数有限混合的瑞利分布的EM算法的一般形式。估计的数学公式是有效的k分瑞利分布的混合物。然而,计算时可以更准确的EM算法的样本尺寸增加。根本原因是成员变量的计算是计算的E一步一步的算法,考虑到观测。这反过来会导致伟大的精度估算时组件参数和权值。我们提出的框架应用于模拟数据。根据两个和三个组件数据模拟的特殊情况一般。从结果可以看出,该算法以良好的方式执行当样本量很大和参数不足够接近对方。我们认为AMSE钢芯铝线为测量工具评估的准确性和集群的数据组。也说明了图形显示方法估计图,比较真实的参数用于生成数据几个场景。

数据可用性

所有的数据是模拟的,没有使用真实的数据。

的利益冲突

作者宣称没有利益冲突。

引用

郑胜耀黄、y l .冯和吴问:“学习理论的最小误差熵虚弱时刻条件下,“分析和应用,20卷,不。01,121 - 139年,2022页。
视图: 出版商的网站 | 谷歌学术搜索
f·s·Lv和j .粉丝,“最优学习与高斯函数和correntropy损失,”分析和应用,19卷,不。01,107 - 124年,2021页。
视图: 出版商的网站 | 谷歌学术搜索
p·n·琼斯和g·j·克劳克兰Laplace-normal混合物安装在风切变数据”,“应用统计学杂志》,17卷,不。2、271 - 276年,1990页。
视图: 出版商的网站 | 谷歌学术搜索
g·k .汉字“风切变的混合模型数据,”应用统计学杂志》,12卷,不。1,49-58,1985页。
视图: 出版商的网站 | 谷歌学术搜索
c·m·哈里斯”有限混合的几何和负二项分布,“通信在统计理论和方法,12卷,不。9日,第1007 - 987页,1983年。
视图: 出版商的网站 | 谷歌学术搜索
g . s . Rao,“估计多组分应力强度可靠性的基于广义指数分布,“航空杂志上动作片de Estad´ıstica,35卷,不。1,第76 - 67页,2012。
视图: 谷歌学术搜索
n .建筑师r . Nakano z Ghahramani, g·e·辛顿“SMEM混合物模型的算法,神经计算,12卷,不。9日,第2128 - 2109页,2000年。
视图: 出版商的网站 | 谷歌学术搜索
d .皮和g . j .克劳克兰“健壮的混合模型使用t分布,”统计和计算,10卷,第344 - 335页,2000年。
视图: 谷歌学术搜索
诉Cadez、c·e·麦克拉伦和p .史密斯”层次模型筛选缺铁性贫血,”第十六届国际研讨会论文集在机器学习摩根考夫曼,页77 - 86年,旧金山,CA,美国,1999年6月。
视图: 谷歌学术搜索
e·l·莱曼,“有效的估计可能性,”美国统计学家,34卷,不。4、233 - 235年,1980页。
视图: 出版商的网站 | 谷歌学术搜索
e·l·莱曼点估计理论”威利,纽约,纽约,美国,1983年。
d . Karlis和大肠Xekalaki”测试的组件数量有限的泊松混合物,”研究所的年报统计数学5卷,第162 - 149页,1999年。
视图: 谷歌学术搜索
j .指甲花”估计的数量有限的组份混合物的连续分布,“研究所的年报统计数学,37卷,不。2、235 - 240年,1985页。
视图: 出版商的网站 | 谷歌学术搜索
刘c和d·b·鲁宾”使用ECME因子分析算法的最大似然估计完整和不完整的数据,”Statistica中央研究院,8卷,第747 - 729页,1998年。
视图: 谷歌学术搜索
t·a·路易斯,“找到观察信息矩阵使用EM算法时,“英国皇家统计学会杂志》:系列B,44卷,不。2、226 - 233年,1982页。
视图: 出版商的网站 | 谷歌学术搜索
”刘c和d·b·鲁宾ML估计使用EM的t分布及其扩展,ECM ECME,”Statistica中央研究院卷。5日,第19 - 39页中,1995年。
视图: 谷歌学术搜索
f·阿里和j·张,“混合模型与病例对照数据关联分析在全基因组关联研究,“统计应用遗传学和分子生物学,16卷,不。3、173 - 187年,2017页。
视图: 出版商的网站 | 谷歌学术搜索
c . s . Wong和w·k·李,“混合自回归模型,英国皇家统计学会杂志》:系列B,卷62,不。1,第115 - 91页,2000。
视图: 出版商的网站 | 谷歌学术搜索
n d·勒·r·d·马丁和a·e·阿布“建模平坦的延伸,破裂,并使用混合过渡outliersin时间序列分布模型,”美国统计协会杂志》上,卷91,不。436年,第1514 - 1504页,1996年。
视图: 出版商的网站 | 谷歌学术搜索
m·a·坦纳和w·h·黄”,计算后验分布的数据,”美国统计协会杂志》上,卷82,不。398年,第540 - 528页,1987年。
视图: 出版商的网站 | 谷歌学术搜索
a·e·盖尔芬德和a·f·m·史密斯,“Sampling-based边际密度计算方法,”美国统计协会杂志》上,卷85,不。410年,第409 - 398页,1990年。
视图: 出版商的网站 | 谷歌学术搜索
m·k·考尔斯和b·p·卡林,”马尔可夫链蒙特卡罗融合诊断:比较评论,”美国统计协会杂志》上,卷91,不。434年,第904 - 883页,1996年。
视图: 出版商的网站 | 谷歌学术搜索
g . Celeux m . Hurn和c·p·罗伯特,“与混合后验分布计算和推理困难,”美国统计协会杂志》上,卷95,不。451年,第970 - 957页,2000年。
视图: 出版商的网站 | 谷歌学术搜索
s p·布鲁克斯,”贝叶斯分析和有限的混合物的比例。”统计和计算,11卷,不。2、179 - 190年,2001页。
视图: 出版商的网站 | 谷歌学术搜索
g·s·拉奥和美国Mbwambo取幂逆瑞利分布和应用程序层重量的铁表数据,”概率论与数理统计》杂志上ID 7519429条,卷。2019年,13页,2019。
视图: 出版商的网站 | 谷歌学术搜索
s·l·米勒和d .所在概率和随机过程”、学术出版社、剑桥、马、美国、2012。
j·m·g·泰勒,“Semi-parametric估计失败时间混合模型”,生物识别技术,51卷,不。3、899 - 907年,1995页。
视图: 出版商的网站 | 谷歌学术搜索
s . l . Sclove”应用程序的模型选择标准的一些问题在多变量分析中,“心理测量学,52卷,不。3、333 - 343年,1987页。
视图: 出版商的网站 | 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

236年

下载

248年

引用