文摘
发展一个有效的模型来分析右偏态积极观察有着悠久的历史,和许多作者尝试在这个方向。这是因为普通线性回归等分析建模过程通常不适合这些数据并导致不足的结果。在本文中,我们提出了一种新的右偏态数据的回归分析模型假设加权逆高斯分布,作为一个伟大的灵活的分布,为响应的观测。在提出的模型中,互补互惠的位置参数的响应变量被认为是一个线性函数的解释变量。我们开发了一个完全贝叶斯框架来推断关于模型参数的基于通用noninformative之前的结构和使用后的推论得出的吉布斯采样器通过使用马尔可夫链蒙特卡罗方法。比较仿真研究了评估和比较该模型与其他竞争对手模型,并观察到,效率是相当令人满意的。实际地震数据集分析解释的适用性提出了贝叶斯模型和访问它的性能。结果表明更多的准确性提出了回归模型的模型参数估计和预测未来的观测相比,其竞争对手在文学。尤其是相对预测效率提出了回归模型的逆高斯分布和对数正态分布回归模型获得了1.16和64年,分别讨论的真实世界的例子。
1。介绍
建模右偏态积极观察一再被认为是由许多作者在过去几十年;因此,有一个巨大的文献在不同概率分布利用为了考虑这种类型的数据背后的不确定性。现行许多分布和指数,为此研究γ和威布尔对数正态分布(LN),逆高斯(IG)等搞笑分布、指数分布家族中的一员,受益于相当大的灵活性以及良好的理论和计算性能。一看搞笑的论文被认为是分布表示的愿望在统计文献(见,例如,1- - - - - -5])。IG分布被推荐用于分析右偏态积极数据为一个严重的竞争对手等一些最著名的分布的对数正态分布和伽马。用于各种应用,如可靠性(例如,2,6)、社会科学(如[7,8)、市场营销(如[9工程(例如,[]),10]),工业管理(例如,11]),心脏病12),土木工程(例如,13])。此外,一些扩展IG分布提出了为了提供更灵活的和可翻译的分布。在这个方向,14)提出了一种参数扩展IG分布、名叫加权逆高斯(假发)与一个强大的建模能力积极的右偏态分布资料专门领域的可靠性和寿命分析。所指出的(15),假发是一个多才多艺的寿命分布和严重的竞争对手为其他寿命分布。假发分布的最重要的推论方面都被认为是由古普塔和茶室。他们提出了一个期望最大化(EM)算法来估计的参数分布。
另一方面,一些作者讨论了回归分析的假设IG响应观测的分布。例如,[16)被认为是一个简单的回归模型与一个解释变量和零拦截。(17)提出了对数正态分布近似指数回归。(6,18)提出了一个模型,该模型提供了生存分析的物理解释。这个模型已经被进一步(6分别在方差分析和抽样调查。我们最好的知识,虽然搞笑分布被认为大大在回归分析中,没有发表的研究考虑的假发分布建模的目的。在本文中,我们开发了一种新的模型回归分析假发下积极的右偏态反应观测的分布。一个完全贝叶斯框架被用来估计模型参数和预测未来观察。提出的方法采用一组noninformative模糊先验分布从一个知名家族的灵活的分布和收益后推论通过吉布斯采样器。该模型的主要优点如下:(i)由于使用假发作为反应变量的分布,具有极大的灵活性考虑积极响应倾斜观测的可变性。这导致更准确的估计和预测模型相比,其竞争对手在文学。(2)尽管严重困难相关的频率论的方法估计的参数假发分布(见[15]更多细节),该模型提供了一个简单的贝叶斯方法容易处理的后验分布,可后推断的参数。(3)由于贝叶斯模型的性质,可以把个人之前信仰背后的不确定性参数,以构建一个更可靠的模型。
本文的组织结构如下:部分2提供关于假发的一些背景分布包含最重要的分布和推理属性。节3,提出了一个假发回归模型。的贝叶斯分析的基本理论提出的模型部分4。在部分5。1和5。2,我们提供经验证据来评估该方法通过分析模拟和实际数据,分别。纸是封闭的结论。
2。看看加权逆高斯分布
一个随机变量, ,据说一个假发分布位置参数 ,尺度参数 ,和形状参数 , ,如果是由它的密度函数
在哪里 和 搞笑的密度函数分布。假发的形状总是单峰分布,分布的均值和方差,分别
因为它可以从方程(4),尽管高斯分布,假发分布的均值和方差是相关的。假发分布的累积分布函数(CDF)可以写成 在哪里表示提供的标准正态分布 和 这些结果的推导的关键是搞笑的运作 分布可以表示为一个标准的正常运作形式的线性组合 在哪里 和 欧拉微分方程的解决方案吗 的形式 ,为常量和 。如果我们考虑到一双linearity-independent解决方案和对应于搞笑分布,然后一个函数的形式 与选择常量和是假发的CDF实验组的分布。参见[14为更多的细节。
假发的家庭变成了搞笑的家庭 和互惠逆高斯(平台)的家庭 ,钻机,喜欢搞笑,是一种特殊情况下的广义逆高斯分布(GIG)(见,例如,19]关于演出的更多细节分布)。
假发分布参数估计的问题,在文献中讨论。(14]表明,假发的最大似然(ML)估计分布参数可以获得作为一个非线性的响应具有挑战性的三维优化问题。(15)制定问题缺失的数据结构,开发了一个EM算法计算ML估计。他们用ML估计的渐近最优属性构造未知参数的渐近置信区间。我们提到的读者14,15,20.,21)和其他上述参考更多细节关于假发的分布。
之前结束这个简短的评论部分,是有用的澄清两点。首先,尽管IG分布,假发分布不属于指数分布的家庭。当然在一些特殊情况下,例如,对于已知的 ,它有一个接近指数族分布有关。
第二,假发分布reparameterized版本的混合逆高斯分布(MIG)。米格有限分布定义为一个双组分混合物的搞笑和length-biased逆高斯(LBIG)分布 在哪里 混合系数和吗 表示LBIG分布的pdf。从这个角度来看,假发密度函数采用reparameterization获得的形式 在方程(米格给出密度函数6)。
3所示。假发的回归模型
回归建模是基于正常的传统理论假设的反应观察。而在许多应用程序中,这些假设可能不是有效的正面右偏态结构的数据。在这种情况下,一个基本的解决方案是使用对数转换数据,提供使用标准的可能性推理基于正态分布和导致对数正态分布回归模型。但任何转换应用到数据增加了模型构建过程的复杂性,使参数的含义不太清楚。在这些情况下,假发的分布,由于其灵活性和期望的分布特性,可以是一个合适的候选数据分析。
考虑一组观测的配对 ,,对于一个给定的 , 解释变量和表示向量显示相应的随机响应变量。假设 作为响应的分布观察,假发回归模型 在哪里 表示的向量回归系数。相关的似然函数模型(8)是由
让 和 ,很容易证明以下身份持有: 在哪里是一个 - - - - - -维向量的所有元素等于1。因此,总和,出现在右边的指数函数方程(9)可以写成 在哪里 代表一个二次型的参数 。因此,模型的可能性和对数似函数给出 分别。等同的部分派生对数似函数对模型参数为零导致下列方程组: 在哪里是一种二次参数介绍了以前。可以看到,我们有两个非线性方程的参数和和一个线性方程的参数 。因此,ML估计的参数得到封闭的形式是什么 ,和没有封闭形式表达的ML估计参数和 。因此,通常像牛顿迭代优化过程可以用来计算的ML估计模型参数。应该指出,可以使用其他频率论的点估计方法,如矩量法(MM)估计模型参数。参见[15]关于困难相关的更多细节在假发分布参数的估计使用频率论的方法。接下来,我们开发了一个贝叶斯方法。
前进一步,我们倾向于给出一些解释关于该模型的链接功能。可以看到,这里我们采用了一种逆函数链接到指定的关系解释变量和响应的位置参数的观测。虽然,前面所提到的,没有背景使用假发分布在建模环境中,给出的链接功能(8)已经被一些作者以前使用IG分布建模的目的。例如,[6,22,23)的逆形式链接功能用于回归分析和协方差分析(ANCOVA)搞笑分布,分别。当然,还有其他可能的选择链接这个回归模型的函数。例如,[24)使用一个线性函数作为链接 ,和[25利用指数形式链接功能, ,在建模审查观测的搞笑分布以保证反应变量的积极性的意思。另一方面因为搞笑,尽管假发,与正则参数指数家族中的一员 ,一个可以使用链接的函数形式 基于IG分布建模的目的。
不管搞笑和假发分布之间的差异,可以考虑每个上述链接功能,可能与一些修改,假发分布的建模过程,向量回归系数的估计价值不应该导致一个负值的均值反应观察。然而,从理论的角度来看,有两个原因支持这种选择链接功能。第一,规范参数的逆高斯分布的家庭出现的函数形式的逆的意思。第二个原因是相关的数学计算。这个选择使我们能够提供后分布在一个格式良好的数学表达式的二次形式的回归系数和给我们关闭后full-conditional分布的一些形式表达式。
4所示。贝叶斯模型的分析
为了提供一个贝叶斯框架模型的分析,有必要设置合适的模型参数的先验分布。这些发行版之前应该能够解释数据分析师关于模型参数的先验信念。
4.1。之前的设置
在回归分析中,主要感兴趣的参数应该估计回归系数向量, 。从理论上讲,任何多元连续分布可以使用这个参数的先验分布。例如,在一个模糊的或noninformative贝叶斯分析,平多元正态或多元均匀分布与大方差是通常的选择。但是,在提出的模型中,考虑这样的先验分布可能会导致负的值 , ,这是不符合的积极性限制假发分布的位置参数。考虑到这些因素,我们认为以下联合模型参数的先验分布 在哪里 和零指数模型的hyperparameters表明应该依据先前的信仰。可以看到,在这个设置之前,所有的关于模型参数的先验知识表达采用三个伽马分布。伽马分布的家庭似乎足够灵活,可以看出这个家庭的成员可以描述数据分析师的意见之前每个感兴趣的参数。此外,它始终是一个潜在的选择来描述各种积极的人口从指数正常形状(见,例如,(26])。在上面的先验分布设置,参数的先验分布表现为两个nonindependent伽马随机变量分布的差异。同时产生两个伽马随机变量的和的分布是一个基本的工作,这不是一个微不足道的工作差的情况下随机变量nonindependent时尤其如此。一般来说,有一个巨大的文学独立和nonindependent伽马随机变量的总和,和许多作者(27- - - - - -29日)讨论这个问题在不同的假设如独立和相同或者不恒等分布的随机变量。然而,nonindependentγ的不同随机变量被认为是在文献中。河中沙洲和Alouini30.]表明,概率密度函数的一般公式的区别两个不一定恒等分布的伽马随机变量可以表示的麦凯贝塞尔函数分布形式的II型(31日]。随机变量遵循II型麦凯的分布与参数 , ,和 ,用McKayII ( , ,和 ),的密度函数是由 在哪里是修改后的第二类贝塞尔函数和订单吗 。他提供的时刻这个分布的高斯超几何函数。此外,还有相对简单的矩母函数表达式,麦凯的累积量,时刻分布。应该注意的是,一些著名的分布如正常;皮尔逊分布的系统,例如,类型III皮尔森(见[32]);、第一个产品力矩系数分布的样本来自正态总体麦凯II型分布的特殊情况。麦凯的支持分布的实数,和它的密度函数有一个斜对称的形状。这意味着之前发行版中给出方程(14)符合我们知识的参数模型。具体来说,参数的先验分布拥有必要的限制 。
4.2。后推理
考虑到似然函数(9)和先验分布(14),联合模型参数的后验分布的( )获得的是
由于平等 ,(后验分布16)可以写成感兴趣的参数 作为 在哪里是一个二次形式的回归系数向量, ,在方程(11)。显然,联合后验分布的复杂性17)排除了推导分析后的推论。接下来,我们使用马尔可夫链蒙特卡罗(密度)方法示例表单后分布以推导数值后数量估计感兴趣。
4.3。吉布斯采样器
构建一个吉布斯采样器,它是必要的,以确定完整的条件后验分布。内核的条件分布为一个典型的参数很容易获得的消失都无关的量这个参数的联合后验分布。根据(17),完整的条件后验分布的参数比例的形式给出 不能写在一个封闭的密度函数形式。同时,完整的条件分布的参数是 因此,该参数的完整条件分布,在封闭的形式,获得
为参数 ,一个可以写 在哪里 表示一个伽马分布的密度函数的意思 。可以看到,完整的条件后验分布的参数成正比的线性组合两个伽马密度函数形状参数与积极的系数相等。很容易显示完整的条件后验分布是一种双组分混合物伽马分布的 在哪里 与
了解完整的条件分布模型的参数,可以样本的联合后验分布模型参数。由于没有封闭形式的条件分布参数的表达式 ,一个嵌套pmmh算法应该用于从该参数的迭代内吉布斯抽样算法。
同时,考虑到 旧的观察,后预测分布的新观察对应向量的解释性变量是由 在哪里 和 是假发分布的密度函数和关节模型参数的后验分布给出了方程(1)和(17),分别。后预测分布的密度估计得到 在哪里获得代表一个样本的联合后验分布参数。
5。数据说明
在本节中,我们的模拟研究和分析实际数据集访问的性能模型,解释其适用性。提供一种情况对于一个公正的判断,我们认为搞笑和对数正态分布回归模型该模型在计算两个著名的竞争对手。(我)贝叶斯搞笑回归模型。搞笑回归模型研究了重复的文献,可以写成 ,与相同的链接功能提出了假发回归模型,例如, 。的贝叶斯分析这个模型,我们使用一个模糊的结构考虑的先验分布 和 ,hyperparameters被设置在哪里 , ,和 与 。在这些设置之前,它可以表明,参数的后验分布和γ和非中心吗 - - - - - -学生家庭的分布,并给出相应的贝叶斯估计 和 ,分别。我们提到的读者6,22)为更详细的建模IG分布(2)贝叶斯对数正态分布回归模型。因为它可以发现在任何贝叶斯教科书(见,例如,33]),构建贝叶斯对数正态分布分布反应变量的回归模型, ,这是足以构建一个正常响应的对数回归模型观察 ,在哪里 与 。使用semiconjugate结构的先验分布形式 , ,合同是直截了当的吉布斯采样器,以近似联合后验分布和数量感兴趣后采用下列全部条件分布:
应该注意的是,hyperparameters , ,和已经设置,在我们的研究中,以这样的方式产生一个模糊的之前设置。
5.1。模拟研究
我们考虑一个假发与两个解释变量的回归模型 与 , ,和 。解释变量的值模拟从独立标准正态分布和回归系数的值设置 。然后,响应模拟观测模型(27),不同的样本大小25、50、75和100。给定的模拟数据,我们使用该获得吉布斯采样器创建一个样本来估计5000年后老化期后感兴趣的参数。Geweke [34诊断是用来测试算法的收敛。均方根误差( 和相对偏差的绝对值 的贝叶斯估计回归系数的假发模型以及搞笑的相应值和对数正态分布模型计算,在哪里参数的真正价值,表示参数的值在 - - - - - -th重复,是估计后的意思。在所有的计算,重复的数量, ,是固定的4000为了考虑模拟数据的不确定性。这项研究的结果发表在表1。在表2一般比较的优势和限制不同的模型提出了讨论。
可以看到,相对偏差的绝对值和的均方根误差提出假发回归模型都小于相应的值为搞笑和对数正态分布回归模型。这意味着为假发模型的贝叶斯估计回归系数比同行更有效的估计在搞笑和对数正态分布模型。
5.2。应用到地震数据
探讨土壤剪切波速的影响( )在三十米的网站和Joyner-Boore距离( )为解释变量的峰值地面加速度(PGA)作为响应变量,选择25个不同的网站和感兴趣的变量测量。中给出的数据,表3帝王谷的一个子集,地震发生在1979年。的直方图和盒型图反应的观察,在图1,显示右偏态结构的数据。这表明假发和一些搞笑等右偏态分布和对数正态分布可能是合适的人选分布对拟合响应的观测。
(一)
(b)
的结果Kolmogorov-Smirnov假发分布的拟合优度检验以及相应的值给出了IG分布表4。我们还提供了相应的值的对数正态分布分布作为一个传统的候选人积极右偏态分布建模数据。可以看到,假发和搞笑的零假设分布响应分布都不拒绝在0.05水平的意义。模型参数的贝叶斯估计以及它们的对应HPD可信区间为不同的模型展示在表5。应该指出,估计也得到后获得样本的均值在5000年老化期。hyperparameters的价值(14)设置 为了提供noninformative模糊先验分布与大方差模型的参数。Geweke诊断测试(34)是用于评估取样器的收敛。
可以看到,从HPD可信区间,假发和LN模型,两个回归系数和不同于零的显著性水平 ,这是相同的其他参数的模型。但是,搞笑的模型的系数不是从0在同一水平上明显不同。应该注意到LN模型的回归系数的估计价值不与相应值的假发和搞笑模型由于功能之间的差异这些模型的函数形式的链接。在这种情况下,可以使用一些信息化标准来评估健康和复杂性的模型或提供一个标准来评估和比较他们的预测能力。在这个方向,Akaike信息准则(AIC; ),贝叶斯信息准则(BIC; ),和Hannan-Quinn信息准则(HQIC; )有工作,在这些标准的定义, , , ,和表示模型的对数似函数、向量的估计参数,样本大小,分别和模型参数的数量。这些标准的较小值,在桌子上6,表明更好的吝啬的适合。我们也使用了交叉验证的预测均方误差准则, 计算不同模型的预测性能。在方程(28),表示的预测价值根据这些数据 ,即。,all observations expect - - - - - -观察。
AIC的值、BIC HQIC表明假发回归模型的数据提供更多的支持比其他模型考虑到吝啬的原则。同时,的值表明预测精度更高,平均,假发模型。
6。结论
右偏态积极数据建模的核心兴趣寿命分析和许多其他领域。本文开发了一种通过考虑加权回归模型逆高斯分布响应观测作为通用的候选人为右偏态积极的分析数据。采用贝叶斯框架分析模型。该方法使用一组noninformative灵活的先知先觉的伽玛分布和家庭提供了一个容易处理的联合后验分布参数。计算简单,通过构造一个吉布斯采样器获得收益后的推论。比较实验研究、模拟和真实世界的例子表明,该逆高斯加权回归模型有能力主宰逆高斯分布和对数正态分布模型在文献中两个最著名的竞争对手。特别是考虑到相对预测效率(代表)的两个给定的预测因子和用交叉验证的预测均方误差准则的定义是 ,可以看出,提出的假发回归模型的预测相对效率搞笑和LN回归模型是由1.16和64年,分别讨论的真实世界的例子。
数据可用性
数据用于支持这项研究的结果已经提出。
的利益冲突
作者宣称没有利益冲突的出版这篇文章。