文摘
发现隐藏的混合变量之间的依赖关系的文献使用混合物R葡萄树介体模型。他们为建模多元数据提供相当大的灵活性。随着尺寸的增加,模型参数的数量,需要估计急剧增加,出现了大量的计算时间和努力。这种情况变得甚至更复杂的和复杂的葡萄树接合部混合模型。将截断方法的常规葡萄树模型将减少对mixture-based模型计算的困难。摘要tree-by-tree估计混合模型与截断方法来减少计算时间和数量的参数需要估计的混合葡萄介体模型。仿真研究和实际数据应用说明了该方法的性能。此外,真正的应用程序数据显示混合组件截断的影响水平。
1。介绍
连系动词是一个统计的工具用于模型变量之间的依赖关系的结构独立于他们的利润率。几种形式的接合部函数存在,可以处理各种各样的形状,从独立到非高斯分布的依赖。椭圆介体是最常用的多变量模型,由于其易于计算。阿基米德接合部是另一个著名的连系动词类功能。这些家庭能够控制类的依赖关系结构包括沉重的尾巴。例如,可以捕获Clayton copula函数模型这一个较低的尾部的依赖,而甘力克介体是一个上层的尾巴函数。连系动词的家庭,有兴趣的读者被称为尼尔森(1和乔2]。
在许多应用程序介体已经收到了有趣的关注。例如,Bardossy [3],Kazianka和Pilz [4(地质统计),巴顿(5](回顾介体模型在经济学领域)(6]copula-based多元模型用于分析在巴西东北部干旱。因为每个接合部家庭是对应于特定形状的依赖性,介体对相同的依赖结构类型在所有变量,这可能有不同形状的依赖性。假设相同的所有变量之间的关系可能不是现实生活的大部分数据集。高斯和t——学生连系动词是最常用的家庭在高维的情况下,而其他家庭几乎是局限于二维情况。参数限制和有限类型的多元介体有两个主要原因导致copula-based模型不合适的建模高维数据集,表现出多个变量之间的依赖关系类型。尽管接合部混合物模型显示显著的结果比较noncopula混合物模型(见,例如,(7,8),他们仍然受到限制一样copula-based模型。因此,两人连系动词或普通葡萄接合部模型已经建立在文献中解决介体模型的缺点。一对接合部分层模型,模型使用二元接合部函数一次只有两个变量(两人连系动词)。在葡萄树的相关模型,二元连系动词的类型并不一定需要为所有的变量是相同的。因此,多元分布仍然有效,即使对于每一对变量,我们确定最适合的介体数据(9,10]。这个形式的主要力量葡萄树的相关模型作为依赖形状可能会有所不同从一个变量到另一个。自2009年以来,葡萄树的相关模型收到了提高兴趣文学(见,例如,11- - - - - -16])。
虽然个人选择最适合的二元介体的主要优势之一是葡萄树的相关模型,确定每个二元连系动词的类型可以是一个非常困难的挑战。出于这个原因,混合模型结合了介体模型作为解决介体模型的识别问题。混合模型通常用来揭示变量之间的复杂依赖模式。高斯混合是在文献中使用最广泛的方法。例如,元et al。17]介绍了高斯混合回归模型质量预测多相/多模过程。Madenova和Madani18)应用高斯混合模型聚类分区Fe矿床进入geometallurgical集群具有相似属性。传统的模型,如t——学生和高斯混合模型假设所有混合组件遵循相同的参数分布形式,这几乎是在真正的应用程序不是这样的。非高斯数据的拟合高斯混合模型,可能会导致一个贫穷的建模(19]。此外,介体混合物模型遭受同样的在高维情况下介体模型的局限性。与这些模型不同,混合葡萄连系动词不需要遵循的所有混合组件的形式。pair-copula混合模型识别的主要解决方案最适合二元介体类型为每个联结词。减少misspecification pair-copula类型和揭示复杂的隐藏变量之间的依赖关系的两个主要优势是pair-copula混合模型(见,例如,(19- - - - - -22])。不幸的是,除了识别问题,R葡萄树接合部模型也遭受大幅增加的高维模型参数的数量。为 - - - - - -维R葡萄树连系动词,一个需要估计 ,这对大型数据集变得巨大。混合常规葡萄接合部甚至增加pair-copula模型的困难,可以讨论两点。首先,估算每一对变量的混合组件却并非易事。第二,要估计的参数数量急剧增加的数量混合组件和维度。克服模型参数估计的复杂性,因此,模型的复杂性,截断葡萄接合部被首次引入Brechmann et al。23和Brechmann和乔24]。截断的方法,所有的二元介体在更高的层次上(在截断水平)取而代之的是独立的接合部。因此,在这些层面的参数不需要估计导致显著降低模型的计算复杂度。
在vine-copula混合模型中,罗伊和Parui19)使用固定截断水平(在第二棵树)基于固定类型的混合pair-copula组件。然而,截断水平应该估计修复截断水平可能导致失去一些重要信息的变量。截断水平后,所有的变量必须(几乎)显示独立结构;否则,该模型不应该被截断。在混合物中的葡萄树的相关模型,混合组件影响截断水平。这可以真正的数据应用程序部分所示6。因此,在截断模型,建模者试图(希望)减少估计树模型。因此,他们需要估计的最佳树模型应该被截断。的混合模型,尽我所知,估计截断水平选择使用统计方法在文献中尚未调查,这项工作的主要目的。
剩下的论文结构如下:部分2简要论述了理论背景的连系动词和连系动词。部分3介绍了R葡萄树接合部混合模型和期望最大化(EM)算法,即算法估计模型参数。截断的方法介绍了部分4。截断的方法R葡萄树接合部混合模型模拟和实际数据说明了应用部分5和6,分别。
2。理论背景
本节的目的是提供一个通用的总结接合部和pair-copula模型的理论背景。更多细节,有兴趣的读者是指给定的参考。
介体是一个多变量函数,夫妻利润分布的一维标准统一的保证金(1]。
定义1(见[25])。连系动词是一个多元分布函数与标准统一的利润,这样
定理1。让是一个 - - - - - -维分布函数与边际分布 。然后,存在 - - - - - -空间相关函数这样, , 如果是连续的,那么是独一无二的。
介体模型的一个主要优点是建模者能够模型依赖的利润率独立结构,通过相关函数来捕获。另一个优势是接合部家庭的能力来处理广泛的依赖形式包括非高斯,高斯,沉重的尾巴。然而,相关函数对相同类型的所有变量间的依赖关系形状,即使在高维情况下无论优势的这些依赖项的类型。这个形式的一个主要限制的相关模型。此外,识别相关函数的形式,最适合的数据并不是一个简单的步骤,每一个相关函数助手具有特定形状的依赖。因此,大多数接合部模型仅限于一个二维的例子。高斯和多元接合部几乎是有限t——学生。然而,这些家庭都不足以应对nonelliptical依赖。
2009年,原子吸收光谱法等。9)建立了一个更有前途的方法,基于工作的贝德福德和库克(26),贝德福德和库克27,乔28),Kurowicka和库克(29日),为了解决这一问题的介体模型在高维度。他们的方法被称为葡萄接合部,pair-copula建设(PCC)和常规葡萄树(R葡萄树)连系动词。PCC的方法构建一个多元模型只使用二元接合部(双连系动词)。因此,只有两个变量进行建模。因此,PCC-based模型甚至提供了更多的灵活性和能力比copula-based模型。
定义2(树,看到26])。
=
是一个树(一个非循环图)节点和边(每条连接
)。
节点的度是边缘连接到该节点的总数。
定义3(葡萄树和常规葡萄树,见Ch。4 [29])。 是葡萄树如果元素(我) ,在哪里 表示第一个葡萄树等等。(2) 是一个连接树的节点 和边 。(3)为 , 是一个连接树节点 和边集 。此外,成为一个常规葡萄树如果元素(iv)为 ,如果 和 在两个节点连接的边缘吗 ,然后一个等于 , 。这种情况被称为距离条件。在距离条件下,两个节点的树只连接一条边,如果他们共享一个共同的节点在前面的树 。Kurowicka和库克29日)定义了 - - - - - -和 - - - - - -葡萄树模型如下:如果在第一个常规葡萄树每个节点最多有两个连接节点,然后定期葡萄树 - - - - - -葡萄树。如果在每棵树普通的葡萄树,有一个特定的节点连接到所有其他节点,则称为常规葡萄树 - - - - - -葡萄树。在第一个树,这个节点被称为根节点。
定义4(常规葡萄树(R葡萄树)规范,请参阅[27])。 是一个常规葡萄连系动词(R葡萄树连系动词)规范 是一个向量连续可逆的分布函数 是一个维正则葡萄树(R葡萄树) 是一组二元连系动词吗
让 是一个随机变量的向量, 是一个优势, ,和是一组条件的边缘 。贝德福德和库克27)定义了一个普通的葡萄树依赖如下:
定义5(常规葡萄树(R葡萄树)依赖)。联合分布函数在是说意识到一个常规葡萄树的相关规范如果为每个或展览常规葡萄树的依赖 ,的二元连系动词和鉴于二元接合部的一员吗 。的边缘分布是 ,为 。
的二元连系动词和鉴于是一个条件二元接合部被认为是独立的调节变量(见,9,30.])。
定理2(见[31日])。让是一个 - - - - - -维普通葡萄规范。然后,有一个独特的分布函数实现 。它的密度是 在哪里 , , 表示在一套调节调节变量 ,也就是说, ,和的密度是 , 。此外,代表之间的二元介体密度函数的优势 。
继续过去的定理,让 , , ,和 被加入的边缘和 。乔(28)表明,有条件的边缘分布,和 ,可以得到如下: 在哪里和然后被称为转换变量(参见[9]和[31日])。
PCC和介体模型共享相同的识别问题,在PCC甚至更困难比介体模型。此外,为 - - - - - -维R葡萄树连系动词,有 参数估计,这对高维的数据集变得巨大。然而,这个数字是很大的混合模型。例如,对于混合模型,需要估计(单参数) ,在哪里是混合组件的数量。然而,可能的PCC混合模型估计参数 。因此,模型参数的数量很大程度上取决于数量和混合组件的类型。例如,对于31-dimensional数据集2混合组件,需要估计2790参数。这个数字高度增加维度和混合组件的数量。因此,模型必须减少减少模型的复杂性PCC混合模型。这可以通过只建模有限数量的葡萄树,而不是完整的模型,高阶的树木将独立接合部(见,31日])。
3所示。混合物R葡萄树模型和EM算法
混合模型便于建模复杂的隐藏变量之间的相关性拟合加权密度之和的功能根本问题。有限混合pair-copula建设结合的好处混合物和葡萄树的相关模型,为了提供巨大的灵活性和建模功能建模高维的数据集。通过这样做,pair-copula混合物模型允许拟合不同的二元混合物接合部的每一对变量。即混合葡萄连系动词可以定义为基础的混合双连系动词。
3.1。有限混合模型
让和两个单变量的随机变量观察和连续和 ,分别。然后,他们可以给定概率积分变换 和 ,分别。进一步假设有趣的部分是在建模的依赖关系的两个随机变量之间的结构,和 ,使用二元混合物的接合部。因此,二元混合物的密度接合部,模型之间的二元结构的依赖和 ,是由 在哪里是一个未知的参数(称为混合系数或重量)的吗 组件满足以下:
是所有模型参数的集合,而是所有的向量的参数组件。在混合模型,期望最大化算法(EM算法)是一种常用的方法来估计模型参数。该方法的更多细节将在下一节介绍。
3.2。EM算法
期望最大化(EM)算法32)是一个两步的估算方法,所谓期望步骤(E一步一步)和最大化的步骤(米一步一步)。假设一个二元数据样本 的大小 , ,是可用的。进一步假设转化为均匀分布的数据使用经验累积分布函数。然后,pseudosample介体的 。然后,log-pseudo似然函数给出如下: 在哪里是所有模型参数的集合,而所有的参数吗组件。基于EM方法,观察到的数据被视为不完整的信息,因此,EM算法介绍了潜变量 在哪里 如果观察是来自组件和 否则。换句话说,每个观测表明,混合组件。这些潜在变量被认为是独立的和无条件的分布式等多项分布
因此,我们现在有完整的数据:
完整的数据对数似然函数, ,给出如下:
EM算法从未知参数的初始值 ,和两个步骤(E和米重复,直到收敛小于指定公差。E-step:计算完整数据日志可能性的条件期望,在方程(9),考虑到观测数据和使用的当前估计参数 。假设我们在迭代 。然后,条件期望的计算如下: M-step:可能性最大化完整数据日志,(从E一步一步),对为了产生一个新的模型参数的估计 。在这一步中,估计每个组件的参数是独立计算,也就是说, 和 。的新估计可以得到如下: 的更新可以通过最大化下面的方程使用数值最大化方法:
4所示。截断R葡萄树接合部混合模型
pair-copula模型的灵活性降低随着维度的增加。删除R葡萄树模型是一个主要的解决方案,为解决这一问题中扮演着重要角色的pair-copula模型。删除R葡萄树指取代所有高阶发辫的一对接合部独立的接合部。的主要想法截断R葡萄树接合部混合模型可以在下面的例子。
示例1(截断R葡萄树接合部混合物模型)。考虑7-dimensional混合物R葡萄树模型,两个混合组件的单一参数的二元介体,如图1。
在这个例子中,两个二元混合物接合部是安装在每个对单一参数。因此,有63个是完整的估计模型参数。假设这个模型被截断在树3
。因此,我们将有一个3-truncatedR葡萄树接合部混合模型。通过这样做,条件二元混合物在树木接合部
,和6将独立的接合部。因此,在这种情况下,只有45个参数需要估计而不是63年与完整的模型。这是因为在3-truncatedR葡萄树的相关混合模型,只有15边缘,虽然有21为完整的边缘R葡萄树接合部混合模型。非常高维的数据集与大量的混合组件(5)说,截断在第一个树将是非常合理的。
4.1。方法
Brechmann et al。23)开发应用最广泛的截断方法,截断R葡萄树模型顺序,使用不同的模型适合度,包括Akaike信息标准(AIC) Akaike [33)和贝叶斯信息准则(BIC)的施瓦兹et al。34]。在本节中,顺序截断法的Brechmann et al。23(算法1)(也看到,算法7 (35])是合并的R葡萄树接合部混合模型使用众所周知的选择标准。摘要AIC、BIC和一致的Akaike信息标准(CAIC) Bozdogan [36)工作。这些标准给出的公式如下: 在哪里是估计的参数值,N是观察建模变量的数量,然后呢P模型参数的数目。
|
||||||||||||||||||||||||
截断的R葡萄树接合部混合模型可以概括为以下步骤:(1)选择特定数量的树木,说第一个两棵树(2)计算模型的选择标准(3)添加一个新的树前面的模型中,为了获得一个新的模型(4)计算新模型的选择标准(5)如果新模型显示之前穷人贡献模型,根据选择标准的值,然后截断R葡萄树接合部混合模型在前面的模型(6)如果新模型显示了前面的重大贡献模型,然后重复步骤3:6。
例如,考虑一下R葡萄树接合部混合模型示例所示1。在第一步,一个小模型(只有前两棵树)是构造(第一个模型)。然后,两个组件的混合二元接合部是安装在每一对变量的模型。然后,估计模型参数。之后,在第二步,计算,是指BIC的第一个模型。然后,一个新的树添加到模型中。现在,模型只使用三棵树(第二个模型)。在那之后,第二个模型的计算。如果< ,在第二棵树模型截断,并返回第一个模型。否则,从而构建一个新的模型,通过添加一个新的树,和步骤迭代直到到达最优截断水平。
如上所述,截断的过程与混合依赖关系是复杂的,而不是简单的二元连系动词的组合影响。例如,一个类型的二元混合物接合部可能导致模型在某种程度上被截断,而相同的模型可能被截断在不同级别不同的混合组件。这种潜在的结果是部分所示6。
5。模拟研究
为了说明顺序混合截断法的性能,从双组分生成一个模拟数据R葡萄树接合部混合模型只有两个级别(参见图2)。之后,真正的模型中,三个层次,全面双组分五维混合物R葡萄树模型拟合数据,分别。然后,AIC、BIC CAIC计算为每个模型。自测试旨在展示截断方法的性能,并比较原因,结果所有的安装R葡萄树接合部混合物模型报告。
在报告的最终结果之前,模拟研究的想法更详细地用图表示表示。考虑五维,两个组件,R葡萄树接合部混合模型。数据2- - - - - -4存在三种不同的R葡萄树接合部混合模型。这些模型是完整的R葡萄树接合部混合模型、3个层次和2水平截断R葡萄树接合部混合模型,分别。这些模型之间的主要区别是树的数量被建模。例如,对于完整的R葡萄树接合部混合模型,有四棵树,需要估计整个模型。然而,在截断模型的情况下,有条件的二元混合物接合部水平2和3取而代之的是独立的连系动词( )。因此,建模整个模型,而不是一个只需要估算二元混合物接合部截断水平。对于非常大的数据集,100维说,这将导致一个非常巨大的降低模型的复杂度和需要估计的参数。
表1- - - - - -3总结了三种拟合模型的信息。摘要包括二元混合类型的接合部(在每一对)和混合权重,而表4- - - - - -6三个模型的结果报告。
从表4和5模型参数的估算值,首先的树木模型非常接近真实值。因此,依赖关系的结构,描述和EM算法的性能满意。此外,对于3个层次截断模型,相应的参数混合二元接合部的树木3和4是非常接近每个二元接合部的独立的边界。例如,在3个层次树3截R-vine混合模型,弗兰克和高斯接合部的参数和0.091,分别。此外,肯德尔对应的τ值的接合部和0.061,这是非常小的,这表明相应的变量几乎是独立的。这说明了EM算法的性能准确估计模型的参数。
后估计模型参数和测试性能的模型,每个模型的三个模型选择标准计算,为了说明的能力截断方法选择最优截断的混合物R葡萄树模型。选择标准的值如表所示7。
从表7,截R葡萄树接合部混合模型在水平2显示最好的模型,而完整的模型显示最糟糕的模型适合。此外,所有的选择标准选择真正的模型(该模型的模拟数据生成)。比较的截断值的选择方法R葡萄树接合部混合模型与3个层次截断模型,人们可以清楚地看到,模型是正确截短。也就是说,让工商局 ,BIC ,和对应于2水平截断R葡萄树接合部混合模型和另类投资会议 ,BIC ,和3个层次对应截断模型。然后,从表中,另类投资会议< AIC ,BIC< BIC ,和< CAIC 。相同的结果保存在比较真实的完整的一个模型。因此,结果可以解释为证据能力的截断方法选择最优截断水平R葡萄树接合部混合模型。因此,截断方法的性能R葡萄树接合部混合物。
6。实际数据应用
本节的目标是演示的顺序截断法的性能R葡萄树连系动词时混合模型应用于实际数据集。因为这个原因,两个真正高维数据集进行测试,即元音和电离层数据集,从存储库(37]。他们由990年和351年的观察,分别。随着这篇论文的目的是将截断方法R葡萄树接合部混合模型,重点将是固定的R葡萄树接合部混合模型,为了避免额外的复杂性和计算模型。对于每个数据集,不同的固定R-vine接合部混合模型。
在说明上的截断方法的性能R葡萄树接合部混合模型,拟合二元混合物的完整信息介体为每个数据集的每个模型在表8高斯(Ga),克莱顿旋转90度(Rot.C(90)),甘力克旋转90度(Rot.G(90)),弗兰克(F),乔180度旋转,旋转耿贝尔180度(Rot.G(180)),乔和旋转270度(Rot.J(270))的拟合二元接合部和他们的短名称。
这些数据集的维度是10岁和32岁的分别。因此,有两种不同的R葡萄树接合部混合模型与十维9树,和45边缘,而第二个是32-dimensionalR葡萄树与496年树木和31日边介体的混合物。这些模型,并且与nonmixture R-vine模型,估计的参数的数量很大程度上取决于类型和混合组件的数量。例如,4-mixture组件的单参数二元连系动词,第二个模型将包含参数。可以想象多少显著降低模型的复杂度将获得如果截断水平可以达到第一的水平。另一个重要的点,正如上面提到的,是截断的混合组件的影响水平。这两个点是见表9和10。
从表9和10,上面提到的两个要点。首先,从表9,强烈的截断水平受混合组件的类型的影响。对于第一和第二混合物模型,不可能截断水平,而第三混合物模型截断在7级。因此,截断水平不应固定,需要估计,为了避免忽略任何可能的信息。第三混合物模型,此外,截断法,有27个参数不需要估计相比,完整的模型(第三个模型没有截断水平)。对于第二个数据集,这两种混合模型截断在第三层次。因此,只有609参数估计的 ,它提供了一个非常重要的减少模型的计算复杂性和努力,这说明了上面提到的第二点。
7所示。结论
建模一次只两个变量使用(混合物)二元接合部(混合物)的主要好处之一pair-copula模型。然而,这种灵活性降低维度,由于大量的模型参数估计。摘要截断方法成立混合物R葡萄树模型。估计的截断水平混合物R葡萄树模型并不是一个简单的方法作为混合物的影响组件模型的结果。截断方法的性能与EM算法。仿真研究表明模型来准确地估计截断的能力水平和模型参数。真正的数据研究表明显著降低模型的计算。此外,真正的研究中,混合组件截断的影响水平。
剩下的问题是如何评估混合组件,对每一对变量,影响最优截断水平?此外,怎么可能下令变量,基于混合组件,提供了一种新方法来估计每一对变量的混合组件和截断水平会受到怎样的影响?这些问题是留作未来的工作。
数据可用性
本研究的数据集用于支持这些发现已经存入龙骨库(https://sci2s.ugr.es/keel/development.php)。
信息披露
作者承认这些手稿已提交作为研究预印本广场下面的链接:https://www.preprints.org/manuscript/202102.0458/v1。这项工作是在数学科学学院进行的,澳大利亚布里斯班昆士兰科技大学的。
的利益冲突
作者宣称没有利益冲突。