基于矢量广义线性和加法模型的分布特定分位数回归的新链接函数

抽象的

在通常的分位数回归设置中，响应的分布未指定。在这项工作中，指定分布，我们将新的链接功能引入了直接建模七个1-参数连续分布的定义分位数。使用矢量广义线性和加法模型（VGLM/VGAM）框架，我们将某些预指定的分位数转换为线性或添加剂预测变量。我们的参数分位数回归方法采用VGLM/VGAM，因为它们可以处理多个线性预测指标并包含指数族以外的许多分布。再加上适合Smoothers的能力，可以放松分布的强大假设，从而提供半参数类型分析。通过同时允许多个线性和添加剂预测指标，可以通过强制执行并行性约束矩阵来避免分位数交叉问题。本文提供了称为软件实施的详细信息vgamextra包装r。本文中使用的数据和最近开发的软件都可以从Internet自由下载。

1.简介

1.1。背景

用于估计条件分位数函数的许多现代回归分析可能被视为从Koenker和Bassett开始[1]，他提供了一种系统的策略来检查协变量如何影响整个响应分布。基本想法是基于线性规范分位数函数和发现解决优化问题对于来自线性分位回归模型家族的独立和相同分布的（I.I.D.）的观察结果，。等式（1）可以使用分段线性函数重新重新构成线性编程问题为了。可以在Koenker中找到更多细节[2]。

本着分数回归的精神通常未指定，尽管它依赖于用于推论的基于正常的渐近理论，而误差项的假设是被丢弃。在本文中，我们基于假设对响应的预先指定的分布，使用条件 - 定量回归的替代方法。与许多非参数方法相比，参数分位数回归具有一些优势，包括克服分数交叉问题。两个例子是Noufaily和Jones [3]基于广义伽马分布和广泛的位置，比例和形状的添加剂模型（gamlss; [[[[[[[[[gamlss;4]）。进一步的例子是涉及标准正态分布和三参数盒-Cox转换的LMS-BCN方法[5]和基于不对称拉普拉斯分布（ALD）的经典分位回归方法。

我们的方法使用矢量广义线性和添加剂模型（VGLM/VGAM； [[[6，，，，7]）框架。我们开发新的链接功能，，，，，对于分位数回归模型对于分位数的向量。我们的方法依赖于分布的预定。我们还将证明可以通过此建模框架克服分位数交叉问题。方程式（2） - （（3）指出以给定值的条件分布的条件分布具有涉及参数的分布并且分布的转换分位数成为形式的线性预测指标（5）。这可以通过定义连接的链接函数来实现（3）到（5）。线性预测指标的原因是广义线性建模[8]是一种非常公认的回归建模方法。GLM是通过迭代重新加权的最小二乘（IRL）和Fisher评分来估计的，该算法也被VGLMS和VGAMS采用。

本文介绍的方法与常规分位回归不同[1]我们假设已知，而常规案例并不知道，而是使用经验方法来获取分位数：检查功能的期望导致该物业定义 -分数（是累积分布函数（CDF））。在本文中，我们考虑表中列出的S2。

1.2。VGLM和VGAM

VGLM/VGAM提供了这项工作的引擎和整体建模框架 -VGAM r下面描述的软件包适合150多个模型和分布，因此我们仅在此处绘制细节。VGLM是根据线性预测指标，，，，，作为条件密度的任何统计模型给定- 解释变量的二维矢量，有形式对于某些已知功能，，，，和，，，，一种未知回归系数的基质。按说，拦截。

通常，VGLM的of可以直接应用于参数，，，，，任何分布，如有必要，如TH线性预测指标在哪里是VGLM参数链接功能，如表中1（看 [6]和进一步的选择）和是个TH的元素。在此工作之前是“原始”参数，例如位置，比例和形状参数；但是，在本工作中，我们将它们定义为分位数或分位数非常简单的功能。


职能	链接	领域	链接名称

loge（）			对数
cloglog（）			互补的日志
logit（）			logit
logffmeanlink（）	logit（（） -堵塞（（）		logffmeanlink
Rhobit（）			罗比特

这是对数分布的平均函数的VGLM – link。


分配	支持	分位数函数	功能	分位数链接

指数			log – link
贝尼尼			log – link
瑞利			log – link
伽玛		没有封闭形式	log – link
麦克斯韦^†			log – link
topp – leone			logit	logit
1–正常^‡			身份

Qgamma（）是标准伽马分布的分位功能r。
logit 。
^‡ ，，，，和erf（）表示错误函数。

以矩阵形式可以写在哪里，，，，。有时，对于某些，，，，可能需要建模作为拦截 - 只有，那是，，，，，和为了。

VGAM是VGLM的非参数扩展，也就是说（（6）被概括为和。通常，组件函数由花键估算。这里，已知已知的完整列级约束矩阵，并且是未知截距的向量。根本没有任何约束，（命令-身份矩阵）。对于VGLM，是线性的，所以请参见。（（6），这可以执行广泛的线性约束，例如并行性和交换性。

1.3。估计

VGLM通过IRL使用预期信息执行的最大似然估计。VGLM log -likelienhoods由对于已知的固定正面重量，，，，以及一种最大化牛顿的算法（9）有形式，，，，在哪里是总预期信息矩阵（EIM），是分数向量，并且是迭代编号。向量作为广义最小二乘问题的解决方案获得，，，，在每个IRLS迭代处最小化的数量是正方形的加权（或残差）总和，RSS = 这（）被称为工作重量矩阵，它们有由使用单个EIM而不是观察到的信息矩阵意味着使用Fisher评分而不是Newton -Raphson算法。

VGAM还通过IRL估计，其中与VGLM的差异是，现在将矢量加性模型拟合到伪响应中带有解释性变量和工作重量矩阵在每个IRLS迭代中。目前正在使用两种方法VGAM估计组件功能：带有矢量背贴的回归样条和矢量平滑方法。基本的p序列[9]几乎是运营的，尽管这项工作尚未完成。与VGLMS相比，VGAM Log -Likelihoods如果与矢量平滑花纹一起使用，则包括罚款。在VGAM目标函数最大化为在这里，是非负平滑参数，以及是涵盖每个协变量值的终点。此处采用的基本惩罚方法在Green和Silverman Green和Silverman [10]。

2.方法论

让像（如4）参数为对于某些参数空间居住。也让成为相应的分位数函数。至关重要的是，请注意（5）处理合适的转换在线性预测器中通过参数链接函数。相比之下，我们的建议重点是直接建模通过光滑的一个功能，，，，以将合并到VGLM/VGAM log -likelienhieny中，即（（9）和（12）。这里，是利益分位数的预先指定的向量。示例（13）是，，，，，，，，和。

等式（13）是这项工作的核心。它允许通过对于分位数函数，，，，它代表了对VGLM/VGAM框架的新修改。注意类似于a链接功能在表中，在VGLM/VGAM框架中1。两个注释：首先，没有任何一般性的损失（（13）可以（严格地）视为由于分位数和协变量已知。第二，是单调的，是一个单调的，是一个单调的。和还拥有此类属性。但是，在拟合过程中，IRLS算法在内部需要。在此阶段使用1参数分布可以通过Fisher评分来降低实施可以手动得出，然后掺入IRLS算法中。在少数情况下，逆没有封闭形式，例如1参数伽马分布，并且采用了替代的迭代方法进行近似。为了有效地实现这一目标，可以选择两种选择。这些都是（一种）newtonraphson.basic（）从vgamextra和（b）vgam :: bisection.basic（），二矢量化著名的牛顿 - 拉夫森和双分配算法的实现，以在给定的间隔中求解实现功能的根源。进一步的详细信息在节中给出2.2。

这项工作的一个优点是，VGLM/VGAM框架可以规避分位数交叉问题（例如，[2，，，，11]，教派。2.5）选择和（一个 -矢量）。在此并行性假设下，方法借用了整个数据集的强度，因此关于是平行的。桌子中的每个家庭功能2和3有一个平行线参数是错误的默认情况下。使用的语法VGAM基于钱伯斯和hastie [12]，环境并行= true（或者并行= false〜1）结果是和 ;即，仅拦截是错误的。


分配	逆	家庭功能	链接vgamextra

指数		指数（）	expqlink（）
贝尼尼		benini1（）	benini1qlink（）
瑞利		瑞利（）	releighqlink（）
伽玛	近似	γ1（）	gamma1qlink（）
麦克斯韦		麦克斯韦（）	maxwellqlink（）
topp – leone^†		topple（）	Toppleqlink（）
n（）		normal1sdff（）	normal1sdqlink（）

表示逆logit（）转型。

注意到，对于某些分布，例如指数和麦克斯韦相对于因为有形式。如果是这样，那么只有截距才会随着和mles是相同的。其他分布（例如1参数伽马）不具备此属性，然后有必要约束避免分数交叉问题。

2.1。两个派生

理想情况下，链接改变了到因为应该无限。最常见的三个案例如下。为了建议使用日志链接 logit链接是一个不错的选择，并且意味着身份链接是自然的。这些案例已针对七个1参数分布实施。函数的选择每个显示在表的第五列中2，而所得的分位数链接作为功能显示在最后一列中。

现在，我们将指数分布和TOPP -Leone分布的分位数链接描述为示例。首先，是，，，，使用费率参数，，，，密度和CDF由和。随着符号的略有变化，分位数函数由，，，，IE。，其中不管价值如何和。鉴于该值的值已知（用户预先指定）（14）成为。因此，如表所示，指数分布的新分位数链接2仅通过服用才能获得作为对数转换，如下：该分位数已在vgamextra通过功能expqlink（），如表所示3。它的逆（表示为）可以从（可以从15）。请注意，相应的家庭功能（指数（））实施VGAM包括（已知的）位置参数，，，，这给出密度。默认情况下，，，，它是由论点来处理的地点。

其次，考虑TOPP – Leone分布谁的支持和和。这里，。验证此限制注释，，，，对于任何形状参数，，，，因此，，，，因此，为允许分位数函数由协变量建模，我们将logit转换作为。该分布的结果分位数链接简单，，，，如表所示2。分布有CDF 为了，，，，和密度。分位数函数来自求解方程，，，，为了，，，，导致二次方程式。解决方案必须躺在实际上是16），作为。家庭功能topple（）从VGAM估计，，，，默认链接在哪里。

2.2。软件实施

为了其他人的实际用途，我们实施了七个VGLM量子链接，在里面r包裹vgamextra。它们总结在桌子中2。包VGAM是要求vgamextra因为建模功能VGLM（）和vgam（），除了桌子的最后一个家庭功能外2，居住在那里。对于本文vgamextra 0。0-2和VGAM 1。1-0或以后需要；它们可在www.stat.auckland.ac.nz/~vmir178和www.stat.auckland.ac.nz/~yee/vgam/prerelease/虽然两者的较旧版本都可以在cran上获得（http://cran.r-project.org）。

一个特殊情况是gamma1qlink（），对于1-参数（形状）伽马分布，定义为谁的主要论点是和。它的逆（表3）不接收封闭形式，并且该功能近似vgam :: newtonraphson.basic（）， A矢量化牛顿– Raphson算法的实施。几乎所有其他地方的实现都用于标量论点，但我们在长度上操作。它的工作如下。我们的数据有效，，，，虽然感兴趣的分位数或者，，，，必须由用户输入。形状参数由IRL估计，因此在每次迭代中都可以使用。因此，每个，，，，“反向”由根部给出，，，，功能

最后，表中显示了所有VGLM – Quantile链接的倒数3，以及相应实现的名称vgamextra。Fisher评分在IRL的不同阶段需要逆链接，该链接在内部切换（即表2）和（即表3）。具体而言，该算法需要分数向量和每个IRLS迭代处的EIM，这是由以下链及r子公式给出的：

在内部，用于计算逆的功能为vgam :: eta2theta（）或者vgam :: theta2eta（）。这vgamextra手册和米兰达·索贝拉尼斯[13]提供有关分数链接的推导的更多细节，而yee [6]在IRL和Fisher评分算法中描述用于估计VGLM和VGAM。第二作者的主页上的补语提供了有关链接功能的更多详细信息。

2.3。软件使用

对于用户，此方法通过调用建模功能来照常运行VGAM :: VGLM（）和vgam :: vgam（），除了下面描述的两个修改。

首先，我们给出以下输出，以显示由VGAM :: VGLM（）：

第一个调整是随着论点进行的公式，对适合模型的象征描述。通常，像y〜x2 + x3应该回应足够y和协变量x2和X3。这有效地适用于单变量，甚至对多个回复说明Y1，Y2，和Y3，唯一的改变是设置cbind（Y1，Y2，Y3）〜x2 + x3。在这里，公式的右侧（RHS）应用于每个线性预测指标。

用于使用VGLM和VGAMS的分位数建模，q.reg（）必须纳入公式，其论点显示在表中4。对于给定的一组兴趣集，通过，，，，q.reg（）复制响应矩阵y进入列，哪里表示y。然后，该公式的RHS根据所关注的分位数适用于每组列。通常，响应是向量，以便和。


争论	描述

y	数字，矢量或矩阵。它是要拟合的模型公式中的响应或因变量。

PVECTOR	原型矢量。条目是拟合过程中的条件p量子。

长度	单位长度正整数。它是要建模的P量子的数量。

例如，假设我们有两个回复和从预定分布中取样，，，，根据表3，感兴趣的分位数是。然后Q.REG（CBIND（Y1，Y2），PVECTOR = P）将返回带有六列的矩阵，前三列是，，，，每个分位数一个，同样的最后三列相等。因此VGLM（）将该模型处理为多个响应。

第二个调整与论点有关家庭，描述要拟合的统计模型的函数。每个家庭至少有一个论点要在拟合过程中使用链接函数（名称从家庭变为家庭）。例如，对于VGAM ::指数（）这就是所谓的关联，而家庭功能vgam :: benini1（）（请参阅表的第三列3），称为LSHAPE。当要执行VGLM – Quantile建模时，相应的链接（表的最后一列3）必须输入家庭因此。所有分数链接管理相同的参数，包括p，分位数的向量，除了benini1qlink（）有其他论点Y0。

通过这两种修改，典型的调用具有以下形式：

可以在此合并进一步的拟合变体，例如，分类协变量和使用Smoothors（例如回归花纹）。这些和其他一些功能在下一节中说明了。

3.示例

3.1。麦克斯韦数据

我们使用仿真生成从麦克斯韦分布的随机变化，其速率参数是单个协变量的函数。为了说明数据集中的非线性趋势，具有立方平滑样条的添加剂模型似乎是对线性方案（例如使用VGLMS）的更好选择。在此示例中，我们执行以下步骤来确认方法的性能。（1）生成与麦克斯韦分布的随机偏差。（2）使用有条件的VGAM - 量化建模maxwellqlink（）基于VGAM家庭功能VGAM :: MAXWELL（），这通过Fisher评分估计麦克斯韦分布。（3）使用普通的分位数回归vgam :: alaplace1（）这估计了Fisher评分的1-参数ALD。在这里，特别的论点tau将被雇用。（4）用估计的分位数绘制人工数据，（来自（2）），估计的分位曲线（来自（3））叠加。

为了简单起见，我们将考虑25％，50％和75％的分位数，以便。

关于（1），数据是由vgam :: rmaxwell（），这使随机偏离密度的麦克斯韦分布。我们使用速率功能在哪里，，，，。以下代码块设置了所有内容，并且数据集被保存为麦克斯达塔。

以下代码块执行步骤（2）和（3）。注意通过vgam :: vgam（）用平滑的术语定义vgam :: s（）在哪里要平滑。为了比较这两个拟合，它们被保存fit.qmodelling（来自（2））和fit.qregression（来自（3））。

数字1显示了模拟数据，估计的分位数函数和拟合的分位曲线fit.qmodelling和fit.qregression，从矢量平滑样条拟合[14]。结果相似，，，，但是我们目前的工作在LHS尾巴的底部表现更好。表中总结了每个建模框架的数据覆盖范围5。我们的工作再次优于ALD方法。


	QM–vgamextra覆盖范围	QR–VGAM覆盖范围

	26％	28.5％
	50％	54％
	73.5％	78.5％

我们以几句话结束了。（1）论点p可用于全部表格中的分位数链接3不仅是maxwellqlink（）。可以分配任何百分位数的向量。（2）在有条件的VGAM量化建模框架下，处理平行性假设的论点，例如参数平行和平行在家庭功能中不再需要。这是由新的刻痕链路内部管理的，而不是由家庭功能管理。（3）如果合身是Qlink拟合，然后安装（合适）返回拟合的分位数。这是一种形式矩阵。相似地，预测（拟合）返回a 矩阵的位置排是。

3.2。与Quantreg软件包的比较

为了检查目的，将结果与Quantreg也。数字2根据以下代码给出结果。

结果应与部分相似3.1因为ALD和经典的分位回归方法基本相同。可以看出，底部的LHS角不能很好地建模Quantreg任何一个。我们的方法再次表现最佳，鉴于强大的分布假设，这并不奇怪。

3.3。指数数据

Feigl和Zelen [15]将指数分布拟合到包含两组白血病患者的死亡时间（几周）和白细胞计数的数据集，以及Ag阳性和Ag阴性的二元变量。这两组不是通过随机分配创建的。变量Ag是形态变量，Ag因子；其中1表示Ag阳性的数字矢量，2表示Ag阴性。我们创建AG01那是AG -1。我们使用白细胞计数（WBC）的日志，因为它非常偏斜。数据在Glmsdata在Cran上支持Dunn和Smyth [16]。

用VGLMS进行分位建模的一个好处是，它可以轻松地比较AG01或任何其他指标变量，在不同的分位数处。第一注意，对于Ag阳性患者logwbc= 9，死亡时间为25％几周，而75％的百分位数是几周。其次，系数AG011衡量AG因子对死亡时间的影响。保持WBC恒定水平，对于25％或75％的患者，与Ag-阳性相比，Ag阴性的死亡时间倍增，，，，即寿命减少％。

为了进一步说明，我们适合1参数伽马分布，并解释结果。与麦克斯韦和指数分布不同，简单的数学表明不同的分位数是平行的，因为它们的对数相对于，，，，1参数伽玛不具备此属性。

在这里，保持WBC恒定水平，对于25％的患者，与Ag -potitives相比，Ag阴性的死亡时间是乘法的，，，，即％减少。相比之下，对于75％百分位数的患者，与Ag - 阳性相比，Ag阴性的死亡时间倍增，，，，即％减少。这表明，与一般寿命更长的病例相比，AG的影响更大。

最后，只是为了检查，我们获得了每个预测指标的约束矩阵：

有一个并行的假设logwbc但不是其他任何解释变量。

4.讨论和未来工作

参数分位数回归中的这项工作被假定分布的强烈假设所扼杀。从理论上讲，这可以通过尽可能多的分布来改善这一点。表中列出的一些分布2例如，在动力学分子理论中具有实际应用。理想气体的个体分子的速度遵循麦克斯韦分布，平均动力学速度与开尔文温度直接相关。在不满足各种假设（例如容器的效果）的实验中，人们可能会用包括温度和其他协变量，例如容器壁的容器和密度。也可以这样对不同形式的气体（例如等离子体和稀土气体）进行建模。另一个示例是与麦克斯韦分布相似的瑞利分布。在二维和磁共振成像（MRI）的应用中，通常会根据背景数据（即瑞利分布）查看复杂图像。非标准的背景信息可以包含在及其对所检查分布的影响。

在当前的软件实施中，由于其内部设计存在局限性。例如，如果

像其他许多人一样工作VGAM楷模。这里的困难是@linkinvS4插槽VGAM家庭功能有eta作为一个论点，在我们的实施中，只能通过向新百分位数提供给预测（）预先。

我们软件实施中的另一个次要缺陷是复制响应向量时代，这是一种回收的形式。可能可以避免这种情况，因为当任何一个时，记忆要求都可能过多或者很大。

目前，VGAM框架具有提供1参数分位数链接的基础架构。对于分位数函数，具体取决于2个或更多参数，例如两参数伽马分布，分位数将是双变量函数，其逆向可能不接收封闭形式。然而，未来的工作包括能够为两参数分布编写链接，其中正态分布将是最重要的。为此，Yee和Miranda-Soberanis背后的方法[17]可以使用；他们解决了实施两参数的规范链接功能的数十年问题负二项式分布。我们已经开始朝这个方向进行工作，例如2-参数伽马分布。

数据可用性

用于支持这项研究结果的数据可在补充材料中获得。

利益冲突

作者宣称他们没有利益冲突。

致谢

VM的工作得到了奥克兰大学博士奖学金的支持。

补充材料

该文件是一个包含R命令的文本文件，可以复制到R中。该文件包含有关需要安装和加载哪些R软件包才能正确运行的信息。没有版权问题。一些数据包含在r软件包中，其中一些数据是模拟数据。（（补充材料）

参考

R. Koenker和G. Bassett Jr.，“回归分位数”，，计量经济学，卷。46，不。1，第33-50页，1978年。查看：发布者网站|谷歌学术|MathScinet
R. Koenker，分位数回归，卷。38，剑桥大学出版社，美国纽约，2005年。
A. Noufaly和M. C. Jones，“基于广义伽马分布的参数分位数回归”，皇家统计学会杂志：C系列（应用统计），卷。62，不。5，第723–740页，2013年。查看：谷歌学术|MathScinet
R. A. Rigby和D. M. Stasinopoulos，“位置，尺度和形状的广义添加剂模型”，应用统计杂志，卷。54，不。3，第507–554页，2005年。查看：发布者网站|谷歌学术|MathScinet
T. J. Cole和P. J. Green，“平滑参考百年曲线：LMS方法和受惩罚的可能性”，”医学统计学，卷。110，没有。5，第1305–1319页，1992年。查看：谷歌学术
T. W. Yee，矢量广义线性和添加剂模型，并在R中实现，施普林格，纽约，美国，2015年。
T. W. Yee和T. J. Hastie，“降低级别矢量广义线性模型”，统计建模。国际杂志，卷。3，不。1，第15–41页，2003年。查看：发布者网站|谷歌学术|MathScinet
J. Nelder和R. Wedderburn，“广义线性模型”，，皇家统计学会杂志，卷。1350，没有。3，第370–384页，1972年。查看：谷歌学术
P. H. C. Eilers和B. D. Marx，“具有B型和惩罚的灵活平滑”，统计科学，卷。11，不。2，第89–121页，1996年。查看：发布者网站|谷歌学术|MathScinet
P. J. Green和B. W. Silverman，非参数回归和广义线性模型：一种粗糙度惩罚方法，查普曼和霍尔，英国伦敦，1994年。
X.美国统计学家，卷。51，不。2，第186-192页，1997年。查看：发布者网站|谷歌学术
J. M. Chambers和T. J. Hastie，S中的统计模型，Chapman＆Hall，纽约，美国，1993年。
V. Miranda-Soberanis，矢量广义线性时间序列模型在R [Ph.D。论文]，新西兰奥克兰大学统计系，2018年。
T. W. Yee和C. J. Wild，“矢量广义添加剂模型”，皇家统计学会杂志。B系（方法论），卷。58，不。3，第481–493页，1996年。查看：谷歌学术|MathScinet
P. Feigl和M. Zelen，“与信息伴随的信息的指数生存概率的估计”，生物识别技术，卷。21，否。4，第826–838页，1965年。查看：发布者网站|谷歌学术
P. K. Dunn和G. K. Smyth，广义线性模型与R中的示例，施普林格，施普林格，纽约，2018年。查看：发布者网站|MathScinet
T. W. Yee和V. F. Miranda-Soberanis，“矢量广义线性模型和负二项式回归”，《电源》，”澳大利亚和新西兰统计杂志，2018年。查看：谷歌学术

概率与统计杂志

分位数回归以及数据的统计分析

抽象的

1.简介

1.1。背景

1.2。VGLM和VGAM

1.3。估计

2.方法论

2.1。两个派生

2.2。软件实施

2.3。软件使用

3.示例

3.1。麦克斯韦数据

3.2。与Quantreg软件包的比较

3.3。指数数据

4.讨论和未来工作

数据可用性

利益冲突

致谢

补充材料

参考

版权

相关文章

概率与统计杂志

分位数回归以及数据的统计分析

基于矢量广义线性和加法模型的分布特定分位数回归的新链接函数

抽象的

1.简介

1.1。背景

1.2。VGLM和VGAM

1.3。估计

2.方法论

2.1。两个派生

2.2。软件实施

2.3。软件使用

3.示例

3.1。麦克斯韦数据

3.2。与Quantreg软件包的比较

3.3。指数数据

4.讨论和未来工作

数据可用性

利益冲突

致谢

补充材料

参考

版权

更多相关文章

相关文章