文摘
我们地址的分位数依赖先验贝叶斯分位数回归。我们扩展的先验分布的贝叶斯分位数回归采用基于location-scale混合物的似然函数表示的拉普拉斯分布不对称。适当的权力之前是贝叶斯分析的关键问题之一。因此,我们讨论适当的力量在贝叶斯分位数回归之前。方法用仿真和实际数据进行了说明。
1。介绍
分位数回归模型被广泛用于各种各样的应用程序(Koenker [<一个href="#B9">1一个>];Yu et al。<一个href="#B20">2一个>])。像标准或意味着回归模型,处理参数和模型的不确定性以及更新信息为分位数回归和应用程序是非常重要的。自于Moyeed [<一个href="#B19">3一个>)贝叶斯推理分位数回归在文献中吸引了大量的关注(汉森和约翰逊(<一个href="#B6">4一个>];Tsionas [<一个href="#B18">5一个>];Scaccia和绿色(<一个href="#B15">6一个>];Schennach [<一个href="#B16">7一个>];Dunson和泰勒(<一个href="#B4">8一个>];Geraci和Bottai<一个href="#B5">9一个>];Taddy和kotta<一个href="#B17">10一个>];Yu和机架<一个href="#B21">11一个>];kotta和Krnjajić<一个href="#B10">12一个>];兰开斯特和小君<一个href="#B12">13一个>])。这些包括贝叶斯参数贝叶斯推理模型,贝叶斯半参数以及贝叶斯非参数模型。然而,几乎所有这些模型先验设定独立的分位数的值,或者是之前是相同的造型不同的分位数。这种方法可能会导致分位数模型缺乏灵活性。例如,95%的分位数回归模型应该从中间分位数不同的参数值,从而用于模型的先验分位数应该是不同的。因此更合理的为不同分位数设置不同的先验。在本文中,我们解决贝叶斯分位数回归的分位数依赖之前。我们的想法是基于历史数据的先验。尽管可以使用不当在贝叶斯分位数回归之前,当前数据可能更可靠的推理和敏感如果存在历史数据收集从类似的先前的研究。有几种方法结合历史数据的分析研究。 One of these methods is the power prior proposed by Ibrahim and Chen [<一个href="#B7">14一个>)这是通过提高历史数据的似然函数构造电力参数在0和1之间。电力参数代表了历史数据的比例需要在当前的研究中。权力先验分布的先验观念属于Diaconis和Ylvisaker<一个href="#B3">15一个>和莫里斯<一个href="#B13">16一个>]研究共轭先验的指数的家庭,他们认为电力参数固定不变,可以提前确定。易卜拉欣和陈<一个href="#B7">14一个>)开发的这个想法和考虑不确定性情况下的参数。他们应用广义线性混合模型、半参数比例风险模型,为生存和治愈率模型数据。陈等人。<一个href="#B1">17一个>]研究权力的理论属性先验分布为广义线性模型,而易卜拉欣et al。<一个href="#B8">18一个>]研究了最优属性的力量之前,陈和易卜拉欣(<一个href="#B2">19一个>]研究之间的关系之前和权力的层次模型和提供一个正式的理由之前通过检查正式分析权力之间的关系之前在线性模型和层次模型。
以下的标准设置和符号权力之前,易卜拉欣和陈<一个href="#B7">14一个>),假设存在历史数据收集从先前的研究类似于目前的研究用随着参数的精度,,在那里表示样本大小的历史数据,是一个历史数据响应向量,代表了已知协变量的历史数据。电源参数;代表了多少数据从先前的研究在当前的研究中使用。有两个特殊情况;第一种情况下对应于不整合的数据从先前的研究相对于当前的研究。第二种情况对应的公司从先前的研究相对于当前的研究数据。因此,控制的影响从先前的研究中收集的数据,类似于目前的研究;这样的控制是很重要的,当前数据的样本大小是完全不同于历史数据的样本大小或两项研究之间存在异质性(Ibrahim和陈<一个href="#B7">14一个>])。在广义线性模型中,易卜拉欣和陈<一个href="#B7">14一个>)定义的权力之前未知参数基于历史数据 在哪里是一个指定hyperparameter初步之前。制定(<一个href="#EEq1">1.1一个>)最初引起作为已知参数,可以确定之前,例如,通过使用专家信仰或通过整合的方法。易卜拉欣和陈<一个href="#B7">14一个>]延长治疗的这个想法随着随机这就是为什么制定变得相当复杂。然而,一个随机给研究者更多的自由和灵活性在权重从先前的研究中收集的数据。因此Ibrahim和陈<一个href="#B7">14一个>提出了联合功率先验分布在广义线性模型的形式 在哪里和指定hyperparameter向量。先验(<一个href="#EEq1">1.1一个>)和(<一个href="#EEq2">1.2一个>)一般不会有一个封闭的形式;但是易卜拉欣和陈<一个href="#B7">14一个>建议使用一个统一之前和前β,或其他的选择,比如截断正常或伽马先知先觉。使用这三个先知先觉的优势是由于他们相似理论和计算性能。此外,作者扩展原始力量之前情况协变量的一组测量在前面的研究是一个子集的协变量的一组当前数据或历史数据不可用。此外他们广义权力之前(<一个href="#EEq2">1.2一个>从先前的研究),多个数据,电源之前(<一个href="#EEq2">1.2一个>)成为 在哪里代表大小的先前的研究,,的历史数据th研究中,,。
部分<一个href="#sec2">2一个>论文的简要概述基于不对称的似然函数的拉普拉斯分布,我们为贝叶斯分位数回归定义之前的力量。节<一个href="#sec3">3一个>之前,我们讨论了适当的力量。节<一个href="#sec4">4一个>我们详细描述location-scale混合物的正常表现,和我们建议使用这种表示贝叶斯分位数回归先知先觉。部分<一个href="#sec5">5一个>包含两个模拟研究与一个真实的数据,我们以一个简短的讨论部分<一个href="#sec6">6一个>。
2。之前的力量
考虑到分位数线性回归模型 在哪里是独立的观察,响应变量,代表了已知,是未知参数,,,代表独立和恒等分布的错误错误条件。错误假设的分布未知,是限制的分位数等于零。让代表的条件分位数鉴于。然后之间的关系和可以模仿。
Yu和Moyeed [<一个href="#B19">3一个>),我们假设有一个不对称拉普拉斯分布密度 在哪里
我们将科孜et al。<一个href="#B11">20.一个>)一个很好的全面审查的不对称拉普拉斯分布。不对称拉普拉斯分布的均值和方差,分别给出了
众所周知,非对称拉普拉斯分布的概率密度函数给定一个位置参数是由
让表示当前的研究的数据。然后,对当前的研究是由似然函数 假设存在历史数据从先前的研究用测量的响应变量和协变量当前的研究,表示前面研究的样本量,是一个响应之前研究的矢量和代表了从之前的研究已知协变量。然后基于数据的似然函数被定义为从先前的研究
从Ibrahim和陈<一个href="#B7">14一个>我们定义的共同先验分布和为贝叶斯分位数回归 在哪里历史数据的似然函数的分位数回归的(<一个href="#EEq8">2.7一个>)。我们假设的初始之前是统一的。然而,其他的选择,包括多元正态或可以使用双指数。Yu和机架<一个href="#B21">11一个>证明所有后的时刻在这些先验的存在。
3所示。在分位数回归权力适当的先验分布
电源之前提出的易卜拉欣和陈<一个href="#B7">14一个>]建造成为一个有用的信息先验贝叶斯分析类。这取决于历史数据的可用性之前,在贝叶斯分析的背景下,当这些数据是可用的先验分布应该是适当的,因为众所周知,任何信息贝叶斯分析需要一个适当的先验分布;因此,适当的力量之前是至关重要的。在本节中,我们讨论了适当的先验分布的贝叶斯分位数回归。
定理3.1。假设的初始先验分布是一个统一的之前和之前有一个βhyperparameters吗。然后,联合先验分布(<一个href="#EEq9">2.8一个>在分位数回归是适当的。换句话说我>
证明。我>见附录。
推论3.2。假设的初始先验分布之前是一个统一的和随机变量有一个统一的之前。然后,联合力量先验分布(<一个href="#EEq9">2.8一个>在分位数回归是适当的。换句话说我> 这个推论是直接从定理导出<一个href="#thm3.1">3.1一个>由于均匀分布时贝塔分布的特例证明是省略。我>
推论3.3。假设的初始先验分布统一之前,是恒定的。然后,电源之前(<一个href="#EEq1">1.1一个>在分位数回归是适当的。换句话说我> 这个推论是直接源自推论<一个href="#coro3.1">3.2一个>,证明省略。它是容易验证联合之前当有统一之前总是适当的分位数回归,这也保证了考试的正确适当的联合后验吗。我>
定理3.4。假设的初始先验分布被认为是独立的,每个固定的双指数,,之前有一个βhyperparameters吗。然后,联合先验分布(<一个href="#EEq9">2.8一个>在分位数回归是适当的。我>
4所示。混合表示法
考虑分位数回归线性模型(<一个href="#EEq4">2.1一个>),误差项有一个不对称拉普拉斯分布的分位数等于零。不对称拉普拉斯分布的概率密度函数与位置参数和偏态参数,是由(<一个href="#EEq5">2.2一个>)。
众所周知,非对称拉普拉斯分布(<一个href="#EEq5">2.2一个>)可以被视为一个指数和一个按比例缩小的正态分布(里德和Yu (<一个href="#B14">21一个>科孜)和et al。<一个href="#B11">20.一个>])。这可以在以下引理。
引理4.1。假设是一个随机变量,非对称拉普拉斯分布密度(<一个href="#EEq5">2.2一个>),是标准正态随机变量,是一个标准的指数分布随机变量。然后,一个能代表作为一个location-scale混合物的法线我>
从这个结果我们可以等同于代表误差项的混合正态分布,给出的我>
在哪里我>
里德和Yu(后<一个href="#B14">21一个>),我们假设的条件分布鉴于是正常的,意思是和方差和鉴于是独立的标准指数变量。让和那么,联合密度是由
然后我们整合出指数变量,从而导致的可能性,在那里
4.1。混合物的权力之前表示
假设我们有兴趣做推理在未知方差的正态分布,通过合并前和当前的研究。
以下的标准设置和符号权力分布混合表示之前,我们假设只有一个历史数据集存在,它是由,在那里历史数据的样本量,是响应向量,是协变量的矩阵。
让,在那里是标准的指数随机变量。作为一个混合表示,联合密度的历史数据鉴于是正常的,意思是和方差,每个鉴于独立和相同标准的指数分布,可被视为先验分布。为我们选择一个正常密度作为初始先验均值为0,方差,也就是说,。这个选择的目的是由于这一事实后的时刻存在下上面之前的研究中提供Yu和机架<一个href="#B21">11一个>]。协变量也方便如果所有测量在同一尺度参数。作为一种特殊的情况下可以选择一个统一的不当之前贝塔分布的特例为,也就是说,;这对应于,这个选择是非常方便与部分吉布斯采样器所提供的芦苇和Yu (<一个href="#B14">21一个>]。我们提出一个先验分布采取的形式 在哪里和都是一样的和在(<一个href="#EEq11">4所示。4一个>),在的地方代表历史数据。因为我们观点作为一个随机量,完成之前规范通过指定一个先验分布。之前我们测试与参数,或者你可以选择一个统一的之前。因此我们提出一个联合先验分布和的形式
我们看到,(<一个href="#EEq12">4所示。8一个>)一般不会有一个封闭的形式,因为它取决于我们选择的初始先验。这样的联合后验分布和是由 前(<一个href="#EEq12">4所示。8一个>)是构造一个历史数据,这种力量之前可以很容易地推广到多个历史数据。广义的权力之前(<一个href="#EEq12">4所示。8一个>)到多个历史数据,我们假设历史研究用,在那里代表了历史数据的基础上研究中,。让,在那里是标准的指数随机变量。我们定义的功率参数研究β先验分布。因此,可以推广 在哪里,每个之前有一个βhyperparameters相同的吗。
4.2。推理与尺度参数
在前面的小节中,我们已经考虑先验分布的分位数回归模型没有考虑尺度参数。你可能有兴趣引入尺度参数为拟议中的贝叶斯推理模型。假设尺度参数。从现在开始,这是更方便当前数据和的历史数据。我们假设只有一个历史数据集存在,它是由。让。然后,为每个条件分布鉴于,是正常的,意思是和方差,也就是说,,鉴于和是独立同分布指数变量与参数吗。的条件分布鉴于和可以看作是先验分布。它将更方便使用先验如下: 在哪里,,已知参数。为我们之前测试参数。现在,权力的规范完成先验分布,因此我们建议联合先验分布,的形式 然后,联合后验分布,,是由
前(<一个href="#EEq15">4.13一个>)可以很容易地推广到历史数据,可以作为广义分布
5。数值例子
在本节中,我们的目标是比较感兴趣的参数的后意味着合并后的当前和历史数据的意思是这两项研究的真实值。此外,我们将展示几个下之前的行为之前选择的参数。
例5.1。我>我们模拟两个数据集,当前研究的第一个和第二个先前的研究。对当前的研究我们生成100观测模型假设和。
历史数据我们用50的观察和使用相同的模型。在这个示例中,我们只使用一个参数。表<一个href="//www.newsama.com/journals/jps/2011/874907/tab1/" target="_blank">1一个>比较后意味着与真值的方法在5种不同分位数,即90%,75%,50%,25%,10%。我们进行敏感分析五种不同的选择对五种不同分位数。通过pmmh计算我们构造一个马尔可夫链(MH)算法。我们跑15000次迭代算法和丢弃的第一个5000年在燃烧。数据<一个href="//www.newsama.com/journals/jps/2011/874907/fig1/" target="_blank">1一个>,<一个href="//www.newsama.com/journals/jps/2011/874907/fig2/" target="_blank">2一个>,<一个href="//www.newsama.com/journals/jps/2011/874907/fig3/" target="_blank">3一个>比较后的密度为和0.10,分别以不当的后验密度电力与参数之前和。显然,力量比之前不当信息之前,由于小范围的后验密度。
请注意,见陈et al。<一个href="#B1">17一个>)更容易指定之前的平均值和标准偏差从以下方程:
而且他们已经表明,调查员必须选择小如果他/她希望低重量的历史数据,必须选择如果他/她希望更重的历史数据。
在这个示例中,我们使用前(<一个href="#EEq9">2.8一个>),采取统一之前和前β。具体的分位数水平下,我们看到,随着历史数据的体重增加后的意思增加。这是一个令人欣慰的特性,因为它是符合我们期望的数据。这意味着后对感兴趣的参数意味着相当强劲的电力参数不同的权重。
更值得注意的是,当,我们更重视历史数据,我们看到后的意思是非常接近真实值的均值。此外,特定的分位数水平下,我们发现,作为历史数据增加的体重标准偏差往往减少。
例5.2。我>混合物与尺度参数表示,我们模拟两个数据集,当前研究的第一个和第二个先前的研究。对于当前的研究我们生成的数据集从模型中观察,在那里时间间隔是随机均匀数字(0,10)和。我们限制和。在先前的研究中我们生成从上面的模型与观察和。
之前我们使用初始在所有回归参数和在所有尺度参数。然后我们获得了11000次迭代算法和丢弃的第一个1000年在燃烧。然后我们计算后的参数在5个不同的分位数,即90%,75%,50%,25%,10%。我们进行敏感分析对五种不同权重的功率参数,即10%,25%,50%,75%,90%。结果总结在表<一个href="//www.newsama.com/journals/jps/2011/874907/tab2/" target="_blank">2一个>。基于表中的结果<一个href="//www.newsama.com/journals/jps/2011/874907/tab2/" target="_blank">2一个>对于每个分位数,它是一致的,后说的要么稳步增加或减少历史数据增加的重量。在特定的分位数水平,我们还发现,随着历史数据的重量增加后对所有参数标准差往往减少。
例5.3。我>我们认为“英国家庭专门调查”的数据。ESRC最初收集的数据研究中心Microsocial变化埃塞克斯大学和分析了余et al。<一个href="#B22">22一个>]。工资代表的数据分布在1991年和2001年之间的英国工人。我们使用的数据2000年当前数据和1994年的历史数据。四,反是拦截包括在分析中。响应变量和协变量之间的关系由以下模型: 在哪里是许多年的学校教育,是潜在的经验(近似的年龄-年的学校教育- 6),然后呢= 1为公共部门的工人和0。在这个例子中,我们固定电源参数五权重,即0.10,0.25,0.50,0.75和0.90。结果总结在表<一个href="//www.newsama.com/journals/jps/2011/874907/tab3/" target="_blank">3一个>。从表<一个href="//www.newsama.com/journals/jps/2011/874907/tab3/" target="_blank">3一个>,我们看到,随着历史数据的重量增加,后对每个回归系数意味着增加或减少。我们还发现,随着历史数据的重量增加,所有参数的标准差后往往会减少。
6。讨论
在本文中,我们展示了权力的使用在贝叶斯分位数回归之前,包含了历史和当前数据。方法的优点是先验分布改变时自动我们改变分位数。因此,我们为每个分位数先验分布,之前是正确的。此外,我们提出了联合使用的混合先验分布不对称拉普拉斯分布的正常表示。电源之前的行为显然是相当强劲的电力参数与不同的权重。我们在第一个例子使用随机功率参数,可以通过hyperparameters贝塔分布决定的,和我们比较后意味着拦截的意思是真正的价值观。在第二个例子中我们展示权力先验分布,当权力的行为参数是一个固定的参数,可以确定使用专家信仰或通过整合方法,我们比较感兴趣的后验均值参数真值的意思是这两项研究。还在第三个示例中,我们使用固定的功率参数,我们比较后对历史数据不同的权重。之前的力量是一个非常有用的类信息先验分布的贝叶斯分位数回归。它也似乎在很多应用中有用的模型选择和致癌性等研究。
附录
定理的证明<一个href="#thm3.1">3.1一个>
为了证明前联合先验分布是适当的,也就是说, 请注意, 在哪里
然后 Yu和Moyeed [<一个href="#B19">3一个>》,这个积分是有限的:
确认
作者希望感谢托马斯j . Kozubowski教授和两个匿名裁判有用的意见和建议,这导致了本文的改进。