计算和数学方法在医学

在这一页上

文摘介绍材料和方法结果与讨论结论的利益冲突确认引用版权相关文章

特殊的问题

预测模型基于统计学习生物医学

把这个特殊的问题

研究文章|开放获取

体积2017年| 文章的ID7340565| https://doi.org/10.1155/2017/7340565

考克斯集成多个基因组数据源的贝叶斯模型变量选择和预测

Tabea Treppmann ,¹ 卡佳Ickstadt ,² 和曼Zucknick ³

学术编辑器: 伊丽莎白Waldmann

收到了 2017年2月10

修改后的 2017年4月23日

接受 2017年5月11日

发表 2017年7月30日

文摘

贝叶斯变量选择在统计分析变得越来越重要,特别是在执行变量选择在高维度。生存时间模型和基因数据的存在,艺术的状态仍未开发的。最近的一个方法表明贝叶斯半参数比例风险模型对审查比较数据。我们扩展这个模型直接包括变量选择、基于随机搜索过程中推理的马尔可夫链蒙特卡罗采样器。这令我们直观和灵活的方法,提供了一种方法,用于集成其他数据源和进一步扩展。我们利用的可能性,实现并行回火,以帮助改善混合的马尔可夫链。在我们的示例中,我们使用贝叶斯方法将拷贝数变异的数据集成到gene-expression-based生存预测模型。这是通过制定一个基于拷贝数变异之前通知。我们执行模拟研究探讨模型在不同情况下的行为和预测性能应用到数据集的胶质母细胞瘤患者和评估结果的生物相关性。

1。介绍

在癌症研究中,我们经常处理比较端点和更多的技术进步使系统的收集不同的全基因组数据,产生更多的利益在综合统计分析,也就是说,使用多个信息源获取更全面的了解疾病的生物学和提高风险预测模型的性能。

最近,很多研究已经完成在以下三个方面:(1)Cox比例风险模型为生存(或比较)数据高维度(2)在高维变量选择问题(3)综合分析的几个数据源新奇的方法是结合这三个领域的最新进展如下面一个贝叶斯模型。

模型生存数据考克斯(1972)(1)开发了半参数比例风险回归模型考虑协变量之间的关系和风险的功能。Cox模型已广泛应用在低维为此设置和分析;见,例如,哈勒尔Jr .) (2001) (2),克莱因et al。(2013)3),或易卜拉欣et al。(2005) (4]。在生物基因数据的应用程序,然而,经常在高维环境,也就是说,有比对象变量。因此,我们需要一个高维存活时间模型。最近的一个方法,在这种情况下是由李et al。(2011)5),使用贝叶斯版本的Cox模型正确审查生存数据,高维度由正规化的回归系数向量由拉普拉斯先知先觉。这对应于套索处罚;看到Tibshirani (1997) (6]或公园和卡塞拉(2008)[7],减少回归系数为零,从而允许参数推理问题中变量的数量比的。由于自动变量选择套索的属性是完全迷失在贝叶斯推理,李et al。(2011) (5)采取了事后的方法来识别最重要的变量阈值基于贝叶斯信息准则。

自变量的选择是一个核心的问题在许多统计应用程序中,它受到很多研究,和很多方法存在,尤其是对线性模型。在低维设置频率论者的推理,最常见的程序是最好的选择或向后或向前选择子集(哈勒尔Jr .) (2001) (2),霍金,(1976)(8])。有不同的模型来评估最佳子集选择在更高的维度(变得不可行 )。在高维度、古典逆向选择不能应用由于完整的模型不确定,和两个向后和向前选择通常只有探索所有可能的模型的一个很小的比例。此外,所有这些方法没有结合收缩估计过程。贝叶斯方法提供了一个不错的选择在整个参数空间随机搜索,隐式地考虑到模型的不确定性;看到et al。(2016) (9)最近的一项评估研究Cox回归模型的上下文中。一个吸引人的方法通常用于回归分析是随机搜索变量的选择(科学)乔治和麦克洛克(1993)(10),一个灵活的和直观的方法,利用数据增加选择的任务,包含收缩。

在分子水平上的生物信息,很多不同的数据源现在存在,他们经常提供共享信息,例如,不同蛋白质的表达基因转录结果不同功能的细胞或身体。如果意外或不寻常的表达水平发生变化,细胞的功能可以被打扰。癌症通常是由DNA的变化引起的,例如,单碱基突变或拷贝数变化较大的基因组区域,进而会影响基因的表达。因此,包括数据源联合分析可能导致更准确的结果。贝叶斯方法提供了一个方便的管道。

在我们的方法我们提到的三个任务结合在一个模型:变量选择在高维存活时间模型基于一个综合分析。特别是,我们整合拷贝数变异(CNV)数据和基因表达数据,旨在共同使用各自优势,实现稀疏,可说明的模型和良好的预测性能。我们把乔治的变量选择过程和麦克洛克(1993)(10与Cox比例风险模型的李et al。(2011)5CNV)和使用数据的建设一个通知之前。我们研究使用并行回火方法改进的混合马尔可夫链和规避hyperprior的手工调优参数。

在下面,我们描述模型的细节,包括技术细节、取样器的扩展,和诊断,在部分2。然后,我们描述了合成数据和实际数据集在胶质母细胞瘤;我们国家之前设置需要,选择真实数据的仿真研究以及分析。在得出结论前部分4最重要的发现,我们描述应用程序合成和真实的数据,包括有关为胶质母细胞瘤患者基因提取的研究,并讨论的结果部分3。

2。材料和方法

2.1。模型和密度抽样程序

基于半参数比例风险模型引入了考克斯(1972)(1),李et al。(2011) (5)开发了一种贝叶斯版本正确审查生存时间数据高维度( ),变量的数量,对象的数量,一个人的存活时间与covariable向量 , 回归参数的矢量和未指定的任意基线风险函数。李et al。(2011)建造了一个分组的可能性模型与一个有限的时间轴的分区, 与 , 减免的,在这种情况下选择的点至少有一个事件发生和定义最后的间隔,这样最后一个事件是在中间,导致分组数据可能引入的布里奇(1981)(11] 在这里, 表示观测数据,和是集和风险相对应的事件集吗时间间隔。描述了一个伽马分布与形状和规模,在那里 , ,是一个单调递增函数。代表一个初始估计累积基线风险函数。常数指定如何强烈相信这种累积基线风险函数的初始估计。大多数情况下,一个已知的参数函数被使用,例如,威布尔分布,从而导致以下形式: 的hyperparameters 必须精心挑选,在获得(避免收敛问题5]。

的隐式收缩模型和变量选择将通过随机搜索变量选择过程的乔治和麦克洛克(1993)(10]。假设相同方差的回归系数的变量纳入模型中,先验分布的条件在, 如下: 在方差参数很小, ,代表一个指标向量,类似于数据增加的概念(坦纳和黄,198712),给各自的状态变量的模型。

如李et al。(2011) (5),我们比较三种可能的采样更新完整的条件分布 ,( 和 ):提出的自适应拒绝抽样算法Gilks (1992) (13),以及自适应抑制大都市取样器从Gilks et al。(1995)14)和特殊的随机漫步pmmh (RW-MH)方法与自适应跳李et al .(2011)提出的规则(5]。我们还发现自适应随机漫步pmmh取样器执行最好的在我们的应用程序中,高维以比样本和变量。因此,我们只报告结果自适应RW-MH取样器。

被认为是独立的伯努利(先天的;也就是说, 和。条件分布与密度取样器是由在哪里与正态分布的密度和对应于。

根据易卜拉欣et al。(2005)4),完整的条件分布 , 伽马分布,可以近似 ,在那里代表的审查时间间隔。

最后,我们用吉布斯采样器更新,,根据上述全部条件分布迭代。

2.2。获得过程的延伸

对于多通道后验分布,一些问题可能发生在获得,因为较高的领域模型中空间后验概率可能是由一个低概率的区域分开,获得的采样器可能不设法克服。因此,有可能重要的价值观不能取样,因为密度采样器从未在模型空间访问相关的区域。平行回火(15,16可以缓解这个问题。甚至在单峰情况下,并行回火可以帮助扩大抽样的面积。这是通过平行的一代与自己的平稳分布不同的密度链,定期(获得预定数量的迭代之后)交换州(即。所有参数的当前值的两个相邻链提出的模型)。所有连锁店的分布具有相同的基本形式,但更平坦。这是通过提高原来的功率密度函数( )的值在0和1之间,0 ( )对应于一个完整的压扁的分布和1对应于所需的目标。这可以提高抽样表现在两个方面:(一)扁平的概率分布覆盖更多的参数空间有足够大的概率达到给定的采样器的迭代次数,和(b)的“山”和“山谷”多通道概率密度将平缓,从而减少取样器的可能性可能会困在当地最适条件(进而改善其混合性能)。由于历史原因,参数通常被称为一个吗温度参数。

定期(每十获得迭代后在我们的应用程序),两个相邻链是随机选择的,和pmmh接受概率计算基于目标链的分布和当前状态,以确定这两个链之间交换的州是接受。

让和各自的目标选择的链与当前参数的分布状态和。接受的概率是由交换状态与在都市更新,这将是与一个统一的随机变量在这一期间,在那里意味着交换将被接受。链交换到另一个状态的概率,因此只有依赖于当前状态的比较链(17]。

在这个手稿,我们使用对数线性的温标,( )。原始的,无节制的链因此给出的。回火版本的分布确定的标准偏差的正常混合之前(方程(3)将会扩大,这是通过乘以参数在之前( )。

建议选择温度,录取率在20%和50%之间,由于不同的研究表明,在这个范围内提供最令人满意的结果(例如,16,18,19])。

2.3。之前的设置

贝叶斯模型的应用程序,一些之前规范是必要的。我们从hyperparameters开始和选择这样在(2)类似于Nelson-Aalen累积风险函数的估计量,因此用来提供一个初始猜测。我们确定规模的威布尔分布参数估计的生存模型训练数据的事件时间没有covariable信息。更新的累积基线风险获得迭代内的连锁店,hyperparameter用于描述确定性与水平必须被指定。我们遵循的建议李et al。(2011)5)设置。我们以前进行了灵敏度分析,调查的选择的影响(Zucknick et al ., 201520.]),我们发现,虽然有一个显著的影响后基线风险的估计的后验分布几乎不变。

的参数和正态混合分布的在(3)条件在(4),也就是说,,将被设置和。这意味着我们获得一个标准差为和一个相应的95%概率区间。

的先验概率选择的规范中描述的变量部分2。5分别为胶质母细胞瘤的模拟场景和数据的应用程序。

2.4。后估计和预测

我们报告的后验分布和的后验均值和标准差。为了选择最相关的变量,我们选择一个包含标准的自动数据依赖的方式,这方面模型的设置,而不是选择一个截止之前对所有案件。这是通过首先计算均值模型尺寸(按四舍五入选定变量的平均每迭代)。然后我们选择变量选择概率最高的。

我们使用了空模型, 对所有 ,开始的密度值链。

仿真研究的结果是基于单一密度与100000次迭代每个连锁店,切除后20000次迭代(“老化”)。胶质母细胞瘤的结果数据的应用程序是基于五个马尔可夫链相结合的分析方法,每个90000后删除10000初始迭代长度(“老化”)。对于并行退火(只应用于模拟数据),我们与30000迭代包括四链和对数线性温标。

我们评估了混合和马尔可夫链的几种方法的收敛性。我们使用的图形化评估运行意味着个人的情节参数以及跟踪情节摘要等措施规范的向量,模型大小,日志的可能性。此外,我们计算了有效样本大小([21)为每一个。的R包coda(22)提供了各种各样的图形和诊断措施评估混合和诊断获得链的性能。

我们评估模型的预测精度选择这种方法的预测误差曲线,通过计算综合荆棘得分(IBS) (23,24)和比较的参考方法,即kaplan meier估计没有任何协变量。荆棘分数是一个严格的评分规则,因为它最低当真正的生存概率作为预测(24,25]。因此歧视和校正措施,与其他常见的评价如哈勒尔的措施指数(只有歧视措施)和校准斜率(测量校准);见,例如,et al ., 2016年举行(9]。

模型的实现和评估做的统计计算环境R (26从作者),可按照客户要求定制。

2.5。数据

2.5.1。模拟数据

获取模拟数据对我们的生存时间模型,生成两个不同的数据集,代表一个稀疏和nonsparse场景真实的预测因子。对于生存的仿真数据,我们使用过程中描述Zucknick et al。(2015)20.高维情况下)。这个设置是基于本德et al .(2005)的方法(27]Cox-Weibull后生存模型与已知的回归系数和任何非零基准危险率,考虑风险函数之间的一般关系和考克斯的存活时间模型。我们模拟块两两相关的相关变量变量之间和, 块中的变量的大小。

简而言之,我们第一次模拟假设的生存时间( ),将观察到的未经审查的存在, 和审查时间,生成的可借鉴性和统一的行政审查和指数追踪损失。请注意,规模和形状参数和选择这样的生存概率12至36次单位是0.5和0.9,分别。更多细节,我们将Zucknick et al。(2015)20.]。

然后,为每个主题个人观察到的事件或审查的时间和相应的生存状态被定义为

对于这两个场景中,我们生成一个模型拟合训练数据集和测试数据集评估最终模型的预测性能。生成的数据集组成基因变量和科目。在稀疏的设置,我们有真正的预后变量的影响 ,类似于设置Zucknick et al。(2015)20.]。因此,第一个模拟变量与响应(称为“预测”整个手稿)。为nonsparse设置我们随机生成变量的范围和均匀分布的正面和负面的作用。因此,在此设置,第一代表真正的预测变量的数据集。见表1和2对所有仿真场景的概述。

之前包含概率。之前评估的影响信息调查三个不同场景的模拟数据。首先,我们选择一个之前不提供信息的选择(简而言之:之前不提供信息的) ,在那里是预测的先验预期数量被设置为在这里。这样我们可以评估模型的行为如果没有先验知识。其次,模仿正确的先验信息的影响设置真正的变量的先验概率0.8到0.1(和其他人)。最后,看看会发生什么,如果我们的先验知识不代表真理,我们指定第三之前设定的先验概率随机选择的变量nonpredictors 0.8和剩余的变量,包括真实的,至0.1。

2.5.2。应用胶质母细胞瘤的研究

评估我们的模型在实际应用程序中,我们使用的数据集多形性成胶质细胞瘤(GBM)患者,从检索癌症基因组图谱(TCGA)数据库(28]。胶质母细胞瘤是最常见的和快速增长的成人脑部肿瘤。它显示预后很差的中位总生存时间不到15个月后的诊断和两年的存活率约30% (29日]。因此,一个更详细的胶质母细胞瘤肿瘤的分子行为的理解是非常必要的。最近的出版物研究胶质母细胞瘤的基因档案包括原出版TCGA的网络(萨默森当et al ., 200830.])和布伦南的后续文章中et al。(2013)31日),以及Sturm et al。(2012)32]。

我们从两个来源:提取数据从GBM TCGA Pancancer数据集的数据集https://www.synapse.org/ !突触:syn1710678(33]和导数的梦想挑战TCGA Pancancer生存预测项目(https://www.synapse.org/ !突触:syn1710282)[34]。我们的最终数据集由主题,我们匹配病人生存数据和基因表达数据(来自数据集的梦想挑战)与各自的CNV从PanCan12检索数据集的数据。分析,我们选择了基因(选择所有可用基因位于常染色体染色体与注释信息)最高的变化在病人,其基因表达值,我们匹配这些基因的拷贝数变异的数据。这些1000个基因传感器组合在一起形成了数据集的总变异的30%。选择基因的选择最大的差异是基于假设基因不不同主题之间会不会有助于区分穷人和病人生存预后好,分别。

我们随机将数据和比率2:1为训练集患者对模型拟合和测试集科目,我们使用的评价最终模型的预测性能。

之前包含概率。我们选择前不提供信息的与。在信息的情况下,我们定义之前包含概率( 标准差)成正比相关的基因组拷贝数变异数据的地区在病人。前基因变量的指数然后,定义为再次获得选择变量的先验预期数量。的经验分布( )是右偏态值,四分位范围,范围。

3所示。结果与讨论

3.1。模拟研究

在仿真研究中,我们使用合成数据生成的节中描述2.5。1。

3.1.1。稀疏的设置

首先,我们看一下稀疏场景生成真正的预测,这对应于第一在我们的设置变量。为所有三个设置之前,我们观察到变量绝对的影响至少有0.5,那么与模型(表通常会被选中1),尽管后估计通常显示一个高估的真正价值。

在数据1,2,3高的,我们可以看到真正的预测至少0.5总是选择的绝对影响,甚至对先验概率的设置是错误的(比较图3)。真正的绝对尺度效应较小的预测不太经常被选中,这并不奇怪,因为较小的底层绝对尺度效应后的证据的预测越来越弱。

(一)

(b)

(c)

(d)

(一)

(b)

(c)

(d)

(一)

(b)

(c)

(d)

这表明一般的模型是非常健壮的错误陈述前信息(图3(图)或在缺乏信息1)。错误的选择变量差异不大。然而,当有信息接近真相之前,甚至更小的绝对尺度效应的变量可以选择0.25的模型,虽然他们后选择概率小于1;参见图2。

这也证实了预测误差曲线和IBS获得测试数据集在图4。设置之间的预测误差曲线的差异不是很大,由于识别的影响是截然不同的稀疏的设置。曲线和集成的荆棘分数之间的区域是相同的可借鉴性的IBS = 0.16 (a)和不正确的(c)之前和略好正确的信息之前的IBS 0.13 (b)。

(一)

(b)

(c)

稀疏的设置,混合(即。,the ability of the Gibbs sampler to move around in the model space) is very good and therefore the results are robust and consistent for the different scenarios (see Figures12- - - - - -15;稀疏的结果设置所示(a, b)的数字)。由于单一的马尔可夫链的初始混合性能好,并行回火的公司没有进一步提高混合性能。因此,我们只显示单一链设置的结果。平行回火,我们获得约50%的录取率交换状态的马尔可夫链。

混合密度和收敛性能实现数据和没有平行回火12- - - - - -15。图12显示运行意味着阴谋说明后的发展意味着回归系数的估计获得越来越多的迭代。这表明估计稳定,从而帮助我们评估是否获得取样器运行足够长的时间。稀疏的仿真场景的运行意味着情节表明的运行方式ca后不改变很多。10000年获得迭代。图13,这显示了日志跟踪情节似然函数,和数字14和15跟踪情节,回归系数,有助于决定如果马尔可夫链混合充分和密度取样器是否被困在当地的最适条件。此外,他们可以帮助决定老化时间应该多长时间,也就是说,有多少密度采样过程的迭代开始时不能用于后估计,由于取样器还没有融合到目标分布。所有跟踪情节显示很好的混合和表明,马尔可夫链移动非常快(在不到5000密度的迭代)表现最好的模型。

3.1.2。Nonsparse设置

作为第二评价步骤中,我们构造了一个nonsparse场景,我们生成的真正的预测因素,对应于第一变量在仿真环境。像预期的那样在这种情况下,更不一致的结果。nonsparse设置,先验概率的影响可以看到很好后选择概率(数字5,6,7(c, d),职责)。先验概率较高的变量显示后选择率略有增加。正确地指定信息先验概率的情况,可以看出,更多的真正的预测是选择和增加更明显比其他情况下(见表2)。此外,选择nonpredictors的少。当不正确的信息用于指定先验概率(图7少),选择真正的预测以及更多的获得假的高概率质量开始。之前不提供信息的设置模型中选择真正的预测的11%左右。使用正确的信息之前18%的选择正确的预测和不正确的信息先验我们只识别正确的3%(见表2)。后选择概率如图5,6,7,那里有一个清晰的选择概率增加真正的预测,一般小概率为其余nonpredictor变量(图6)。

(一)

(b)

(c)

(d)

(一)

(b)

(c)

(d)

(一)

(b)

(c)

(d)

此外,我们可以更清楚地看到先验信息的影响的预测误差曲线(图获得的测试数据8)正确的预测误差最低信息之前的IBS 0.223 (a)相比,肠易激综合症的0.233 (b)不提供信息的前和0.239 (c)为之前错误的信息信息情况。

(一)

(b)

(c)

再一次,我们比较的结果密度采样有或没有平行回火(见(c, d)的数据12- - - - - -15)。自从nonsparse仿真场景比稀疏的更复杂的场景,我们预期,获得简单的取样器(没有平行回火)可能需要更多的迭代进入模型的区域空间的表现最好的模型或混合取样器可能差的问题。确实,我们看到有些慢收敛(ca。5000年获得迭代跟踪情节在数据显示13- - - - - -15)。因此,并行回火可以nonsparse仿真场景中更有用。然而,我们发现平行回火并不改善混合马尔可夫链的性能足以证明计算时间的增加。

3.2。胶质母细胞瘤

图9总结了后验估计和胶质母细胞瘤的应用程序。再次,平行回火不充分改善马尔可夫链混合大于计算负担增加。因此,我们进行完整的密度只运行没有平行回火。

(一)

(b)

(c)

(d)

后选择概率有很大的不同的信息和选择不提供信息的先验模型,分别为变量之间的变量最大的边际后选择对先验概率;参见图10。这些基因与基因符号ACMSD(染色体上2),SP8(染色体7),PXDNL(染色体8)。

平均而言,在所有密度迭代,包含的模型 (之前不提供信息的)和变量分别变量(信息之前)。因此,对于我们的顶级模特,我们选择变量选择最大后验概率。相应的变量是突出显示在图9和他们的基因名称显示。表3概述在基因包括基因符号,全名,后选择概率。

ACMSD的积累可以防止神经元excitotoxin quinolinate,已与一些神经退行性疾病的发病机理(https://www.ncbi.nlm.nih.gov/gene/130013,更新19 - 1 - 2017)。这同意我们为ACMSD找到消极的回归系数的估计,因为负系数表明,减少故障率与基因表达的增加。我们不太清楚SP8的角色(https://www.ncbi.nlm.nih.gov/gene/221833更新6 - 12月- 2016)和PXDNL (https://www.ncbi.nlm.nih.gov/gene/137902更新6 - 12月- 2016)在人类癌症或神经系统疾病,但在SP8与精神疾病相关的遗传变异在最近的全基因组关联研究在汉族和日本的人口35,36]。虽然一些剩余的基因参与神经过程或神经发育(CALB2, CDH10、ENPP5和FLRT2),其他人已经与癌症有关(AKR1B10, CALB2 CDH10, CYB5R2),但是只有CYB5R2特别被确认为一个潜在的(表观遗传)胶质母细胞瘤预后的标志37]。

顶层模型的预测性能评估的预测误差曲线和集成荆棘分数(IBS)的测试数据集;参见图11。虽然之前的IBS模型不提供信息的选择并不比肠易激综合症(IBS = 0.163)的参考模型,我们看到一个好的改善预测性能模型与信息选择(IBS = 0.157)之前,(测试集)预测误差曲线的信息前选择低于参考预测误差曲线,特别是ca后12个月。

(一)

(b)

(一)

(b)

(c)

(d)

(一)

(b)

(c)

(d)

(一)

(b)

(c)

(d)

(一)

(b)

(c)

(d)

对于抽样诊断,我们参考图16。它显示了日志跟踪情节似然函数为所有五密度链运行的抽样模型与之前不提供信息的选择(a)和相应的所有5个密度链用于信息前选择(b)。跟踪情节表明所有的马尔可夫链移动非常快(在第一个1000年获得迭代)模型空间的一个区域,大多数模型对数似然值之间的范围。和。跟踪情节还表明,马尔可夫链不会陷在模型非常相似的对数似然值的地区,这表明一个好的混合性能。

(一)

(b)

4所示。结论

在这个手稿,我们结合贝叶斯Cox模型生存数据(Lee et al ., 20115)使用一个变量选择方法适合高维输入数据(乔治·麦克洛克,199310])。这种方法通过吉布斯抽样框架变量选择的二进制向量指标给我们机会来自另一个数据源的信息集成到模型通过先验分布。胶质母细胞瘤的数据在我们的应用程序中,我们综合数据拷贝数变异到总体生存预后的基因模型,我们发现拷贝数的数据结果的包含在一个更好的预测性能的测试数据集。

这证实了我们的发现从我们的模型设置的模拟研究是能够使用第二个数据源实现预测精度明显改善,如果第二个数据源真正提供一个有益的选择之前,也就是说,如果之前的变量被分配增加选择概率由于辅助数据源中的信息是相关的(在主数据源)反应。一个不正确的规范的选择之前,然而,可能导致稍差预测性能比之前不提供信息的选择。在真实的应用程序中,我们通常不知道如果一个信息选择之前正确地指定。因此,重要的是要一直这样的预测性能比较的信息之前不提供信息的(标准)是否之前预测性能改善的先验信息。一般来说,灵敏度分析评估先验的选择对结果的影响是任何贝叶斯分析的推荐过程,特别是当使用信息先验。

我们充分的利用贝叶斯建模方法相比,频率论的方法是我们获得完整的推理,不仅对回归系数的后验分布,也为后选择概率的所有变量。注意,由于联合建模我们甚至可以获得后的联合选择概率推理特定的变量集。通过这种方式,我们可以探索一个变量的选择如何影响另一个变量的选择概率,或者我们可以估计和比较具体的联合后验概率选择(出版)基因签名,即组基因在先前的研究已确认为预后。因为我们基本上使用吉布斯采样器执行随机搜索模型空间的大小(与容易被成百上千),这不是可行的运行密度采样器足够可靠的后验估计在低概率区域。然而,这通常不是一个问题,因为我们主要是感兴趣的变量和模型后选择概率最高。因为随机搜索的性质取样器访问模型的频率正比于其后选择概率,这是更容易获得获得足够数量的样本为这些高概率模型良好的估计性能。

一般来说,之间有一个平衡的计算费用获得更长时间运行和提高估计精度,获得通过减少模型误差和通过确保相关地区探访的频率足够高概率模型。增加变量的数量被认为是在建模过程也会增加计算费用。这里就是一个很好的权衡实现如果变量没有预测价值的数量关于生存的结果是维持在最低限度。我们的算法的实现R没有优化的计算性能和计算速度可以大幅改善,例如,通过使用吗R包Rcpp(38)和更高效的内存管理。目前,获得一个单一的模型运行在我们的模拟研究和数据应用程序将会于长滩举行一个小时每1000密度在2.6 GHz的迭代计算节点运行Linux和64 GB内存;所有的结果提出了手稿是基于密度运行,运行时间最多一个星期。

我们发现在我们的应用程序并行退火算法没有充分改善混合马尔可夫链的性能(即。吉布斯采样器的能力,在所有的空间模型)来抵消增加的计算时间。计算时间的增加可以最小化通过实现并行回火与真正的计算并行化,例如,通过运行的每个的马尔可夫链在不同的节点。在这种情况下,只会增加计算时间是必要的定期交流的状态马尔可夫链在相邻的链。因此,并行回火可能更有利的在这样的一个实现。然而,请注意,另一个权衡,即计算时间的增加和混合性能的改善由于国家交流的频率增加。参见[39一个简单的示例实现的R,这说明了程序。

的利益冲突

作者宣称没有利益冲突。

确认

卡佳Ickstadt的工作已经由德意志Forschungsgemeinschaft (DFG)合作研究中心SFB 876”提供信息资源受限的分析,“项目C4。曼Zucknick欣然承认资助的其他Kroner-Fresenius-Stiftung和德国联邦教育和研究在IMPACT-2项目(01 er1505a)。

引用

d·r·考克斯”回归模型和生命表”,英国皇家统计学会杂志》上卷,34 B系列,187 - 220年,1972页。
视图: 谷歌学术搜索 | MathSciNet
f·e·哈勒尔Jr .)回归建模策略:与应用程序不能线性模型、逻辑回归和生存分析,施普林格系列统计,施普林格,纽约,纽约,美国,2001年。
视图: 出版商的网站
j·p·克莱恩,h·c·范·Houwelingen j·g·易卜拉欣和t·h·Scheike生存分析的手册。查普曼&大厅/ CRC现代统计方法的手册,2013年。
j·g·易卜拉欣,M.-H。陈,d . Sinha贝叶斯生存分析施普林格科学+商业媒体公司,施普林格,纽约,纽约,美国,2005年。
视图: MathSciNet
k·h·李,美国Chakraborty, j .太阳,”贝叶斯高维半参数比例风险模型中的变量选择生存数据,”国际生物统计学杂志》上,7卷,不。1,艺术。21日,34页,2011年。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
r . Tibshirani“套索cox模型中的变量选择方法,”医学统计,16卷,不。4、385 - 395年,1997页。
视图: 出版商的网站 | 谷歌学术搜索
t .公园和g·卡塞拉,”贝叶斯套索,”美国统计协会杂志》上,卷103,不。482年,第686 - 681页,2008年。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
r·r·霍金”变量线性回归的分析和选择,”生物识别技术。生物学会杂志》上,32卷,不。1,1-49,1976页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
l ., i Gravestock, d·萨班Bove“客观贝叶斯模型选择Cox回归,”医学统计,35卷,不。29日,第5390 - 5376页,2016年。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
依乔治和r·e·麦克洛克“变量通过吉布斯抽样选择,”美国统计协会杂志》上,卷88,不。423年,第889 - 881页,1993年。
视图: 出版商的网站 | 谷歌学术搜索
j·布里奇,存活时间数据的经验贝叶斯分析,“英国皇家统计学会杂志》上,43卷,系列B,没有。1,第75 - 65页,1981。
视图: 谷歌学术搜索 | MathSciNet
m·a·坦纳和w·h·黄”,计算后验分布的数据,”美国统计协会杂志》上,卷82,不。398年,第550 - 528页,1987年。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
w·r·Gilks“适应性拒绝为吉布斯抽样,抽样”皇家统计学会杂志》系列C:应用统计数据m·伯纳德j·o·伯杰,a . p . Dawid Eds和a·f·m·史密斯。贝叶斯统计4 641 - 665年,1992页。
视图: 出版商的网站 | 谷歌学术搜索
w·r·Gilks n . g .最好,k . k . c . Tan“自适应大都市在吉布斯抽样抽样,拒绝”英国皇家统计学会杂志》上,卷。44岁的C系列,没有。4、455 - 472年,1995页。
视图: 出版商的网站 | 谷歌学术搜索
g·温克勒,图像分析、随机领域和马尔可夫链蒙特卡罗方法海德堡,激飞柏林,柏林,海德堡,2003年。
视图: 出版商的网站
a > j·b·卡林h·s·斯特恩,d . b . Dunson a . Vehtari和d·b·鲁宾贝叶斯数据分析统计科学系列、文本中,CRC出版社,佛罗里达州博卡拉顿的第3版,2014年版。
视图: MathSciNet
美国布鲁克斯,a > g·l·琼斯,X.-L。孟,马尔可夫链蒙特卡罗的手册查普曼&大厅/ CRC现代统计方法的手册,CRC出版社,佛罗里达州博卡拉顿的2011。
视图: 出版商的网站 | MathSciNet
a > g·o·罗伯茨和w·r·Gilks“高效的大都市跳规则,”贝叶斯统计5j·m·伯纳德j·o·伯杰,a . p . Dawid Eds和a·f·m·史密斯。,第607 - 599页,1996年。
视图: 谷歌学术搜索 | MathSciNet
a .通力和d . a . Kofke parallel-tempering模拟的温度区间,选择“化学物理学报,卷122,不。2005年20篇文章ID 206101。
视图: 出版商的网站 | 谷歌学术搜索
m . Zucknick m·萨达蒂和a·本纳”不恒等的双胞胎:比较频率论者和贝叶斯套索Cox模型,”生物统计学杂志》卷,57号6,959 - 981年,2015页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
r·e·卡斯b·p·卡林a > r·m·尼尔,“在实践中马尔可夫链蒙特卡罗:圆桌会议讨论,”美国统计学家,52卷,不。2、93 - 100年,1998页。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
m·普卢默:最好、k·考尔斯和k .葡萄CODA、融合诊断和输出分析来获得。R新闻、融合诊断和输出分析来获得。R新闻。6,7 - 11,2006。
m·舒马赫h .活页夹,t·盖尔特”评估的生存预测模型基于微阵列数据,”生物信息学,23卷,不。14日,第1774 - 1768页,2007年。
视图: 出版商的网站 | 谷歌学术搜索
e·格拉夫c . Schmoor w . Sauerbrei, m·舒马赫“评估和预后生存的分类方案的比较数据,”医学统计,18卷,不。17 - 18,2529 - 2545年,1999页。
视图: 出版商的网站 | 谷歌学术搜索
t . j . Ringrose和d . j .,“建设和评估的分类规则,”生物识别技术,卷。53岁的威利,不。3、1181 - 1182年,1997页。
视图: 出版商的网站 | 谷歌学术搜索
r .核心团队接待员:统计计算的语言和环境,R统计计算的基础,维也纳,奥地利,2015年,http://www.R-project.org/。
r·本德、t·奥古斯汀和m . Blettner”生成的生存*模拟Cox比例风险模型,”医学统计,24卷,不。11日,第1723 - 1713页,2005年。
视图: 出版商的网站 | 谷歌学术搜索 | MathSciNet
TCGA的研究网络,http://cancergenome.nih.gov/。
胶质母细胞瘤和恶性星形细胞瘤”,胶质母细胞瘤和恶性星形细胞瘤”,http://www.abta.org/brain-tumor-information/types-of-tumors/glioblastoma.html。
视图: 谷歌学术搜索
癌症基因组图谱研究网络”,全面的基因组特征定义了人类胶质母细胞瘤基因和核心通路,”自然,卷455,不。7216年,第1068 - 1061页,2008年。
视图: 出版商的网站 | 谷歌学术搜索
c·w·布伦南,r·g·w·Verhaak a。麦凯纳et al .,“胶质母细胞瘤的体细胞基因组景观”细胞,卷155,不。2、462 - 477年,2013页。
视图: 出版商的网站 | 谷歌学术搜索
d . Sturm h·威特诉Hovestadt et al .,“热点突变H3F3A和IDH1定义不同的表观遗传和生物胶质母细胞瘤的子组,“癌症细胞,22卷,不。4、425 - 437年,2012页。
视图: 出版商的网站 | 谷歌学术搜索
j·n·温斯坦·e·a·Collisson g·b·米尔斯et al .,“癌症基因组图谱pan-cancer分析项目,”自然遗传学,45卷,不。10日,1113 - 1120年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
y元,e . m .范艾伦l . Omberg et al .,”评估的临床效用在肿瘤癌症基因组和蛋白质组数据类型,“自然生物技术,32卷,不。7,644 - 652年,2014页。
视图: 出版商的网站 | 谷歌学术搜索
m·t·m·李,c·h·陈,李c . s . et al .,“双相i型的全基因组关联研究汉族人口,”《分子精神病学》,16卷,不。5,548 - 556年,2011页。
视图: 出版商的网站 | 谷歌学术搜索
k .近藤m . Ikeda y Kajio et al .,“基因变异在Sp8 3温度系数和转录因子基因(Sp8)作为精神疾病易感性位点:遗传协会的一项研究中,“《公共科学图书馆•综合》,8卷,不。8篇文章ID e70964 2013。
视图: 出版商的网站 | 谷歌学术搜索
李问:刘,刘y, w . et al .,“遗传、表观遗传和分子多病灶的多中心胶质母细胞瘤,风景”Acta Neuropathologica,卷130,不。4、587 - 597年,2015页。
视图: 出版商的网站 | 谷歌学术搜索
d . Eddelbuettel和R·弗朗索瓦”Rcpp: R和c++无缝集成,”杂志的统计软件,40卷,不。8队,2011页。
视图: 出版商的网站 | 谷歌学术搜索
d·威尔金森“平行获得回火和大都市耦合模型,”2013年,http://darrenjw.wordpress.com/2013/09/29/parallel-tempering-and-metropolis-coupled-mcmc/。
视图: 谷歌学术搜索

版权

PDF 下载引用

下载其他格式

订单打印副本

的观点

1533年

下载

1370年

引用