文摘

在过去的十年中,肿瘤的研究人员试图发展生存预测模型使用基因表达数据。绝对最小的收缩和选择操作符(套索)被广泛用于选择基因,真正与患者的生存。套索选择基因预测缩减大量的候选基因为零的系数基于调优参数通常是由一个交叉验证(简历)。然而,这种方法可以通过(或无法识别)(即真阳性基因。,it identifies false negatives) in certain instances, because the lasso tends to favor the development of a simple prediction model. Here, we attempt to monitor the identification of false negatives by developing a method for estimating the number of true positive (TP) genes for a series of values of a tuning parameter that assumes a mixture distribution for the lasso estimates. Using our developed method, we performed a simulation study to examine its precision in estimating the number of TP genes. Additionally, we applied our method to a real gene expression dataset and found that it was able to identify genes correlated with survival that a CV method was unable to detect.

1。介绍

在过去的十年里,研究人员预测生存在一个癌症病人基于基因表达数据(1- - - - - -4]。揭示了基因表达谱和时间之间的关系感兴趣的事件(例如,整体存活率,metastasis-free生存)可以改善治疗策略,建立准确的预后标记。Cox比例风险模型是最受欢迎的方法相关的共生存时间(5]。然而,由于高维度的数据(即基因表达。,the number of genes expressed exceeds the number of patients), it is not possible to take an estimation approach based on the Cox log partial likelihood. To overcome this problem, a penalized estimation approach, which includes a shrinkage estimation of coefficients, is frequently taken [6- - - - - -8]。

在处罚估计方法中,至少绝对收缩和选择算子(套索)[9,10)是经常使用,因为它有吸引力的能力同时选择基因与生存和估计的Cox模型系数。系数为零的套索收缩最完全通过添加 规范考克斯日志部分可能性,和收缩的数量依赖于调优参数。调优参数的值通常是由一个交叉验证(CV),最大化处理完数据预测精度(11]。

一些研究人员调查了套索的操作特征。Goeman [12]使用套索分析公开的基因表达数据集,获得文章的货车转向et al。(2)和van de Vijver et al。3)在70 -基因签名metastasis-free生存的预测乳腺癌患者被建立。这些数据包括295名患者的4919个基因,他们从24885年基因在范不转向基于质量标准等的工作(2]。套索选择16基因来开发一个整体的生存预测模型在使用的调优参数决定使用一个简历。Goeman [12)也进行了岭回归使用所有4919个基因开发一个模型通过添加 规范考克斯日志部分的可能性。套索和岭回归的预测精度比较,和4919个基因的岭回归略优于套索16基因。Goeman [12)得出的结论是,套索可能通过基因与生存为了开发一个简单的预测模型。Bøvelstad et al。7)也得出了同样的结论的审查生存预测方法用于分析乳腺癌基因表达数据集。表1总结了一个典型的套索基因选择的结果。

简历的方法确定调优参数的值通过考虑真阳性的数量之间的权衡(TP)和假阳性(FP),所以识别假阴性的可能性(FN)不能被消除。识别更多outcome-predictive基因的一个解决方案是监控的TP调优参数的几个值,随后,确定其最终值。在这项研究中,我们开发了一个方法估算的数量TP系列的调优参数的值。我们假设分布混合组件的TP和FP的套索的估计,而这些可以用来估计TP和FP的数量。可以生成解决方案的路径,包括套索一系列的调优参数值估计使用方法由Goeman [12]。在这里,我们提出了一个算法,按顺序符合这个解决方案的混合分布路径,和我们使用模拟测试算法的精度研究估计TP的数量。我们进一步证明该算法使用一个著名的弥漫型大b细胞淋巴瘤(DLBCL)数据集包括240 DLBCL患者的总体生存和7399个基因的基因表达数据1]。

2。材料和方法

2.1。套索Cox比例风险模型

Cox比例风险模型是最受欢迎的方法评估基因表达之间的关系和时间感兴趣的事件(5]。危害事件在时间的函数 对于一个病人 与基因表达水平 是由 在哪里 是一个参数向量和 基线风险,即风险各自的个人当所有变量的值都等于零。一般设置的地方 系数估计的可能性最大化考克斯日志部分如下: 在哪里 是一个指示器,它是1,如果存活时间观察,或0,如果审查。 设置个人的风险吗

在高维的套索设置 ,最大化的系数估计以下惩罚似然函数(9,10]: 在哪里 是调优参数,它决定了收缩。

2.2。解决方案的路径套索估计

Goeman [12]介绍了计算方法的解决路径套索估计的函数 , 基于该算法开发的公园和Hastie [13]。最大化的方法 在一个固定的 基于梯度上升的组合优化与牛顿迭代算法。 计算为 先后,从 (给 因为梯度为零的值)。 选择任意但经常设置吗 在分析基因表达数据(14]。套索估计在当前步骤是设置为初始值计算的后续步骤。步长 最小衰减率改变的数量选择的基因吗 ;也就是说,只有一个基因是新选中或排除在外

2.3。混合分布估计TP的套索估计的数量

估计TP的套索的数量估计的固定值 我们之前开发的,我们假设分布研究[15]。我们介绍了基于混合分布的两个特性套索:(i)套索选择最多 基因的凸优化问题的本质 (16,17)和(2)贝叶斯范式的套索估计后与之前独立的拉普拉斯分布模式 ,在那里 是拉普拉斯分布的概率密度函数和位置参数吗 和尺度参数 (9]。因此,混合分布假设的套索估计 是如下: 在哪里 混合的比例 ; 是正态分布的概率密度函数的意思吗 ≠0 和方差 在组件 ; 组件的数量,是由模型选择标准;和 是恒定值,它是无限地接近0;例如, 。未知的参数, , , , , ,估计通过最大化对数似函数(4利用牛顿迭代法)。

中定义的混合分布(4)的基础上,制定以下概念:自从套索选择最多 基因时 的系数 基因是零;因此,(42)由术语( 项和 术语)。在 项,拉普拉斯分布0位置参数和尺度参数 被假定为FP的分布的基础上,套索特性(ii)上面所讨论的,当 组件与正态分布的位置参数 和尺度参数 被假定为TP的分布。在 项,拉普拉斯分布0位置参数和尺度参数 被认为是被分配的 基于上述基因套索特性(i)。

0位置参数和尺度参数 被认为是FP套索的基础上的分布特性(i),上面所讨论的。的 与位置参数 和尺度参数 被假定为TP的分布。的 术语是假设的分布 基于上述基因套索特性(ii)。截止值 (> 0),估计FP和TP的比例下的面积估计拉普拉斯和正态分布 期限(4),分别,可以编写如下: 1说明了计算(5当组件的数量, ,是1。使用(5),TP和FP估计的数量

2.4。算法估计数量的TP在一系列的值

在这里,我们提出一个算法顺序符合混合分布(4拉索)的解决路径的估计,部分中描述2。2。在这个算法中,我们假定TP的数量发生了变化,当新选中的或排除基因 是真正的生存相关,基于的最大对数似(4)。首先,我们近似 在(5假设一个适当小的截止值) (≈0)。然后,我们得到 从(6)和(7),分别为, 是一个估计的TP在组件的数量 。为 ,该算法如下。

步骤1

步骤1.1。在这一步中,我们假设新选中的或排除基因 《外交政策》。 表示FP和设置的比例 其他组件, ,设置

步骤1.2。鉴于 计算的最大对数似(4),

步骤2

步骤2.1。集

步骤2.2。在这一步中,我们假设新选中的或排除基因 TP。为组件 ,设置 其他组件的集合

步骤2.3。鉴于 计算的最大对数似(4),

步骤2.4。集 。重复步骤2.2和2.3之前

步骤3。在这一步中,我们确定是否新选中的或排除基因 TP和FP是基于最大对数似是1.2和2.3计算步骤。如果 是最大的 ,我们认为新选中的或排除基因是《外交政策》;如果没有,我们假设这是TP。因此,计算 。如果 、更新 如下: 如果 、更新 如下: 在这里,计算估计TP 通过

3所示。结果

3.1。模拟研究

我们进行了模拟研究,检查我们的精度估计TP。在这项研究中,患者的数量, 设置为200。基因的数量, 设置为1000,其中包括 = 5或30 outcome-predictive基因随机选择 在每个模拟基因。基因的系数 , 设置为1.5 outcome-predictive基因和剩余的0 none-outcome-predictive基因。我们设置 5、组件的数量, 在(尽管,1 决定使用一个模型选择标准在实践中)。病人的基因表达水平 , ,从多元正态分布均值向量生成 和协方差矩阵 所以,方差是1和相关性 (18]。病人的生存时间 生成基于指数模型 在哪里 是0和1之间的均匀随机变量(19]。为了评估的精度估计TP为不同的值 ,我们报告一个选定的基因,包括真正的TP,估计TP和FP,

2显示的平均值 ,许多选择基因,真正的TP,估计TP和FP,到1000年重复。我们观察到,估计TP的精度取决于双方的价值 (见表2)。当 ,估计的精度是足够的 、50、100和150年,而TP有点低估了 。然而,当 ,估计的精度是足够的 10和150年,而TP被高估了 和100年。例如,当 , , ,真的,估计TP的平均数量是29.9和35.3,分别。的值 没有大大影响估计TP的准确性。

3.2。实际数据分析

来说明我们的算法可以用来确定 ,我们应用它DLBCL数据集,包括生存240 DLBCL患者从7399个基因和基因表达数据1]。在240名患者的基因表达数据,我们确定了434个基因与成套基因表达值;所有其他基因缺失的表达值,平均24.7每个基因缺失值。在这里,我们使用0.0失踪的描述性的表达式值的目的。类似于罗森沃尔德et al。1),我们将数据分为两种:训练数据组成的160名患者和验证数据组成的80名患者。

训练数据,我们得到的解决路径套索估计; 节中描述计算2。2。我们设置 根据西蒙et al。14]。

我们应用算法获得的解决路径。我们认为三个混合分布的套索估计 、2或3,而他们的拟合优度 由Akaike信息标准(AIC)。因此,我们选择 因为它有最好的另类投资会议

2显示了估计的TP一系列的值 。我们发现套索选择最多42 TP,选择基因的数量在96年 = 0.86 。因此,我们选择 作为最优 ,估计混合分布的价值 是如下: 为了确定所选42 TP 96基因,我们安排96年的降序排列的 确定第一个42上市截止值的基因 。随后,该模型包括这些42基因被确定为“42 TP-model。”

在42 TP-model相比,我们表现的简历。简单来讲, 倍的简历是由 在哪里 是日志部分可能性和套索估计离开吗 分别th褶皱了。的最优值 获得了最大化 。5倍的基础上简历,12个基因被选中 = 1.43 。随后,该模型包括这12个基因被确定为“CV-model。“值得注意的是,与42基因42 TP-model和CV-model 12基因选择4基因共同之处。表3显示了基因库加入4基因的数量和描述为每个选定的模型。

我们比较了预测精度的42 TP-model CV-model使用验证数据组成的80名患者。对于这些数据,我们计算3值作为比较标准: 值生存率较预后指数和异常。80名患者被分为2组,“更好”和“差”预后组,使用边界值的预后指标 。相比kaplan - meier曲线之间的两组的生存率较。接下来,我们计算了 参数的值 乘以预后指数 Cox比例风险模型 。最后,计算偏差 ,在那里 考克斯日志partial-likelihood函数的估计系数利用训练数据和零向量 ,分别。对于每个标准,低价值的建议更好的预测精度。

4显示的值3每个模型的标准。我们发现所有的值3标准42 TP-model低于CV-model,表明基于该方法的模型更准确的(见表4)。此外,图3显示,42的kaplan meier曲线TP-model杰出的“更好”和“差”预后组绝对比那些CV-model (42 TP-model, ;CV-model, )。因此,通过使用我们的算法,我们确定 并且他们能够自己选择重要的基因,可能与生存相关,简历无法选择。

4所示。讨论

在这项研究中,我们提出了一个算法估算TP套索的解决路径的数量的估计。监测和确定TP为一系列的值的数量 很重要,因为它们能增加发现所有outcome-predictive基因的概率。TP的数量应与适当的估计精度。TP确认的准确性,我们使用一个典型的基因表达数据集进行了仿真研究。我们发现我们的算法的精度估算TP的数量是足够的,尽管发生了过高的值 。然而,过高的估计发生TP的真实数量饱和的时候,所以它可能不会导致一个问题经过基因真正与生存。在仿真研究 ,最大平均估计的TP是35.3 (见表2)。使用这个 选择TP,平均在30 outcome-predictive基因可以选择29.9 TP, TP基因的数量经过在实践中被忽略。

中提供的数据表2表明,假阳性的数量增加,而真正的阳性的数量增加,然后趋于稳定的调优参数下降。减少FP确定的数量,同时保持一个适当的TP,我们应该确定的价值 通过监测TP的数量和假阳性 在拟议的方法。

此外,我们的算法是应用于DLBCL数据。我们确定调优参数的值基于估计的最大数量TP发现的算法。我们确定了42 TP基因在96年选择基因排序的基础上的绝对值套索估计。我们也可以识别基于模型评估标准如AIC TP 96年42基因在所有可能的组合,也就是说, (> 1027在总)组合;然而,计算所有可能的基因组合是一个遥远的AIC的方法。评估方法的效率使用套索的排名估计,我们计算了AIC 10000随机选择模型中所有可能的模型和随后的AIC相比我们的方法。从10000年模型、425年AIC模型(4.25%)比我们的方法。这一结果表明我们的排名方法具有令人满意的性能在实践中对42个基因的鉴定。虽然调查所有可能的基因组合是比较理想的,我们的方法是一个不错的选择。

DLBCL数据在应用程序中,简历的方法相比,12个基因被确定,我们确定了42 TP基因与我们的算法,我们提高了模型的预测精度。在实践中,一些研究人员可能会满意确定几个有前途的基因,不会过度担心经过他人。在这种情况下,简历将更可取,因为它开发了模型中发现一些基因只有一个小预测精度的损失。然而,基因选择套索通常由基因研究者进行更严格的审查,所以经过outcome-predictive套索的基因可能是一个大问题。事实上,如果套索经过outcome-predictive基因,一些基因研究可能不发生。因此,当识别所有outcome-predictive基因是一个优先级,我们的算法将是最有用的。

5。结论

我们开发了一个方法估算的数量真阳性的一系列值调优参数的套索。我们证明了发达的实用程序方法通过仿真研究和应用一个真实的数据集。我们的结果表明,我们的开发方法是有用的调优参数的确定值的套索和减少真正经过基因的概率与生存。

利益冲突

作者宣称没有利益冲突有关的出版。