文摘

预测疾病进展是前列腺癌研究中最具挑战性的问题之一。基因表达数据添加到预测模型基于临床特点提出了提高精度。在当前的研究中,我们应用逻辑回归(LR)模型结合临床特征和基因co-expression数据提高前列腺癌进展的预测的准确性。高分的一对(TSP)方法被用来选择基因模型。提出的模型不仅保留了TSP算法的基本性质还结合临床特征到预后模型。基于统计推断与迭代交叉验证,我们表明,预测LR模型,包括基因选择通过TSP方法提供了更好的预测前列腺癌的进展比只使用临床变量和/或那些one-gene-at-a-time包括基因选择的方法。因此,我们得出这样的结论:TSP选择是一个有用的工具功能(基因)和/或选择用于预后预测模型,我们的模型还提供了另一种前列腺癌进展。

1。介绍

前列腺癌(PCa)是第二个在美国男性癌症相关死亡的主要原因(1,2]。筛选使用血清前列腺特异性抗原(PSA)改善了PCa的早期检测,导致增加的比例疾病是可以治愈的,患者前列腺切除术(3,4]。然而,20%到30%的病人治疗将开发一个本地或转移复发这反映了大多数不良临床结果(4]。因此,从临床的角度来看,重要的是能够预测哪些病人会复发。

传统的PCa预后模型是基于一些临床特征,如预处理PSA水平,活检格里森评分(GS)和临床阶段,但在实践中,他们是不足以准确预测疾病进展(5]。随着微阵列技术的发展近年来,大量的研究已经进行了描述的动态使用DNA微阵列基因表达在PCa过程。在一些研究中,肿瘤表达特征与临床相关的参数和结果已确定(6- - - - - -9]。结果,它有可能开发出临床模型与基因签名确认从微阵列数据的变量和一些临床特征预测哪些人将经历发展PCa的转移形式。

然而,它已经发现,没有一个预测模型利用基因表达谱明显比模型只使用临床变量在预测PCa进展(10,11]。事实上,只有数量有限的基因是用来避免在这些模型过度拟合。的基因通常是通过gene-by-gene比较选择。然而,最近的研究结果表明,评估多个基因的表达(即。,coexpression analysis) yields a better prediction of tumor progression than the analysis of individual genes does [12- - - - - -15]。

在这项研究中,我们试图提出这样的模型通过合并coexpressed基因的概要文件和一些临床特征预测病人患有PCa过程。的基因用于我们的模型是由一对高分(TSP)算法。TSP方法最初是由德国造等人作为微阵列数据的分类技术16]。我们应用TSP-based LR模型发布微阵列实验的病人患有PCa过程。我们分析了coexpressed基因的数量的影响包括在模型和临床变量的选择预测的准确性。我们也比较的性能最常用的分类方法与我们提出的方法。

2。材料和方法

2.1。逻辑回归模型的分类基因微阵列

从不同的细胞全基因组基因芯片数据给洞察各种基因型和表型的基因表达变化。分类的患者是癌症诊断和治疗的一个重要方面。例如,可以使用微阵列实验筛选基因表达水平从癌变和正常的表型,以便适当的预测规则可以由这些基因表达数据。在本节中,我们介绍一个逻辑回归(LR)模型对微阵列数据的表型进行分类。

我们表示基因表达矩阵 ,那里有 基因和 样品, 表示的表达式值 th基因, ,从 th样本, 。向量 代表了 基因表达值 样品和 表达谱的吗 基因的 样本。让 是二进制的表型 th简介: 表明, th样本属于类(例如,正常组织)和0 表明, th样本属于1级(如肿瘤组织)。

微阵列数据的分类已经深入研究了多年。但一些局限性突出,如小困境,“黑盒”,和缺乏预测强度(16- - - - - -18]。我们使用LR构建预测模型为一个二进制的结果。显然,标签和贡献的潜在概率预测的变量可以显式地提供LR模型,这有助于生物学家发现的基因相互作用,导致疾病的发生。

分类与LR的目的是寻找出的概率公式 这一 th样本与所有它的计算表达式 表示一个类1例。因为只有两类被认为是代表类的样本的概率0是结果 。我们使用以下正常LR模型: 在哪里 参数可以估计最大化以下可能性:

微阵列实验的典型” ,小 样品的数量, ,通常是数万,但基因的数量, ,通常是上千甚至上万。所以样品的数量远低于数量的变量( )。这种情况下提出了许多问题在构建LR模型,如过度拟合、多重共线性的基因表达谱,无限的解决方案 (17- - - - - -19]。特征选择可以用来识别的重要基因,导致大部分的分类。因此,一些降维技术,如支持向量机(svm),奇异值分解,和部分最小二乘,是常用的解决这些问题,使计算可行的(17- - - - - -19]。然而,基因通常选择一个接一个。根据生物机制,基因本身不工作,所以我们采用coexpressed TSP模型的基因中,如以下部分所述。

2.2。Coexpressed基因的识别

最近的研究表明,评估多个基因的表达(即。,coexpression analysis) provides a better prediction of tumor progression than analyzing the expression of individual genes [20.- - - - - -22]。我们确定了coexpressed基因paired-gene方法的高分的双(TSP)算法被德国造et al。16]。TSP算法最初开发的二进制表型分类根据一个基因的相对表达谱。TSP分类器有以下优势基因表达研究中使用的标准分类:(i) parameter-free和数据驱动的机器学习方法,避免过度拟合通过消除需要执行特定参数调优,在其他的机器学习技术,支持向量机和神经网络等;(2)它只包括两个基因,从而导致更容易解释的数据和廉价的诊断测试;(iii) rank-based TSP分类器是由技术因素影响较小或规范化分类器基于单个基因的表达水平;及(iv)生成的简单和准确的结果TSP促进后续研究。

TSP基因对可能被认为是诊断测试生物标记基因微阵列实验(16,20.- - - - - -22]。方法也被从一个茶匙基因对高分的两组(TSPG)基因签名(20.- - - - - -22]。然而,仍然有一些未解决的问题相关的生物学解释和选择条件基因配对的使用而不是较大的组重要的基因。大多数的基因选择的算法是基于基因表达数据的分布假设。然而,parameter-free rank-based TSP算法,数据驱动的机器学习方法。很难确定基因对选中的数量,但是目前的研究表明,只有少数基因对需要考虑得分最高(20.,21]。

为简单起见,使用基因表达矩阵 基因和 样品,我们假设 样品标签类0, , 样品标签类1, , 。在这种方法中,我们专注于检测”标记基因配对” 因为观察的概率有显著差异 类间类1和0, 表示 th和 th行 。观察的条件概率 在每一个类被定义为 在哪里 指标函数定义为

典型的TSP方法基于最大化下面的得分 由德国et al。16]:

这种方法已被证明是准确的svm和其他更复杂的方法(20.- - - - - -22]。虽然最大化三角洲识别最好的分类器精度高,这可能与相对较低的敏感性和特异性,德国等人所指出的,Ummanni et al。16,23]。例如,在癌症的分类与正常样本,精度之间的比率被定义为正确预测样本的数量和总数量的样品,和敏感性(分别地。特异性)是正确预测癌症的数量之间的比例(分别地。正常)样品和癌症的总数(分别地。,正常的)样本16]。这种低敏感性和特异性限制我们使用一个茶匙医疗决策的分类器。这个问题与多个基因的使用对提高分类器,可以实现类似的分数精度高、灵敏度和特异性20.- - - - - -22]。因此,我们认为不仅仅是一个,而是多个TSP的基因对我们的模型。

2.3。评价模型的使用数据集出版

TSP-based LR的效率评估模型,我们我们的模型应用于数据集与临床参数和基因表达值。我们选择一个数据集与样本量大,因为我们可以获得更可靠的估计分类器的效率。最近发表的研究的数据集是Sboner et al。5),分析基因表达的患者30年的临床随访数据。男人死在10年内被诊断患PCa的被认为是“致命的”疾病,而那些幸存下来至少10年确诊后被认为是“懒惰”的疾病。内有165人致死,116无痛性疾病。GS,肿瘤的比例,存在一个estrogen-regulated基因(ERG)重排为每个病人的研究。6100个基因的表达是评估使用自定义基因表达阵列(GSE 16560)。

为我们的模型,我们首先随机将281个样本分成一个学习与186年样本集和验证集和其他95个样本,用一个近似等于男性拥有致命的比例和懒惰的PCa在每个组。学习集是用来创建模型的性能评估的验证集通过接受者操作特征(ROC)曲线下面积(AUC)。比较我们的模型的性能,我们进行了统计测试基于零假设,没有区别Sboner auc的模型和我们的。类似于(auc的估计5),相应的95%置信区间的auc是100年计算迭代10倍交叉验证程序启用以来模型的无偏估计的性能评价是一个独立的数据集上执行。模型推断是更好的只有AUC是统计上比其他的模型。在最初的研究中,作者进行了一次广泛的比较分析最常用的分类方法,包括再最近的模板预测,对角线性辨别分析、支持向量机、神经网络分析。他们的研究结果使我们比较TSP-based LR分类器的性能与其他分类器。

优化并选择最好的模型,我们采用了一组迭代交叉验证过程中的学习,类似于Sboner等使用的过程。5]。分层十倍交叉验证过程将学习设置分为10脱节的分区,测试 ,致命的比例大致相等和懒惰的情况下。对于一个给定的分区,测试,模型使用的所有其他情况下学习,培训设置,然后进行评估与AUC的分析测试。在10倍交叉验证的过程,模型 首先是参数化的培训集,然后相应的AUC击打 集的计算模型。为了避免潜在的偏见的选择10个分区,整个过程是重复100次,1000个不同的分区。我们发现最好的模型与最大的AUC通过比较他们获得100次迭代。此外,基因对和估计模型中的参数也被认为是学习最好的模型集。理由是这个过程的结果使识别最好的模型,可以用来建立一个分类器,最后评估验证集。

在交叉验证的迭代过程中,特征选择过程进行了识别子集的基因表达不同的致命的和懒惰的样本。在这项研究中,Sboner et al。5),一个双边 每个基因识别以及进行基因表达的不同。然后我们比较我们的模型使用TSP-selected coexpressed基因Sboner描述的模型等。5]。

3所示。结果

我们提出了LR模型结合TSP-selected基因和临床特征识别和预测病人的主成分分析将进步。模型的性能评估数据集GSE 16560。表1列出了16 LR模型,我们测试了。我们的模型包括所有可能的组合以下变量:年龄、GS、肿瘤的比例,ERG基因重排和TSP-selected基因。1000种不同分区的auc计算选择最好的模型。图1(一)显示了100年的十倍交叉验证的AUC箱线图的16列在表模型1,每一双TSP-selected基因模型。红色的星星表示AUC值验证数据集对应于最好的LR模型学习的数据集。图1 (b)显示了相同的AUC箱线图16模型但是有两个TSP-selected基因对每个模型。

我们策划的AUC值验证数据集评估的影响变量在模型(图2)。蓝线代表AUC值与一对TSP-selected基因模型,和黑线代表的模型有两个TSP-selected基因配对。此外,我们测试模型的统计学意义基于零假设,没有区别Sboner auc的模型。发现在Sboner AUC值的大多数模型的95%置信区间的AUC模型。所以我们的模型可以提供另一种预测前列腺癌的进展。添加茶匙- - - - - -选择基因对能提高模型的预测PCa过程,它不同于Sboner的结果。

TSP的作用是什么- - - - - -选择基因对融合ERG与其他临床特征,尤其是GS ?显然,GS是最显著的变量,因为所有的顶级模特包含它。在图2红圈标记8模型,包括GS。这些8的auc模型远高于他们在其他人和非常相似——和two-gene-pair模型。8 auc超过0.8,如图2,所以我们可以得出结论,与TSP模型- - - - - -选择基因对表现好于Sboner所有的模型,而最大的AUC是0.79 (5]。

模型只使用GS了AUC的0.76;通过添加融合ERG、最大的AUC Sboner等人观察到0.79 (5]。同样,其他模型只使用GS和肿瘤百分比(或年龄)没有分子概要文件可以产生更高的AUC如果融合ERG是补充道。因此,融合ERG的加入可以提高模型的预测能力,只使用临床特征(5]。

然而,融合ERG有点不同的影响在我们的分析。首先,我们的模型可以通过替换融合ERG TSP-selected表现更好的基因。最好的模型与GS与融合尔格(AUC, 0.79) (5),我们的模型1.3 g和TSP- - - - - -选择基因对表现更好,AUC 0.84 (95% );我们最好的模型是模型1.9,使用GS,肿瘤的百分比,和一对TSP-selected基因(AUC, 0.86;95% ),但相应的模型报道Sboner融合ERG替换了一个AUC为0.75 (5]。另一方面,增加融合ERG很少或没有影响我们的模型,包括TSP-selected基因配对。例如,相同的AUC得到我们的模型1.3和1.10,与GS、融合ERG和TSP-selected基因配对。因此,TSP-selected基因似乎更重要的预测效果比融合ERG PCa进展。

的基因融合ERG以外无法提高预测能力,因为最好的模型Sboner研究[5)缺乏分子概要文件。然而,一些改进是在我们的研究中观察到:Sboner取代分子概要文件的模型与一个或两个TSP-selected基因对我们的模型比他们表现更好。例如,最好的模型与分子的概要文件Sboner研究使用GS,年龄,和12基因和产生的AUC 0.75,而我们的模型1.6,使用GS,年龄,和TSP-selected基因对,产生的AUC 0.8 (95% )。因此,尽管我们更少的基因添加到我们的模型,它的性能更好。此外,Sboner的模型的预测能力也提高在相同数量的基因取代TSP-selected基因对,见表2。因此,添加TSP-selected基因对性能有重要影响的原始模型。

模型只使用临床特征可能会表现得更好如果适当的基因,如与TSP算法,选择添加。探索添加基因的影响,我们将我们的方法与9个模型在最初的研究中使用Sboner et al。5),包括基因。的比较,我们选择了相同数量的基因对我们的模型。然而,模型中的特色基因不同,因为每次1000个随机训练和测试分区迭代交叉验证过程是不同的。

我们比较了在表的结果2。如上所述,我们模型的auc往往高于研究Sboner et al . PCa的预后模型可以表现得更好如果选择基因。特别是,TSP-selected基因可能发挥重要作用。首先,模型只使用18基因的AUC Sboner的研究从0.71增加到0.74 (95% 在我们的模型中。此外,auc的模型使用一个和两个TSP-selected基因对0.71 (95% )和0.77 (95% ),分别。因此,TSP-based模型与少数基因表现的更好。

Sboner研究的模型,包括GS和16个基因没有执行任何比他们的模型使用了GS, auc为0.75和0.75,分别5]。然而,AUC的模型,包括GS和16 TSP-selected为0.81(95%的基因 )表2,GS所使用的模型,和一对基因(或两个)茶匙(s)表现更好,AUC 0.84图2

最后,所有的模型测试在最初的研究中,一个包括GS和ERG重排基因表达(没有数据)AUC值最高,为0.79 (5),而大多数的AUC值高于我们的模型。因此,在对比的结论Sboner et al .,我们相信增加分子资料可以提高获得的结果与传统的PCa的预后模型如果选择合适的基因。

从图中的结果2和表2,我们可以得出这样的结论:模型的性能没有改善通过添加大量的基因,但改善的重要临床特征和分子概要文件。例如,添加一对TSP-selected基因就足够了,如果重要的临床变量、GS等包括在模型中。然而,在模型1.1的情况下,其中包括只有一个基因签名,和模型1.2和1.8,包括年龄,增加更多的基因对可以极大地提高性能。显然,基因选择强烈依赖于患者样本等统计技术引导,重复抽样,或交叉验证TSP-extended中常用的算法。在当前的研究中,TSP-based算法的计算成本并不是主要问题,但是主题对基因对最优数量的添加改善临床模型仍然是有趣的进一步研究。

4所示。结论和讨论

我们引入了一个LR-based分类方法,该方法结合了TSP-selected基因和临床测量。实证结果的19,20.]数据集的基础上前列腺癌进展表明,该分类模型使用一个或两个TSP-selected基因对执行比最常用one-gene-at-a-time方法。LR的组合,我们的模型不仅保留的基本优势TSP算法还结合临床特征。此外,LR-TSP模型提供了底层的概率predictionand coexpressed基因在模型中被用作生物标记。因此,我们建议的方法提供了明确的生物解释的临床测试。基于统计推断与迭代交叉验证,更好的性能是我们的模型所示。

报道中提及的Sboner et al。5),许多因素会影响模型的性能,如致命的定义和懒惰的PCa,使用污染的样品基质组织,选择基因化验使用DASL (cDNA-mediated退火、选择、扩展和结扎)数组,和intertumor异质性的影响。根据16560年GSE的研究,我们探讨了可能的基因用于临床的影响模型。特色的基因往往选择通过使用one-gene-at-a-time方法。Sboner等人一个双边执行 以及每个基因内的培训分区,从而避免过度拟合,因为选择的基因只进行训练集(5]。他们还实现stepwise-like特征选择,根据他们的基因排序 t测试,然后补充说他们的模型的基因。我们的研究中,另一方面,表明coexpression分析收益率预测肿瘤的进展比单个基因的分析。因此,我们得出这样的结论:TSP选择是一个有用的工具功能(基因)和/或选择使用在预后模型。

确认

本研究支持的戴维·科赫泌尿生殖器的应用研究中心癌症,国家癌症研究所授予CA16672,中国国家自然科学基金(31100958)和GDHVPS (2012)。