文摘gydF4y2Ba
最近微阵列技术的发展导致了一个巨大的数量的遗传标记的集合在疾病相关的研究中,然而,科学家感兴趣的是选择一个较小的一组基因,探索基因和疾病之间的关系。当前方法要么采用单个标记测试,忽略了可能的基因之间的相互作用或考虑多级过程,减少基因的大尺寸之前评估协会。在后者中,贝叶斯分析可以进一步适应基因之间的相关性通过多元先验分布的规范和评估协会通过潜变量的概率。然而,协方差矩阵取决于未知参数。在这个研究中,我们提出了一个参考hyperprior分布等不确定性,概述了其计算的实现,这充分说明贝叶斯方法与一个冒号和白血病癌症研究。与其他现有方法也进行了比较。我们建议的模型的分类精度更高与更小的组选择的基因。结果不仅复制一些更早的研究中发现,但也提供了与后验概率的力量。gydF4y2Ba
1。介绍gydF4y2Ba
最近的寡核苷酸微阵列技术的发展导致生产成千上万的基因表达水平在一个实验。如此大量的数据,研究人员的一个主要任务是制定预测癌症或癌症亚型分类规则基于基因表达水平的组织样本。这样的分类规则的准确性对诊断和治疗可能是至关重要的,因为不同的癌症亚型可能需要不同的有针对性的疗法。然而,良好的发展和有效的分类规则并不简单,因为大量的基因来自于相对较少的组织样本和因为模型的复杂性与生物相关的机制。一组较小的相关基因的识别描述不同疾病类,因此,是一个具有挑战性的任务。程序是有效的在基因选择以及分类做在癌症研究中扮演着重要的角色。gydF4y2Ba
许多方法被提出了类分类。例如,一些分析识别分类基因的一个子集gydF4y2Ba统计数据,回归模型的方法,混合模型,Wilcoxon评分测试,或between-within类平方和(BSS / WSS) (gydF4y2Ba1gydF4y2Ba- - - - - -gydF4y2Ba7gydF4y2Ba]。这些方法是单变量,每个基因都是单独测试。别人开始的初始步骤之前降维分类程序,如主成分分析(PCA) (gydF4y2Ba8gydF4y2Ba- - - - - -gydF4y2Ba10gydF4y2Ba)和偏最小二乘算法(PLS算法)(gydF4y2Ba11gydF4y2Ba- - - - - -gydF4y2Ba15gydF4y2Ba]。这些方法可以减少维度(基因的数量)有效但可能不是生理上解释。捕获基因基因的相关性,研究人员提出了pair-based方法(gydF4y2Ba16gydF4y2Ba),correlation-based特征选择(gydF4y2Ba17gydF4y2Ba),和之前的马尔可夫随机场(gydF4y2Ba18gydF4y2Ba]。虽然这些方法可以基因基因的相互作用模型,可以计算耗时。gydF4y2Ba
贝叶斯方法可以适应自然基因之间的相互作用通过先验分布,回归模型的设定下。例子包括贝叶斯分层混合模型(gydF4y2Ba19gydF4y2Ba- - - - - -gydF4y2Ba21gydF4y2Ba)和一个物流或probit链接与潜变量和随机搜索变量选择(科学)程序二进制和multicategorical表型(gydF4y2Ba22gydF4y2Ba- - - - - -gydF4y2Ba25gydF4y2Ba]。同时考虑所有的基因,大部分贝叶斯方法采用多变量分析自然共轭先验gydF4y2Ba,被称为gydF4y2Ba之前,回归参数gydF4y2Ba(gydF4y2Ba26gydF4y2Ba]。这gydF4y2Ba先天的gydF4y2Ba利用分布设计矩阵的协方差矩阵之前gydF4y2Ba,并可能导致一个相对简单的后验分布。然而,如果基因的数量远远大于样本的数量,尺寸gydF4y2Ba因过大而可能发生高度的多重共线性。在这种情况下,Zellner的协方差矩阵gydF4y2Ba之前奇异几乎是不可能的。修改包括gydF4y2Ba先验分布与Moore-Penrose广义逆矩阵(gydF4y2Ba27gydF4y2Ba)和使用一个岭参数(gydF4y2Ba28gydF4y2Ba,gydF4y2Ba29日gydF4y2Ba]。此外,其他研究人员专注于标量gydF4y2Ba在gydF4y2Ba控制预期的非零回归系数的大小。例如,据报道,最终的结果是对的值gydF4y2Ba10至100,值gydF4y2Ba有人建议经过广泛考试(gydF4y2Ba30.gydF4y2Ba]。而不是固定gydF4y2Ba在一个常数,乔治和培养(gydF4y2Ba31日gydF4y2Ba提出了一个经验贝叶斯估计gydF4y2Ba梁,而和他的同事们(gydF4y2Ba32gydF4y2Ba)提出了一个过度gydF4y2Ba之前的一个特例,不完整的inverse-gamma之前在崔和乔治gydF4y2Ba33gydF4y2Ba]。gydF4y2Ba
本研究的主要目的是充分的应用贝叶斯方法与hyperpriorgydF4y2Ba。特别是我们采用一个inverse-gamma之前gydF4y2Ba早些时候说,它可能会导致计算的困难。因此,我们概述了密度算法,并演示了其实现。在这篇文章中,我们考虑一个概率单位回归模型与科学分类识别影响的基因,增强响应变量gydF4y2Ba与潜在的变量gydF4y2Ba,probit模型转化成一个高斯回归和广义奇异问题gydF4y2Ba前(gydF4y2Ba之前)。对的选择gydF4y2Ba的不确定性,我们指定一个hyperpriorgydF4y2Ba。这hyperprior是直观的,不同于那些gydF4y2Ba32gydF4y2Ba,gydF4y2Ba33gydF4y2Ba]。最后,我们定义了一个变量指标gydF4y2Ba为gydF4y2Bath基因获得和执行方法为基因选择和生成后样本类分类。论文的其余部分安排如下。节gydF4y2Ba2gydF4y2Ba,我们简要地描述了模型规范,包括数据扩增方法和科学方法。在这hyperpriorgydF4y2Ba,我们也证明了贝叶斯推理的实现。应用程序的三个癌症研究、急性白血病、结肠癌,和大型b细胞淋巴瘤(DLBCL),提出了节gydF4y2Ba3gydF4y2Ba。结论和讨论部分gydF4y2Ba4gydF4y2Ba。gydF4y2Ba
2。模型和符号gydF4y2Ba
让gydF4y2Ba表示观测数据,gydF4y2Ba 在哪里gydF4y2Ba表示的表达水平gydF4y2Bath基因的gydF4y2Bath样本gydF4y2Ba表示响应向量,gydF4y2Ba表明样品gydF4y2Ba是癌症组织和gydF4y2Ba正常组织。假设gydF4y2Ba是gydF4y2Ba独立随机变量gydF4y2Ba。gydF4y2Ba
2.1。Probit模型与潜变量gydF4y2Ba
可以与基因表达测量响应结果与概率单位回归模型:gydF4y2Ba 在哪里gydF4y2Ba代表了拦截,gydF4y2Ba是gydF4y2Bath行gydF4y2Ba设计矩阵gydF4y2Ba,gydF4y2Ba回归系数向量,然后呢gydF4y2Ba是标准正态累积分布函数。gydF4y2Ba
这个概率单位回归模型下进行统计推断,我们首先采用gydF4y2Ba独立的潜变量gydF4y2Ba,在那里gydF4y2Ba 和gydF4y2Ba对应于疾病的地位gydF4y2Ba 这些潜在变量的使用有助于确定哪些类别gydF4y2Bath样本分类。请注意,两边乘以一个常数(gydF4y2Ba3gydF4y2Ba)不改变模型;因此考虑单位方差gydF4y2Ba。gydF4y2Ba
如果一个noninformative先验假设gydF4y2Ba,然后后的协方差矩阵gydF4y2Ba鉴于gydF4y2Ba就变成了gydF4y2Ba。然而,由于巨大的微阵列数据的大小,gydF4y2Ba可能是近奇异,变量选择降维是必要的。我们定义为变量选择的向量gydF4y2Ba都是二进制的元素,在哪里gydF4y2Ba 鉴于gydF4y2Ba,我们表示gydF4y2Ba1的数量gydF4y2Ba和gydF4y2Ba一个gydF4y2Ba减少包含回归系数向量gydF4y2Ba如果相应的gydF4y2Ba是1。因此,对所有gydF4y2Ba中相应的列gydF4y2Ba收集建立gydF4y2Ba,一个gydF4y2Ba减少基因表达矩阵。鉴于gydF4y2Ba的概率单位回归模型(gydF4y2Ba3gydF4y2Ba)可以写成gydF4y2Ba 在哪里gydF4y2Ba是gydF4y2Bath行gydF4y2Ba。gydF4y2Ba
2.2。之前选择的分布gydF4y2Ba
完成模型规范,我们指定一个正常gydF4y2Ba之前的拦截gydF4y2Ba有一个很大的gydF4y2Ba表示没有gydF4y2Ba先天的gydF4y2Ba信息。回归参数的普遍应用gydF4y2Ba之前gydF4y2Ba如果样本大小可能不工作gydF4y2Ba小于号码吗gydF4y2Ba,导致的结果gydF4y2Ba不是满秩和gydF4y2Ba不存在。因此,我们考虑的gydF4y2Ba先验分布与gydF4y2Ba的伪逆gydF4y2Ba为gydF4y2Ba空调在gydF4y2Ba,gydF4y2Ba。这将解决奇点问题。接下来,我们分配了gydF4y2Ba和gydF4y2Ba先知先觉的gydF4y2Ba 和假设gydF4y2Ba是独立的gydF4y2Ba。注意,这里的gydF4y2Ba小值,这意味着少量的有影响力的基因。gydF4y2Ba
我们现在完成模型规范:gydF4y2Ba
请注意,gydF4y2Ba如果gydF4y2Bath样本是癌组织,gydF4y2Ba是拦截,gydF4y2Ba回归系数向量,gydF4y2Ba是标准正态累积分布函数,gydF4y2Ba设计矩阵:gydF4y2Ba
和gydF4y2Ba包含二进制gydF4y2Ba,在那里gydF4y2Ba如果gydF4y2Bath基因选择gydF4y2Ba,gydF4y2Ba是一个gydF4y2Ba减少包含回归系数向量gydF4y2Ba如果相应的gydF4y2Ba是1,gydF4y2Ba1的数量吗gydF4y2Ba,gydF4y2Ba是gydF4y2Bath行gydF4y2Ba。gydF4y2Ba
2.3。计算和后推理gydF4y2Ba
前面几节中指定的先验分布的基础上,联合后验分布可以作为派生而来gydF4y2Ba 在哪里gydF4y2Ba 和gydF4y2Ba 非零特征值的吗gydF4y2Ba。从(gydF4y2Ba10gydF4y2Ba),gydF4y2Ba鉴于gydF4y2Ba多元正态分布的协方差矩阵吗gydF4y2Ba。的情况下gydF4y2Ba不是满列秩,收敛的问题可能发生在密度算法因为协方差矩阵不是正定和多元正态分布变得退化。为了避免这个问题,加快计算,我们整合gydF4y2Ba和gydF4y2Ba在(gydF4y2Ba10gydF4y2Ba)后,杨和歌曲的gydF4y2Ba27gydF4y2Ba建议和推导gydF4y2Ba 在哪里gydF4y2Ba。不可用后验分布的显式形式,我们使用密度技术获得后样本的观察。计算抽样方案如下。gydF4y2Ba(1)gydF4y2Ba画gydF4y2Ba从gydF4y2Ba,在那里gydF4y2Ba 的条件分布gydF4y2Ba鉴于gydF4y2Ba是一个多元截断正常。因为它很难直接样品gydF4y2Ba从这个分布,我们画出样本gydF4y2Ba,gydF4y2Ba,从gydF4y2Ba,在那里gydF4y2Ba的向量gydF4y2Ba没有gydF4y2Bath元素(gydF4y2Ba34gydF4y2Ba]。gydF4y2Ba(2)gydF4y2Ba画gydF4y2Ba从gydF4y2Ba,在那里gydF4y2Ba 类似于上面的过程,我们画样本gydF4y2Ba,gydF4y2Ba,从gydF4y2Ba。它可以显示gydF4y2Ba 在哪里gydF4y2Ba 和gydF4y2Ba类似于gydF4y2Ba与gydF4y2Ba取而代之的是gydF4y2Ba和gydF4y2Ba,分别。gydF4y2Ba(3)gydF4y2Ba画gydF4y2Ba从gydF4y2Ba,在那里gydF4y2Ba 上述分布不属于任何标准,所以我们将使用pmmh算法示例gydF4y2Ba。gydF4y2Ba
因此迭代初始值的开始gydF4y2Ba,gydF4y2Ba,gydF4y2Ba,我们的获得过程gydF4y2Ba迭代如下。gydF4y2Ba
步骤1。gydF4y2Ba画gydF4y2Ba从gydF4y2Ba,gydF4y2Ba。gydF4y2Ba
步骤2。gydF4y2Ba为gydF4y2Ba,计算gydF4y2Ba生成一个随机数gydF4y2Ba从gydF4y2Ba,让gydF4y2Ba
步骤3。gydF4y2Ba画gydF4y2Ba从(gydF4y2Ba17gydF4y2Ba通过以下步骤):gydF4y2Ba(我)gydF4y2Ba最大化(gydF4y2Ba17gydF4y2Ba)获得gydF4y2Ba;gydF4y2Ba(2)gydF4y2Ba生成的建议值gydF4y2Ba
在哪里gydF4y2Ba是一个正常的gydF4y2Ba截一个积极的地区(a、b),密度gydF4y2Ba;gydF4y2Ba(3)gydF4y2Ba接受gydF4y2Ba接受概率:gydF4y2Ba
获得最初的老化期后,我们得到样品gydF4y2Ba这下被用来估计后基因包含概率gydF4y2Ba
和后包含概率较高的基因被认为是更相关的分类。gydF4y2Ba
2.4。分类gydF4y2Ba
评估我们的程序的性能,测试数据集。例如,一个测试集gydF4y2Ba是可用的,预测的概率gydF4y2Ba鉴于gydF4y2Ba是gydF4y2Ba
基于密度的样品,我们估计的概率gydF4y2Ba
当没有可用的测试集,我们采用分析交叉验证(LOOCV)方法来评估与训练数据的性能。因为预测概率gydF4y2Ba是gydF4y2Ba 在哪里gydF4y2Ba表示的向量gydF4y2Ba没有gydF4y2Bath元素。我们估计这个概率获得基于生成的样本,gydF4y2Ba
3所示。应用程序gydF4y2Ba
在本节中,我们应用的全贝叶斯方法和参考前三个癌症研究:结肠癌,白血病,和一个大b细胞淋巴瘤(DLBCL)研究[gydF4y2Ba35gydF4y2Ba- - - - - -gydF4y2Ba37gydF4y2Ba]。我们还比较了该方法的性能与其他现有的基因选择和分类方法。这些数据与各种方法都进行了广泛的研究,但我们只包括一组有限的他们。别人可以找到参考列表的引用在这里工作。gydF4y2Ba
3.1。结肠癌的研究gydF4y2Ba
结肠癌研究包含2000的数据表达水平从40肿瘤和22正常结肠组织。这些表达水平是首先以10为底的对数转换函数的函数,然后标准化为零均值和单位方差为每一个基因。然后我们进行了密度采样器修复gydF4y2Ba在gydF4y2Ba在100年和gydF4y2Ba对所有gydF4y2Ba。我们烧了12000年第一个迭代,每30日样本收集,总共获得6700后点进行进一步分析。领先的最大的20个基因和后提出了包含概率表gydF4y2Ba1gydF4y2Ba。这个列表是发现相比其他三个研究[gydF4y2Ba38gydF4y2Ba- - - - - -gydF4y2Ba40gydF4y2Ba)和类似的结果用表格表示gydF4y2Ba1gydF4y2Ba。第一批19个基因中确定至少一个的三项研究。供参考,图gydF4y2Ba1gydF4y2Ba显示100个最大后验概率的100对应的基因。gydF4y2Ba
外部分析分类,我们采用了交叉验证(LOOCV)过程评价与选择的基因分类的性能。程序如下:(i)删除一个样本训练集;(2)排名方面的基因gydF4y2Ba统计使用剩余的样品和保留前50名的基因开始设置为减少计算负担;(3)选择gydF4y2Ba最有影响力的基因从50基因根据我们的贝叶斯方法;并使用这些(iv)gydF4y2Ba基因对之前删除样本进行分类。每个样本的程序重复数据集。有不同的选择gydF4y2Ba就像gydF4y2Ba,gydF4y2Ba,gydF4y2Ba,错误率分别为0.1452、0.1452和0.1129,分别。其他方法的性能,包括支持向量机(gydF4y2Ba41gydF4y2Ba];分类树紧随其后1-Nearest-neighbor和LogitBoost 100次迭代(gydF4y2Ba42gydF4y2Ba];MAVE-LD [gydF4y2Ba43gydF4y2Ba];IRWPLS [gydF4y2Ba44gydF4y2Ba];监督集团套索(SGLasso, (gydF4y2Ba45gydF4y2Ba])和mrm (gydF4y2Ba46gydF4y2Ba];和gydF4y2Ba以及对单个标记概率单位回归总结表gydF4y2Ba2gydF4y2Ba。SVM的错误率最小,但它显然也包括许多基因在这组(1000)。另一个方法mrm +方法+ D1表现更好,比我们提出一个正确的分类,当6到10基因选择过程。gydF4y2Ba
3.2。白血病的研究gydF4y2Ba
接下来,我们认为白血病研究与基因表达水平从72年组织包括47个急性淋巴细胞白血病(ALL)患者和25急性髓系白血病(AML)的主题。这些数据包含38个培训和34个测试样本。训练数据包含27例AML和11例,而测试数据与20例AML和14例。中描述的其他研究[gydF4y2Ba2gydF4y2Ba),阈值和滤波等预处理步骤,然后跟着一个以10为底的对数变换。总共有3571个基因进行分析。接下来,我们标准化的数据样本,我们排名获得这些基因同样的程序。前20名的基因与最大后验概率给出了包含在表gydF4y2Ba3gydF4y2Ba,基因被其他研究[gydF4y2Ba36gydF4y2Ba,gydF4y2Ba41gydF4y2Ba,gydF4y2Ba47gydF4y2Ba,gydF4y2Ba48gydF4y2Ba)也指出。供参考,图gydF4y2Ba2gydF4y2Ba显示100个最大后验概率的100对应的基因。gydF4y2Ba
分类过程,类似于程序结肠癌的研究中,我们选择gydF4y2Ba最有影响力的50基因和基因从一组开始的下一个用于检查测试数据。与gydF4y2Ba、10、14个基因,只有第61和第66观察是不是由我们的过程。我们还比较了结果与加权投票机(gydF4y2Ba36gydF4y2Ba],MAVE-LD [gydF4y2Ba43gydF4y2Ba循证医学),两步(gydF4y2Ba47gydF4y2Ba],KIGP + PK [gydF4y2Ba48gydF4y2Ba),而gydF4y2Ba针对单一标记概率单位回归,以及总结如表gydF4y2Ba4gydF4y2Ba。注意,尽管MAVE-LD和循证医学两步方法表现好于我们建议的过程中,这两种方法都使用更多的基因(50和512年),但实现只有一个更少的错误分类。在这个列表中,我们的程序显然认为是较小的一组基因具有令人满意的性能。gydF4y2Ba
3.3。弥漫型大b细胞淋巴瘤(DLBCL)的研究gydF4y2Ba
本研究收集58样本DLBCL患者和19个样本滤泡淋巴瘤(gydF4y2Ba37gydF4y2Ba]。原始数据集包含了7129个基因。后阈值和滤波等预处理步骤,以10为底的对数转换,共有6285个基因进行分析。接下来,我们标准化的数据样本和排名获得这些基因同样的程序在早些时候描述部分。的错误率gydF4y2Ba、10、14下LOOCV是0.0519,0.0649,和0.0779,和准确性是在0.92和0.95之间,列在表中gydF4y2Ba5gydF4y2Ba。为了实现一个较小的误码率,我们考虑gydF4y2Ba和获得一个小率0.0390,同样的速度通过hyperbox外壳(HBE)方法(gydF4y2Ba49gydF4y2Ba]。类似于前面讨论的两个应用程序,我们的模型可以实现相同的或规模较小的误码率较小的一组基因。gydF4y2Ba
4所示。结论和讨论gydF4y2Ba
在贝叶斯框架中,我们考虑的混合物gydF4y2Ba之前完成一个完全贝叶斯分析基因选择和癌症分类。不同于其他现有的治疗方法gydF4y2Ba作为一个固定值,我们整合的不确定性假设参考inverse-gamma先验分布。早期研究之前提到过,但认为它很难得到后推理。因此,我们概述了计算在这种模式的实现为未来的应用程序设置。这种方法在模型建立的过程中更加灵活。这个模型可以评估如何与后验概率有影响力的一个基因,可以使用变量选择的未来。这种方法是有用的在生物医学解释的选择感兴趣的疾病相关基因。当与其他现有的方法相比,我们提出的过程达到一个更好的或比较少用基因在分类准确率。在结肠癌和白血病的分析研究中,我们复制几个相关基因被其他研究小组。发现积累了证据进行进一步的实验室研究。gydF4y2Ba
在应用部分,我们只列出的结果gydF4y2Ba、10、14个选定的基因。其他的值gydF4y2Ba已经试过,性能仍然很好。例如,粉色线数据gydF4y2Ba3gydF4y2Ba和gydF4y2Ba4gydF4y2Ba显示的准确性提出了过程当选择基因的数量gydF4y2Ba不同5至20在结肠癌和白血病研究中,分别。在结肠癌研究中,发生在0.8871最大的准确性gydF4y2Ba,而其他的值gydF4y2Ba导致精度在0.8387和0.8871之间。这些对应至少52到62个样本中正确辨认出主题。在白血病研究中,发生在0.9706最大的准确性gydF4y2Ba。其他的值gydF4y2Ba所有导致精度大于90%时除外gydF4y2Ba(精度gydF4y2Ba)。此外,我们比较下的结果提出了广义gydF4y2Ba之前与gydF4y2Ba固定在一个常数。数据的彩色线条gydF4y2Ba3gydF4y2Ba和gydF4y2Ba4gydF4y2Ba是为gydF4y2Ba固定在5(红色线),10(蓝色),分别或20(黑)。先验分布的假设下,结果导致更高的精度,更少数量的选择基因。另一个问题是相关的基因数量的选择开始。我们已经考虑50在所有三个应用程序。这个值可以被改变。然而,计算复杂度增加的价值变得更大。这种成本计算为未来的研究仍然是一个研究课题。gydF4y2Ba
比较随机的性能gydF4y2Ba和一个常数gydF4y2Ba外,我们还进行了一个小的模拟研究调查之前分配的影响gydF4y2Ba与修复gydF4y2Ba在不同的常量值。我们用R包penalizedSVM [gydF4y2Ba50gydF4y2Ba,gydF4y2Ba51gydF4y2Ba)来模拟三个数据集;每一个包含500个基因与15个基因与疾病有关。训练和测试样本的数量是200和40,分别。然后我们进行了基因与之前的选择过程gydF4y2Ba,gydF4y2Ba,gydF4y2Ba,gydF4y2Ba在gydF4y2Ba并记录每个设置下的精度。图gydF4y2Ba5gydF4y2Ba情节的平均精度与准确性的粉色线站的混合物gydF4y2Ba先知先觉的gydF4y2Ba的黑线gydF4y2Ba的红线gydF4y2Ba和蓝线gydF4y2Ba。它可以观察到,只有当gydF4y2Ba分配大量像500年,相应的精度可以稍微比之前下的不确定性gydF4y2Ba。这再次支持使用的混合物gydF4y2Ba先知先觉更好的和健壮的结果。gydF4y2Ba
在本文我们重点分析二进制数据。然而,概率单位回归模型可以扩展到多项probit模型来解决多类问题,和贝叶斯推理可以同样进行。这种分析将包括一个更大的计算负载和进一步的研究方向。另一个值得一提的是基因之间的相互作用。进一步的研究可以结合之前的之前gydF4y2Ba(gydF4y2Ba52gydF4y2Ba]或基因基因网络结构(包括信息gydF4y2Ba18gydF4y2Ba)完成的过程变量的选择。gydF4y2Ba
承认gydF4y2Ba
的一部分,这项研究受到了NSC b 100 - 2314 - 002 - 107 - my3。gydF4y2Ba