研究文章|gydF4y2Ba开放获取gydF4y2Ba
胆小鬼美国哈,悦王Inyoung Kim Jianhua宣gydF4y2Ba,gydF4y2Ba ”gydF4y2Ba应用不同的加权方案改善Pathway-Based分析gydF4y2Ba”,gydF4y2Ba国际基因组学杂志gydF4y2Ba,gydF4y2Ba 卷。gydF4y2Ba2011年gydF4y2Ba,gydF4y2Ba 文章的IDgydF4y2Ba463645年gydF4y2Ba,gydF4y2Ba 15gydF4y2Ba 页面gydF4y2Ba,gydF4y2Ba 2011年gydF4y2Ba。gydF4y2Ba https://doi.org/10.1155/2011/463645gydF4y2Ba
应用不同的加权方案改善Pathway-Based分析gydF4y2Ba
文摘gydF4y2Ba
一般来说,pathway-based途径分析假定基因同样有助于生物功能,因此重量分配均匀的基因。然而,这种假设已经被证明是不正确的,并应用统一的重量在通路分析可能不是一个合适的方法像分子疾病分类的任务,作为官能团基因可能有不同的预测能力。因此,我们建议使用不同的权重来基因pathway-based四权重分析和设计方案。我们应用在两个现有通路分析方法使用真实和模拟基因表达数据通路。在所有计划,随机加权方案,生成随机权重并选择最优权重最小化目标函数,执行最好的gydF4y2Ba价值或减少错误率。权重变化途径得分和提出一些新的重要途径,导致疾病相关基因的检测,错过了在统一的重量。gydF4y2Ba
1。介绍gydF4y2Ba
随着微阵列技术在生物医学研究领域gydF4y2Ba1gydF4y2Ba- - - - - -gydF4y2Ba7gydF4y2Ba],许多统计方法[gydF4y2Ba8gydF4y2Ba,gydF4y2Ba9gydF4y2Ba提出了分析微阵列基因表达数据。但大多数是基于单基因和不考虑相互作用关系或官能团的基因之间的依赖关系。在单一的基于基因的分析中,最微妙但协调往往不确定为重大的差异表达基因,通常下降了一个严格的截止阈值特征选择(gydF4y2Ba10gydF4y2Ba,gydF4y2Ba11gydF4y2Ba]。相比之下,pathway-based分析认为血缘关系的一组基因,有助于检测基因表达的细微变化的帮助下共同由基因(gydF4y2Ba3gydF4y2Ba,gydF4y2Ba4gydF4y2Ba,gydF4y2Ba12gydF4y2Ba,gydF4y2Ba13gydF4y2Ba]。许多研究人员讨论pathway-based分析的优点。例如,萨勃拉曼尼亚认为是enrichment-based方法使用各种Kolmogorove-Smirnov统计(gydF4y2Ba3gydF4y2Ba];柯蒂斯给计算方法提出了不错的复习pathway-based分析(gydF4y2Ba4gydF4y2Ba];Goeman等人提出了基于广义线性模型(全球测试gydF4y2Ba12gydF4y2Ba];彭日成等人描述了随机与森林有关的通路分析(gydF4y2Ba13gydF4y2Ba];哈里斯等人认为基因分组基于基因本体论(gydF4y2Ba14gydF4y2Ba];Misman等人提供良好的评论的(gydF4y2Ba15gydF4y2Ba]。gydF4y2Ba
生物通路分子在细胞中是一系列的行动导致某种产品或一个细胞的变化。这样一个途径可以触发新分子的组装,如脂肪或蛋白质。路径也可以打开和关闭基因或刺激细胞移动(gydF4y2Ba16gydF4y2Ba]。生物学途径帮助研究人员了解很多关于人类疾病,自识别基因,蛋白质和其他分子参与生物途径可以提供线索什么疾病来袭时出错。研究人员可能比较某些生物学途径在一个健康的人同样的途径有疾病的人发现疾病的根源。广泛使用路径允许一个快速概述的表达结果与生物机制,促进理解的基因,蛋白质和代谢物的相互作用在较高的水平。在过去的十年中,研究人员发现许多重要的生物通路通过实验室研究培养细胞和各种生物,它们存储在公共领域的生物通路数据库(gydF4y2Ba16gydF4y2Ba]。生物学途径也策划手动相结合三个内容来源:公共领域数据库,文学,和专家(gydF4y2Ba17gydF4y2Ba]。gydF4y2Ba
通路分析旨在定义生物过程的意义通过识别重要的途径通过统计评估。通路在统计评估是基于活动,coregulation和级联效应的途径基因表达微阵列实验数据的水平。这个分数排名的通路更高更多的基因过表达或underexpressed参照参考状态(gydF4y2Ba18gydF4y2Ba]。排名通路相关的特定生物过程或疾病是有用的,因为它允许研究人员专注于少数途径的进一步研究感兴趣的生物过程或疾病。大多数路径分析工具和方法,然而,假设所有基因的途径也同样导致了生物过程,因此重量分配均匀。但这种假设已经被证明是不正确的gydF4y2Ba19gydF4y2Ba因为一些基因可能更高的发表的一个特定的生物过程,这些基因可能比其他的有更高的预测或分类能力。通路分析的一个问题是质量的途径从生物通路数据库不全面、和生物途径内容变化很大在质量和完整性的工具和数据库(gydF4y2Ba17gydF4y2Ba]。通道数据从公共数据库和开放文献可能包括nonrelevant基因和/或排除相关基因(gydF4y2Ba20.gydF4y2Ba]。例如,在著名的研究者考虑的II型糖尿病通路数据集(gydF4y2Ba21gydF4y2Ba)基因,如CAP1、MAPP2K6 ARF6,和SGK路径中包含ID 36, c17 U133探针,是已知的与人类胰岛素信号(gydF4y2Ba15gydF4y2Ba),而其他基因尚未。人体自燃现象,路径中包含ID 229人类胰岛素信号是相关的,而另一些则没有。gydF4y2Ba
为了解决这一问题的途径质量和不完备的途径分析工具和方法,一些研究者试图最小化misspecifications通过定义签名代表通路基因的行为,和/或精炼途径适应具体情况通过移除一成不变的基因数据集(gydF4y2Ba19gydF4y2Ba,gydF4y2Ba22gydF4y2Ba- - - - - -gydF4y2Ba24gydF4y2Ba]。其他人试图提高基因的功能解释组,包括与组相关的附加信息(gydF4y2Ba24gydF4y2Ba]。加入这样的努力,我们提出应用非均匀加权方案,不同重量适用于基因的基因在pathway-based发表有关生物过程或疾病。直观的想法背后所提出的想法,并非所有的基因被分组在一个特定的生物过程或疾病相关通路具有相同的意义,因此应用重量成正比的基因其发表的某些生物过程或疾病可能产生更精确的结果基于路径分析等疾病的分子分类。gydF4y2Ba
调查的影响,使用基于加权方案途径的分析,我们设计出四种不同的加权方案和纳入现有的路径分析方法,如全球测试(gydF4y2Ba12gydF4y2Ba)和随机森林(gydF4y2Ba13gydF4y2Ba,gydF4y2Ba25gydF4y2Ba- - - - - -gydF4y2Ba27gydF4y2Ba]。我们计划本质上更大的权重应用于多个不同样本之间的差异表达基因组(即。,正常和肿瘤样本),因此这些基因影响分析的最终结果。四个加权方案摘要介绍如下。第一个加权方案是基于两个示例的绝对值gydF4y2Ba统计数据表示,gydF4y2BaabsTgydF4y2Ba。第二个是基于gydF4y2Ba全球测试来检验统计量gydF4y2BaQdiffgydF4y2Ba。第三和第四的是基于计算方法,分配权重随机基因和选择最佳的重量最小化目标函数。第三个方案被称为gydF4y2BaRWVgydF4y2Ba(gydF4y2Ba随机权向量gydF4y2Ba)是分配gydF4y2Ba权重gydF4y2Ba基因,所有样本的基因被分配相同的重量。第四个叫做gydF4y2Ba读写存储器gydF4y2Ba(gydF4y2Ba随机权重矩阵gydF4y2Ba)是分配的权重矩阵的途径gydF4y2Ba,样品的基因被分配不同的权重。gydF4y2Ba
我们进行我们的实验数据集使用II型糖尿病从研究et al。gydF4y2Ba28gydF4y2Ba)和犬类数据集从Enerson et al。gydF4y2Ba29日gydF4y2Ba]。我们还利用模拟数据集获得深入了解权重影响的控制方法。在我们的实验中,我们运用每个权重方案到数据集,选择前20名或33重要途径。我们评估性能的加权方案进行比较gydF4y2Ba值的路径选择使用每个方案与选择使用统一的权重。我们观察到,当应用权重,得分途径的改变,和一些途径最初在低等级提升到更高的等级,因此,帮助改善预测率。根据以前的研究(gydF4y2Ba28gydF4y2Ba,gydF4y2Ba30.gydF4y2Ba- - - - - -gydF4y2Ba34gydF4y2Ba),几个重要途径被我们的加权方案biophysiologically与相关疾病相关。gydF4y2Ba
2。材料和方法gydF4y2Ba
2.1。全球测试和随机森林gydF4y2Ba
我们使用全球测试(gydF4y2Ba12gydF4y2Ba)和随机森林(gydF4y2Ba13gydF4y2Ba,gydF4y2Ba25gydF4y2Ba,gydF4y2Ba26gydF4y2Ba)方法探讨影响pathway-based权重的分析和评估我们的称重方案的性能。首先,我们简要回顾两种方法来解释我们如何把我们提出的加权方案融入这些方法。gydF4y2Ba
2.1.1。全球测试概述gydF4y2Ba
全球测试方法的途径分析方法由Goeman et al。gydF4y2Ba12gydF4y2Ba]。测试对象是否具有相似基因表达谱也有类似的类标签,基于逻辑回归。假设包含基因表达数据gydF4y2Ba样本gydF4y2Ba基因是标准化的。这些gydF4y2Ba子群的基因gydF4y2Ba基因测试。让gydF4y2Ba是一个gydF4y2Ba数据矩阵包含gydF4y2Ba的基因gydF4y2Ba感兴趣的样品,和gydF4y2Ba的临床结果gydF4y2Ba样品(gydF4y2Ba向量)。模型的临床结果gydF4y2Ba取决于基因表达数据gydF4y2Ba,全球测试采用广义线性模型框架由McCullagh [gydF4y2Ba35gydF4y2Ba),表示如下:gydF4y2Ba 在哪里gydF4y2Ba的回归系数是基因gydF4y2Ba,gydF4y2Ba 是一个链接功能(如gydF4y2Ba。gydF4y2Ba分对数函数)gydF4y2Ba,gydF4y2Ba和gydF4y2Ba是一个拦截。测试一个基因表达的临床结果的预测效果相当于测试假说gydF4y2Ba。假设gydF4y2Ba从一些常见的样本与零均值和方差分布gydF4y2Ba,然后一个未知参数gydF4y2Ba决定了回归系数的允许偏差为零。因此,零假设gydF4y2Ba。这个公式gydF4y2Ba是线性预测值,即总效应的协变量gydF4y2BathgydF4y2Ba样本。作为gydF4y2Ba是一个随机向量gydF4y2Ba和gydF4y2Ba广义线性模型是简化gydF4y2Ba。一个测试数据进行测试gydF4y2Ba被定义为gydF4y2Ba 在哪里gydF4y2Ba是一个gydF4y2Ba矩阵和协方差矩阵的随机效应gydF4y2Ba,gydF4y2Ba的期望是gydF4y2Ba下gydF4y2Ba,gydF4y2Ba的协方差矩阵是样本的临床结果。测试数据gydF4y2Ba有更高的价值如果两个矩阵相关的条款。从本质上讲,它测试样本是否具有相似基因表达也有类似的结果。实证检验统计量的分布gydF4y2Ba在虚假设条件下gydF4y2Ba计算所有样本通过随机服用大量的排列(如100000)向量gydF4y2Ba的结果。经验gydF4y2Ba值的频率等gydF4y2Ba的排列gydF4y2Ba至少一样大是真的吗gydF4y2Ba的数量,除以排列。为我们的微阵列数据集的情况下,gydF4y2Ba是疾病样本1或0的正常样本。gydF4y2Ba
我们之所以选择全球测试路径分析方法对我们研究pathway-based加权效应的分析,生成和权重的分配途径的基因是容易的,简单的在全球测试。繁殖所需的非均匀权重矩阵gydF4y2Ba基因表达数据矩阵gydF4y2Ba在全球测试方法不产生任何副作用。gydF4y2Ba
2.2。随机森林的概述gydF4y2Ba
随机森林是一个基于树的方法由Breiman et al . (1984、2001)gydF4y2Ba25gydF4y2Ba- - - - - -gydF4y2Ba27gydF4y2Ba),可用于分类或回归(gydF4y2Ba13gydF4y2Ba]。增加多个分类或回归树方法使用一个确定性算法,每棵树的构造使用不同的引导从原始数据样本。离开大约三分之一的病例的引导(out-of-bag)样本用于测试目的。out-of-bag (OOB)样品不用于建设gydF4y2Ba树但保存作为测试集,最后运行需要gydF4y2Ba样本的类,每次收到的大多数选票gydF4y2Ba是包。倍的比例gydF4y2Ba不等于真正的类gydF4y2Ba平均在所有情况下叫做估计out-of-bag (OOB)错误(gydF4y2Bahttp://stat-www.berkeley.edu/gydF4y2Ba)。彭日成et al。gydF4y2Ba13gydF4y2Ba)第一组提出应用随机森林方法途径分析,我们采用他们的方法来研究加权效应的路径分析。我们的目标是找到最优的重量gydF4y2Ba使用目标函数最小化的OOB错误率我们修改如下:gydF4y2Ba 在哪里gydF4y2Ba是随机森林的原始成本函数计算OOB错误率的一组数据gydF4y2Ba,gydF4y2Ba是一个权重矩阵的组数据gydF4y2Ba。我们的目标是找到权重矩阵gydF4y2Ba最小化估计每个通路OOB分类错误。gydF4y2Ba
2.3。提出了加权方案gydF4y2Ba
我们考虑四个重量不均匀的计划,打算为每个基因生成重途径,根据其程度的不同表型之间的微分表达式。在本节中,我们描述每个权重计划背后的基本原理,生成和非均匀权重的赋值为基因通路。gydF4y2Ba
2.3.1。gydF4y2BaabsTgydF4y2Ba基于两个示例gydF4y2Ba以及统计数据gydF4y2Ba
这两个示例gydF4y2Ba以及统计数据是广泛用于确定两个数量是相等的gydF4y2Ba35gydF4y2Ba]。衡量之间的基因表达差异(即两个不同的组。正常和疾病),我们计算出两个示例gydF4y2Ba以及统计的基因,并表示它的绝对值gydF4y2Ba。的gydF4y2BaabsTgydF4y2Ba方案确定的重量每个基因通路使用gydF4y2Ba每个基因值除以的总和gydF4y2Ba值的基因通路。数学上的重量gydF4y2Ba基因gydF4y2Ba用以下公式表示:gydF4y2Ba 有了这个计划,大多数会有最大的差异表达基因gydF4y2Ba价值和获得最大的重量。基本原理是基于假设更多的差异表达基因有更高的相关性疾病或感兴趣的表型。gydF4y2Ba
2.3.2。gydF4y2BaQdiffgydF4y2Ba基于测试数据gydF4y2Ba全球测试gydF4y2Ba
测试数据gydF4y2Ba全球测试是一种测试找到和样品相似的基因表达是否也有类似的结果。如果两个样本之间的协方差结构基因表达式组类似于协方差结构的结果gydF4y2Ba统计学是大。被提议的gydF4y2BaQdiffgydF4y2Ba加权方案使用gydF4y2Ba数据通路的通路中的基因构造权重。这个想法是基于我们的假设,如果排除一个基因从一个通路的结果在一个大的区别在原始检验统计量gydF4y2Ba,排除基因可能有强烈的相关性疾病或表型相关。确定的重量gydF4y2Ba基因通路包含gydF4y2Ba基因,该方案使用下列公式:gydF4y2Ba 在这里,gydF4y2Ba检验统计量的途径包括所有gydF4y2Ba基因,gydF4y2Ba的检验统计量是相同的途径但不包括gydF4y2Ba基因。的重量gydF4y2Ba基因是由这两个测试数据的差异gydF4y2Ba和gydF4y2Ba,除以这些差异的总和计算gydF4y2Ba基因的途径。gydF4y2Ba
2.3.3。gydF4y2BaRWVgydF4y2Ba基于随机权重向量的计算方法gydF4y2Ba
计算gydF4y2BaRWVgydF4y2Ba(gydF4y2Ba随机权向量gydF4y2Ba)计划分配gydF4y2Ba随机权重gydF4y2Ba基因通路和确定最优gydF4y2Ba权重向量最小化gydF4y2Ba价值的途径。它使用下面的伪代码算法获得最优gydF4y2Ba每个路径权重向量。gydF4y2Ba
步骤1。gydF4y2Ba运行全球测试的原始基因表达途径和获得gydF4y2Ba价值的途径。初始化这个gydF4y2Ba值为gydF4y2BaminPgydF4y2Ba和统一的权向量gydF4y2BaoptW。gydF4y2Ba
步骤2。gydF4y2Ba为gydF4y2Ba:计数。gydF4y2Ba
子步骤1。gydF4y2Ba生成一组gydF4y2Ba随机值在预定义的范围(例如,gydF4y2Ba)。gydF4y2Ba
子步骤2。gydF4y2Ba选择gydF4y2Ba随机设置的值gydF4y2Ba随机值构造子步gydF4y2Ba1gydF4y2Ba,允许更换。gydF4y2Ba
子步骤3。gydF4y2Ba把每个基因表达gydF4y2Ba与相应的重量gydF4y2Ba。这个过程构造加权基因表达矩阵gydF4y2Ba的途径gydF4y2Ba
子步骤4。gydF4y2Ba全球测试运行加权基因表达矩阵gydF4y2Ba和获取的途径gydF4y2Ba价值。gydF4y2Ba
子步骤5。gydF4y2Ba如果gydF4y2Ba基因表达值的加权矩阵gydF4y2Ba获得的子步骤gydF4y2Ba4gydF4y2Ba小于当前最小值gydF4y2Ba,gydF4y2Ba更新最小gydF4y2Ba用这个gydF4y2Ba值和更新最优权向量gydF4y2BaoptWgydF4y2Ba与新gydF4y2Ba建于分步gydF4y2Ba2gydF4y2Ba。gydF4y2Ba
结束(循环)gydF4y2Ba
当然,更多的迭代提高解决方案的质量,但代价更高的计算时间。我们也应该注意,这个权重方案分配每个基因在所有样本的重量gydF4y2BaabsTgydF4y2Ba和gydF4y2BaQdiffgydF4y2Ba计划做的事情。gydF4y2Ba
2.3.4。gydF4y2Ba读写存储器gydF4y2Ba基于随机权重矩阵的计算方法gydF4y2Ba
与三个计划分配相同的重量在所有样本基因,gydF4y2Ba读写存储器gydF4y2Ba(gydF4y2Ba随机权重矩阵gydF4y2Ba)计划向所有样本基因分配不同的权重。从本质上讲,gydF4y2Ba读写存储器gydF4y2Ba计划使用相同的算法gydF4y2BaRWVgydF4y2Ba除了生成方案gydF4y2Ba随机值,而不是gydF4y2Ba随机值,gydF4y2Ba样品的途径gydF4y2Ba基因。的gydF4y2Ba随机值在预定义的范围增加gydF4y2Ba基因表达数据。在所有组随机权重应用,方案选择一个最佳的权重集最小化gydF4y2Ba价值在全球测试或OOB错误率随机森林的途径。加权基因表达矩阵gydF4y2Ba通路的表达如下矩阵:gydF4y2Ba 很明显,gydF4y2Ba读写存储器gydF4y2Ba计划可以在最小化找到更好的解决方案gydF4y2Ba价值或OOB错误比gydF4y2BaRWVgydF4y2Ba计划,但计算更加复杂。gydF4y2Ba
2.4。数据集gydF4y2Ba
真实数据集gydF4y2Ba
第一个真正的数据集用于我们的研究是著名的II型糖尿病微阵列基因表达数据集从研究et al。gydF4y2Ba28gydF4y2Ba],278通道组成的13842个基因,抽样从26 II型糖尿病患者和17。的途径获得KEGG通路数据库(gydF4y2Bahttp://www.genome.jp/kegg/pathway.htmlgydF4y2Ba),和牧师通路是由已知的生物实验由研究et al。我们使用另一个真实的数据集是犬类数据集获得Enerson et al。gydF4y2Ba29日gydF4y2Ba),包括441 6592个基因通路,从12狗病变和17采样。犬类数据集生成调查毒理学研究旨在确定药物引起的血管损伤的分子发病机制在狗冠状动脉,与腺苷受体激动剂治疗ci - 947。犬类映射到人类直接同源基因,人类对狗的直接同源匹配生成的基因序列gydF4y2BaBLASTxgydF4y2Ba(gydF4y2Ba13gydF4y2Ba,gydF4y2Ba29日gydF4y2Ba]。请注意,并不是所有的基因通路有相同的重大发表相关的疾病。相关的一些基因通路可能是更重要的是减少疾病和某些基因或不是。通路ID II型通路中的36个数据集,例如,包含几个基因,如CAP1 MAPP2K6, ARF6, SGK,这是已知的与人类胰岛素信号,同时包含其他基因,其发表的II型糖尿病还不知道(gydF4y2Ba21gydF4y2Ba]。gydF4y2Ba
模拟数据集gydF4y2Ba
研究加权效应进行更多的控制,我们创建了两个模拟数据集使用模拟器中的可用功能提高R包,它允许一个模拟数据保留相同的均值和相关原始路径的数据结构(gydF4y2Ba13gydF4y2Ba,gydF4y2Ba36gydF4y2Ba]。作为我们的模拟的基础,我们选择了两个真正的通路包含20多个基因和产生高gydF4y2Ba全球测试或高价值OOB错误率在随机森林统一的重量,更清楚地显化权重的效果。途径之一就是“MAP00480_Glutathione_metabolism ID 164 II型糖尿病数据集,包含26个基因,排名第277位gydF4y2Ba在全球测试值0.95。另一个途径是“Eicosenoid新陈代谢,”ID 441的犬类数据集,包含21个基因,排名在第421 out-of-bag (OOB)错误率0.48%随机森林。对于这两种情况下,我们使用多元正态分布来创建模拟通路数据样本量,50岁,到100年,与正常和疾病组分配与偶数的样本。gydF4y2Ba
3所示。结果与讨论gydF4y2Ba
我们应用提出了加权方案中的每个数据集全球测试和排名的途径增加的顺序gydF4y2Ba从全球测试获得的值。有序列表的每个输出通道设置,我们选择排名前20的途径为我们的分析。在随机森林的情况下,我们只应用gydF4y2Ba读写存储器gydF4y2Ba提出方案,因为其他三个方案应用相同的重量在所有样本的基因,这不会改变out-of-bag误差计算的结果的基因的随机森林算法。随机森林应用程序的结果,我们选择最高33途径而不是20岁的OOB错误率递增的顺序,包括在一些排名在20多个通路相关。排名在通路分析途径是很重要的,因为它允许研究人员专注于少量的通路,估计是统计上显著的关系感兴趣的疾病或表型。在本文中,我们专注于前20名或33为每个权重选择的路径组方案对该方案的性能分析和比较它们的性能统一的重量。gydF4y2Ba
的贪婪搜索最优权重的应用程序gydF4y2BaRWVgydF4y2Ba和gydF4y2Ba读写存储器gydF4y2Ba方案中,我们使用25000次迭代,因为我们实验二型糖尿病数据集在全球测试显示没有有意义的减少gydF4y2Ba值,迭代的20000或更高。平均gydF4y2Ba值的II型糖尿病途径对应不同数量的迭代运行gydF4y2Ba读写存储器gydF4y2Ba计划在全球测试显示在图gydF4y2Ba1gydF4y2Ba。gydF4y2Ba
帮助读者刷新我们的记忆四提出加权方案之前我们讨论的应用效果在下面几节中,我们提供了一个简短的总结在表的四个方案gydF4y2Ba1gydF4y2Ba。gydF4y2Ba
|
||||||||||||||||||||||||
3.1。全球测试应用程序的结果gydF4y2Ba
3.1.1。减少gydF4y2Ba值gydF4y2Ba
II型糖尿病数据集gydF4y2Ba
路径识别号码(PID) II型糖尿病的途径在所有前20组显示在表中gydF4y2Ba2gydF4y2Ba。而平均gydF4y2Ba价值的20个路径下统一的重量是0.0612,提出加权方案下小得多。的gydF4y2Ba值降低,gydF4y2Ba读写存储器gydF4y2Ba表现最佳(平均水平gydF4y2Ba价值of.0001),紧随其后gydF4y2BaabsTgydF4y2Ba(.0007),gydF4y2BaQdiffgydF4y2Ba(.0027),gydF4y2BaRWVgydF4y2Ba(.0044)。不等数量的减少。0611年gydF4y2Ba读写存储器gydF4y2Ba出现。0568为gydF4y2BaRWVgydF4y2Ba。作为另一个度量来检查我们的加权方案的影响,我们统计的总数通路gydF4y2Ba值小于0.05。在所有278年数据通路,gydF4y2Ba读写存储器gydF4y2Ba产量最大的数(= 264)的途径gydF4y2Ba值小于。05年,紧随其后的是gydF4y2BaabsTgydF4y2Ba(142),gydF4y2BaQdiffgydF4y2Ba(74),gydF4y2BaRWVgydF4y2Ba(66),(8)和统一的重量。这些结果表明,我们的方案有效地降低了gydF4y2Ba值的途径比统一的重量。的统计数据gydF4y2Ba值分布对于所有的20通道组的框图如图所示gydF4y2Ba2gydF4y2Ba。的gydF4y2Ba值,gydF4y2Ba读写存储器gydF4y2Ba之后是最好的gydF4y2BaabsTgydF4y2Ba,和统一的重量是最坏的打算。的分散gydF4y2Ba值统一的重量与数量最多最广泛的在所有的异常值。gydF4y2Ba
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
犬类数据集gydF4y2Ba
根据路径分析由庞et al .,犬类数据集有一个相对大量的差异表达基因(gydF4y2Ba13gydF4y2Ba]。我们感兴趣的性能提出了这样一个数据集加权方案。20通道组权重方案显示在表gydF4y2Ba3gydF4y2Ba。平均gydF4y2Ba20通路的价值统一的重量。00015,but it is also smaller for our weighting schemes. In terms of the值降低,表现最好的方案gydF4y2Ba读写存储器gydF4y2Ba(平均gydF4y2Ba价值of.00001),紧随其后gydF4y2BaabsTgydF4y2Ba(.00002),gydF4y2BaRWVgydF4y2Ba(.00002),gydF4y2BaQdiffgydF4y2Ba(.00012)。减少数量不等。00014年gydF4y2Ba读写存储器gydF4y2Ba为0.00003gydF4y2BaQdiffgydF4y2Ba。II型糖尿病路径结果相比,减少数量的犬类路径是较小的。这样的结果并不意外,因为犬类数据集是已知有更多的差异表达基因,可能离开较小的提升空间。在所有441年数据通路,gydF4y2Ba读写存储器gydF4y2Ba最大的号码(= 431)的途径gydF4y2Ba值小于。05年,紧随其后的是gydF4y2BaabsTgydF4y2Ba(405),gydF4y2BaRWVgydF4y2Ba(388),统一的重量(204),和gydF4y2BaQdiffgydF4y2Ba(170)。我们的加权方案除了gydF4y2BaQdiffgydF4y2Ba双通道的数量gydF4y2Ba值than.05少。它是相当有趣的gydF4y2BaQdiffgydF4y2Ba提高了gydF4y2Ba值的20个通路在统一的体重但总路径的数量减少gydF4y2Ba值than.05少。的gydF4y2Ba值为所有20通道组箱形图,如图所示gydF4y2Ba3gydF4y2Ba。而言,gydF4y2Ba值,gydF4y2Ba读写存储器gydF4y2Ba和gydF4y2BaRWVgydF4y2Ba最好是紧随其后的是gydF4y2BaabsTgydF4y2Ba和统一的重量和gydF4y2BaQdiffgydF4y2Ba是最糟糕的。的gydF4y2Ba值gydF4y2Ba读写存储器gydF4y2Ba和gydF4y2BaRWVgydF4y2Ba是相似的,但gydF4y2Ba读写存储器gydF4y2Ba更好的离群值。gydF4y2Ba
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
模拟数据集gydF4y2Ba
在我们的观察,gydF4y2Ba读写存储器gydF4y2Ba表现最佳的gydF4y2Ba值降低,我们应用gydF4y2Ba读写存储器gydF4y2Ba模拟数据研究方案gydF4y2Ba值减少更多的控制环境。的gydF4y2Ba值的所有数据在统一的重量和模拟的途径gydF4y2Ba读写存储器gydF4y2Ba方案给出了表gydF4y2Ba4gydF4y2Ba。在仿真案例1,gydF4y2Ba值模拟通路的26个基因30,50和100年were.2246样品,。2155年,。2573年,respectively, under uniform weight (in Table4gydF4y2Ba(一)),但降低了to.0014,。0007年,。0002,respectively, under读写存储器gydF4y2Ba方案(表gydF4y2Ba4gydF4y2Ba(b))。在模拟的情况下2,gydF4y2Ba值模拟的途径与21个基因的30到50个样本。0289年,。0004下uniform weight, but.0002 and.0001, respectively under读写存储器gydF4y2Ba计划。然而,100年样本数据,gydF4y2Ba价值是零在统一的重量,并没有进一步改善gydF4y2Ba读写存储器gydF4y2Ba。gydF4y2Ba
| (一)gydF4y2Ba模拟案例1。gydF4y2Ba | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| (b)gydF4y2Ba模拟案例2。gydF4y2Ba | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.1.2。排名的变化和新的重要途径gydF4y2Ba
我们的加权方案减少gydF4y2Ba值在每个数据集,因此大多数通路的改变的途径由统一的重量。如此,一些通道在低等级统一重量提高排名和可能引起研究人员的注意。我们在以下描述一些这种情况下。gydF4y2Ba
II型糖尿病数据集gydF4y2Ba
我们观察到五个途径途径识别号码(pid) 13日,43岁,51岁,66年和109年gydF4y2BaabsTgydF4y2Ba最初计划是排名在第107或低于下统一的重量。有趣的是,据报道,这些途径在某些方面与II型糖尿病相关的论文(gydF4y2Ba37gydF4y2Ba,gydF4y2Ba38gydF4y2Ba]。名称、地位与gydF4y2Ba值的制服,下通道gydF4y2BaabsTgydF4y2Ba方案给出了表gydF4y2Ba5gydF4y2Ba。排名如此之低的途径可能是被研究者忽略下统一的重量,而他们会与我们的加权方案引起研究人员的注意。gydF4y2Ba
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
犬类数据集gydF4y2Ba
六个犬通路pid为133,154,156,320,375,420gydF4y2BaabsTgydF4y2Ba最初计划是排名在第258或低于下统一的重量。这些新发现的重要途径的协会癌症相关疾病也报告数篇论文(gydF4y2Ba39gydF4y2Ba,gydF4y2Ba40gydF4y2Ba,gydF4y2Ba40gydF4y2Ba]。名称、地位与gydF4y2Ba值的途径gydF4y2BaabsTgydF4y2Ba方案比较统一在桌子底下gydF4y2Ba6gydF4y2Ba。我们观察到类似的影响途径排名由我们其他权重方案。他们不是报道来节省空间,但在第一作者的技术报告。gydF4y2Ba
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.1.3。重叠的途径gydF4y2Ba
而新发现的重要途径下会吸引研究者的新鲜的注意,路径确定为重大反复下多个加权方案可能值得额外的研究人员的关注。我们观察到几个途径高举排名不同加权方案,及其生物协会相关疾病进行了大量的报道。我们表示这些重叠的途径出现在三个或更多权重方案大胆的在表中gydF4y2Ba2gydF4y2Ba和gydF4y2Ba3gydF4y2Ba。我们详细讨论他们在接下来的两个数据集。gydF4y2Ba
II型糖尿病数据集gydF4y2Ba
前20名团体间的重叠路径包括丙氨酸和天冬氨酸代谢(PID = 4),谷氨酸代谢(PID = 92), MAP00252丙氨酸和天冬氨酸代谢(PID = 140), MAP00430牛磺酸和hypotaurine新陈代谢(PID = 158),氧化磷酸化(PID = 228),提出了大胆的脸在表gydF4y2Ba2gydF4y2Ba。其中,氧化磷酸化(PID = 228)和谷氨酸代谢(PID = 92)是众所周知的II型糖尿病通路(gydF4y2Ba28gydF4y2Ba,gydF4y2Ba31日gydF4y2Ba]。丙氨酸和天冬氨酸代谢(PID = 4),谷氨酸代谢(PID = 92), MAP00430_Taurine_and_hypotaurine_metabolism (PID = 158), MAP00252_Alanine_and_aspartate_新陈代谢(PID = 140),丙氨酸和天冬氨酸代谢(PID = 4)据说也正与II型糖尿病在某些方面的一些研究人员(gydF4y2Ba31日gydF4y2Ba,gydF4y2Ba41gydF4y2Ba,gydF4y2Ba42gydF4y2Ba]。有趣的是注意到通路的pid 4和140保留高排名(4日以上)在三个不同的方案。gydF4y2Ba
犬类数据集gydF4y2Ba
雄激素和雌激素代谢(PID = 17),色氨酸代谢(PID = 39),多步的转录调控Pitx (PID = 117), RNA聚合酶III转录(PID = 151),线粒体肉碱palmitoyltransferase系统(PID = 217)、和ρ细胞运动性信号通路(PID = 391)在不同的加权方案重叠。其中,色氨酸代谢(PID = 39)和线粒体碱palmitoyltransferase系统(PID = 217) 8gydF4y2BathgydF4y2Ba或更高的排名,和生物意义的两个通路病变和癌变组织被许多研究人员讨论(gydF4y2Ba32gydF4y2Ba- - - - - -gydF4y2Ba34gydF4y2Ba,gydF4y2Ba43gydF4y2Ba- - - - - -gydF4y2Ba46gydF4y2Ba,gydF4y2Ba46gydF4y2Ba]。生物协会的其他重叠路径相关的疾病也在讨论一些报道(gydF4y2Ba47gydF4y2Ba,gydF4y2Ba48gydF4y2Ba,gydF4y2Ba48gydF4y2Ba]。gydF4y2Ba
3.1.4。预测性能gydF4y2Ba
预测利率是我们用来测量的另一个指标权重的演出计划。利用LDA(线性鉴别器分析),SVML(支持向量机与一个线性内核),SVMP(支持向量机与一个多项式内核),和资讯(再邻居)分类方法,我们测量通路中所有基因的预测性能和它的平均路径在这20组和交叉验证分类结果使用LOOCV(分析交叉验证)技术。所有20组预测性能的途径提出了表gydF4y2Ba7gydF4y2Ba和gydF4y2Ba8gydF4y2Ba两个数据集。gydF4y2Ba
|
||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||
表中我们可以看到gydF4y2Ba7gydF4y2Ba和gydF4y2Ba8gydF4y2Ba然而,预测能力的路径选择提出了加权方案(除下gydF4y2Ba读写存储器gydF4y2Ba下)显示那些无关紧要的差别选择统一的重量。这解释了这些分类器我们用于性能测量是基于单基因和不考虑基因依赖的途径。因为我们的加权方案,除了gydF4y2Ba读写存储器gydF4y2Ba所有样本组,应用相同的重量为每个基因,基因的分类能力不变。因此,这些分类器不能用于评估预测的改进的路径选择使用我们的加权方案。注意,不像其他的方案,gydF4y2Ba读写存储器gydF4y2Ba不同重量适用于所有样本的基因,因此分类器测量每个基因的样本权重影响但不是基因的途径。我们只讨论预测能力的提高为20下的路径选择gydF4y2Ba读写存储器gydF4y2Ba计划。gydF4y2Ba
表gydF4y2Ba6gydF4y2Ba显示的预测能力的提高20 II型糖尿病的基因路径选择gydF4y2Ba读写存储器gydF4y2Ba计划。预测率0.5用LDA 20途径统一的体重增加到0.81gydF4y2Ba读写存储器gydF4y2Ba,这是提高24%。由预测改进gydF4y2BaRMWgydF4y2Ba当测量SVML计划18%,由资讯SVMK的23%和21%。至于狗数据集的结果,改进了2%,0%,−1%,和3%的LDA, SVML, SVMP,第八和资讯,分别如表所示。犬类的小改进途径相比,II型通路可能共享相同的原因与小的减少gydF4y2Ba价值观:犬类数据集比较差异表达基因,因此可能会让较小的提升空间。gydF4y2Ba
3.2。随机森林的结果gydF4y2Ba
被提议的gydF4y2BaabsTgydF4y2Ba和gydF4y2BaQdiffgydF4y2Ba加权方案设计纳入随机效应的协方差结构R检验统计量gydF4y2Ba计算全球测试的一组基因。因此,应用这种方案在随机森林方法是不合适的,甚至可怜的实验结果证实了它。gydF4y2BaRWVgydF4y2Ba应用随机森林是不合适的,因为它赋予的所有样品重量相同的基因gydF4y2BaabsTgydF4y2Ba和gydF4y2BaQdiffgydF4y2Ba计划。因此,我们只讨论应用程序的结果gydF4y2Ba读写存储器gydF4y2Ba方案在随机森林方法的情况下,进行比较与统一的重量。我们也比较的gydF4y2Ba读写存储器gydF4y2Ba在全球测试方法的应用效果。gydF4y2Ba
3.2.1之上。减少out-of-Bag OOB错误率gydF4y2Ba
out-of-bag (OOB)错误率的时间百分比是随机森林分类或回归OOB数据是不正确的。获取分类或回归误差的无偏估计的随机森林,OOB数据跑下树,和整体计算错误率时指定数量的树木被添加到森林。我们使用50000棵树来估计分类错误,类似的实验中使用的相同数量由庞等人使用随机森林的途径分析方法(gydF4y2Ba13gydF4y2Ba,gydF4y2Ba25gydF4y2Ba- - - - - -gydF4y2Ba27gydF4y2Ba]。gydF4y2Ba
II型糖尿病数据集gydF4y2Ba
表gydF4y2Ba9gydF4y2Ba显示了pid的OOB错误率最高33 II型糖尿病随机森林下统一的重量和途径gydF4y2Ba读写存储器gydF4y2Ba计划。虽然OOB错误率在统一的平均体重是35%,只有18%gydF4y2Ba读写存储器gydF4y2Ba计划。OOB错误率降低到几乎一半的应用程序gydF4y2Ba读写存储器gydF4y2Ba方案在随机森林。gydF4y2Ba
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
犬类数据集gydF4y2Ba
制服下的平均错误率8%体重减少到6%以下gydF4y2Ba读写存储器gydF4y2Ba计划,这是只有一半的减少使II型糖尿病数据gydF4y2BaRFMgydF4y2Ba。表gydF4y2Ba10gydF4y2Ba显示了pid的OOB错误率33犬类路径下统一的重量和gydF4y2Ba读写存储器gydF4y2Ba计划。再次,大量的差异表达基因的犬类数据集可能只留下一个小房间权重提高应用程序的结果。gydF4y2Ba
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
模拟数据集gydF4y2Ba
模拟案例1,模拟通路的错误率与26个基因30,50和100个样本是0.27,0.48,和0.30,分别在统一的重量和显著降低到0.13,0.36,和0.22,分别gydF4y2Ba读写存储器gydF4y2Ba计划。在仿真案例2中,错误率的模拟通道21基因30至50的样品是0.50和0.30,分别在统一的重量和减少到0.30和0.20gydF4y2Ba读写存储器,gydF4y2Ba分别。100年的样本大小,出错率是相同的制服,0.24gydF4y2Ba读写存储器gydF4y2Ba计划。模拟通道的OOB错误率和制服gydF4y2Ba读写存储器gydF4y2Ba方案给出了表gydF4y2Ba11gydF4y2Ba。错误的大幅削减利率gydF4y2Ba读写存储器gydF4y2Ba方案在统一的重量在两个仿真情况下支持我们的假设,应用不同的权重的基因通路分析可能提高的质量分析。gydF4y2Ba
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.2.2。排名的变化和新的重要途径gydF4y2Ba
十四II型糖尿病和五犬类路径下每个33组选择gydF4y2Ba读写存储器gydF4y2Ba最初计划是排名在第100或低于下统一的重量。我们列表每5个最重要的是改变了II型糖尿病和犬类路径表gydF4y2Ba12gydF4y2Ba和gydF4y2Ba13gydF4y2Ba分别比较原来的队伍在统一的新排名gydF4y2Ba读写存储器gydF4y2Ba计划gydF4y2Ba
|
|||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3.2.3。重叠的途径gydF4y2Ba
三个途径与pid 1、4和140的II型糖尿病数据集统一的重量和重叠gydF4y2Ba读写存储器gydF4y2Ba计划。九犬通路与pid的17日,39岁,117年,151年,274年,354年,368年、378年和395年为犬类数据集重叠。进一步,几个路径重叠全球测试和随机森林都在应用程序的结果gydF4y2Ba读写存储器gydF4y2Ba计划。四II型糖尿病通路pid为144,176年,197年和245年五犬通路与pid的17日,39岁,40岁,117年和274年是这样的途径。有趣的是,这四个犬类路径下gydF4y2Ba读写存储器gydF4y2Ba全球测试方案之间的重叠和随机森林也统一的重量和重叠gydF4y2Ba读写存储器gydF4y2Ba方案在随机森林。我们相信这样的路径重叠的不同权重方案应用于相同的路径分析方法,和在不同的路径分析方法同样的加权方案,可能更强发表相关的表型。gydF4y2Ba
3.2.4。预测性能gydF4y2Ba
每个33路径组的预测率为每一个真实的数据集给出了表gydF4y2Ba14gydF4y2Ba。根据我们用来测量四个分类器预测利率的选择路径,gydF4y2Ba读写存储器gydF4y2Ba方案改进的预测率II型通路(LDA)从52%到63%,48%到64% (SVML), 49%到54% (SVMP),和52%到59%(资讯)。但对于犬类路径,它恶化预测率。据推测,权重应用于基因良好的预测能力的重要犬通路可能会增加噪音这些基因的表达数据,降低预测能力。gydF4y2Ba
|
||||||||||||||||||||||||||||||||||||||||||||
3.3。生物的支持gydF4y2Ba
做进一步调查的意义提出了加权方案的生物意义,我们搜查了基因的功能注释使用权重选择的途径。我们特别希望生物支持gydF4y2BaabsTgydF4y2Ba计划,因为我们的整体性能分析提出四个方案找到了gydF4y2BaabsTgydF4y2Ba是最有用的和有效的不需要复杂的计算gydF4y2Ba读写存储器gydF4y2Ba计划。大卫使用功能注释工具(gydF4y2Ba49gydF4y2Ba),我们从2150年952个人类基因中提取基因包含20下的路径选择gydF4y2BaabsTgydF4y2Ba计划。大卫工具确定了11个丰富与II型糖尿病相关的基因gydF4y2Ba价值。01(by the gene-disease association search with GENTIC_ASSOCIATION_DB_DISEASE option). We list those eleven genes in Table15gydF4y2Ba。gydF4y2Ba
|
||||||||||||||||||||||||||||||
有趣的是,大卫工具未能识别任何丰富的II型糖尿病的基因在前20名通路选择统一的重量。gydF4y2Ba
4所示。结论gydF4y2Ba
在本文中,我们提出了应用不同的加权方案在pathway-based分析中,基于我们的直觉认为两个不同组之间差异表达的基因样本(正常和肿瘤样本)贡献更重要或疾病相关的生物功能。我们设计了四个加权方案gydF4y2BaabsTgydF4y2Ba,gydF4y2BaQdiffgydF4y2Ba,gydF4y2BaRWVgydF4y2Ba,gydF4y2Ba读写存储器gydF4y2Ba分配不同的权重通路中的基因。前两个方案分配权重根据其相关性基因相关疾病,和后两个方案选择重量最小化gydF4y2Ba值或错误率权重随机分配的所有设置。我们调查了权重影响pathway-based分析使用两个真正的和两个模拟通道的数据集。我们最好的知识,我们是第一个团队权重应用于基因pathway-based分析在开放的文学。gydF4y2Ba
我们做了一些有趣的观察结果通过我们的调查。首先,我们的加权方案有效降低gydF4y2Ba值的途径在全球测试和OOB错误率在所有数据集的随机森林用于我们的实验。第二,我们计划增加通道的数量gydF4y2Ba值小于0.05。gydF4y2Ba读写存储器gydF4y2Ba执行最好的在所有方面提出方案gydF4y2Ba价值和减少OOB错误率,但方案计算昂贵。第三,gydF4y2Ba读写存储器gydF4y2Ba提高了预测利率高排名的途径。第四,所有上面讨论的改善更显著的II型糖尿病比犬类数据集的数据集。这可能是由于这样的事实,有更好的预测能力或多个差异表达基因离开进一步改善的余地更小。除了上面的改进,我们的方案能找到潜在的重要途径是错过了统一的重量。节中描述gydF4y2Ba3gydF4y2Ba通路的排名提高了加权关联到相关疾病根据大量文献中给出的报告。最后,值得注意的是,gydF4y2BaabsTgydF4y2Ba和gydF4y2BaQdiffgydF4y2Ba方案,在理论上,不如gydF4y2Ba读写存储器gydF4y2Ba计划,但计算少得多复杂得多gydF4y2Ba读写存储器gydF4y2Ba。所以,这可能是一个好主意将它们应用在一个,因为他们不能负担庞大的计算能力或计算时间长。gydF4y2Ba
我们有未解决的问题来评估权重的效果的预测性能提出方案。四种预测方法(LDA, SVML SVMP,资讯是基于单基因,不能用来评估我们的计划gydF4y2BaabsTgydF4y2Ba,gydF4y2BaQdiff,gydF4y2Ba和gydF4y2BaRWVgydF4y2Ba。在这些方法的角度,同样的重量分配单个基因的所有样品不做任何改变的分类两个单基因的不同组的样本。即使对于gydF4y2Ba读写存储器gydF4y2Ba计划,他们只可以评估权重影响样本而不是基因,因为他们不能考虑互动关系或在一群基因之间的依赖关系。有必要开发一种新的预测方法,考虑了基因之间的依赖关系更准确评估pathway-based权重影响的分析。这样的预测方法是留给未来的研究发展。gydF4y2Ba
确认gydF4y2Ba
这个研究是由国家卫生研究院的基金支持的部分(NS29525-13A号和EB000830)和国防部/ CDMRP格兰特(BC030280号)。gydF4y2Ba
引用gydF4y2Ba
- p . t .首位,g .夏洛克李奉儒Zhang et al .,“综合识别细胞cycle-regulated酵母酿酒酵母的基因微阵列杂交,”gydF4y2Ba细胞的分子生物学gydF4y2Ba,9卷,不。12日,第3297 - 3273页,1998年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- s . Dudoit黄懿慧杨m . j . Callow和t . p .速度,“统计方法识别差异表达基因复制互补脱氧核糖核酸微阵列实验,”gydF4y2BaStatistica中央研究院gydF4y2Ba,12卷,不。1,第139 - 111页,2002。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- 萨勃拉曼尼亚,p . Tamayo v . k .研究et al .,“基因集富集分析:基于知识的方法解释全基因组表达谱,”gydF4y2Ba美国国家科学院院刊》上的美利坚合众国gydF4y2Ba,卷102,不。43岁,15545 - 15550年,2005页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- r·k·柯蒂斯·m·Orešič,a . Vidal-Puig“微阵列数据的分析路径,”gydF4y2Ba生物技术的发展趋势gydF4y2Ba,23卷,不。8,429 - 435年,2005页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- t·r·Golub d·k·尼姆,p . Tamayo et al .,“发现癌症的分子分类:类和类基因表达监测预测,“gydF4y2Ba科学gydF4y2Ba,卷286,不。5439年,第537 - 531页,1999年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- c . j . Friddle t .甲贺,e·m·鲁宾和j·布里斯托,“表达分析显示不同类型的基因改变在心脏肥大,感应和回归”gydF4y2Ba美国国家科学院院刊》上的美利坚合众国gydF4y2Ba,卷97,不。12日,第6750 - 6745页,2000年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- t . Galitski a . j .沙尔丹哈c . a .风格,e . s .着陆器和g·r·芬克“倍性调节基因表达,”gydF4y2Ba科学gydF4y2Ba,卷285,不。5425年,第254 - 251页,1999年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- t . Hastie r . Tibshirani和j·弗里德曼,gydF4y2Ba统计学习的元素:数据挖掘、推理和PredectiongydF4y2Ba施普林格,纽约,纽约,美国,2001年。gydF4y2Ba
- w·埃文和g·格兰特,gydF4y2Ba统计方法在生物信息学:介绍gydF4y2Ba施普林格,纽约,纽约,美国,第二版,2005年版。gydF4y2Ba
- 施j·m·g·沃克,”基因集富集(GSEA)解释基因表达谱分析,“gydF4y2Ba目前的生物信息学gydF4y2Ba,卷2,不。2、133 - 137年,2007页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- d .南和S.-Y。金,“基因片段的表达模式分析方法”,gydF4y2Ba简报的生物信息学gydF4y2Ba,9卷,不。3、189 - 197年,2008页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- j . j . Goeman s . Van de吉尔f . de Kort和h c . Van Houwellingen”全球团体fo基因测试:测试协会临床结果,“gydF4y2Ba生物信息学gydF4y2Ba,20卷,不。1,第99 - 93页,2004。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- h·庞林a, m·胡佛et al。”途径使用随机森林分类和回归分析”,gydF4y2Ba生物信息学gydF4y2Ba,22卷,不。16,2028 - 2036年,2006页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- m·a·哈里斯,j·克拉克,a .爱尔兰et al .,“基因肿瘤(去)数据库和信息资源,”gydF4y2Ba核酸的研究gydF4y2Ba32卷,D258-D261, 2004页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- m·f·Misman s•德里z s m . Hashim r . Jumali和m . s .穆罕默德,“Pathway-based微阵列分析定义统计显著phenotype-related途径:回顾常用方法,”gydF4y2Ba国际会议信息管理与工程学报》(ICIME ' 09)gydF4y2Ba2009年4月,页496 - 500。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- genome.gov,“冠军的人类基因组研究所”,gydF4y2Bahttp://www.genome.gov/27530687gydF4y2Ba。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- m . e .奥斯塔m . Jaillard a . Waagmeester s . l . m . Coort a·r·皮科和c t . a . Evelo”公路高质量策划的生物通路”,gydF4y2Ba药物发现今天gydF4y2Ba,13卷,不。月19日至20日,第862 - 856页,2008年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- m·p·Kurhekar s Adak s Jhunjhunwala和k . Raghupathy“全基因组途径分析和可视化使用基因表达数据,”gydF4y2Ba太平洋学报》研讨会上生物运算gydF4y2Ba,第473 - 462页,2002年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- s . Draghici p . Khatri A . l . Tarca et al .,“系统生物学通路水平分析方法”,gydF4y2Ba基因组研究gydF4y2Ba,17卷,不。10日,1537 - 1545年,2007页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- e . x Wang Dalkic, m . Wu, c . Chan“基因模块级分析:识别网络和动态”gydF4y2Ba当前生物技术的观点gydF4y2Ba,19卷,不。5,482 - 491年,2008页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- k·d·Dahlquist n . Salomonis k . Vranizan s c Lawlor和b·r·康克林”的新工具GenMAPP生物通路,观察和分析微阵列数据”gydF4y2Ba自然遗传学gydF4y2Ba没有,卷。31日。1月19日至20日,2002页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- e . Panteris美国迅速,a·佩恩,x Liu“矿业通路签名从微阵列数据及相关的生物学知识,”gydF4y2Ba生物医学信息学杂志gydF4y2Ba,40卷,不。6,698 - 706年,2007页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- b·a·诺瓦克和a . n . Jain”途径识别和扩增基因芯片表达数据的计算分析,“gydF4y2Ba生物信息学gydF4y2Ba,22卷,不。2、233 - 241年,2006页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- 即Gat-Viks和r·沙米尔”细化和扩张的信号通路:酵母的渗透反应网络,”gydF4y2Ba基因组研究gydF4y2Ba,17卷,不。3、358 - 367年,2007页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- l . Breiman h·弗里德曼,a . Olshen和j .石头,gydF4y2Ba分类和回归树gydF4y2Ba沃兹沃思国际集团,贝尔蒙特,加州,美国,1984年。gydF4y2Ba
- l . Breiman“随机森林”,gydF4y2Ba机器学习gydF4y2Ba,45卷,不。1,5-32,2001页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- http://stat-www.berkeley.edu/users/breiman/RandomForests/cc_home.htmgydF4y2Ba。gydF4y2Ba
- v . k .研究c·m·林格伦PGC-1 k·f·埃里克森et al。。gydF4y2BaαgydF4y2Ba在氧化磷酸化反应基因的协调表达下调在人类糖尿病,”gydF4y2Ba自然遗传学gydF4y2Ba,34卷,不。3、267 - 273年,2003页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- 林Enerson, a, b, h .赵m·劳顿和e·弗洛伊德“小猎犬狗急性药物引起的血管损伤:病理学和相关基因表达,“gydF4y2Ba毒物学的病理gydF4y2Ba,34卷,不。1,新,2006页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- m . Binazzi和p . Calandra色氨酸代谢和血清脂肪酸在肢皮炎enteropathica,”gydF4y2Ba皮肤档案研究gydF4y2Ba,卷249,不。4、313 - 320年,1974页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- w . Goessling j·m·马萨罗Vasan r s, r . b . D \ ' agostino博士r·c·埃里森和c·s·福克斯”转氨酶水平和20年的代谢综合征的风险,糖尿病,心血管疾病,”gydF4y2Ba胃肠病学gydF4y2Ba,卷135,不。6,1935 - 1944页。e1, 2008年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- f·莫罗尼“色氨酸代谢和大脑功能:关注犬尿氨酸和其他吲哚代谢物,”gydF4y2Ba欧洲药理学杂志gydF4y2Ba,卷375,不。1 - 3、87 - 100年,1999页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- a·k·j·p·鲁迪克表示,埃文斯·d·j·纳特·l·莱特曼g·a·w·车和c·a·洛瑞,“色氨酸代谢在中枢神经系统:医学的影响,“gydF4y2Ba在分子医学专家审查gydF4y2Ba,8卷,不。20日,1-27,2006页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- o .吉田,r·r·布朗和g·t·布莱恩“色氨酸代谢和异位复发之间的关系人类的膀胱肿瘤,”gydF4y2Ba癌症gydF4y2Ba,25卷,不。4、773 - 780年,1970页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- p . McCullagh和j . NeldergydF4y2Ba广义线性模型gydF4y2Ba查普曼和大厅,伦敦,英国,1989年。gydF4y2Ba
- m . Dettling”BagBoosting肿瘤分类与基因表达数据,”gydF4y2Ba生物信息学gydF4y2Ba,20卷,不。18日,第3593 - 3583页,2004年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- 细胞凋亡和p . c .男管家。gydF4y2BaβgydF4y2Ba在1型和2型糖尿病细胞,”gydF4y2Ba激素的研究gydF4y2Ba卷。62年,补充3 p。66年,2004年。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- l·丰塔纳,c . Giagulli p . Minuz a . Lechi和c . Laudanna 8-Iso-PGF诱发gydF4y2BaβgydF4y2Ba-integrin-mediated快速多形核中性粒细胞粘附的人类:氧化应激之间的联系和缺血/再灌注损伤,”gydF4y2Ba动脉硬化、血栓和血管生物学gydF4y2Ba,21卷,不。1,则高达55 - 2001页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- m . Vitale r . Rezzani l . Rodella et al .,“HLA类我抗原和抗原处理相关转运子(TAP1和TAP2)下调中高档原发性乳腺癌病变,“gydF4y2Ba癌症研究gydF4y2Ba,卷。58岁的没有。4、737 - 742年,1998页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- j·g . Nevarez m·a·米切尔·t·摩根,a·罗伊和a·约翰逊”协会的西尼罗河病毒lymphohistiocytic增生性皮肤病变在美国鳄鱼(鳄鱼mississippiensis)通过rt - pcr检测,”gydF4y2Ba动物园和野生动物医学杂志》上gydF4y2Ba,39卷,不。4、562 - 566年,2008页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- d . Gossai和c . a . Lau-Cam牛磺酸的影响,牛磺酸同系物和hypotaurine细胞和膜抗氧化系统变化引起的2型糖尿病大鼠红细胞,”gydF4y2Ba实验医学和生物学的发展gydF4y2Ba卷,643年,第368 - 359页,2009年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- g .馥兰妮·迪鲣鱼大肠Mannucci et al .,“肝酶升高在2型糖尿病患病率及其与代谢综合征”gydF4y2Ba内分泌系统杂志》上的调查gydF4y2Ba没有,卷。31日。2、146 - 152年,2008页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
- l . Benbrahim-Tallaa j . Liu m·m·韦伯和m . p . Waalkes“雌激素信号和干扰在获得androgen-independence雄激素代谢的镉致癌作用在人类前列腺上皮细胞,”gydF4y2Ba前列腺癌gydF4y2Ba,卷67,不。2、135 - 145年,2007页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- g .使用s Camier·卡卢奇l . Burderi和r . Negri”RNA聚合酶III转录复合物在体内染色体5 s rRNA基因:TFIIIB入住率和启动子开口,“gydF4y2Ba分子和细胞生物学gydF4y2Ba,21卷,不。9日,第3178 - 3166页,2001年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- z s . y . j ., s . z . Li赵et al .,“肉碱palmitoyltransferase-1 (CPT-1)活动刺激通过交感神经系统的激活覆盖浅蓝浅蓝的外围影响,”gydF4y2Ba内分泌学gydF4y2Ba,卷145,不。7,3197 - 3204年,2004页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- c . Mascaro e·阿科斯塔j·a·奥尔蒂斯·f·马雷罗f . g . Hegardt d·哈罗德,“控制人类muscle-type碱palmitoyltransferase我基因转录的过氧物酶体proliferator-activated受体”gydF4y2Ba生物化学杂志gydF4y2Ba,卷273,不。15日,第8563 - 8560页,1998年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- n·l·戴利,d . a . Arvanitis j . a . Fairley et al .,“放松管制宫颈上皮细胞的RNA聚合酶III转录反应高危人乳头瘤病毒,”gydF4y2Ba致癌基因gydF4y2Ba,24卷,不。5,880 - 888年,2005页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- d .山崎、美国Kurisu和t . Takenawa”Rac和ρ信号参与癌症细胞运动性3 d substratesRac调节癌细胞在3 d ecm能动性,“gydF4y2Ba致癌基因gydF4y2Ba,28卷,不。13日,1570 - 1583年,2009页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
- “大卫功能注释工具”,gydF4y2Bahttp://david.abcc.ncifcrf.gov/summary.jspgydF4y2Ba。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
版权gydF4y2Ba
版权©2011胆小鬼s公顷et al。这是一个开放的分布式下文章gydF4y2Ba知识共享归属许可gydF4y2Ba,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。gydF4y2Ba