位置权重矩阵、吉布斯采样器和相关的测试主题意义表征和预测

文摘

位置权重矩阵(PWM)不仅是一个最广泛使用的生物信息学方法,但也更先进的计算算法的一个关键组件(例如,吉布斯采样器)的描述和发现图案核苷酸或氨基酸序列。然而,一些普遍适用的统计测试可用于评估网站的意义模式,脉宽调制、脉宽调制(PWM)得分假定的图案。PWM输出的统计显著性测试,即定位频率PWM本身,和PWM,不同来源的,从未被收集在一个纸,结果,许多PWM的实现不包括任何显著性检验。我回顾PWM-based方法用于主题描述和预测(包括吉布斯采样器的详细说明新创主题发现),目前的统计和概率统计学意义背后的基本原理测试相关的脉宽调制,并举例说明其应用与实际数据。多重比较的问题与特定站点的测试频率最好是由错误发现率的方法。PWM的考验,由于pseudocounts的使用,最好是通过重采样方法。个别pwm每个序列段的测试应该基于极值分布。

1。介绍

大多数基因开关序列图案的形式相互作用蛋白(1]。位置权重矩阵或脉宽调制(2- - - - - -6)是一个关键的生物信息学工具广泛用于描述和预测主题核苷酸和氨基酸序列。PWM的普及进一步增加实现作为一个组件在PSI-BLAST以来7],它经常被用于生成PWM主题表征和预测(8- - - - - -11]。

PWM已经广泛应用在基因组中的基因工程的研究元素如翻译起始位点(12],转录起始站点[13),转录因子结合位点(14- - - - - -22),酵母基因内区拼接网站(23),全基因组转录单位的识别(24],全基因组筛查的转录调控元件(25,26]。PWM分数(PWMSs)对个人图案被发现是有用的作为一个衡量的图案的力量,例如,PWM个人拼接网站被用作代理拼接效率在真核生物27,28]。

PWM已经不仅是一个独立的工具用于总结和预测序列,而且作为一个关键的组件在更高级的生物信息学算法如variable-order贝叶斯网络(29日),吉布斯采样器(30.- - - - - -32,页113 - 147)和相关算法基于蒙特卡罗方法(33],MEME [34),和支持向量机(35- - - - - -39]。尽管PWM主要是用来描述和预测主题在核苷酸序列,最近的研究已经证明了其潜在的描述和预测功能的蛋白质主题(40- - - - - -42),信号肽(43),和protein-protein-binding网站(44]。特别是,该方法成功地预测了酪氨酸硫酸盐化作用网站(45- - - - - -48]。

PWM-based序列分析包括三种类型的输出:站点特定的频率分布,PWM本身,和PWM输入序列(和可选扫描新序列训练产生的PWM脉宽调制)。这里我简要回顾PWM方法的上下文中主题发现,紧随其后的是一个详细的说明PWM的吉布斯采样器是一个关键的组件,然后提出统计显著性测试适合每个三种类型的PWM输出。

2。PWM的上下文中主题发现方法

最简单的输入PWM-based方法由一组一致的序列和背景的规范(前)的频率。的主要输出PWM,除了PWM本身,包括定位信息内容和主题信息内容(6)为个人图案以及pwm,连同相关的统计测试。

我们首先说明了PWM方法运用到246捐赠者拼接网站的酵母基因内区由5核苷酸网站外显子一边和12核苷酸基因内区一侧(表的网站1)。左边的四列的表1由A、C、G和U的核苷酸位点数量,C、G,和美国当所有特定站点数量大于零,PWM,每个元素指定(和4对应A、C、G和U,分别网站索引),计算在哪里核苷酸的背景频率吗,核苷酸位点核苷酸频率吗在网站(例如,在表1)。策划这些特定站点值图形在网站收益率序列标识(49,50]。的脉宽调制(PWM)得分计算一个特定的主题在哪里是主题的长度等于17对于我们的示例见表1。


网站	一个	C	G	U	χ²	P	一个	C	G	U

1	83年	30.	49	84年	10.10	0.0177	0.0525	−0.6332	−0.0260	0.3143
2	103年	44	46	53	10.04	0.0182	0.3613	−0.0878	−0.1162	−0.3434
3	121年	36	38	51	30.01	0.0000	0.5920	−0.3739	−0.3886	−0.3981
4	122年	38	33	53	32.16	0.0000	0.6038	−0.2969	−0.5893	−0.3434
5	81年	40	81年	44	28.33	0.0000	0.0177	−0.2238	0.6933	−0.6081
6	0	1	245年	0	948.34	0.0000	−6.6464	−5.0056	2.2841	−6.6469
7	0	9	0	237年	582.23	0.0000	−6.6464	−2.3190	−6.6480	1.8032
8	239年	1	2	4	462.46	0.0000	1.5693	−5.0056	−4.3320	−3.8633
9	16	24	1	205年	387.81	0.0000	−2.2655	−0.9496	−5.0680	1.5946
10	2	0	243年	1	928.96	0.0000	−4.8476	−6.6483	2.2723	−5.3416
11	9	7	2	228年	521.06	0.0000	−3.0427	−2.6612	−4.3320	1.7475
12	87年	15	34	110年	53.66	0.0000	0.1198	−1.6111	−0.5468	0.7006
13	84年	49	30.	83年	11.71	0.0085	0.0696	0.0659	−0.7246	0.2971
14	111年	39	33	63年	19.09	0.0003	0.4684	−0.2599	−0.5893	−0.0969
15	106年	38	31日	71年	17.24	0.0006	0.4024	−0.2969	−0.6781	0.0738
16	92年	30.	40	84年	13.69	0.0034	0.1997	−0.6332	−0.3155	0.3143
17	80年	38	36	92年	14.32	0.0025	−0.0001	−0.2969	−0.4655	0.4445

请注意,pwm的对数似然比,或log-odds。给定一个17 mer,说,= ACGGTACCACGTAAGTT,我们有两个假设。第一个假设是,17 mer属于一个主题,限制在特定的网站(有特定的核苷酸),第二个是,每个站点17 mer取样于核苷酸池中没有特定场地的约束()。观察序列的可能,考虑到两种不同的假说,指定,分别

这将导致以下相同(2):

2.1。规范的背景频率

背景频率()中指定的三种不同的方式在以前的出版物。首先就是要承担平等的背景频率(51,52在描述与PWM接头地点。这相当于网站的经典序列标识图形显示方法模式(49不考虑背景频率。与偏见的核苷酸序列频率,平等值时将生成一个错误的网站模式实际上是没有模式。例如,酵母的基因组有偏的背景暗示和将大于和即使平均序列不包含特定站点的信息。同样,经典的序列图标将显示和T明显高于C和G即使感兴趣的序列不包含特定站点的信息。

第二种方法来指定是计算从输入序列。因此,在我们的例子中,可以计算从为首的四列,C、G,和U左边的表吗1。这种方法也有问题。假设一个特定的主题是poly-U序列,所有输入序列是“UUUUUUUU”。这将生成背景核苷酸频率和。注意,站点特定的频率,考虑到输入序列都是“UUUUUUUU”,和。所以产生的PWM将表明,主题不是有益的,这是与我们的直觉相反,也就是说,一段UUUUUUUU守恒跨一组序列可能是生理上的信息保持一致。

第三种方法是指定根据一个希望解决的具体问题。例如,当描述拼接的内含子在一个特定的物种,一个可以使用的核苷酸频率记录(包括所有外显子和内含子)基因组中注释为背景的频率(28]。同样,网站的分歧点在内含子序列模式的研究值计算的内含子序列。我建议只有这第三种方法被用来避免PWM的印象可以无限的零假设(每个不同的规范)。

电脑程序DAMBE [53,54)为指定提供了不同的选择在计算PWM。同样,新的序列标识方法允许更适当的规范的背景(前)频率50]。246年捐赠拼接产生的PWM的酵母基因内区,与背景频率计算内含子,如表所示1。

2.2。规范的Pseudocounts

当一些值是零,在我们的示例中,一样(1)是不适用的,因为零的对数是未定义的。可以采用三种方法来避免这个问题(55,56]。首先是计算通过这方法随着(核苷酸或氨基酸特定站点数吗在网站)。值可以计算(1)。这种方法是可怜的时候很小。

第二种方法是使用显式pseudocounts通过定义在哪里核苷酸的频率,然后

是很重要的小(如0.0001),因为预期从随机序列是0 (1)。一个大的将大大增加以上0与随机序列。

上面的两种方法都有一个主要缺点。假设我们有10排列图案的氨基酸。位置3是被K(赖氨酸)和R氨基酸(精氨酸)和位置5 E氨基酸(谷氨酸)。上面的两种方法将指定pseudocounts职位3和5一样,这是不合理的原因后。如果位置3需要带正电氨基酸,和位置5带负电荷的氨基酸,氨基酸K, R,和H(组氨酸)应该更有可能发现比其他氨基酸在位置3,和氨基酸D(天冬氨酸)应该更有可能发现比其他氨基酸在位置5。通过使用其他蛋白质序列数据对齐的大致相同的差异我们可以推导出频率分布位置,需要积极充电或带负电荷的氨基酸和使用这些频率分布产生pseudocounts [56]。在我们的例子中,pseudocounts在位置3和5将分配完全不同,因为一个职位要求的频率分布带正电氨基酸通常是相当不同的位置需要带负电荷的氨基酸。

PWM和PWM可以用来测量密码子使用的偏见。例如,给定的核苷酸的频率作为密码子的背景频率,说AGC,可以指定相比,AGC的观测频率。这种方法可以消除一个主要弱点等常用的密码子偏好指数CAI (57,58和数控59,60]。

3所示。吉布斯采样器与PWM作为一个关键组件

在PWM技术来描述一组确定主题,吉布斯采样器(61年),命名的数学物理学家j·w·吉布斯新创主题的发现。例如,给定一组酵母的内含子序列,网站和分歧点在哪里什么?所有信息我们已经是每个基因内区应该有一个分歧点的网站,但它有什么顺序签名,它位于内含子序列在哪里?这个场景(图1)就是吉布斯采样器会发光。

图1

53 54 吉布斯采样器做什么。内含子序列的前面板代表吉布斯采样器的输入信息。底部面板代表的一部分显示所确定的主题(即输出。TAATAAC,红色)之间共享的序列。输出DAMBE [,]。输入的内含子序列文件(YeastAllIntron.fas)在DAMBE FASTA格式的安装目录。

类似的场景涉及监管严重性的发现图案coexpressed基因(即给定一组。同步,增加或减少基因的转录水平随着时间的推移)微阵列(62年,63年],圣人[64年,65年),或深度排序66年- - - - - -68年)实验。如果也coregulated coexpressed基因,那么他们可能有着某些未知的转录因子结合位点控制的相同或相似的转录因子。考虑到结合位点通常是位于上游的翻译起始密码子,你可能会从这些coexpressed上游序列中提取基因,让吉布斯采样器找到候选人管理主题。最近的一项研究表明,共享主题也可能出现在翻译起始的信使rna 5′UTR调节(69年]。

吉布斯采样器是一种依赖重复随机抽样的蒙特卡罗算法来估计所需的参数。蒙特卡罗方法是由著名的数学家Stanislaw乌兰,设想成功组装后在1945年第一台电子计算机ENIAC,和进一步开发的物理学家和数学家致力于核武器项目洛斯阿拉莫斯国家实验室在1940年代中期70年]。“蒙特卡罗方法”一词是由尼古拉斯大都市指定这类计算算法。虽然方法的通用应用程序毫无疑问是ENIAC的操作在1945年,物理学家恩里科·费米是已知独立开发和应用方法与机械计算器(近15年前70年]。

吉布斯采样器简化了计算参数估计时获得解析解非常困难或者不可能的。在生物学上,它已经被用于识别蛋白质的功能主题(31日,71年,72年)、生物图像处理(73年,两两序列比对74年),和多序列比对(75年,76年]。然而,最常见的生物应用吉布斯采样器仍在监管的基因序列的识别30.,77年- - - - - -84年]。

有两种稍微不同的吉布斯采样器在主题预测中的应用。第一个假设每个序列包含一个主题(30.)和相关的算法称为现场取样器。第二个是更加灵活,允许每个序列没有或多个主题(71年),该算法称为主题取样器。我们将说明现场取样器取样器,然后简要讨论的主题。

我数值说明主题发现吉布斯采样器算法。吉布斯采样器的主要输出通常三部分组成。第一个是共享的主题在一个对齐的格式(底部面板图1)。第二个主题是PWM总结发现,第三个包含相关意义测试将在后面一节中了。派生的PWM,就像任何其他PWM,可以用来扫描序列不输入数据中发现的存在主题呈现。

3.1。吉布斯采样器的计算细节

我们将使用红色的核苷酸序列(85年),图中列出2,说明了吉布斯采样器算法。我们的主要目标是推断未知的图案的位置和序列之间共享序列,这样我们可以使图案,底部面板的图所示1。一致的主题将使我们能够生成一个PWM,特征位点核苷酸频率分布的主题。PWM可以用来扫描确定主题的存在,在其他序列。

我们需要首先计算核苷酸,数字指定为,,,分别在序列。的总数核苷酸序列(图292)是1209年,,,等于325,316、267和301年,分别。这些值需要指定pseudocounts(我们在前一节中遇到PWM)。

让被指定为输入序列的数量。让的长度,主题的长度,长度通常是4 - 8。对于我们的例子,我们将使用。一个通常会跑几次吉布斯采样器不同如果一个值对图案的长度都所知甚少。PWM的维度核苷酸序列,对氨基酸序列。让是未知的主题的起始位置。

吉布斯采样器的主要算法的两个步骤。第一个是随机初始化一组随机的值被分配和网站核苷酸频率计算。第二步是预测更新,直到当地的解决方案值,结合位点核苷酸频率可以制成一个PWM。这是重复多次,以前存储的局部最优方案取而代之的是更好的。收敛通常宣称当两个或更多当地的解决方案都是相同的。数值在以下几节描述这些步骤。

3.2。初始化

随机分配一个值的起始步骤的约束。所以我们的第一套“主题”本质上是一组随机的序列长度m和预计不会有任何模式。为读者好奇,第一组29随机值恰好是:29日31日,23日,28日,10日,2,18岁,32岁,20日,15日,11日,25日,24日,30日,18日,15日,10日,23日,14日,15日,26日,36岁,8日,6日,30日,19日,27日,26日和14。从29个核苷酸随机图案的特定站点分布如表所示2。几乎没有任何特定模式,因为人会预期。


		网站
Nuc	C0	1	2	3	4	5	6

一个	278年	8	7	9	6	10	7
C	279年	3	8	5	10	6	5
G	230年	7	5	6	5	3	11
T	248年	11	9	9	8	10	6

第二列在表2将被称为C0向量,,,等于278,279、230和248年,分别。的矩阵,占领过去六列在表2将被称为矩阵。的从29日随机矩阵表主题而C0向量与核苷酸以外的主题列表。因此,第一,第二,第三,第四排表2应该等于,,,,分别。还要注意,每个六列的矩阵应该29。

3.3。预测更新

预测更新包括获得(= 29日在我们的示例中)随机数字从1到和使用这些数字索引选择序列顺序更新站点特定的核苷酸(分布相关矩阵)和频率(C0向量)。例如,随机数在我首次运行的吉布斯采样器是11日,18日,26日,22日,2,28日,12日,9日,7日,3日,17日,16日,1,4,21日,15日,14日,24日,19日,27日,29日,6,10,20,13日,23日,25日,分别和5。这意味着首先将使用,最后,第一个周期的预测更新。重要的是使用一系列随机的数字,而不是选择序列根据输入的顺序。后者提高了捕获吉布斯采样器在一个局部最优的可能性。

我们的第一个随机选择的序列和随机选择的主题从网站11日开始,,主题是AGTGTG。这个最初的主题将会离开矩阵和投入C0向量。这个主题有一个0 C, 3 G的,两个U。通过将这些值添加到C0矢量表2,我们获得了C0矢量表3。我们还需要把这个主题的矩阵减去第一个从第一列中的第一个值矩阵表2(即。、新=老),第二个G从第三第二列的值矩阵表2(即。、新=老),等等。这个转换矩阵表2C矩阵表3。


		网站
Nuc	C0	1	2	3	4	5	6

一个	279年	7	7	9	6	10	7
C	279年	3	8	5	10	6	5
G	233年	7	4	6	4	3	10
T	250年	11	9	8	8	9	6

在这一点上,矩阵是由28个随机选择的主题,分别来自序列(不包括)。你会发现每六列的矩阵有一笔28。在最初的主题的原因出了矩阵和把它回C0向量,我们会找到一个更好的主题,把它放到矩阵,矩阵将再次基于29图案。我们如何得到更好的主题?回想一下,一个位置权重矩阵(PWM)可以用来扫描序列的滑动窗口长度m得分位置权重矩阵(PWMSs)为每个窗口。我们将做一个PWM C0的矢量和矩阵和使用产生PWM扫描并得到一个新的主题,pwm最高。

你可能想知道为什么这种做法会让我们考虑到任何地方矩阵是最初的随机图案。由此产生的PWM不会展览模式,因此结果PWMSs将不提供信息的。这里的关键概念是,当一个人需要一个随机游走在地形与多个山峰,迟早会遇到一个峰值,攀登高峰至少会给我们当地最大。在达到的峰值和记录的高度,我们将在另一个随机选择的位置和当地的山峰开始爬山了。这一过程持续进行直到我们到达最高峰或固定数量的计算机迭代后没有发现任何更高的峰值。

通常,使用C0 PWM生成向量作为背景的频率()和矩阵特有的频率。然而,尽管大多数算法的吉布斯采样器计算这种方式(例如,32,页133 - 147)),计算从C0向量有严重的问题,当输入序列是一样短的主题。例如,如果真正的主题有许多核苷酸和几个核苷酸U,然后C0向量也将有很多,现在很少有美国主题和一些核苷酸U将被视为偏差很大的背景,会有很高的pwm,导致偏差估计的真正的主题。因此,当输入序列短,每个人都应该指定背景频率而不是使用C0来计算。可以参考前面的部分频率PWM有关背景的更多信息。

对于pseudocounts,我们可能使用。由此产生的PWM用于扫描长40基地,35吗可能的起始点(即主题。,可能值的序列)。35这些pwm值35可能的主题(表4)规范化有一笔1 (在表4)。我们现在继续更新初始(),一个新的基于结果的表的价值4。我们应该如何选择新的价值吗?


网站	个六	优势比

1	CATGCC	0.153	0.004
2	ATGCCC	0.850	0.021
3	TGCCCT	0.664	0.016
4	GCCCTC	0.944	0.023
5	CCCTCA	0.254	0.006
6	CCTCAA	0.843	0.021
7	CTCAAG	0.609	0.015
8	TCAAGT	0.717	0.018
9	CAAGTG	0.613	0.015
10	AAGTGT	0.426	0.011
11	AGTGTG	0.967	0.024
12	GTGTGC	0.546	0.014
13	TGTGCA	0.594	0.015
14	GTGCAG	4.034	0.100
15	TGCAGA	0.251	0.006
16	GCAGAT	1.084	0.027
17	CAGATT	0.343	0.009
18	AGATTG	1.812	0.045
19	GATTGG	1.128	0.028
20.	ATTGGT	0.408	0.010
21	TTGGTC	1.194	0.030
22	TGGTCA	0.888	0.022
23	GGTCAC	1.005	0.025
24	GTCACA	0.596	0.015
25	TCACAG	5.888	0.146
26	CACAGC	0.064	0.002
27	ACAGCA	0.569	0.014
28	CAGCAT	0.569	0.014
29日	AGCATT	0.381	0.009
30.	GCATTT	2.024	0.050
31日	CATTTC	0.474	0.012
32	ATTTCA	1.317	0.033
33	TTTCAA	4.293	0.107
34	TTCAAG	2.475	0.061
35	TCAAGG	1.279	0.032

有两种策略选择价值。第一个是随机挑选一个值的大小(表4)。你可能想象的圆靶与35片各自领域成正比值。当你扔飞镖的圆靶,大型片将有一个更好的机会比小片。如果dart土地7片,然后初始将会更新与原来的主题,AGTGTG被新的主题CTCAAG所取代。

第二种策略是使用最大更新初始值到新价值。网站的主题从25个最大的,我们将设置新的等于25和替换最初的主题(= AGTGTG)的新主题(= TCACAG)。通过这种方法,我们不需要_规范我们可以选择基于最大的优势比表4。这种策略比第一次快,但似乎并没有失去任何敏感主题的发现基于有限的模拟研究。然而,如果一个是担心失踪的图案的可能性,第一应该使用策略。

不管如何选择,更新是相同的。假设我们有了第二个策略并设置新的等于25。的矩阵表2然后修改替换原有的主题(= AGTGTG)的新主题(= TCACAG)。这导致一个C0向量和更新矩阵(表5)。


		网站
Nuc	C0	1	2	3	4	5	6

一个	277年	7	7	10	6	11	7
C	277年	3	9	5	11	6	5
G	232年	7	4	6	4	3	11
T	249年	12	9	8	8	9	6

我们重复这个过程的序列来更新的值。最后一个序列已经更新后,我们得到一套新的值,一套新的29图案,加上PWM基于相关的C0向量矩阵和C。在这一点上我们计算加权比对的得分(即。加权pwm)如下: 在哪里是主题宽度,不同的符号序列的数量(4核苷酸和氨基酸序列的20)。是衡量质量的排列的图案。越大价值,越好。

的中定义的值,如(8),有许多不同的名字。它被称为Kullback-Leibler信息或Kullback-Leibler分歧在信息理论86年- - - - - -88年),或较大的速度函数在统计估计89年]。在生物信息学,尤其是主题描述和预测涉及PWM,它通常被称为信息内容(6]。事实上,Kullback-Leibler信息是所谓的一个特例散度测量两个概率分布之间的差异和导致自然的信在(8)。

预测更新一次又一次地重复。每一次当我们得到一套新的值,一套新的主题和基于C0向量和PWM矩阵,我们计算一个新的价值。如果新值大于先前存储的值,那么新价值,新的设置值,新的主题将取代先前存储的。这个过程一直持续到我们到达当地最大的或者当当地循环的预设最大数量。由此产生的价值,的集合值,新的主题和相关的PWM被存储为局部最优的输出。在爬山的类比,代表当地的峰值的高度。

现在是重复整个过程从一开始,也就是说,我们再次执行初始化,选择另一个随机的一组值,经过当地迭代获得另一个局部最优输出。如果新的局部最优输出比以前存储的(即好。,新值大于先前存储的一个),新的输出将取代先前存储的输出。这个过程被重复多次,直到达到收敛,当新的值始终与以前相同存储,或者直到固定数量的计算迭代一直没有找到一个价值比已经记录下来。最后的位点核苷酸分布(表6)显示一个更强大的比初始分布(表模式2)来自29个随机选择的主题。


		网站
Nuc	C0	1	2	3	4	5	6

一个	275年	3	0	22	0	9	16
C	285年	11	0	0	0	19	1
G	252年	0	7	7	0	0	1
T	223年	15	22	0	29日	1	11

最后一致的图案(图7 - 2 (32])分享(C / T)的一般共识TATC (a / T)。它的反补(A / T)叫(A / G)是已知GATA-binding转录因子的结合位点90年- - - - - -95年]。这一发现的图案表明这组序列可能确实是coregulated GATA-binding相同类型的转录因子。这些发现是至关重要的转录组和蛋白质组学研究旨在了解基因调控网络。吉布斯采样器等算法帮助我们理解基因和基因产物之间的交互。

这里可能是相关总结的基本生物学和GATA-binding转录因子GATA框。活细胞是一个系统与许多基因开关,可以打开或关闭细胞内和细胞外环境。这些开关是区分正常的活细胞和癌细胞或死细胞。叫图案(或叫盒)是一个这样的开关和它是由特定的转录因子的开启或关闭(蛋白质绑定到主题,打开或关闭基因的转录包含这样的主题)。更好的知道GATA-binding转录因子是GATA-1结合GATA主题发现在绝大多数erythroid-expressed cis-elements基因所有脊椎动物的检查(96年,97年]。的核心启动子大鼠血小板因子4 (PF4)基因包含这样一个叫主题和绑定GATA-binding GATA图案的蛋白质如GATA-1抑制PF4基因的转录91年]。现在知道叫监管图案和GATA-binding转录因子存在于各种生物体从细胞黏菌脊椎动物,包括植物、真菌、线虫、昆虫,和棘皮动物98年),这表明基因开关的功能是远远超出红细胞生成。在人类,叫GATA-binding主题和蛋白质是涉及到几种疾病(99年]。叫图案及其结合蛋白的序列差异应该阐明组件的共同进化的基因开关。

可能会注意到一些序列有强烈(C / T) TATC (a / T)的主题,而另一些(例如,第二,第四和第五序列)只有微弱的和高度可疑信号。计算机程序实现吉布斯采样器通常将输出信号的强度的定量测量,和pwm是最常用的指数为此(表7)。pwm是log-odds召回,但一个可以直接使用优势比作为衡量相对主题的力量。还记得,一个优势比的比例是两个概率相关的两个假设。定义个六的假说是一个主题的特定场地的限制,和假设个六的不是一个主题,有其指定的概率只有四个整体核苷酸频率。的优势比的比值的概率是真实的概率是真的。一个一般应该截止值为20,也就是说,是20倍吗。


SeqName	主题	开始	优势比

Seq1	TTATCA	18	163.6602
Seq2	CGGTCA	22	14.5511
Seq3	CTATCA	14	101.8203
Seq4	AGATAA	17	9.1127
Seq5	TGATTA	16	12.9266
Seq6	CTATCT	18	90.7790
Seq7	TTATCA	20.	163.6602
Seq8	TTATCA	2	163.6602
Seq9	CTATAA	17	58.1420
Seq10	CTATCT	14	90.7790
Seq11	TGGTCA	21	23.3886
Seq12	TTGTAA	33	38.9024
Seq13	TTATCT	20.	145.9129
Seq14	TTATCT	2	145.9129
Seq15	TTATCA	10	163.6602
Seq16	CTATAA	3	58.1420
Seq17	TTATCC	13	34.3258
Seq18	AGATAT	20.	8.1245
Seq19	TGATAA	16	32.0835
Seq20	AGATAA	24	9.1127
Seq21	CTGTAT	12	21.5783
Seq22	CTGTAT	0	21.5783
Seq23	CTATCT	23	90.7790
Seq24	TTGTCT	4	60.7395
Seq25	TTATCT	17	145.9129
Seq26	CTATCG	15	21.2368
Seq27	TTATCA	19	163.6602
Seq28	CTATCT	15	90.7790
Seq29	TTGTCA	2	68.1272

的意思是			76.3120
方差			57.8163

每个人都应该注意,吉布斯采样器,从一组随机的值,不一定收敛于相同的主题。这是该算法的优势和劣势。算法的优点是重复运行将使我们能够确定其他类型的隐藏的图案(即。,除了叫反补的主题)序列。缺点是用户不熟悉算法常常感到困惑时相同的输入产生完全不同的结果。例如,另一组假定的图案,RGVAGR的形式(R是一个“T”或G和V),被发现在共享序列(32,p . 146]。

可能的输入序列可能包含两个或两个以上的不同生物重要的主题。如果一个主题是更强的优等生中输入序列)(比其他的图案,如果吉布斯采样器的搜索算法之前详尽的概述,然后我们将总是得到最强大的主题和所有其他小姐生物有趣的图案。然而,一个可以运行吉布斯采样器的具体排除最强的主题已经确定,这样较弱的主题可以被识别。

3.4。主题式取样器

吉布斯采样器有两个版本。我们刚刚叫现场取样器。它假设每个序列只包含一个主题(30.]。另一个版本更灵活,允许每个序列没有或多个主题(71年),该算法称为主题取样器。GATA-binding转录因子组成蛋白质家族成员包含一个或两个高度保守的锌指dna结合域(98年),因此可能是一个序列可能包含不止一个叫盒子。例如,红色的Kruppel-like因子(EKLF,所需的锌指转录因子球蛋白基因表达)的5′地区两个叫图案在E箱侧面图案特点是CANNTG [One hundred.]。这需要一个算法,能够识别多个主题在一个序列。

这个网站可以扩展到主题取样器取样器后处理。PWM生成的站点取样器可用于re-scan图案的序列,计算相关的脉宽调制或每个序列中所有6-mers比值比。所有我们需要的是有一个截止分数保持这些图案与pwm或优势比大于截止得分。

4所示。统计显著性测试

麻省理工,从调整已知的主题或从吉布斯采样器运行,需要评估统计学意义。一个连续PWM的问题是缺乏普遍适用的测试和准确的意义,对个人网站的主题,在PWM或PWM。有两个原因准确意义测试是可取的。首先,与PWM描述一个主题后,自然想知道PWM特征是否重要,哪些网站的意义和序列的PWM显著大于随机期望。第二,在发现一个重要的PWM,通常要使用PWM扫描其他序列识别新的图案,和一个需要一个好的显著性检验显示主题识别的可靠性。这将减少假定序列经过实验验证,通常是乏味的和昂贵的101年,102年]。

简而言之,三个分离的意义测试要求:一个个人网站,一个用于PWM本身,另一个用于PWM。下面几节详细讨论这些测试。

4.1。统计显著性测试对个人网站

个人网站的统计显著性可以通过测试我错误率控制型的错误发现率(103年,104年]。表中的数据1为例。背景的频率是,,,,使我们能够获得预期数量,C、G和t . 17测试(表1),我们面临的问题是多重比较和需要控制familywise错误率(105年这是同义experimentwise错误率。

指定的错误率,然后准确的关键个人测试的拒绝在哪里测试和的数量等于17在我们的案例中。如果我们将,然后。Bonferroni标准是基于近似导致。二阶Bonferroni,当满足相关假设105年),是基于导致。在实践中,这些不同值没什么影响。在我们的示例中,所有三个值导致的结论是,频率分布在网站1、2、13日和16日不显著偏离背景频率。

familywise错误率的统计控制协议被认为太保守,和协议控制的错误发现率(罗斯福)最近因此被提出103年,104年]。经典的罗斯福方法(103年),现在通常被称为Benjamini-Hochberg过程或者只是BH过程,值降序排列和计算为th价值(下标BH代表BH过程) 在哪里罗斯福(如0.05),的排名排序数组的值值,是测试的数量(即。的数量值)。如果是最大的满足的条件,然后我们拒绝假说来。在我们的例子中,所有的网站都统计上显著的基础上(表8)。


网站		pBH⁽¹⁾	pBY⁽²⁾

6	* 0.0000000000^__	0.002941	0.000855
10	* 0.0000000000^__	0.005882	0.001710
7	* 0.0000000000^__	0.008824	0.002565
11	* 0.0000000000^__	0.011765	0.003420
8	* 0.0000000000^__	0.014706	0.004276
9	* 0.0000000000^__	0.017647	0.005131
12	* 0.0000000000^__	0.020588	0.005986
4	* 0.0000004842^__	0.023529	0.006841
3	* 0.0000013734^__	0.026471	0.007696
5	* 0.0000030965^__	0.029412	0.008551
14	* 0.0002619304^__	0.032353	0.009406
15	* 0.0006307900^__	0.035294	0.010261
17	* 0.0025004071^__	0.038235	0.011116
16	* 0.0033589734^__	0.041176	0.011971
13	* 0.0084455695^__	0.044118	0.012827
1	* 0.0177349476	0.047059	0.013682
2	* 0.0182291629	0.050000	0.014537

⁽¹⁾至关重要的基于Benjamini和业务(1995)(103年]。
至关重要的基于Benjamini和Yekutieli (2001) (104年]。
* Benjamini显著的标准和业务(1995)(103年]。
^__重要的标准Benjamini和Yekutieli (2001) (104年]。

上面的罗斯福过程中假设测试统计数据是独立的或积极的依赖(在极端情况下完美的积极的依赖,所有的测试都是一样的,只有一个测试没有多重比较的问题)。更为保守的罗斯福过程已经被开发出来,它放松假设[104年]。这种方法,现在通常被称为Benjamini-Yekutieli或者只是过程,计算为th假说是

与在我们的例子中,。基于,测试网站相关不显著(表1和28)。通过程序被发现过于保守和提出了几个方案106年]。对于大型,收敛于(欧拉常数等于大约0.57721566)。因此,对于,接近10。所以近10倍小于。罗斯福上面的程序都被用于测试意义关于酵母拼接网站(23]。

4.2。评估统计学意义的PWM Pseudocounts时使用

PWM代表一个主题是否具有特定场地约束可以测试通过统计(6在(指定)8)。然而,的分布改变了pseudocounts中指定的(5)和(7)。例如,的期望不再是零和pseudocounts当没有特定站点的模式。

一个更直接的方法评估PWM的意义是通过重新采样。定义的tetranomial分布,在那里核苷酸的核苷酸频率吗,我们可以得到一组新的序列(246 17元序列)和计算。这是重复的,获得5000年的5000倍值。的99或第95百分位值可以作为至关重要的值分别为0.05和0.01的水平,意义。一个观察PWM的显著大于临界。根据这一标准,246年捐赠的PWM拼接网站是非常重要的。同样的重采样技术也可以用来评估特定站点的意义模式在前一节中或在下一节pwm的重要性。

4.3。统计学意义的脉宽调制

构建一个脉宽调制的目的之一是促进PWMSs的计算。例如,序列UAAAGGUAUGUUUAAUU PWM, PWM表1(四列由A、C、G和U右边),是简单的

因此,我们可以使用PWM来预测一个新的剪接供体通过扫描窗口的核苷酸序列17核苷酸网站和计算PWM。pwm越大,越可能17-mer拼接供体。然而,我们需要解决的问题有多大等在网上预测。

pwm从随机序列遵循近似正态分布(图3),意思是0(或略大于0 pseudocounts使用时小)。分布在图3有说等于0.068884,标准差等于0.314714254。

假设我们使用脉宽调制扫描目标序列1000元的剪接供体。有984)不同17即序列984年,产生pwm值。如果最大脉宽调制是1,统计学意义如何?

如果目标序列的长度只有17元,而不是1000元,那么答案很简单。一个正态分布的99%置信上限意味着等于0.0689和0.3147标准差等于0.8808 (),这意味着一个pwm(1)在0.01水平具有重要意义。然而,因为我们的目标序列1000元,最大的pwm等于1 984 pwm值,我们需要走很长一段路要评估这个最大pwm值的重要性。

假设我们执行许多抽样实验相同的正态分布如图3: 在每个实验,我们样品次获得。的最大在每一个实验。这相当于用PWM扫描序列获得脉宽调制₁,脉宽调制₂,,脉宽调制_N,最大的pwm指定为。的分布是什么,指定为吗?请注意,是一个极端的价值值,所以是很自然的一个极端值分布(EVD)。

极端值分布或EVD,也称为耿贝尔分布为先锋的极端的统计数据107年),是用于爆炸108年,109年和FASTA的新版本110年)高度统计学意义两个序列之间的匹配分数。它还可以用于执行意义测试包括PWM (5,6,55]。在这里我将概述EVD与pwm的数学框架。

的概率值小于是

请注意,可以是或,的可能性。值小于在每一个实验。这让我们这是策划的,,(图4)。比的分布在图3的分布()已大幅转向正确的和山峰。

现在我们可以回答这个问题是否我们的观察统计学意义。观察一个的概率值等于1或更大大约0.7986,也就是说,它不具有统计学意义。

一个简单得多,但可能不准确,方法基于只是没有推导(16)- (18),是使用Bonferroni标准(10)。与,需要一个pwm值等于1.292076814近乎显著,给吗,。当我们观察到的最大脉宽调制,它不是重要的在0.05显著性水平。

总之,PWM-based序列分析包括三种类型的输出:站点特定的频率偏离背景,位置权重矩阵本身和位置权重矩阵得分为每个输入序列。第一个可以评估的重要性测试使用错误发现率作为标准拒绝零假设,第二次重采样方法,第三,基于统计数据的极值分布。这些测试的最新版本已经实现DAMBE [53,54]。

确认

支持这项研究的发现,和战略研究资助自然科学与工程研究委员会加拿大。作者感谢美国Aris-Brosou, s·m·Ragonnet芬德雷和a . van Weringh评论。特别是,美国芬来纠正了错误并帮助澄清模棱两可。

引用

m . Ptashne一个基因开关:基因控制和噬菌体λ细胞出版社和布莱克韦尔科学,剑桥,质量,美国,1986年。
r . Staden“电脑在核酸序列定位信号的方法,”核酸的研究,12卷,不。1,第519 - 505页,1984。视图:谷歌学术搜索
gdp Stormo、t·d·施奈德和l .黄金,”之间关系的定量分析核苷酸序列和功能活动,“核酸的研究,14卷,不。16,6661 - 6679年,1986页。视图:出版商的网站|谷歌学术搜索
g . z赫兹、g . w . Hartzell和gdp Stormo三世”的共识模式识别未对齐的DNA序列已知功能相关,”计算机应用在生物科学》第六卷,没有。2、81 - 92年,1990页。视图:谷歌学术搜索
j . m . Claverie和美国音频”核苷酸position-weight矩阵的统计学意义的比赛,”计算机应用在生物科学,12卷,不。5,431 - 439年,1996页。视图:谷歌学术搜索
g . z赫兹和g·d·Stormo识别DNA和蛋白质模式统计上显著的多个序列的比对,”生物信息学,15卷,不。7 - 8,563 - 577年,1999页。视图:谷歌学术搜索
m . Bhagwat和l . Aravind PSI-BLAST教程中,“分子生物学方法卷,395年,第186 - 177页,2007年。视图:出版商的网站|谷歌学术搜索
郭黄,z,即“库兹涅佐夫”,“DP-Bind: web服务器在dna结合蛋白质序列预测dna结合蛋白残留,”生物信息学,23卷,不。5,634 - 636年,2007页。视图:出版商的网站|谷歌学术搜索
h·金和h .公园”,与支持向量机预测的蛋白质相对的溶剂可及性和远程交互三维局部描述符,“蛋白质:结构、功能和遗传学,54卷,不。3、557 - 562年,2004页。视图:出版商的网站|谷歌学术搜索
m·拉希德·萨哈,g p s Raghava“基于支持向量机的预测方法使用进化分枝杆菌蛋白质的亚细胞定位信息和主题,“BMC生物信息学第337条,卷。8日,2007年。视图:出版商的网站|谷歌学术搜索
和j·j . Sim郑胜耀Kim Lee”PPRODO:使用神经网络预测蛋白质域边界,”蛋白质:结构、功能和遗传学卷,59号3、627 - 632年,2005页。视图:出版商的网站|谷歌学术搜索
g·l·李和t . y .梁”,特征选择的翻译起始位点的预测,”基因组学、蛋白质组学和生物信息学,3卷,不。2、73 - 83年,2005页。视图:出版商的网站|谷歌学术搜索
b·格雷奇美国Maetschke, s·马修斯和p•蒂姆斯”的披衣菌全基因组分析启动子,过去的足迹,“微生物学研究,卷158,不。8 - 9,685 - 693年,2007页。视图:出版商的网站|谷歌学术搜索
s . Aerts j . van Helden o .沙子,和b·a·哈桑“微调增强模型预测跨多个基因组,转录目标”《公共科学图书馆•综合》,卷2,不。11日文章ID e1115, 2007。视图:出版商的网站|谷歌学术搜索
j . w . Fickett”量化歧视MEF2网站”,分子和细胞生物学,16卷,不。1,第441 - 437页,1996。视图:谷歌学术搜索
c·弗兰克·h·Makkonen t·w·邓洛普m . Matilainen s Vaisanen和c,他本人“孕烷X受体结合位点的识别基因的监管区域参与胆汁酸体内平衡,”分子生物学杂志,卷346,不。2、505 - 519年,2005页。视图:出版商的网站|谷歌学术搜索
l . Hertzberg s Izraeli,大肠Domany”站:寻找转录因子使用基因表达主题,“生物信息学,23卷,不。14日,第1743 - 1737页,2007年。视图:出版商的网站|谷歌学术搜索
诉x, y . w .低浓缩铀,s Liyanarachchi et al .,“确定雌激素受体α目标使用集成计算基因组学和染色质免疫沉淀反应微阵列的基因,”核酸的研究,32卷,不。22日,第6635 - 6627页,2004年。视图:出版商的网站|谷歌学术搜索
美国Kamalakaran、s . k . Radhakrishnan和w·t·贝克”识别过量使用全基因组基因启动子的转录因子结合位点的元素分析,“生物化学杂志,卷280,不。22日,第21497 - 21491页,2005年。视图:出版商的网站|谷歌学术搜索
d·g·勒梅和d·h·黄”,全基因组的识别使用集成计算基因组学、过氧物酶体扩散国的反应元素”脂质研究期刊》的研究卷,47号7,1583 - 1587年,2006页。视图:出版商的网站|谷歌学术搜索
k . e . j . Ostrin y . Li霍夫曼et al .,“全基因组的直接目标的识别果蝇视网膜测定蛋白质瞎的。”基因组研究,16卷,不。4、466 - 476年,2006页。视图:出版商的网站|谷歌学术搜索
z . c .元,r·查希尔r·莫顿和t·m·菲南”基因组预测PhoB监管的推动者Sinorhizobium meliloti和十二个变形菌门。”核酸的研究,34卷,不。9日,第2697 - 2686页,2006年。视图:出版商的网站|谷歌学术搜索
p . Ma和夏x”,酵母基因的接合强度影响因素”,比较和功能基因组学文章ID 212146卷,2011年,13页,2011。视图:出版商的网站|谷歌学术搜索
h .小林j . Akitomi n .藤井裕久等。”整个组织的转录单位枯草芽孢杆菌基因组”,BMC基因组学第197条,卷。8日,2007年。视图:出版商的网站|谷歌学术搜索
p . t .蒙泰罗n·d·门德斯m . c .特谢拉et al .,“YEASTRACT-DISCOVERER:新的工具,以改善转录监管协会的分析酿酒酵母”,核酸的研究,36卷,不。1,D132-D136, 2008页。视图:出版商的网站|谷歌学术搜索
j . a .年轻,j·r·约翰逊,c . Benner et al .,”在网上发现的转录调控元件恶性疟原虫”,BMC基因组学第70条,卷。9日,2008年。视图:出版商的网站|谷歌学术搜索
c . l .郑f .美国向冬,m . Gribskov”特点和监管元素定义本构拼接和不同的可变剪接模式在人类和小鼠中,“核糖核酸,11卷,不。12日,第1787 - 1777页,2005年。视图:出版商的网站|谷歌学术搜索
c . n .杜威、i b·罗戈津和e . v . Koonin“补偿接头地点和其实剪接信号之间的关系取决于脊椎动物内含子的长度,”BMC基因组学第311条,卷。7日,2006年。视图:出版商的网站|谷歌学术搜索
Ben-Gal, a·沙尼a Gohr et al .,“转录因子结合位点的识别与variable-order贝叶斯网络,”生物信息学,21卷,不。11日,第2666 - 2657页,2005年。视图:出版商的网站|谷歌学术搜索
c·e·劳伦斯,s . f . Altschul m . s . Boguski j·s·刘,a . f . Neuwald和j·c·伍”检测的序列信号:吉布斯抽样策略为多个对齐,“科学,卷262,不。5131年,第214 - 208页,1993年。视图:谷歌学术搜索
c . a . Mannella a . f . Neuwald和c·e·劳伦斯”可能跨膜的检测β海滨地区的毛孔线粒体蛋白质序列使用吉布斯采样器,”杂志的生物能学和生物膜,28卷,不。2、163 - 169年,1996页。视图:谷歌学术搜索
x夏,生物信息学和细胞:现代计算方法在基因组学、蛋白质组学、转录组施普林格,纽约,纽约,美国,2007年。
王k.c.梁,x, d . Anastassiou”profile-based确定性的序贯蒙特卡罗算法对主题的发现,“生物信息学,24卷,不。1,46-55,2008页。视图:出版商的网站|谷歌学术搜索
t·l·贝利:威廉姆斯,c . Misleh和w·w·李,“MEME:发现和分析DNA和蛋白质序列图案,“核酸的研究卷,34 W369-W373, 2006页。视图:出版商的网站|谷歌学术搜索
j.p.绿色”,支持向量机的预测信号肽裂解位点为字符串,使用一个新的内核”太平洋生物运算研讨会上,第660 - 649页,2002年。视图:谷歌学术搜索
美国华和z的太阳”,支持向量机方法对蛋白质亚细胞定位预测,“生物信息学,17卷,不。8,721 - 728年,2001页。视图:谷歌学术搜索
答:虽然,g . Ratsch米卡,b . Scholkopf t . Lengauer和k·r·穆勒”工程支持向量机内核承认翻译起始位点,”生物信息学,16卷,不。9日,第807 - 799页,2000年。视图:谷歌学术搜索
k·k·库马尔和p s Shelokar,”一个支持向量机方法使用进化信息的识别过敏蛋白,”信息学手段,2卷,第256 - 253页,2008年。视图:谷歌学术搜索
i . b .“库兹涅佐夫”z郭台铭,r·李和黄,“使用进化和结构信息预测dna结合蛋白网站dna结合蛋白质,”蛋白质:结构、功能和遗传学,卷64,不。1,19-27,2006页。视图:出版商的网站|谷歌学术搜索
董z l . Brumme w·w·y, b . Yip et al .,“临床和免疫的影响艾滋病信封V3序列变异开始最初的三重抗逆转录病毒治疗之后,“艾滋病,18卷,不。4,F1-F9, 2004页。视图:出版商的网站|谷歌学术搜索
美国Chakrabarti和c . j . Lanczycki”分析和预测功能蛋白质的重要站点,“蛋白质科学,16卷,不。1、42、2007页。视图:出版商的网站|谷歌学术搜索
m . Delorenzi和t .速度“嗯卷曲螺旋模型域和比较PSSM-based预测,“生物信息学,18卷,不。4、617 - 625年,2002页。视图:谷歌学术搜索
k·希勒,a。格罗特·m·舍尔r·蒙克·d·扬,“PrediSi:预测信号肽和乳沟头寸,”核酸的研究32卷,W375-W379, 2004页。视图:出版商的网站|谷歌学术搜索
l . j . c . Obenauer c .负责人和m . b . Yaffe”Scansite 2.0: proteome-wide预测细胞信号交互使用短序列图案,“核酸的研究没有,卷。31日。13日,3635 - 3641年,2003页。视图:出版商的网站|谷歌学术搜索
h·b·尼古拉斯·Jr . s . s . Chan)和g . l . Rosenquist“重新评估的酪氨酸硫酸盐化作用的决定因素,”内分泌,11卷,不。3、285 - 292年,1999页。视图:谷歌学术搜索
h·c·林k .蔡b . l . Chang et al .,“动物病毒酪氨酸硫酸盐化作用预测网站”,生物化学和生物物理研究通信,卷312,不。4、1154 - 1158年,2003页。视图:出版商的网站|谷歌学术搜索
j·刘,路易,w .许,k . m . Yu h·b·尼古拉斯和g . l . Rosenquist”在人类趋化因子受体酪氨酸硫酸盐化作用是普遍重要的肺部疾病,”美国呼吸系统细胞和分子生物学》杂志上,38卷,不。6,738 - 743年,2008页。视图:出版商的网站|谷歌学术搜索
r . j . k . m . Yu Liu莫埃林h . c, h·b·尼古拉斯和g . l . Rosenquist”预测seven-transmembrane肽受体的酪氨酸硫酸盐化作用”内分泌,19卷,不。3、333 - 338年,2002页。视图:出版商的网站|谷歌学术搜索
t·d·施奈德和r·m·斯蒂芬斯”序列标识:显示共识序列的新方法,”核酸的研究,18卷,不。20日,第6100 - 6097页,1990年。视图:谷歌学术搜索
j . Gorodkin l . j .嘿,s .椰子饼和g·d·Stormo”显示RNA结构排列的信息内容:结构标识,”计算机应用在生物科学,13卷,不。6,583 - 586年,1997页。视图:谷歌学术搜索
j·席尔瓦,s·h·施瓦茨,d . Burstein t . Pupko e .小野猫和g . Ast,“大规模剪接信号的比较分析及其相应的拼接在真核生物因素,”基因组研究,18卷,不。1,第103 - 88页,2008。视图:出版商的网站|谷歌学术搜索
n . Sheth x Roca, m·l·黑斯廷斯t·罗德,a . r .报告中,r . Sachidanandam”全面使用比较基因组学、剪切位点分析”核酸的研究,34卷,不。14日,第3967 - 3955页,2006年。视图:出版商的网站|谷歌学术搜索
夏x和z谢,“DAMBE:数据分析软件包的分子生物学与进化,”遗传杂志,卷92,不。4、371 - 373年,2001页。视图:谷歌学术搜索
x夏,分子生物学与进化数据分析,波士顿Kluwer学术质量,美国,2001年。
j . m . Claverie“position-weight矩阵的一些有用的统计特性,”电脑和化学,18卷,不。3、287 - 294年,1994页。视图:谷歌学术搜索
m·布朗,r . Hughey a·克罗et al .,“使用狄利克雷混合先验获得隐马尔可夫模型对蛋白质的家庭,”智能系统的国际会议为分子生物学(ISMB 93),卷1,47-55,1993页。视图:谷歌学术搜索
p . m .夏普和w·h·李,“定向同义密码子使用的密码子适应指数测量偏差,及其潜在的应用,”核酸的研究,15卷,不。3、1281 - 1295年,1987页。视图:出版商的网站|谷歌学术搜索
x夏”,密码子的一种改进实现适应指数”进化的生物信息学,3卷,53-58,2007页。视图:谷歌学术搜索
f·赖特,”中使用的有效数量的密码子的基因,”基因,卷87,不。1,23-29,1990页。视图:出版商的网站|谷歌学术搜索
x y太阳,问:杨,和夏x”,一种改进的实现有效的密码子的数量(N_c),“分子生物学与进化。在出版社。视图:出版商的网站|谷歌学术搜索
美国德国造d .德国造,“随机放松、吉布斯分布和贝叶斯重建图像,”IEEE模式分析与机器智能》第六卷,没有。6,721 - 741年,1984页。视图:谷歌学术搜索
m . Schena微阵列分析Wiley-Liss,纽约,纽约,美国,2003年。
m . Schena基因组和基因表达微阵列分析,“BioEssays,18卷,不。5,427 - 431年,1996页。视图:谷歌学术搜索
萨哈,a . b .火花,c . Rago et al .,“使用注释基因组的转录组,”自然生物技术,20卷,不。5,508 - 512年,2002页。视图:出版商的网站|谷歌学术搜索
v . e . Velculescu l . Zhang b·福格斯坦和k .从事“基因表达系列分析”,科学,卷270,不。5235年,第487 - 484页,1995年。视图:谷歌学术搜索
c·a·马赫c . Kumar-Sinha x曹et al .,“转录组测序检测融合基因在癌症,”自然,卷458,不。7234年,第101 - 97页,2009年。视图:出版商的网站|谷歌学术搜索
j . r . Prensner m·k·艾耶o . a . Balbin et al .,“转录组测序在前列腺癌组识别PCAT-1,一个未经lincRNA涉及疾病进展,”自然生物技术卷,29号8,742 - 749年,2011页。视图:出版商的网站|谷歌学术搜索
m z . Wang格斯坦·m·斯奈德,“RNA-Seq:转录组的一个革命性的工具,”自然遗传学评论,10卷,不。1,57 - 63,2009页。视图:出版商的网站|谷歌学术搜索
x, v .麦凯,x姚明et al .,“翻译起始:监管角色保利(a)大片在8月前密码子酿酒酵母”,遗传学卷,189年,第478 - 469页,2011年。视图:出版商的网站|谷歌学术搜索
n .大都市的Beginnning蒙特卡罗方法洛斯阿拉莫斯国家实验室科学,1987。
a . f . Neuwald j·s·刘,c·e·劳伦斯,”吉布斯抽样:主题检测细菌外膜蛋白质的重复,“蛋白质科学,4卷,不。8,1618 - 1632年,1995页。视图:谷歌学术搜索
瞿k、l . a .麦丘和c·e·劳伦斯,“贝叶斯蛋白质家族分类器,”智能系统的国际会议为分子生物学(ISMB 98)》第六卷,第139 - 131页,1998年。视图:谷歌学术搜索
m .循环,无污染m . j .帕伦博,m . Radermacher j·s·刘,和c·e·劳伦斯,”贝叶斯分类方法的图像从电子显微图”结构生物学杂志》上,卷138,不。3、157 - 170年,2002页。视图:出版商的网站|谷歌学术搜索
j .朱j·s·刘,c·e·劳伦斯,“贝叶斯自适应序列比对算法,”生物信息学,14卷,不。1、25 - 39页。1998。视图:谷歌学术搜索
j·l·詹森和j .嗯,”吉布斯采样器统计多个对齐,“Statistica中央研究院,15卷,不。4、889 - 907年,2005页。视图:谷歌学术搜索
福尔摩斯和w·j·布鲁诺,“进化摘要:贝叶斯方法多个对齐,“生物信息学,17卷,不。9日,第820 - 803页,2001年。视图:谷歌学术搜索
Aerts s, p . Van厕所,g . Thijs et al .,“巨嘴鸟2:广泛的开源工作台监管序列分析,“核酸的研究,33卷,不。2,W393-W396, 2005页。视图:出版商的网站|谷歌学术搜索
b . Coessens g . Thijs s Aerts et al .,“包容性:门户网站和服务注册中心的微阵列和监管序列分析,“核酸的研究没有,卷。31日。13日,3468 - 3470年,2003页。视图:出版商的网站|谷歌学术搜索
g . Thijs k . Marchal m . Lescot et al .,”吉布斯抽样方法来检测过多图案coexpressed基因的上游地区,”计算生物学杂志》上,9卷,不。2、447 - 464年,2002页。视图:出版商的网站|谷歌学术搜索
g . Thijs y男人味儿,f·迪斯美特et al .,“包容性:集成的集群,上游序列检索和主题抽样,”生物信息学,18卷,不。2、331 - 332年,2002页。视图:谷歌学术搜索
g . Thijs m . Lescot k Marchal et al .,“高阶背景模型提高了检测启动子调控元件的吉布斯抽样,”生物信息学,17卷,不。12日,第1122 - 1113页,2001年。视图:谷歌学术搜索
z s秦,洛杉矶麦丘,w·汤普森,l . Mayerhofer c·e·劳伦斯和j·s·刘,“重新鉴定通过贝叶斯聚类预测监管结合位点的基因,”自然生物技术,21卷,不。4、435 - 439年,2003页。视图:出版商的网站|谷歌学术搜索
w·汤普森·m·j·帕伦博,w•w•沃瑟曼j·s·刘,和c e·劳伦斯“解码人类管理电路,”基因组研究,14卷,不。10日,1967 - 1974年,2004页。视图:出版商的网站|谷歌学术搜索
w·汤普森·e·c·Rouchka, c·e·劳伦斯,”吉布斯递归取样器:发现转录因子结合位点,”核酸的研究没有,卷。31日。13日,3580 - 3585年,2003页。视图:出版商的网站|谷歌学术搜索
e . c . Rouchka吉布斯抽样的简要概述IBC统计研究小组,华盛顿大学生物医学计算研究所,1997年。
Kullback和r . a . Leibler”信息和充分性,”《数理统计22卷,第86 - 79页,1951年。视图:谷歌学术搜索
s . Kullback信息理论和统计约翰•威利父子,纽约,纽约,美国,1959年。
s . Kullback“Kullback-Leibler距离”,美国统计学家41卷,第341 - 340页,1987年。视图:谷歌学术搜索
j . a . Bucklew大偏差技术决策、模拟和估算约翰•威利父子,纽约,纽约,美国,1990年。
西村,高桥,t . Kuroha et al .,“叫框GATA-1基因造血增强器是一个关键的元素在网络GATA因素和调控该基因的网站,“分子和细胞生物学,20卷,不。2、713 - 723年,2000页。视图:出版商的网站|谷歌学术搜索
w . c . Aird j·d·帕文p·a·夏普,和r·d·罗森博格GATA-binding蛋白质之间的相互作用和基底转录因子GATA盒子的核心启动子。一个模型组织基因表达”,生物化学杂志,卷269,不。2、883 - 889年,1994页。视图:谷歌学术搜索
t . c .方和b·m·爱默生“erythroid-specific蛋白质cGATA-1介导远端增强器通过一个专门的活动β球蛋白TATA盒”,基因和发展》第六卷,没有。4、521 - 532年,1992页。视图:谷歌学术搜索
p•莫伊g . Loudianos j . Lavinha等。”δ地中海贫血是由于一个erythroid-specific结合蛋白序列的突变3′δ球蛋白基因。”血,卷79,不。2、512 - 516年,1992页。视图:谷歌学术搜索
s . h·奥尔金“GATA-binding转录因子在造血细胞,”血,卷80,不。3、575 - 581年,1992页。视图:谷歌学术搜索
l . i Zon m . f . Gurish r·l·史蒂文斯et al。”GATA-binding肥大细胞中转录因子调节柱状细胞羧肽酶基因的启动子,“生物化学杂志,卷266,不。34岁,22948 - 22953年,1991页。视图:谷歌学术搜索
”,s·h·奥尔金球蛋白基因调控和切换:大约在1990年,“细胞,卷63,不。4、665 - 672年,1990页。视图:出版商的网站|谷歌学术搜索
t·埃文斯、g . Felsenfeld和m·莱特曼“控制球蛋白基因的转录,”细胞生物学的年度审查》第六卷,第124 - 95页,1990年。视图:谷歌学术搜索
j·a·洛瑞和w·r .,左起第二个人“GATA转录因子家族的分子进化:保护dna结合域内”杂志的分子进化,50卷,不。2、103 - 115年,2000页。视图:谷歌学术搜索
h . Van每和k . Devriendt转录因子GATA3和人类HDR综合症”,细胞和分子生命科学,卷。58岁的没有。9日,第1300 - 1296页,2001年。视图:谷歌学术搜索
k·p·安德森,s . c . Crable和j·b·Lingrel”多个蛋白质绑定到一个GATA-E box-GATA主题调节红细胞Kruppel-like因素(EKLF)基因,”生物化学杂志,卷273,不。23日,第14354 - 14347页,1998年。视图:出版商的网站|谷歌学术搜索
s . Hiard r . Maree·s . et al .,“PREDetector:一个新工具来识别监管元素在细菌基因组,”生物化学和生物物理研究通信,卷357,不。4、861 - 864年,2007页。视图:出版商的网站|谷歌学术搜索
诉x, h . O 'Geen s Iyengar r·格林,和p . j .萨利”识别OCT4和SRY监管模块使用综合计算和实验基因组学方法,”基因组研究,17卷,不。6,807 - 817年,2007页。视图:出版商的网站|谷歌学术搜索
y Benjamini和y .业务控制错误发现率:一个实用和强大的多个测试方法,”皇家统计学会杂志》的系列B57卷,第300 - 289页,1995年。视图:谷歌学术搜索
y Benjamini和d . Yekutieli错误发现率的控制下在多个测试依赖,”统计年鉴卷,29号4、1165 - 1188年,2001页。视图:出版商的网站|谷歌学术搜索
t·尼科尔斯和s . Hayasaka”控制familywise错误率在功能神经成像:比较评论,”医学研究统计方法,12卷,不。5,419 - 446年,2003页。视图:出版商的网站|谷歌学术搜索
y通用电气、s . c . Sealfon和t . p .速度,“某些降压过程控制下的错误发现率依赖,”Statistica中央研究院,18卷,不。3、881 - 904年,2008页。视图:谷歌学术搜索
e . j .甘力克极端的统计数据哥伦比亚大学出版社,1958年纽约,纽约,美国。
s . f . Altschul w·吉斯•米勒(george w . bush), e·w·迈尔斯和d . j . Lipman“基本的局部比对搜索工具,”分子生物学杂志,卷215,不。3、403 - 410年,1990页。视图:出版商的网站|谷歌学术搜索
s . f . Altschul t·l·马登a·a·谢弗et al .,“豁裂的爆炸和PSI-BLAST:新一代的蛋白质数据库搜索项目,“核酸的研究,25卷,不。17日,第3402 - 3389页,1997年。视图:出版商的网站|谷歌学术搜索
w·r·皮尔森“实证统计估计序列相似性搜索,”分子生物学杂志,卷276,不。1,第84 - 71页,1998。视图:出版商的网站|谷歌学术搜索

Scientifica

文摘