从高通量表观基因组学数据预测模型的基因调控

文摘

基因表达的表观遗传调控涉及多个因素。这些因素的协同或拮抗作用表明基因调控的表观遗传代码的存在。产量很高测序(高温超导)提供了一个机会去探索这段代码和建立定量模型基于表观遗传差异的基因调控特定细胞的条件。我们描述了一种新的计算框架,促进高温超导表观遗传数据的系统集成。我们的方法与表观遗传信号表达式通过比较两个条件。我们将展示其有效性通过构建一个模型,该模型预测精度高两个细胞系之间的显著表达差异,使用表观遗传编码的数据项目。我们的分析提供证据退化表观遗传代码,涉及多个基因的区域。特别是,信号变化在第一个外显子,1基因内区,下游的聚腺苷酸化现场发现将强烈与表达调控。我们的分析也显示不同的表观遗传代码intron-less和intron-containing基因。我们的工作提供了一个通用的方法来做综合分析细胞表观遗传差异的条件下,可以应用于其他的研究,如细胞分化或致癌作用。

1。介绍

DNA与组蛋白蛋白质协会遵循染色质(1]。组蛋白通常携带转录后的修改在细胞能够调节基因的表达2,3]。例如,有一个全基因组之间的关系3组蛋白赖氨酸36 trimethylation (H3K36me3)和转录活动4,5]。这和其他表观遗传修饰是细胞分化的关键(6)及其变化相关细胞转换在肿瘤的早期阶段7,8]。组蛋白修饰的组合,可以有合作或反对对染色质状态的影响,提出了反映一组代码,确定基因表达和细胞状态的规定(9]。高通量测序(高温超导)技术提供了一个非常有效的方法来获取信息的组蛋白修饰模式在基因组广泛10]。努力整合可用的全基因组数据集对染色质在不同条件下对改善我们的理解是至关重要的表观遗传学在基因调控的作用。

最近的出版物取得了进展的定义组蛋白编码基因表达的转录活动的生成预测模型基于组蛋白标记信息(11- - - - - -17]。他们提供见解的可能机制监管和假定的一个正式的描述代码组蛋白(18,19]。这些方法通常与组蛋白信号从实验中获得的染色质免疫沉淀反应紧随其后的是高温超导(ChIP-Seq) [20.),基于表达式的读出基因表达微阵列或高温超导mrna (RNA-Seq) [21]。在这些方法中,染色质信号通常是代表read-counts或峰值意义有时在启动子和基因的基因。然而,这种分析一般是基于一个条件或细胞系。也就是说,它们有效地比较不同基因的特性在一个直接的方式,依靠的前提下信号在两个不同的基因应该是可比的,和他们的预测模型的准确性将依赖于估计的准确性的意义ChIP-Seq信号。然而,基因存在许多变量属性,如内含子或发起人CpG岛的存在,可能会影响这些测量。例如,最近的实验表明,拼接机械可以招募histone-modifying酶和影响染色质状态,结果与内含子的基因往往有较高的H3K36me3信号(22]。因此,比较有和没有内含子的基因却并非易事。此外,各种其他因素可能会影响当地的高温超导信号密度(23]。例如,标签的数量从一个高温超导实验将受到剪切的DNA和染色质结构的影响(24- - - - - -26),不是所有的地区都有相同的mappability [27),通常会有读[GC的偏见28]。这些问题将反思覆盖地区之间的差异,将更加加剧了广泛的信号,获得了组蛋白ChIP-Seq实验。控制样品可以一定程度上缓解这个问题,但他们的有效性很大程度上取决于测序深度。因此,高温超导来自两个基因信号不具有直接可比性。

在这里,我们提出一个新的方法来测量表观遗传信号和与他们表达基于两个条件之间的比较。在我们的方法中,同一基因位点之间的比较两个条件;因此,预测模型描述了改变基因表达的表观遗传标记密度相对变化之间的两个条件或细胞类型。这些变化的意义计算考虑到阅读密度,从而减轻前面提到的干扰。此外,不同于以往的方法,从细胞系(由后生成对比较的数据17),我们的方法把连续的表观遗传变化信号密度,而不是一个断续状态描述。此外,我们的框架提供了更大的灵活性比先前的方法计算预测模型的生成。

为了说明我们的方法,我们建立了一个模型的表达调控使用来自各种编码的数据从表观遗传变异细胞系(29日]。为了延长这个关系,我们包括额外的表观遗传数据不考虑以前,即高温超导DNase我过敏的网站(DNase-Seq) [30.)和DNA甲基化数据(31日]。我们的结果显示一个不同的表观遗传代码表达式intron-less和intron-containing基因,这种差异更加突出在GC含量较低的基因在转录起始站点。此外,消除反义转录和重叠的推动者和尾巴从不同的基因,也没有做过,预测精度大大提高。此外,预测模型由一对细胞系与高精度执行不同的一对。最后,我们能够生成表达式的最小代码监管两个细胞系,是通用的足够的正确预测70%的监管结果记录从一个不同的细胞系。

2。材料和方法

2.1。基因组注释

对于我们的分析,我们使用基因集GENCODE注释(7日发布的ftp://ftp.sanger.ac.uk/pub/gencode/release_7/gencode.v7.annotation.gtf.gz),它是基于装配GRCh37 (hg19)和包含在运用释放62 (32]。所有记录在每个基因位点和基因编码区域定义为,我们名字转录位点,最初被认为是。这些转录位点的染色体M和生物型假基因被分析。

我们分开转录位点分成四组;根据他们是否intron-containing (IC)或intron-less (IL),根据他们是否有一个启动子高CpG (HCG)或低CpG (LCG)内容。我们分类记录HCG如果4 kb的地区集中在转录起始站点(TSS)重叠至少200个基点CpG岛,和LCG否则。CpG岛注释从UCSC的表获得浏览器(hg19) [33]。为了获得平衡训练和测试集,同等数量的-(上)和(Dw)监管记录是从每个四组选出来的。这些团体被尽可能大,但这样价值意义(Benjamini-Hochberg纠正)表达的改变对于每个记录是小于0.05。此外,相同数量的监管的(Nr)记录被选中。这些定义最高值和充分的表达,即读取的密度以RPKM(每千碱基读取每百万映射读取)中定义的(21)是大于1的细胞系的一对。这样,我们获得了四个不同(表1)。作为我们分析的一部分,我们也过滤重叠转录位点,使模糊的任务是正确的表达变化。我们删除了两股位点有下列配置时(补充图1中,可用http://dx.doi.org/10.1155/2012/284786):(我)转录位点重叠在相反的链,(2)转录位点的发起人(2 kb)重叠在相反的链,(3)转录位点的尾巴(2 kb)重叠相反的链(iv)与重叠的启动子转录位点(2 kb)和尾巴(2 kb)在同一链,(v)重叠的转录位点在同一链,而是来自不同的基因。


Transcript-loci集	描述	对所有	一对1-filtered	一对改写为	一对2-filtered

标准的集成电路	高CG启动子和intron-containing	6510年	1959年	2964年	792年
人类绒毛膜促性腺IL	高CG启动子和intron-less	105年	27	24	12
LCG集成电路	低CG启动子和intron-containing	6705年	1767年	1980年	585年
LCG IL	低CG启动子和intron-less	84年	30.	15	15

2.2。数据集

我们下载ChIP-Seq数据RNA聚合酶II (RNAPII) CCCTC-binding因素(CTCF)和各种组蛋白标记(表2DNase我过敏的网站),数据(DNase-Seq),甲基化数据从减少表示酸性亚硫酸盐测序(Methyl-RRBS)和RNA-Seq编码的数据项目(http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/)四个细胞系:慢性粒细胞性白血病线(K562) lymphoblastoid线(GM12878),人类乳腺上皮线(HMEC)和肌肉成肌细胞线(软件、表2)。我们认为两双比较,P1: K562和GM12878和P2:软件与HMEC。为了进一步验证这些结果,我们也会考虑第三个比较,K562和软件,P3。我们选择这四个细胞系中可用的实验,除了RNAPII,只能在两个选定的细胞系。所有数据集,我们只用读,不包含任何未经邀请的基地(N)。此外,ChIP-Seq和DNase-Seq读,我们只有读取映射质量大于30。Methyl-RRBS数据过滤申请的职位由至少10读取。的意思是甲基化区域被定义为甲基化网站的总数的比例对网站在这一地区。此外,我们获得了RPKMs RNA-Seq数据对个人直接从编码转录位点公共数据集(http://hgdownload-test.cse.ucsc.edu/goldenPath/hg19/encodeDCC//wgEncodeCshlLongRnaSeq/releaseLatest/)。


因素/马克	对1		对2
	细胞系		细胞系
	K562	GM12878	软件还	HMEC

CTCF	广泛的	广泛的	广泛的	广泛的
H3K27ac	广泛的	广泛的	广泛的	广泛的
H3K27me3	广泛的	广泛的	广泛的	广泛的
H3K36me3	广泛的	广泛的	广泛的	广泛的
H3K4me1	广泛的	广泛的	广泛的	广泛的
H3K4me2	广泛的	广泛的	广泛的	广泛的
H3K4me3	广泛的	广泛的	广泛的	广泛的
H3K9ac	广泛的	广泛的	广泛的	广泛的
H4K20me1	广泛的	广泛的	广泛的	广泛的
RNAPII	UT-A	UT-A	- - - - - -	- - - - - -
DNase-Seq	威斯康辛大学	威斯康辛大学	威斯康辛大学	威斯康辛大学
Methyl-RRBS	哈	哈	哈	哈
RNA-Seq	3	3	3	3

表2

编码数据集和细胞株用于分析:ChIP-Seq数据RNA聚合酶II (RNAPII) CTCF和各种组蛋白标记,数据DNase我过敏的网站(DNase-Seq),甲基化数据从减少表示酸性亚硫酸盐测序(methyl-RRBS)和测序的聚(+完整的细胞RNA (RNA-Seq)。HMEC和HSMM细胞RNAPII ChIP-Seq数据是我们分析时不可用。数据集生成广泛研究所(广泛),冷泉港实验室(3),华盛顿大学(UW)、德克萨斯大学奥斯汀分校(UT-A)和哈森阿尔法(HA)。

为每个记录轨迹为我们分析我们认为,许多地区与其exon-intron相关(表结构3)。随后,为这些地区的每一个和每个实验数据集分数之间的浓缩计算两个细胞系使用Pyicos [34]。计算是基于2副本在一个条件(K562或软件)和1副本(GM12878或HMEC)在其他条件。此外,pseudocounts和RPKM正常化(细节补充材料)。这些分数构成的属性集是用于机器学习(ML)分析和对应于每一对region-experiment。作为对照,随机属性为每个区域生成了随机抽样为该地区类型得分来自所有属性的值。


类型	地区	描述

	子2 kb	地区开始2 kb上游的转录起始站点(TSS)和结束前1 bp TSS;
	子5 kb	上游地区开始5 kb TSS和结束前1 bp TSS;
固定长度的区域	TSS±2 kb	地区开始2 kb TSS的上游和下游结束2 kb
固定长度的区域	TSS±5 kb	上游地区开始5 kb TSS和结束5 kb下游
	pA±2 kb	地区开始2 kb上游下游的pA和结束2 kb
	尾巴	地区开始1 bp pA和结束后下游2 kb

	第一外显子	相应区域的第一外显子记录轨迹
	第一个内含子	区域对应于第一个内含子的轨迹记录
	GB	基因体,地区之间的TSS和poly-adenylation站点(pA)的注释记录轨迹
变长区域	GB3′党卫军	地区前3′之间的剪切位点和注释记录轨迹的pA
	GB±1 kb	基因的身体额外的1 kb -和下游延伸
	GB±5 kb	基因的身体额外5 kb -和下游延伸
	GB + 5 kb	基因的身体额外的5 kb pA的下游延伸

除非另有说明,模型的精度测量计算的平均接受者操作特征(ROC)曲线下面积(AUC) crossvalidation的10倍。ROC曲线与真阳性的比率(TPs)和假阳性(FPs)产生的模型。ROC曲线描述的更大的面积(AUC)更好的整体模型的准确性。AUC = 1表示模型,预测正确没有假阳性,所有真正的情况下,和AUC = 0.5表明,模型等价于随机的。crossvalidation 10倍的数据分成10个子集和10个评价进行迭代,在每个迭代9子集(实例)的9/10用于培训和一个子集进行测试。这种方法可以确保所有实例用于评估和整体精度平均在10迭代,所以它代表的意思是模型的行为。

2.3。读取配置文件在基因的身体

我们计算的平均数量读取来自不同标记基因的身体,通过绘制读取的平均数量在windows(−2000, + 400)和(400−+ 2000)TSS和pA,分别。读取从组蛋白标记、RNAPII CTCF扩展到300个基点的5′,3′方向,而methyl-RRBS数据在两个方向扩展到75个基点。基因考虑概要文件至少400个基点。我们进一步过滤掉假基因,这些基因座互相重叠(见上图),其余的分割成表示(RPKM > 0)和nonexpressed (RPKM = 0)基因,导致到1202年集成电路和1748 IL表达基因,和1385年集成电路和746年IL nonexpressed基因。补充2图2 (A)和(B)显示IC的概要文件和IL基因,而伪基因补充图2 (C)所示。假基因也被过滤为重叠的位点和基因长度短于400个基点之前他们分成2277集成电路和3564 IL伪基因。

3所示。结果与讨论

3.1。一个综合表观遗传研究的框架

计算框架解决三个基本任务的过程中获取知识:数据挖掘,数据操作和数据分析,它包括以下步骤:(i)分析管道系统地识别表达式和表观遗传的改变两个条件之间的信号在多个基因组区域,(2)一个自动的方式将结果存储在Biomart系统(34),以方便查询和过滤和(3)连接到应用程序WEKA [35),允许应用程序的机器学习(ML)方法建立预测模型的基因调控。

为了与表观遗传信号表达式规定,我们的方法措施两个条件之间的信号变化而不是信号电平在一个单一的条件。使用此方法,相对变化相关的表观遗传状态可以彼此或相对变化的表达式。通过考虑相对信号变化,从高温超导偏见减轻。为了验证这一点,我们检查是否选择根据RPKM密度或重要区域分数从我们的方法将由GC有偏见的内容。因此,我们认为10%的基因的H3K4me3 RPKM (K562)基因体内,发现0.34与GC的斯皮尔曼相关内容。然而,选择根据绝对10%的基因H3K4me3评分,比较K562和GM12878,导致与GC含量无相关性(枪兵0.02)。因此,RPKM值相关的基因表达可能为假阳性结果由于GC的偏见。当我们重复相同的计算4 kb的地区集中在TSS,没有两个措施,RPKMs或分数,显示GC偏见(相关系数−0.02和0.05,分别地)。作为H3K4me3主要分布在TSS [10),在这种情况下我们推断出真实信号掩盖了偏见,在基因的身体,没有H3K4me3存在强烈的信号,信号偏差占主导地位。

我们开发了一个自动管道,给定一组的地区和许多高通量测序(高温超导)数据集的两个条件,可以系统地计算每个区域的log-rate变化及其意义的分数(细节在补充文件)。使用的数据集是通过Biomart数据库访问http://regulatorygenomics.upf.edu/group/pages/software/。我们已经修改Biomart数据集也可以导出为飞机救援消防(attribute-relation文件格式),可以直接上传到WEKA系统(35),一组开源数据挖掘任务的机器学习算法,GNU通用公共许可证下发布的。因此我们的系统提供的可能性,使用自定义的数据训练模型和评估不同的ML算法研究的基因调控机制。

为了说明我们的框架分析的潜在高通量测序(高温超导)编码的数据29日(部分2)。我们开始通过系统计算细胞系之间的变化对P1 (K562和GM12878)和一对P2(软件与HMEC)对所有实验在不同的地区相关转录位点(表3)。大多数最近开发了预测方法的使用信号在基因的启动子区域或一个窗口在转录启动网站(TSS)。我们还包括基因的身体,最近的证据表明,信号在这一地区也会信息(36]。除了启动子、TSS和基因体区域,我们也包括第一外显子区域,第一内含子和基因体第一内含子的下游,这已被证明含有相关染色质转录监管签名(22,37,38,没有使用过的预测模型。我们进一步考虑额外的窗口和超越poly-adenylation网站(pA),导致共13个不同区域(表3,图1)。因此,两双的细胞系P1和P2,我们总共13×12 = 156和13×11 = 143 (RNAPII没有可供P2)属性/记录轨迹,分别定义的每个属性在哪里浓缩的得分值两者之间为一对region-experiment细胞系。

作为分类值,我们使用从RNA-Seq表达信息编码的实验对应的细胞系。对于每一对细胞系,我们计算了成绩单和显著增加()或减少(Dw)的表达式。为了建立一个预测模型的表达式,可以区分类型的规定(或Dw)和没有改变,我们也认为监管的成绩单(Nr),定义为有足够的表达水平和表达之间无显著变化同一双细胞系(部分2)。

最近的研究表明,内含子可能会影响基因的转录调控22,38]。因此,我们分开记录集根据他们是否intron-containing (IC)或intron-less (IL)。此外,几项研究已经强调,人类发起人提出不同的规定根据他们的重心内容(39- - - - - -41]。因此,我们进一步将集根据是否4 kb地区集中在TSS CpG岛不重叠,导致CpG含量高(HCG)或低CpG (LCG)集(部分内容2)。最后,为了有一个平衡的设置进行训练和测试,我们选择从每个类型相同数量的记录为每一个管理类(表1)。

3.2。一个通用的基因表达调控的表观遗传代码

使用数据集处理如上所述,我们构建了一个高度精确的和通用的预测模型基于表观遗传的基因表达改变的数据。我们尝试各种毫升模型预测的三种可能的类,(),(Dw),和监管的(Nr),我们决定使用一个随机森林模型(42),因为它显示最佳的性能使用10倍crossvalidation(数据没有显示)。表4显示了该模型的精度测试intron-containing集各种培训条件。值得注意的是,我们得到一个更高的准确性LCG比标准的集合(表4)。顺便说一句,CpG-related基因经常看家基因(43],这是之前指出的预测模型对每组进行不同的原因(44]。根据这个,LCG成绩单应该更经常与微分表达相关基因(或Dw)。这是确认在我们的分析中,我们发现,性能总是和Dw位点的预测高于监管的成绩单(表4)。intron-less (IL)位点,我们发现相反的行为,也就是说,HCG-IL精度高于LCG-IL(补充表1)。

(一)在过滤


属性	HCG-IC				LCG-IC
属性	向上	Dw	Nr	平均	向上	Dw	Nr	平均

P1 (RNAPII)	0.8	0.79	0.74	0.78	0.82	0.87	0.78	0.83
P1	0.79	0.79	0.74	0.77	0.83	0.86	0.76	0.82
P1 (CFS)	0.8	0.79	0.74	0.78	0.82	0.86	0.76	0.81

P2	0.85	0.83	0.81	0.83	0.9	0.88	0.83	0.87
P2 (CFS-P1)	0.85	0.83	0.8	0.83	0.9	0.88	0.83	0.87
P1-on-P2	0.83	0.77	0.63	0.74	0.88	0.83	0.71	0.81
P1 (CFS)在p2	0.83	0.8	0.57	0.73	0.88	0.84	0.74	0.82

(b)后过滤


属性	HCG-IC				LCG-IC
属性	向上	Dw	Nr	平均	向上	Dw	Nr	平均

P1 (RNAPII)	0.79	0.84	0.76	0.8	0.85	0.9	0.81	0.86
P1	0.79	0.82	0.75	0.79	0.86	0.89	0.76	0.84
P1 (CFS)	0.79	0.81	0.73	0.78	0.84	0.9	0.77	0.84

P2	0.89	0.88	0.85	0.87	0.92	0.91	0.85	0.89
P2 (CFS-P1)	0.87	0.87	0.84	0.86	0.92	0.92	0.86	0.9
P1-on-P2	0.89	0.87	0.7	0.82	0.92	0.89	0.79	0.87
P1 (CFS)在p2	0.85	0.82	0.68	0.78	0.91	0.89	0.81	0.87

表4

我们展示的准确性的ROC曲线下的面积(AUC) 10倍交叉验证各种IC记录集的训练条件。结果之前的所有转录位点所示(a)和(b)过滤后重叠相反链和重叠的推动者和尾巴(部分2)。P1 (RNAPII)有额外的RNAPII属性,对应于一对P1, P2 + RNAPII相同的属性。P1和P2表示每个细胞株的模型对所有的属性。P1 (CFS)和P2 (CFS)表示P1和P2的模型,分别使用的属性在哪里那些得分80或更高(最高100)使用CFS P1和P2的独立属性选择方法。P2 (CFS-P1)表明,模型训练使用数据从P2但属性选择使用CFS P1。P1-on-P2表明,模型训练与P1和所有属性和测试对P2。P1 (CFS)在P2表明,模型训练与对P1只有选定的属性和测试对P2。

有趣的是,训练一个模型(表的第一对4(一)P1 (RNAPII))或没有RNAPII数据(表4(a), P1)收益率非常相似的精度对所有集,这表明RNAPII所提供的资料与组蛋白预测数据是冗余的。的确,看的都是两两相关性P1,按区域和记录集(图分开2补充图3),我们观察的高度相关分数与其他大多数RNAPII信号(H3K36me3、DNase-Seq CTCF、H3K4me2 H3K9ac, H3K27ac,和H3K4me3)。

(一)

(b)

图2

两两相关性标志和表达基因的身体的变化。热图显示调节基因的筛选intron-containing (IC)设置为低(LCG) (a)、高(HCG) (b) CpG推动者。颜色代表的价值之间的皮尔逊相关系数zscores每条属性。两个面板使用相同的规模,上面显示。表达式(RNA-Seq),和Dw的z分数转录位点被用来计算相关性。

目标是获得一个最小集合的属性能够达到较高的预测精度,我们应用correlation-based特征选择(CFS) (45]。这种方法是通过迭代测试属性的子集,留住那些优秀与类的值(Dw,或Nr)和删除那些高冗余。通过这种方式,最小的一组nonredundant属性选择和最优性能。我们应用CFS的数据对细胞系和选择属性,选择在至少80%的验证(表4(一)、P1 (CFS)和P2 (CFS))。有趣的是,慢性疲劳综合症提供属性相关的所有地区(补充表2 (A)),这表明组蛋白标记在所有地区的记录轨迹可能相关的监管。此外,预测精度并没有受到影响,而该模型简化通过删除冗余属性(表4(一)、P1 (CFS))。

,目的是获得一个通用的表达调控表观遗传代码,我们决定把从P1与属性获得一双第二细胞系(P2)。虽然CFS应用两双,P1和P2,收益率一组不同的最优属性,他们之间只有在26%和50%之间的巧合(补充表2),模型建立在P2的属性选择从P1显示精度高,与原始模型在P1(表4(一)P2 (CFS-P1))。定性,属性相关的一对细胞系似乎也为另一个有关。

测试模型的通用性也在定量方面,也就是说,实际的数值模型,我们应用直接在P2的模型建立。然而,这个测试在对没有实现精度高达(表之前4(一)、P1-on-P2和P1 (CFS)在p2)。我们假设在测试精度的降低可能是由于对不同的细胞系的同质性,这将产生一个变量的信号模式。另外,这种再现性的缺乏可能源于基因的重叠的身体,发起人或背面从不同的基因转录位点,尤其是在反链,这将使模棱两可的表观遗传信号变化的关联到一个特定的表达变化。因此,我们从训练集删除这些转录位点信号在一个地区不能明确分配(部分2补充图1),从而产生过滤集训练和测试(表1)。有趣的是,在去除这些情况下,我们观察一个一致的增加预测的准确性在所有组(表4(b)), 60 - 78%的情况下正确地分类(表5)。


属性	转录位点组	实例的总	正确分类的实例

P1 (CSF)	LCG-IC	1767年	1185例(67.06%)
P1 (CSF)	HCG-IC	1959年	1182例(60.34%)
P2 (CSF-P1)	LCG-IC	585年	454例(77.60%)
P2 (CSF-P1)	HCG-IC	792年	577例(72.85%)
P1 (CSF)在p2	LCG-IC	585年	410例(70.09%)
P1 (CSF)在p2	HCG-IC	792年	445例(56.19%)

表5

正确分类的实例在每个记录的子集。集过滤,以避免重叠基因的身体,发起人或背面从不同的基因转录位点相同或相反的链(部分2)。属性选择已经应用于每一对:P1 (CFS)和P2 (CFS),为每个intron-containing位点的子集,高(HCG)或低(LCG) CG内容启动子。属性集对应的表4(b): P1为P1 (CFS)表示模型,使用的属性在哪里那些得分80或更高(最高100)使用CFS属性选择方法。P2 (CFS-P1)表明,模型训练使用数据从P2但属性选择使用CFS P1。P1 (CFS)在P2表明,模型训练与对P1只有选定的属性和测试对P2。

为了进一步证实了我们的结论,我们认为第三种配对比较:K562和软件或一对3 (P3)。补充表3表明,精度为P3在P1和P2类似,LCG位点与精度高,发现其他对。和之前一样,AUC增加当位点过滤(部分2)。此外,如图所示为P1和P2之前,过滤后,模型训练P1应用P3时给了类似的预测精度。

尽管模型的一致性,仍有一小部分错误分类的实例,即假阳性。要理解为什么这些实例不能被正确分类,我们检查了分数分布对应的最佳分离属性,并在LCG-IC和HCG-IC监管的基因。补充图4显示的分布分数为每个类的假阳性,,Dw,或Nr,显示彼此之间几乎没有差异,而不是真正的阳性,显示一个明确的分离。因此,有一个子集的位点的变化研究是不足以解释表达的变化。

我们进一步探讨信号在一个地区是否足以预测表达式的结果。为每个地区,因此,我们选择的公共属性对P1和P2与CFS得分≥80%(补充表4)。有趣的是,标志着选择一个地区给出预测精度与属性与获得所有地区(补充表5),最高精度是通过使用基因机构±5 kb,这并不奇怪,因为它与其他地区。有趣的是,2 kb地区下游的pA具有较高的预测能力,达到0.89的AUC调节IC-LCG成绩单H3K27me3和H3K36me3只基于信号。值得注意的是,在该地区一个马克pA±2 kb足以预测调节基因与高精度(AUC = 0.85和0.81在IC-LCG IC-HCG成绩单、职责)。这是符合H3K36me3发现以前在一个地区的浓缩在pA活性基因(10]。如前所述,模型实现更高的auc LCGs比人类绒毛膜促性腺。

3.3。的相对贡献是表观遗传代码

,目的是找到最相关的属性,确定表达式的规定,我们计算信息增益(IG) [46)的所有属性子集HCG-IC和LCG-IC对P1过滤和过滤集(表1)。搞笑的价值越高,属性越好可以区分三个类:,Dw,和Nr。作为一个控制,我们为每个区域生成的随机属性,通过随机抽样分数来自所有属性的值。在图3我们补充图5显示属性等级的搞笑在每个地区。虽然排名前后过滤转录位点非常相似,我们发现一个总体增加搞笑值,表明过滤步骤提高监管代码的特异性。我们发现对于所有子集,H3K36me3是最有益的属性在pA网站和体内基因相关的区域,而H3K27ac和H3K9ac启动子中最丰富地区,它同意先前的分析(47]。这两个乙酰化标志实际上是最有益的标志在启动子,在TSS和1内含子和外显子1的地区。有趣的是,H3K36me3更有意义的比第一外显子1基因内区,最近同意结果有关H3K36me3第一内含子的剪接(22]。尽管甲基化数据显示与启动子的表达变化anticorrelation HCG位点(补充图6),我们观察到一个温和的贡献体内基因表达调控(数字2和3)。

(一)

(b)

(c)

(d)

图3

2 信息增益的属性值测量基因体intron-containing (IC)转录位点比较滤波前后根据重叠与成绩单从不同基因位点(部分)。数据显示高(HCG)和低(LCG) CpG推动者。生成的随机抽样随机属性得分值在给定地区的所有属性都显示为一个控制。

虽然搞笑值确定属性分离了三套,,Dw, Nr,我们期望属性,最直接与表情变化应该显示没有变化的Nr集。也就是说,我们应该期望浓缩Nr的分数应该分布在零附近。因此,我们定义一个属性最优如果Nr分布的中值的绝对值小于0.1和搞笑大于0.05。如果不止一个属性完成这些阈值,我们认为最高的搞笑的价值。有趣的是,这一分析表明,最优属性H3K36me3和H3K4me3对应于第一内含子和外显子1(图4),这可能与他们的角色在拼接之间的耦合和转录22,38]。此外,H3K9ac和H3K27ac最优属性TSS-5 kb和Promoter-5 kb区域,分别。DNase-Seq提出最优分布在第一个外显子,而CTCF和H3K4me2悬颅kb地区是最好的。

(一)

(b)

(c)

(d)

(e)

(f)

(g)

(h)

图4

的分布分数,(),(Dw),和非(Nr)监管的最优属性为每个基因实验,计算信息增益最大化和最小化的中值的绝对值分数分布的Nr子集。的设在显示了分数对应属性的浓缩。这些分布对应的集合LCG-IC Pair1位点。

我们没有为RNAPII找到一个最优的属性。虽然基因体的属性为Nr分布和最大最小值搞笑(补充图7 (A)),它显示了一个浓缩Nr的子集,这可能是由于过量的RNAPII读入一个细胞系(补充图7 (B))。我们还没有找到最优属性Methyl-RRBS, H3K4me1, H4K20me1。Methyl-RRBS,这可能是由于大部分网站读取但没有甲基化的证据(数据没有显示)。最丰富的地区以最小值对Nr H3K4me1表明一个浓缩在GB±5 kb但Dw的分布和Nr集中在零,表明一个不对称转录激活。尽管H4K20me1相关沉默染色质(48),最丰富的属性显示几乎没有区别,Dw, Nr子集。没有最优属性H3K4me1 GB±5 kb和H4K20me1在第一外显子可能是由于一个相对于GM12878读入K562分配不均,这对H3K27me3不发生。最后,尽管我们无法找到一个最优属性H3K27me3,外显子1的分数分布结果到一个明显的趋势,同意H3K27me3 anticorrelation和表达式(图4),尽管低搞笑(0.03):基因显示几乎没有变化,而Dw基因显示最大的铀浓缩,可能表明有一个不对称的模式这对沉默组蛋白标记。

3.4。内含子在表观遗传代码的效果

一些特定的组蛋白相关修改已经cotranscriptional内含子的剪接22,38]。因此,我们推测,应该有相关的不同的组蛋白修饰之间的集成电路和IL位点。我们因此而intron-containing之间最有益的属性(IC)和intron-less (IL)位点(图5和补充图8)。有许多比IL位点IC,我们选择一个子集的位点相同大小的IC IL和比较了IG固定长度的值属性相关区域(表3)。人类绒毛膜促性腺位点,尽管我们发现当我们排名几乎没有差异的属性根据搞笑,有一个搞笑的整体减少IL基因值。引人注目的是,我们发现LCG位点IG变得非常小的属性。例如,在启动子区域,大部分的属性信息为LCG-IC位点LCG-IL根本不贡献;H3K36me3,被认为是最相关的下游TSS, H3K4me1,这不是一般关联到一个活跃的TSS,成为LCG-IL位点信息最丰富的属性。同样,在尾部区域的大部分属性信息LCG-IC位点不贡献LCG-IL位点,搞笑值很低的地方。相比之下,尾部区域的行为更类似HCG-IC HCG-IL,排名和搞笑的价值。进一步探索监管IC和IL基因之间的差异,我们计算的资料读取过滤记录为每一个标记位点(部分2)。资料显示出较大的差异表达和nonexpressed IC基因(补充图2 (A))和确认的一些已经建立的位置是相对于位点。我们也观察到的一个显著区别H3K36me3读密度在pA基因表达与nonexpressed IC,具有更高密度表达基因。然而,对于IL基因,信号弱得多。这可能是由于这样的事实:单外显子基因往往发生在家庭;因此,阅读mappability可能是一个问题。然而,只有2%的低mappability IL基因重叠区域,作为分类的UCSC基因组浏览器。尽管如此,我们仍然观察和nonexpressed IL基因表达差异(补充图2 (B))。DNA甲基化,我们观察到更高密度的上游nonexpressed表达IL基因相比,符合早期的发现(7,49]。然而,我们很难看到IC DNA甲基化的差异基因,这似乎是一般低甲基化上游下游TSS和甲基化的。假基因的概要文件,已被排除在研究表达式的代码,也补充图2所示(C)。有趣的是,尽管IC伪基因的报道读起来要低的多,他们有类似的概要文件过滤IC基因,除了转录相关信号:H3K4me1, RNAPII H3K36me3,显示几乎没有信号,表明几乎没有转录。

(一)

(b)

(c)

(d)

4所示。结论

表观遗传学当前的挑战是如何从大量数据中提取生物知识与新的高通量技术生产。综合工具和机器学习(ML)算法这一目标的关键。在本文中,我们已经描述了一个新颖的计算框架集成的高通量测序(高温超导)表观遗传数据,促进了基因调控的定量模型的生成和测试。我们的方法提出了一种新的方式与表观遗传信号表达式使用两个条件之间的比较相同的轨迹,而不是相互比较基因座在一个条件,可以受到各种各样的偏见的影响。三个小说方面的方法论,它认为连续值(1)表观遗传的变化信号,(2)探讨了浓缩的信号在多个地区和(3)它可以应用于任何高温超导数据类型在两个条件。

我们展示了这种方法的有效性,通过建立预测模型基于表观遗传信息的基因表达调控两个细胞系的项目编码。处理过的数据用于构建模型本文可以作为Biomart数据库http://regulatorygenomics.upf.edu/group/pages/software/我们的定量模型可以预测一个基因是否显示表达差异(向上或向下)或两个细胞系之间没有区别。相关的属性和每个模型的精度变化根据转录位点是否有高CpG-content发起人(HCG) (LCG)和是否内含子(IC) (IL)。这些差异表明,组蛋白信号非常异类和监管强烈取决于实际的启动子和基因结构的性质。我们的分析也表明组蛋白的高冗余的代码,从不同地区不同组的属性可以解释同样数量的监管活动。

此外,我们考虑一个事实很大程度上忽略了在以前的出版物,即相当数量的基因位点相互重叠(50在启动子和尾部区域),或在他们的基因的身体,在相同或相反的链。因此,先前的模型基于组蛋白标记的表达这种混杂效应,自strand-less ChIP-Seq信号不能明确相关的规定一个特定的基因。有趣的是,当我们删除这些重叠基因,大大提高预测精度和预测模型由一对细胞系与高精度执行第二条不同的细胞系。我们得出结论,移除这些重叠基因座允许我们建立一个更一般的表达调控的表观遗传代码。这是我们的分析进一步证实了信息增益(IG),这表明,属性可以独立更好的重叠后的三个监管类位点移除。值得注意的是,这种过滤不改变搞笑的排名值,因此虽然我们提高组蛋白的定量描述代码,不改变定性的描述。IG分析证实了一些组蛋白标记的角色,像H3K9ac H3K27ac,在启动子和转录启动网站像之前描述的那样表达调控的文学;并揭示新的地区,像第一内含子H3K36me3, H3K4me3第一外显子,和下游H3K36me3聚腺苷酸化网站的,这些标记将强烈与表达调控的变化。这些标记的作用在第一个外显子和内含子表示一般的拼接之间的耦合作用和转录,在最近的文献中所示。在这个方向,我们也探讨了模式之间的表观遗传变化intron-containing (IC)和intron-less (IL)位点,发现IC位点含有更多的表观遗传信息,因此可以更好的特点。 These differences are more remarkable between high (HCG) and low CpG promoters (LCG), which suggest that the type of promoter might influence the epigenetic changes that take place in cotranscriptional splicing [22]。或者,这可能表明,这些位点有不同的监管模式,可能由其他标记没有被认为是在这个研究。

表观遗传信号分析在这项研究提供了一个强有力的预测表达式监管权力。然而,仍然有一部分基因的表达变化无法解释的变化研究了信号。在任何情况下,协会发现并不一定意味着因果关系或直接效应的功能,作为一个特定组蛋白标记的作用可能依赖于上下文,可能发生在其他因素的作用。尽管如此,描述的模型反映了复杂的基因调控网络,并提供一些通用功能的网络。我们的方法提供了一个有效的方法将连续变化的表观遗传信号在不同的条件。将这种方法应用于数据集与更多的组蛋白修饰和转录因子将有助于进一步扩大和描述复杂的监管网络。特别是,我们的方法的应用不同的发展阶段,疾病,或治疗,将有助于揭示负责细胞分化和致癌作用的表观遗传机制。

确认

作者要感谢胡安Gonzalez-Vallinas Eneritz Agirre,尼古拉•Bellora Joao Curado, Alba Jene有用的讨论和朱利安编码数据支持拉加德。这项工作是bio2011赠款支持从00080 - 23920和csd2009 -西班牙科技部的桑德拉·伊瓦拉的基础。美国Althammer被一个FI拨款支持Generalitat de加泰罗尼亚。

补充材料

辅料包含情节相关的所有属性,地区和组基因,所描述的文本,提供详尽的信息和补充的主要文本。特别是,它包括不同的标志基因的阅读资料集,两两相关性标志的所有地区和基因集,z分数分布信息和欠属性不包括在主要的文本,所有区域的属性信息增益值删除前后重叠基因,信息增益值比较intron-less和introncontaining基因考虑地区之间,评价预测的准确性intron-less基因,详尽的清单的信息特征从不同的训练集,获得信息最丰富的属性列表中每个基因的区域和准确性达到使用这些,和Pyicos命令行用来执行分析。

补充材料

引用

r·d·科恩伯格和j·o·托马斯,“染色质结构:组蛋白的寡聚物,”科学,卷184,不。4139年,第868 - 865页,1974年。视图:谷歌学术搜索
b·李·m·凯莉和j·l .工人“染色质转录过程中所扮演的角色,”细胞,卷128,不。4、707 - 719年,2007页。视图:出版商的网站|谷歌学术搜索
p . j . Mellor杜德克,d . Clynes”一窥基因调控的表观遗传景观,“当前在遗传学和发展意见,18卷,不。2、116 - 122年,2008页。视图:出版商的网站|谷歌学术搜索
d . k . Pokholok c·t·哈比森s . Levine et al .,“全基因组地图核小体乙酰化和甲基化酵母,”细胞,卷122,不。4、517 - 527年,2005页。视图:出版商的网站|谷歌学术搜索
a . a . Joshi和k . Struhl Eaf3 chromodomain交互与甲基化组蛋白脱乙酰作用H3-K36联系波尔II伸长,”分子细胞,20卷,不。6,971 - 978年,2005页。视图:出版商的网站|谷歌学术搜索
r·李斯特m .裴里荣拉y美国智库et al .,“热点异常外遗传性重组的人类诱导多能干细胞”自然,卷471,不。7336年,第73 - 68页,2011年。视图:出版商的网站|谷歌学术搜索
p . w . l . Ellis Atadja, r·w·约翰斯通“癌症表观遗传学:针对染色质的修改,分子癌症治疗,8卷,不。6,1409 - 1420年,2009页。视图:出版商的网站|谷歌学术搜索
m·巴巴和m . Esteller“DNA甲基化和癌症,”遗传学的发展卷。70年,27-56,2010页。视图:出版商的网站|谷歌学术搜索
t . Jenuwein和c·d·阿莱,”翻译组蛋白密码”科学,卷293,不。5532年,第1080 - 1074页,2001年。视图:出版商的网站|谷歌学术搜索
a . Barski s Cuddapah崔k . et al .,“高分辨率分析的组蛋白甲基化在人类基因组中,“细胞,卷129,不。4、823 - 837年,2007页。视图:出版商的网站|谷歌学术搜索
h, s .朱周,h .雪和j·d·j·汉”推断因果关系在不同的组蛋白修饰和基因表达,“基因组研究,18卷,不。8,1314 - 1324年,2008页。视图:出版商的网站|谷歌学术搜索
g .亲爱的,b . Ren, w . Wang”ChromaSig:概率方法来寻找共同的染色质签名在人类基因组中,“PLoS计算生物学,4卷,不。10篇文章e1000201 2008。视图:出版商的网站|谷歌学术搜索
b . Van Steensel,布伦瑞克,g . j . Filion m . Chen j·g·范·Bemmel和t . Ideker,”贝叶斯网络分析的目标相互作用在染色质,”基因组研究,20卷,不。2、190 - 200年,2010页。视图:出版商的网站|谷歌学术搜索
r . Karlićh·r·钟j . Lasserre k . Vlahoviček和m . Vingron“组蛋白修饰基因表达水平的预测,”美国国家科学院院刊》上的美利坚合众国,卷107,不。7,2926 - 2931年,2010页。视图:出版商的网站|谷歌学术搜索
j·恩斯特·m·凯利斯,“发现和染色质状态的表征系统的人类基因组的注释,“自然生物技术,28卷,不。8,817 - 825年,2010页。视图:出版商的网站|谷歌学术搜索
c . Cheng和m .格斯坦”建模转录因子的相对关系绑定和组蛋白修饰在老鼠胚胎干细胞基因表达水平,”核酸的研究,40卷,不。2、553 - 568年,2012页。视图:谷歌学术搜索
米凯尔森j .恩斯特·Kheradpour t . s . et al .,“染色质状态的映射和分析动力学在9个人类细胞类型,“自然,卷473,不。7345年,43-49,2011页。视图:出版商的网站|谷歌学术搜索
t . Jenuwein和c·d·阿莱,”翻译组蛋白密码”科学,卷293,不。5532年,第1080 - 1074页,2001年。视图:出版商的网站|谷歌学术搜索
b d和c·d·特拉阿莱,“共价组蛋白修饰的语言,”自然,卷403,不。6765年,41 - 45页,2000年。视图:出版商的网站|谷歌学术搜索
g·罗伯逊·m·赫斯特·m·班布里奇et al .,“全基因组的DNA STAT1协会使用染色质免疫沉淀反应和大规模并行测序,”自然方法,4卷,不。8,651 - 657年,2007页。视图:出版商的网站|谷歌学术搜索
a . Mortazavi b·a·威廉姆斯k .麦丘l·谢弗和荒原,“映射和量化RNA-Seq哺乳动物的转录组,”自然方法,5卷,不。7,621 - 628年,2008页。视图:出版商的网站|谷歌学术搜索
s . f . de Almeida a·r·格罗索f·科赫et al .,“拼接提高招聘的甲基转移酶HYPB / Setd2甲基化和组蛋白H3 Lys36,”自然结构和分子生物学18卷,第983 - 977页,2011年。视图:出版商的网站|谷歌学术搜索
M.-S。张,t . a, i Latorre和j . Ahringer”的偏向于高通量测序数据及其校正的珠子,“核酸的研究,39卷,不。15篇文章e103 2011。视图:谷歌学术搜索
l . Teytelman b . Ozaydin o . Zill et al .,“影响染色质结构对基因组DNA的处理分析,“《公共科学图书馆•综合》,4卷,不。8篇文章e6700 2009。视图:出版商的网站|谷歌学术搜索
r·k·奥尔巴赫g . Euskirchen j . Rozowsky et al .,“使用Sono-Seq映射访问的染色质区域,”美国国家科学院院刊》上的美利坚合众国,卷106,不。35岁,14926 - 14931年,2009页。视图:出版商的网站|谷歌学术搜索
p . j .公园“ChIP-seq:成熟技术的优势和挑战,”自然遗传学评论,10卷,不。10日,669 - 680年,2009页。视图:出版商的网站|谷歌学术搜索
j . Rozowsky g . Euskirchen r·k·奥尔巴赫et al .,“PeakSeq使系统的得分ChIP-seq实验相对于控制,”自然生物技术,27卷,不。1,第75 - 66页,2009。视图:出版商的网站|谷歌学术搜索
j . c . Dohm c . Lottaz t . Borodina和h . Himmelbauer“实质性偏差超短读高通量DNA测序的数据集,”核酸Researchearch,36卷,不。16日,e105条,2008年。视图:出版商的网站|谷歌学术搜索
r·m·迈尔斯j . Stamatoyannopoulos m·斯奈德邓纳姆,r . c . Hardison b·e·伯恩斯坦et al .,”一个用户指南DNA序列元素的百科全书(编码),“公共科学图书馆生物学,9卷,不。4篇文章e1001046 2011。视图:谷歌学术搜索
a·p·博伊尔戴维斯,惠普Shulha et al .,“高分辨率映射和描述开放的染色质在整个基因组,”细胞,卷132,不。2、311 - 322年,2008页。视图:出版商的网站|谷歌学术搜索
迈斯纳,a . Gnirke g·w·贝尔,b . Ramsahoye e . s .着陆器和r . Jaenisch”减少表示酸性亚硫酸盐测序比较高分辨率的DNA甲基化分析,“核酸的研究,33卷,不。18日,第5877 - 5868页,2005年。视图:出版商的网站|谷歌学术搜索
p . Flicek m . r . Amode d·巴雷尔k .比尔布兰特,d . Carvalho-Silva et al .,“运用2012年”核酸的研究40卷,第90 - 84页,2012年。视图:谷歌学术搜索
t·r·Dreszer d . Karolchik a·s·茨威格,a . s . Hinrichs b·j·兰尼和r·m·库恩“UCSC基因组浏览器数据库:扩展和更新2011年”核酸的研究40卷,第923 - 918页,2012年。视图:谷歌学术搜索
a . Kasprzyk“BioMart:驾驶模式生物数据管理的变化,“数据库(牛津)bar049条,卷。2011年,2011年。视图:谷歌学术搜索
e·弗兰克·m·霍尔,l .组织g .福尔摩斯和i . h .威滕,“数据挖掘在生物信息学中使用Weka,”生物信息学,20卷,不。15日,第2481 - 2479页,2004年。视图:出版商的网站|谷歌学术搜索
s . a .黄平君x徐,s . Bekiranov”量化的组蛋白修饰ChIP-seq浓缩为数据挖掘和机器学习应用程序,”BMC研究笔记第288条,卷。4日,2011年。视图:谷歌学术搜索
j·t·赫夫a . m . Plocik c . Guthrie k . r .山本,“互惠intronic和组蛋白的化学修饰的其实地区人类,”自然结构和分子生物学,17卷,不。12日,第1499 - 1495页,2010年。视图:出版商的网站|谷歌学术搜索
r·j·西姆斯三世,s . Millhouse c . f . Chen等人“承认Trimethylated组蛋白H3赖氨酸4促进转录的招聘Postinitiation因素和Pre-mRNA拼接,”分子细胞,28卷,不。4、665 - 676年,2007页。视图:出版商的网站|谷歌学术搜索
p . Carninci a . Sandelin b Lenhard et al .,“全基因组分析哺乳动物启动子的结构和演变,“自然遗传学,38卷,不。6,626 - 635年,2006页。视图:谷歌学术搜索
美国Saxonov、p·伯格和d . l . Brutlag”的全基因组分析CpG二核苷酸在人类基因组中区分两种不同的类型的推动者,”美国国家科学院院刊》上的美利坚合众国,卷103,不。5,1412 - 1417年,2006页。视图:出版商的网站|谷歌学术搜索
e·瓦伦和a . Sandelin”基因组和染色质信号潜在的转录起始点选择,”遗传学趋势,27卷,不。11日,第485 - 475页,2011年。视图:谷歌学术搜索
l . Breiman“随机森林”,机器学习,45卷,不。1,5-32,2001页。视图:出版商的网站|谷歌学术搜索
舒乐问,j . Schug w . p . c . Kappen j . m . Salbaum m . Bucan和c j . Stoeckert”组织特异性启动子特性相关以香农熵来衡量,“基因组生物学》第六卷,没有。4,R33页,2005年。视图:谷歌学术搜索
z张和李奉儒张”,组蛋白修饰概要文件预测组织/微rna和蛋白质编码基因的特异性表达,“BMC生物信息学第155条,卷。12日,2011年。视图:出版商的网站|谷歌学术搜索
m .大厅,机器学习(博士Correlation-based特征选择。论文)怀卡托大学计算机科学系,汉密尔顿,新西兰,1999年。
t·米切尔,机器学习Mc-Graw-Hill公司,有限公司,1997年版。
z . Wang c .藏j·a·罗森菲尔德et al .,”组合的组蛋白乙酰化和甲基化模式在人类基因组中,“自然遗传学,40卷,不。7,897 - 903年,2008页。视图:出版商的网站|谷歌学术搜索
j·k·西姆斯,美国休斯顿,t . Magazinnik和j . c .大米、“trans-tail组蛋白编码定义为monomethylated H4 Lys-20和H3 Lys-9沉默染色质的划定不同的地区,”《生物化学》杂志上,卷281,不。18日,第12766 - 12760页,2006年。视图:出版商的网站|谷歌学术搜索
答:鸟,“DNA甲基化的必需品,”细胞,卷70,不。1,5 - 8,1992页。视图:出版商的网站|谷歌学术搜索
美国片,y Tomaru t Kasukawa et al .,“分子生物学:反义转录在哺乳动物的转录组,“科学,卷309,不。5740年,第1566 - 1564页,2005年。视图:出版商的网站|谷歌学术搜索

国际基因组学杂志

表观遗传重组和细胞分化的控制

文摘

1。介绍

2。材料和方法

2.1。基因组注释

2.2。数据集

2.3。读取配置文件在基因的身体

3所示。结果与讨论

3.1。一个综合表观遗传研究的框架

3.2。一个通用的基因表达调控的表观遗传代码

3.3。的相对贡献是表观遗传代码

3.4。内含子在表观遗传代码的效果

4所示。结论

确认

补充材料

引用

版权

更多相关文章

相关文章