文摘

启动子是一个短DNA序列起始密码子附近,负责启动基因组特定基因的转录。启动子的准确识别具有重要意义对于更好地理解转录调控。因为他们的重要生物转录调控的过程中,迫切需要开发计算机工具来识别启动子及其类型及时和准确。一定数量的预测方法在这方面发展;然而,几乎所有的他们只是用于识别启动子和力量或σ类型。由于塔塔塔塔框地区启动子影响转录后的流程,在当前的研究中,我们开发了一个两层的预测称为iPTT (2 l)新闻网利用卷积神经网络(CNN)确定塔塔和TATA-less推动者。第一层可以用来识别特定DNA序列作为一个启动子或nonpromoter。第二层是用来确定是否塔塔是公认的启动子。的5倍crossvalidation和独立的测试结果表明,所构造的预测是有前途的分类识别启动子和塔塔和TATA-less启动子。此外,使大多数实验科学家更容易得到他们需要的结果,已经建立了一个用户友好的web服务器新闻网http://www.jci-bioinfo.cn/iPPT (2 l)

1。介绍

发起人通常短序列包含转录起始站点(TSS)和一些监管元素,可以决定在何种条件下和特定基因在基因组的转录启动(1]。在这个过程中,塔塔之一独联体代理启动子序列中扮演一个重要的角色在指定在启动子转录起始站点和激活(2]。TATA框是一个短+ T-rich DNA序列,这是守恒的大多数基因的真核生物和古菌。组蛋白和转录因子蛋白可以绑定到塔塔箱核心启动子区域,从而发挥重要作用在预防和促进转录的起始,分别。在体外转录的起始,第一步是转录起始因子结合TATA盒(3,4),而删除TATA框可能导致零个或显著降低转录水平(5]。没有塔塔的盒子可以用异构生成成绩单在低水平5 目的为特征6]。因此,准确的识别启动子在植物基因组和分类类型,特别是对于塔塔和TATA-less推动者,为更好的理解具有重要意义植物基因表达的调控7]。

高通量的进步全基因组测序和积累的启动子序列符合实验导致数据库的出现,如RegulonDB [8],PlantProm [9],DBTSS [10),这可能为训练提供有价值的信息计算识别和分类的预测启动子。

实际上,在过去的几年中,许多这样的计算预测发展(11- - - - - -14]。识别σ54启动子,一个名为“iPro54-PseKNC”的预测15)提出了利用伪k-tuple核苷酸组成(PseKNC)。最近,识别启动子及其六个类型标记不同的σ因子,许多努力。刘等人。16)首先构造iPromoter-2 L基于multiwindow-based PseKNC并获得稳定的预测性能。随后,为了达到一个更好的预测性能,Zhang et al。17融合multifeatures和采用f值特征选择方法提出一个多层计算方法称为相乘。刘和李18)结合了平滑切割窗口算法和序列特性改善预测性能。阿明et al。19)构建一个名叫iPromoter-BnCNN CNN-based分类器结合序列号信息和结构属性。律等。20.]提供了一个两层的预测称为iPro2L-PSTKNC使用位置特定的核苷酸组成,目前实现最佳的预测性能。此外,肖et al。21)构建了一个两层预测iPSW (2 L) -PseKNC识别启动子和他们的力量。乌et al。22)开发了一种预测PromID预测TSS的确切位置在基因组序列检测所有可能的位置。Mishra et al。23)提出了一种新颖的模式称为SEProm预测原核启动子基于DNA的结构和能量。

取得了显著发展启动子识别及其类型分类的重要领域。然而,大多数方法都集中在分类σ推动者,塔塔的分类,TATA-less很少触及的推动者。邹et al。1]提出了基于svm模型通过整合multifeatures包括GC倾斜,当地的文字内容,和DNA预测启动子的两种类型的几何灵活性。此外,拉姆赞•et al。24)建立了一个CNN模型命名CNNprom认识到塔塔和拟南芥的TATA-less推动者。不过,撤出后预测有缺点。(我)不是所有的研究建立了友好和公开可访问web服务器,比如邹等人提出的基于svm模型。1),造成了诸多不便实用对于大多数实验的科学家。(ii)的数据集构建拟南芥的训练模型只包含启动子序列,然而,没有启动子序列的其他植物玉蜀黍等必不可少的主食谷类作物。(3)没有crossspecies分析是实现上述研究。

在最近的研究中,我们致力于克服上述缺点为提高预测能力确定塔塔和TATA-less玉米基因组的推动者。首先,建立了高质量的基准数据集实验证实了。随后,我们分析了植物启动子的序列特征使用卷积神经网络(CNN)和开发的一个两层的预测“iPPT (2 L)新闻网。“第一层可以用来确定给定查询的DNA序列的启动子,而第二个层是用来确定是否属于塔塔或TATA-less识别启动子。然后,crossvalidation测试是用来评估我们的方法。最后,在根据所构造的模型,一个web服务器被称为iPPT (2 L)新闻网成立。

2。材料和方法

2.1。基准数据集

构建一个高质量的基准数据集,我们下载了塔塔和TATA-less启动子序列的玉蜀黍从数据库EPDnew [25),包括真核生物启动子通过实验进行验证。启动子区域已知给定大小的TSS(从-200个基点到+ 50个基点,+ 1是TSS位置)被认为是一种积极的序列。启动子的位置的示意图如图1。251个基点的序列片段从nonpromoter序列随机选择部分负序列。数据集形成积极的和消极的数据集的比例大约是2:1的比例。此外,我们使用了CD-HIT软件(26)的阈值在0.8删除冗余,从而减少同源偏差(27]。因此,最终的基准数据集 可以获得,如下公式所表达的。 在哪里 代表积极组包含8935启动子序列,而 代表消极组由17606 nonpromoter样本。符号 代表欧盟在集合理论。

在情商。1),积极集 可以制定 在哪里 代表了积极的子集包含1559塔塔推动者,而 表示积极的子集组成的7376 TATA-less推动者。

预测模型构建和训练,我们随机选择80%基准的数据作为训练数据集和保持20%,测试数据集来评估该模型。基准数据集从而获得可以从网上下载http://www.jci-bioinfo.cn/iPTT (2 l)新闻网/下载

2.2。核苷酸表示

每个样品中核苷酸序列由一个四维一个炎热的向量表示,这是一个向量[0的一个28]。例如,核苷酸的编码(1,0,0,0);C (0, 1, 0, 0);G (0, 0, 1, 0);和T(0, 0, 0, 1)。因此,每个样本序列可以表示为一个二维向量(251)。

2.3。两层分类框架

使预测方法不仅可用于识别启动子的DNA样本是否还能够识别其类型,我们开发了一个两层的预测。事实上,两层分类框架取得了令人瞩目的成功识别膜蛋白及其类型(29日)以及识别的增强子和他们的力量30.]。此外,最近的发展深度学习,尤其是对CNN,为生物信息学的发展,创造了肥沃的土壤特殊的序列分析(31日- - - - - -38)和生物图像(39]。出于这些成功,我们使用CNN作为分类框架确定启动子及其类型。CNN模型的流程图如图2

我们的架构由两个串联的卷积层。300年第卷积层包含过滤器的过滤器尺寸4。第一次卷积后层,一层max-pooling之后。max-pooling层的输出输入120年第二卷积层包含过滤器的过滤器尺寸4。在第二次卷积层,一层max-pooling之后。第二个max-pooling的输出层连接,夷为平地,并输入两个标准完全连接层,其中包含1280256个神经元ReLU激活函数。完全连接层的输出被送入一个输出层与乙状结肠激活函数提供一个输入序列的预测可能性。

体重衰变和辍学是用来改善我们的模型的泛化能力。体重衰变能有效地限制模型中的自由参数的数量,以避免过度拟合(22]。此外,两个完全连接层中的变量是随机关闭在训练过程概率为0.5。这些参数优化是一个标准的5倍crossvalidation基于数据集的MCC。在我们的模型的具体参数如表所示1

预测从而获得被称为iPTT (2 L)新闻网,“我”代表“识别”,“P”“促进者”,“T”“类型”,“塔塔”的“T”,“2 L”“两层”。第一层是用来预测启动子DNA序列查询样品是否与否,而第2层进一步确定是塔塔和TATA-less公认的启动子。流程图显示在图给出了两层分类器是如何工作的3

2.4。绩效评估

- - - - - -褶皱crossvalidation方法广泛用于评估预期的准确性的预测28,40- - - - - -42]。在这项研究中,采用5倍交叉验证评估预测质量。提出了识别启动子模型的性能及其类型可以定义由以下常见的四个指标:

在哪里 是积极的样本总数,而 代表的负样本总数; 是负样本的数量不正确预测的阳性样本,而 是积极的样本的数量不正确预测的负样本。

此外,AUROC是一个流行的指标为评价该模型的性能。根据1-specificity和灵敏度曲线下的面积,AUROC值可以计算。

3所示。结果与讨论

3.1。参数设置

从高质量的基准数据,我们80%的人用于培训和5倍crossvalidation,剩下的20%进行测试。如图4iPPT的性能(2 L)新闻网增加培训进展;然而,当时代是大于5时5倍crossvalidation和测试,接受者操作特征曲线下的面积(AUROC)值没有显著变化。我们可以观察到时代设为10时,第一层iPPT (2 L)新闻网达到最大AUROC 0.9709在5倍crossvalidation和0.9736测试期间。此外,当时代等于10,第二层iPPT (2 L)新闻网达到最大AUROC 0.9866在5倍crossvalidation和0.9891测试期间。

减轻和避免潜在的过度拟合预测iPPT (2 L)新闻网,我们添加了一个辍学概率两层之间的联系。如图5辍学时,我们可以观察到设置为0.5,该iPPT (2 L)新闻网达到最大的ACC和MCC。亚当优化器被用于自适应地调整大小的梯度在CNN的组件体系结构。我们与binary_crossentropy计算损失,保存当前的模型参数,以便我们可以选择最好的模型验证最低的损失。iPPT (2 L)新闻网是开发和测试在python 3.7中,CNN和深度学习模型中实现Keras (v2.3.1)使用Tensorflow (v2.2.0)的后端。

3.2。模型的性能

在最近的研究中,5倍crossvalidation被用来评估该模型的预测性能在训练。更直接说明预测的性能,采用ROC的图在图6,其AUROC值的计算。高AUROC值表示我们预测iPTT (2 L)新闻网具有良好的稳定性能。的5倍(表crossvalidation结果2)显示,第一层的iPPT (2 L)新闻网实现ACC 91.97%, Sn的87.26%,94.36%的Sp, MCC 0.8194,和0.97 AUROC,分别,这表明我们的预测能够正确地识别是否查询序列的催化剂。第二层的iPPT (2 L)新闻网实现ACC 94.70%, Sn的87.81%,96.15%的Sp, MCC 0.8207,和0.98 AUROC,分别,这表明我们的预测可以正确识别是否承认子的塔塔或TATA-less启动子。

评估的鲁棒性和可靠性预测模型,预测也执行上述的独立的数据集。iPPT (2 L)新闻网达到更高的精度在这些测试数据显示在表中2。的第一层iPPT (2 L)新闻网实现ACC为92.82%,Sn的89.42%,94.55%的Sp, MCC 0.8394,分别和AUROC 0.98。第二层的预测实现ACC 95.86%, Sn的94.83%,95.86%的Sp, MCC 0.8679,分别和AUROC 0.99。iPTT (2 L)新闻网证明了深度学习可以提取复杂的启动子序列特征,实现显著的准确性。

3.3。比较与当前现有的预测

评估是否构造预测优于当前现有的方法确定塔塔和TATA-less推动者,我们拟南芥和鼠标的数据用于训练模型。这些数据提供的拉姆赞•et al。24)被用来构造CNNProm模型。然后,10倍crossvalidation来评估CNNProm的预测性能和iPTT (2 L)新闻网。结果列在表中3表明,我们提出的模型iPTT (2 L)新闻网已收到小增加锡、Sp, MCC,表明iPPT新闻网补充CNNProm (2 L)。然而,CNNProm相比,我们提出的模型可以确定是否启动子的查询序列,而不是只有直接分类塔塔和TATA-less推动者。

3.4。分析预测能力iPPT (2 L)新闻网跨物种的数据

进一步分析该模型的预测性能iPPT (2 L)新闻网crossspecies”数据,数据提供的拟南芥和鼠标拉姆赞•et al。24)被送入iPPT (2 L)新闻网从玉蜀黍,训练数据。表中列出的测试结果4显示第一层的iPPT (2 L)新闻网模型crossspecies测试数据从拟南芥和鼠标是可怜的演员。不同的物种发起人有不同的序列特征,它需要为不同物种启动子构建高质量的基准数据集。相反,第二层iPPT (2 L)新闻网对crossspecies抱有很高的预测能力的数据从拟南芥和鼠标,说明塔塔和TATA-less发起人之间的显著差异。上述结果表明,有必要构建一个两层的第一识别启动子预测随后的类型分类识别启动子。

3.5。Web服务器

用户友好的和可以公开访问的web服务器不仅可以促进更多的学者进行相关研究还可以推动技术生物信息学和医学科学的进步。因此,在这项研究中,我们还提出了预测建立了web服务器,就像web服务器PEPred-Suite [43],ELM-MHC [44],iProEP [45]。通过链接可以访问它新闻网http://www.jci-bioinfo.cn/iPPTT (2 l)。图7显示了web服务器的页面顶部。广泛的实验学者没有计算机建模的背景可以很容易地获得期望的结果只有在网上后,指示。

4所示。结论

在这项研究中,我们设计了一个快速和有效的CNN模型,命名iPTT (2 L)新闻网,识别启动子和他们的类型进行分类(塔塔或TATA-less启动子)。模型的鲁棒性和良好的性能被实验验证。更重要的是,我们建立了一个在线的web服务器,它可以带来巨大便利广泛实验的科学家。

然而,该方法中有一些限制。例如,我们只考虑从玉米启动子序列;事实上,应该涉及更多的物种。在未来的工作中,我们将努力收集更多的启动子在植物基因组数据。

数据可用性

基准数据集可以从网上下载http://www.jci-bioinfo.cn/iPTT (2 l)新闻网/下载

的利益冲突

作者宣称没有利益冲突有关的出版。

确认

这部分工作是由中国国家自然科学基金会(号。31860312,31760315,61300139,61761023,62062043,江西省自然科学基金,中国(号。20171 acb20023, 20171 bab202020, 20202 bab202007),江西省教育部(GJJ160866、GJJ180733和GJJ180703),中国博士后科学基金资助项目(项目编号2017 m612949),和景德镇技术办公室计划[20192 gyzd008-04]。