文摘

甲基化是一种最常见的和相当大的修改在生物系统由多个酶。最近的研究表明,甲基化已被确定在不同的RNA分子。RNA甲基化修饰有各种类型,如5-methylcytosine (m5C)。然而,对个人甲基化网站,其功能仍有待阐明。测试所有的甲基化网站在很大程度上依赖于高通量测序技术,这是昂贵和劳动力消耗。因此,计算预测方法可以作为替代品。在这项研究中,多个机器学习模型被用来预测可能的m RNA5C网站信使rna序列的基础上,在人类和小鼠。每个站点是由来自几个特性 - - - - - -即RNA的子序列包含中心等网站。强大的max-relevance和min-redundancy (mRMR)特征选择法来分析这些特性。结果特性列表是输入增量特征选择方法,结合四个分类算法,建立高效的模型。此外,相关的网站功能使用的模型也被调查。

1。介绍

甲基化是一种最常见的和相当大的修改在生物系统由多个酶。生物甲基化的底物不同,DNA是最常见的。先前的研究在甲基化主要集中在DNA甲基化,揭示其在开发过程中特定的转录活动的调控作用,老化,和发病机理1]。然而,最近的研究普遍发现甲基化不同的RNA分子,包括mRNA, snoRNA, microrna,核糖体RNA(不仅限于功能mRNA) [2]。核糖核酸甲基化使基因表达的转录后的控制通过改变细胞的RNA如何与其他组件的相互作用的一个重要组成部分epitranscriptome [3]。核糖核酸甲基化是积极参与转录后的监管生物过程,如RNA拼接,运输、稳定、可译性,具有较强的与哺乳动物发育和疾病的关系(4- - - - - -6]。

在各种各样的RNA甲基化修饰,N6-methyladenosine (m6),氮上的甲基化修饰在第六的位置腺苷基地,是最普遍的内部mRNA修改,占总数的50%甲基化核苷酸(2,7]。米6广泛影响mRNA的新陈代谢,广泛分布在各种各样的RNA转录,包括编码和非编码区域。m的沉积6转录组的修改有其独特的模式:m6修改网站有一个典型的共识序列DRACH (D = G, A,或U;R = G或;H = C或U),这是广泛分散在编码序列和翻译区(UTR)和终止密码子区域附近的高纯度8]。最近的证据表明,m6pre-mRNA拼接的RNA甲基化起着至关重要的作用,信使RNA稳定监管、mRNA出口,信使RNA降解,翻译规范和microrna的处理9- - - - - -11]。米6修改是动态的,它可能是可逆的,可能不同的基因和不同组织(12,13]。的数量增加6映射研究特定基因的列表包含一个不成比例的高水平的m6一个被揭露。例如,韩寒等人发现一系列的m6甲基化基因与突触前膜、突触后膜,和突触生长在阿尔茨海默病(AD)小鼠模型,表明m6一个可能参与广告的出现14]。而米的功能6修改是上下文相关的,动态的,许多m6物种间散播他们的网站是守恒的。三分之一的哺乳动物mrna共享相同的m6修改,并与单核苷酸特异性(很多都是守恒的15]。

另一种RNA甲基化改性,即5-methylcytosine (m5C)碳5甲基化的胞嘧啶,也作为一个重要基因表达的监管机构,包括RNA本地化,核糖体的组装、翻译调控、mRNA稳定。在所有的mRNA甲基化网站,m的比例5在人类细胞中C可以高达20% (16]。米的分布5C网站mRNA不是随机;在海拉和老鼠细胞,m5C甲基化是富含5 和3 utr而非编码区域(16]。像米6,米5C函数的动态行为的方式。米5C甲基化发生在睾丸的发育动态,帮助维持稳定的孕产妇mRNA在胚胎发育17]。

尽管RNA的甲基化在生物过程中起着关键作用,重视转录后的调控,其功能在个人甲基化网站仍有待阐明。测试所有的甲基化网站在很大程度上依赖于高通量测序技术,这是昂贵和劳动力消耗;因此,计算预测方法可以作为一个替代18]。如前所述,m的分布5C的mRNA有自己的浓缩模式并不是随机的。有足够的数据和统计方法,预测准确5C RNA甲基化网站,获得一个增强的理解他们的功能是可行的。

在这项研究中,多种机器学习模型应用于预测可能的m5C RNA信使RNA序列的甲基化网站的人类和老鼠。每米5C、包含等网站的子序列中心提取的RNA序列。的特点 - - - - - -即产生了由RNA2Vec [19)精制代表子序列。强大的max-relevance和min-redundancy (mRMR)特征选择方法20.)是用来分析所有功能。获得的特性列表是输入增量特征选择(IFS) (21)的方法,结合四个分类算法,建立高效的模型。除了预测模型,我们也研究了相关的网站功能使用的模型,试图发现特殊的模式在老鼠和人类5C网站。这些预测结果的比较可以帮助获得动态RNA甲基化的形象和构筑RNA甲基化网站和人类疾病之间的关系。

2。材料和方法

2.1。数据

5C是一种常见的RNA在哺乳动物中修改。人类和小鼠m5C数据从一个先前的研究(iRNA-m下载5C,http://lin-group.cn/server/iRNA-m5C/download.html)[22]。事实上,人类的m5在第一次使用C数据23),从原始数据中提取从RMBase检索数据库(24]。原始数据是由CD-HIT处理程序(25),这样任何剩余序列的序列相似性小于0.7。因此,120积极和120 - m5C网站获得。至于老鼠米5C数据,它是构建在22]。这是直接从RMBase检索数据库(24)不是由CD-HIT加工项目(25),因为它的规模太小。鼠标数据由97积极和97 - m5C网站。网站在m5C网站有一些特别的模式,它可以帮助确定m520 C网站RNA序列,上游站点和20下游站点捡起。这些网站的m5C网站中心建造了一个与41 bp子序列。一些功能将会从这个子序列中提取出代表m5C站点。

2.2。问题描述和研究设计

对于一个给定的RNA序列,有必要确定m5C网站。机器学习模型能给一个深度调查当前已知的m5C网站和学习一种特殊的模式做出预测。预测过程可以视为一个函数 ,制定 在哪里 表示该网站设置为人类或鼠标RNA序列 输入网站是否是一个m表示5C网站。

一般来说,我们要发现一个优化函数,其损失是最小的。因为机器学习算法被用来设计等功能,我们采用以下步骤:(1)人类的任何网站或鼠标5C数据,网站周围捡起组成子序列,可以显示周围的信息调查的网站。这一步是部分中描述“特性工程”(2)每个子序列是由一定数量的特征,可以反映其基本信息。这一步是部分中描述“特性工程”(3)采用特征选择方法分析所有功能和生产功能列表。这一步是部分中描述“Max-Relevance Min-Redundancy (mRMR)特征选择”(4)IFS方法应用等特性列表找出哪些分类算法和哪些特性可以产生最佳性能(最小的损失)。这一步是部分中描述的“增量特征选择(IFS)。“四个分类算法的描述中使用IFS方法中可以找到部分的“分类算法。”部分中列出的损失是由一个测量“绩效评估”

2.3。工程特性

建立有效的模型识别m5C在RNA序列,是非常重要的从这个网站组成的子序列中提取基本特征,20上游站点和20下游站点。本研究采用了自然语言处理的方法来提取特征,这是进一步用于表示包含m的子序列5C站点。

RNA2Vec [19为每个]采用提取序列特性 - - - - - -即(子序列的长度 )。详细,该方法采用整个人类基因组语料库。滑动窗口技术被用来RNA序列分割成几个固定长度的单词。如果一个RNA序列长度 制定了 这是分成 话说,说 获得所有的话都送入手套算法(26),一种Word2vec方法,提取的特征的话,即的特性, - - - - - -即。在这里,我们选择 特征4-mers直接检索https://github.com/HsiaoYetGun/MiRLocator/blob/master/RNA2Vec/RNAVectors.txt。每个4-mers由30特性。

给定一个41 bp长的RNA子序列党卫军,制定 在哪里 是米5C网站,我们从这个子序列中提取所有4-mers。因为 总是对所有调查子序列相同,4-mers包含这个网站被丢弃。34 4-mers可以从每个RNA子序列。30特性得到RNA2Vec收集在一起,代表着子序列 因此,1020 ( )特征是采用编码每个子序列与41 bp。

2.4。Max-Relevance和Min-Redundancy (mRMR)特征选择

mRMR是一个强大的特征选择方法(20.,27- - - - - -30.),评估特征的重要性来自两个方面:(1)相关类标签和其他功能(2)冗余。互信息(MI)用于量化相关性和冗余。对两个变量 ,他们的MI是计算 在哪里 的边际概率密度 ,分别为, 代表的联合概率密度 一般来说,高MI表示强烈的相关性或高冗余的两个变量。mRMR方法试图保持低特性相关性高的类标签和其他功能冗余。然而,这是一个np难问题。mRMR方法采用启发式方法评估功能,哪些调查所有功能列表,即mRMR特性列表。在一开始,这个列表是空的。为每一个功能 不在这个列表中,计算其关联类标签,来衡量 ,在哪里 是一个变量代表类标签,冗余特性,已经在列表中,通过测量之间的平均MI 和特性在当前列表。计算这两个值的差。区别是最高的特性选择并添加到列表。当列表中的所有功能,程序停止。功能在这个列表显示功能的重要性。一般来说,高排名的功能更重要的比那些低等级。

mRMR计划用于本研究从下载http://penglab.janelia.org/proj/mRMR/。为了方便起见,这是使用默认参数执行。

2.5。增量特征选择(IFS)

尽管mRMR方法产生一个功能列表,这仍然是一个问题,应该选择哪些特征来构造模型。针对这一点,本研究使用IFS方法(21),这可以帮助选择适当的特性对于任何给定的分类算法。详细的基础上mRMR特性列表,如果产生几个区间作为一个特征子集的一步。例如,第一特征子集mRMR顶部功能列表,第二个有前两个功能特征子集,等等。然后,一个模型可以构造基于一定的分类算法在训练数据,样品由功能在每个特性子集。所有构造模型评估了一个交叉验证方法(31日]。模型产生最佳性能拿起来被称为最优模型。在这个模型中使用的特征子集称为最优特征子集。

2.6。分类算法

如前所述,IFS方法需要一个分类算法。在这里,四个分类算法被使用,包括(1)随机森林(RF) (32),(2)支持向量机(SVM) [33),(3) - - - - - -最近邻(资讯)34),(4)决策树(DT) [35]。这些算法已经广泛用于解决各种健康问题(36- - - - - -48]。简单描述如下。

2.6.1。随机森林

射频是一个强大的和经典分类算法。事实上,它是一个包含几个DTs的算法。每个DT是使用两个随机选择过程。第一个过程是选择样本,而第二个过程是选择的特性。给定查询示例中,每个DT收益率预测。射频集成了这些预测与多数投票。尽管DT是一个相当弱分类算法,射频更健壮。因此,它总是一个重要候选人构建预测模型。

2.6.2。支持向量机

支持向量机是另一个强大的和经典分类算法。它的主要思想是寻找一个超平面分离在两类样本。然而,在许多情况下,不存在这样的超平面。SVM将原始数据映射与非线性模式在低维空间到一个新的数据在高维空间与线性模式。然后,超平面构造等新空间通过最大化样品在两个类之间的时间间隔。最后,它预测新样本的类标签根据超平面的这个新数据点属于哪一边。

2.6.3。 - - - - - -最近的邻居

然而,是一个简单而且有效的分类算法。它不是一个严格的机器学习算法,因为没有培训程序。几个计算步骤进行,以确定一个测试样本的类,如计算测试样本和训练样本之间的距离,排名所有训练样本的距离,选择 排名靠前的训练样本(即。,最近的 邻居),估计这样的类标签分布 测试的样本,并预测类标签样本作为最高的分布频率。

2.6.4。决策树

它的目标是学习人类理解分类和回归模型。它通常使用IF-TEHN格式来描述特征的角色和权重在分类或回归模型,从而在白箱模型解释规则。到目前为止,已经提出了几种类型的DT。在这部作品中,CART算法采用基尼指数构建DT模型。

快速实现上述四个分类算法,我们使用相应的包在Scikit-learn收集(https://scikit-learn.org/stable/)。他们使用默认参数执行。

2.7。性能测量

在这项研究中,世纪挑战帐户集团(49)在10倍交叉验证(31日)是用来评估每个模型的性能。显然是两种分类模型建立;因此,MCC使用二进制问题如下: TP、TN、FP和FN代表真阳性的样本数据,真阴性,假阳性和假阴性预测,分别。世纪挑战帐户集团值范围从−1 + 1。当一个分类模型的性能最好,其MCC达到+ 1。

此外,我们进一步计算其他测量充分评估模型的性能,包括敏感性(SN)一样(回忆),特异性(SP),精度(ACC),精密, - - - - - -衡量。他们可以通过计算

2.8。频率特性的可视化

序列中的每个特性与四个网站了解生物序列中提取特征的意义。后一个分类算法得到最优特性,每个特性都捡起的相关网站,每个网站的频率计算和绘制插图作为一个酒吧。

3所示。结果

在这项研究中,我们采用了的特点 - - - - - -即由RNA2Vec代表了m5C网站。一些机器学习算法被用来分析这些特性,进一步构建高效的模型识别m5C在RNA序列。整个过程如图1。在这一节中描述的详细结果。

3.1。m的选择5C Methylation-Associated鼠标的功能

老鼠米5C数据,mRMR方法是1020年首先用来分析功能。一个mRMR特性列表。这个列表是送入IFS方法,综合四种分类算法。在每个功能子集,建立了一个模型基于一个分类算法和被10倍交叉验证进一步评估。每个模型的性能,包括锡、SP, ACC, MCC,精密, - - - - - -measurem补充文件中提供S1。MCC被选为测量的关键。因此,一条曲线绘制在图2世纪挑战集团定义为每个分类算法 - - - - - -轴的数量和特性 - - - - - -轴。为资讯、射频和支持向量机,他们可以提供完美的性能 当最高3、10和3特性。相应的最佳资讯/射频/ SVM模型可以用这些特性。这些模型的详细性能表中列出1。所有测量值达到最大值为1.000。DT, MCC最高为0.990,可以通过使用195强特性。因此,最优DT模型建立与这些特性。其详细的性能是列在表中1。它可以观察到,所有测量都非常高。所有这些表明,模型与功能产生RNA2Vec非常有效的识别鼠标m5C网站,也证实了这些功能的实用程序来预测鼠标m5C网站。

3.2。m的选择5C Methylation-Associated特性对人类

为人类的米5C数据,同样的程序进行。四个分类算法的性能在所有可能的特征子集提供补充文件S2。同样,一个曲线绘制每个分类算法(如图3)。它可以发现四分类算法产生了MCC值最高的0.576,0.627,0.742,和0.790,分别。这样的表现获得通过使用前15名,84年、543年和114年的特性。因此,最佳DT /资讯/射频/ SVM模型可以设置这些功能。这些模型的详细性能表中列出2。显然,这些模型的性能远远低于模型老鼠。

3.3。频率特性分析

本研究的目的不仅是建立有效的预测模型5C网站还在米发现小说的模式5C站点,从而提供更多生物的见解。因此,我们进行了特征频率分析在这一节中。

老鼠米5C数据,建造了四个优化模型,采用列表中的一些高级特性。对于每一个模型,选择特性相关的每个站点的数量统计。条形图是绘制显示每个站点的数量(如图4)。节中详细讨论将获得“m5C Methylation-Associated鼠标功能。”

为人类的米5C数据,我们进行相同的操作。对于每一个优化模型,选定的数量特征与每个站点图所示5。显然,数据45截然不同的显示模式,表明老鼠和人类的区别5C网站。节“m5C Methylation-Associated特性在人类,”讨论。

3.4。与之前的模型相比

本研究使用了老鼠和人类5在[C数据报告22]。在这项研究中,几个不同的分类算法模型构建和评估10倍交叉验证,包括DT,射频,支持向量机,朴素贝叶斯、贝叶斯网和逻辑回归。模型的性能与DT,射频,支持向量机是列在表中34。便于比较,同样我们的模型与分类算法的性能还提供了在这两个表。老鼠米5C数据,我们的模型与DT略优于模型(22]相同的分类算法。至于其他两种分类算法,模型与其中一个给了完美的表现。为人类的米5C数据,DT提供更好的性能比模型(在我们的模型中22),而其他两种分类算法产生较低的性能比模型(在我们的模型中22]。然而,差距不是很大。作为一个整体,我们的模型和22几乎在同一水平上。

正如上面提到的部分,本研究的目的进一步在m有特殊的发现模式5C网站。这是本研究的独家贡献与之前的研究相比。

4所示。讨论

多个机器学习模型被用来区分样本/网站有或没有一种不同的RNA甲基化(人类或鼠标),专注于m RNA甲基化的重要模式5C (50- - - - - -52]。IFS的帮助下,最优数量的基本特征被选为RNA甲基化的预测。41元序列预测的分布特性进行了综述评价的区别的贡献不同的RNA核糖核酸位点甲基化(53]。详细分析的结果5C甲基化在下面可以看到鼠标或人体组织中,随着各自的分布模式。

4.1。米5C Methylation-Associated功能鼠标

多个生化的特性被用来编码41元序列(53)的RNA。RNA的微分贡献评估网站的m5C甲基化,四个机器学习模型应用(DT,资讯、射频和支持向量机)来识别特征的最佳组合5C甲基化的预测。的分布特性各自的RNA基因座如图4。从功能分布,确定所有选中的功能属于所选序列的后端,从23日nt到41元,仅次于候选人m5C甲基化网站(21元)。特别是,两个地区第27 - 31 (nt和34-37 nt)是由至少三个机器学习模型预测与m5C甲基化。根据最近的出版物基于m的生物功能5C、m的两种5C在多个网站的子组rna是我(1)类型5C,其次是G-rich三胞胎中的一个主题,(2)II型m5C,相邻下游UCCA主题;在以下区域都有特定的序列特征5C甲基化位点(54),这与本研究的预测结果。进一步的研究也证实,下游的特定区域5C位点序列可能有不同的上下文,这表明feature-enriched地区预测列表中当前研究绝对可以与m5C甲基化效率。2019年,在哺乳动物识别系统分析mRNA 5-methylcytosine上下文捕获的下游的m序列5C位点相间不同m5C位点甲基化状态,由一个特定5-methylcytosine叫做NSUN2甲基转移酶(55,56]。相比之下,前的序列5C位点与NSUN2野生型小鼠没有明显变化,淘汰赛,或救援状态,这意味着m5C位点及其下游的序列,特别是10元以下序列(55,56),这与本研究的预测分布。此外,另一个类似5-methylcytosine甲基转移酶NSUN6鼠标是一个信使rna5C甲基转移酶(54]。甲基转移酶II型的m5C、m5C的目标基因有一个象征性的下游UCCA尾巴位于第一个模棱两可的峰值(只有通过射频预测方法)在本研究的预测结果(1 - 4甲基化区域后nt) [54]。此外,不同于生物NSUN2监管的影响,侧翼地区15元左右被发现有另一个碱基对地区低,其中包括更多的变异,通过使用相同的过程来检测甲基转移酶的序列淘汰赛,救援,和野生状态54]。这一发现表明序列在这样的地区的重要性。总之,m的预测分布5已经验证了C methylation-associated位点最近的出版物。

4.2。米5C Methylation-Associated特性在人类

m5C-associated特性分布在40侧翼序列上游下游(20和20)从人体组织也确定了。根据同一出版物(54,55),以下1 - 4元(22日至26日进行的nt)和13 - 15元(34-37 nt)也与m的功效5C甲基化,这与本研究的预测。见数据45,下游地区的特征峰(21-41 nt)非常类似人类和小鼠之间的数据,反映了m的相似性5C methylation-associated模式在不同的物种。然而,明显的区别也观察到,这意味着生物差异的存在5C甲基化在不同的物种。在最近的人类,出版物显示分布的RBP目标密度(rna结合蛋白),它反映了绑定功效相关的地区,是重要的5C候选站点,渐渐地,在两个方向上都不是突然下降(56,57]。因此,在m序列5C在每个方向也不是随机的,而是与特定的序列特征。进一步说,2015年,一个分析监管同源蛋白的酵母和人类相同的蛋白家族(Nop2 / NSUN / NOL家庭)表明,特定的绑定域(例如,SAM-binding域)可能位于m5C位点,它们可能会影响监管效果。因此,虽然他们没有直接验证,一些核苷酸坐落在m5C位点可能是必不可少的甲基化状态的预测58]。

4.3。生物识别的意义5C Methylation-Associated特性

正如上面总结的,我们确定了m5在老鼠和人类C-associated特性。确定的生物学意义5C甲基化特性可以聚集成两部分:(我)具体分布和多样化5在人类或鼠标C相关特性。在本部分中,我们确定了那只老鼠5C甲基化是通常只与28-31 nt和34-37 nt地区41 nt子序列,而在人体组织,除了19元区域,大多数41元序列的位置与m5C甲基化。这些结果确定重点监管区域与m5C甲基化和监管之间的差异的影响5C甲基化在不同的物种,进化反映出保护m5C甲基化调节机制(2)下游监管网络与m5C甲基化对基因转录和翻译至关重要。一般来说,米5C与鸟嘌呤甲基化可以帮助结合氢稳定完整的RNA结构和折叠成独特的空间构象(59]。根据最近的出版物,m5C调节器NSUN2已被证明改变m5C的能力在某些RNA的地区。基因像p27(KIPI),CDK1,p21,ErbB2都是由m5C甲基化和进一步与肿瘤发生相关(59,60]。序列位点的m5C甲基化已被证明是特别影响下游细胞增殖和炎症相关通路(61年,62年),表明m的特定的生物学意义5C甲基化。因此,识别不同的贡献来自不同序列的核苷酸位置可以帮助演示的具体监管效果异常5在不同的致病条件C甲基化

因此,调节m loci-related字符的识别5C甲基化不同物种之间不仅可以帮助我们揭示了一致性和演化守恒5C甲基化相关序列,而且连接特定的序列位点与重要的m5C methylation-associated表型或疾病。

5。结论

总之,正如上面所讨论的,顶部最优预测列表中的甲基化网站受到了最近的出版物。RNA的甲基化模式验证在多个不同物种进行比较的结果5C methylation-associated位点在人类和小鼠组织。区别的特性分布模式不同的甲基化模式也被比较的结果5C的分布模式。因此,结果不仅评估不同位点的区别的贡献重要RNA甲基化模式但还揭示了m的站点分布差异5C甲基化类型物种之间(人类和老鼠)。

数据可用性

原始数据用来支持本研究的发现在iRNA-m是可用的5C (http://lin-group.cn/server/iRNA-m5C/download.html)。

的利益冲突

作者宣称没有利益冲突有关的出版。”

作者的贡献

ZhanDong Li Lei Chen和石漆张了同样的工作。

确认

这项工作得到了中国科学院的战略重点研究项目(XDA26040304和XDB38050200),国家重点研发项目(2018 yfc0910403),中国的基金的组织微环境和肿瘤重点实验室中国科学院(202002)。

补充材料

辅料S1:性能IFS的老鼠5C网站。辅料S2:人类m IFS的性能5C网站。(补充材料)