文摘
增强剂在非编码片段的DNA序列,在基因转录和翻译起着重要的作用。然而,由于其高自由散射和位置变化,增强子的识别和分类有一个更高层次的复杂性比编码的基因。为了解决这个问题,许多计算机这个领域的研究已经开展,但是仍有一些缺陷在这些预测模型。在本文中,我们使用各种特征提取策略,降维技术,并综合应用机械模型和递归神经网络模型实现增强器识别的准确预测和分类的准确性为76.7%和84.9%,分别。模型提出了性能指标优于以前的方法或功能维度,为预测提供灵感的增强剂在未来计算机技术。
1。介绍
增强剂是一种小的DNA区域,可以与蛋白质,位于上游或下游的基因和基因转录后将增强他们结合蛋白(1]。由于绕组的染色质结构,增强子序列中被远还有相互接触的机会。因此,他们不一定是接近基因影响,甚至位于同一染色体上的基因。研究表明,增强突变可能导致各种各样的疾病。
由于增强剂的重要性,增强子的识别和分类一直是计算生物学家的焦点和实验生物学家(2,3]。事实是,识别增强剂通过生化实验是昂贵和费时的。
在过去的几年中,开发了一些生物信息学方法预测增强剂(4]。刘等人。5伪]提出iEnhancer-2L,提取特征 - - - - - -元组核苷酸组成和实现增强识别和分类的准确性为73%和60.5%,分别。贾和他(6建议EnhancerPred,提取特征biprofile贝叶斯和伪 - - - - - -元组核苷酸组成支持向量机和达到75%和55%的准确性预测增强器的识别和分类,分别刘et al。7应用K-mer]提出iEnhancer-EL,伪 - - - - - -元组核苷酸组成和子序列剖面特征提取方法和使用基于支持向量机的系综分类器实现74.8%的准确性,增强识别为61%,增强器分类(8]。阮et al。9]提出iEnhancer-ECNN,它使用卷积神经网络实现76.9%的准确性,增强识别为67.8%,增强器分类预测(10]。所有上述方法强调更好的预测结果,但没有提到维模型的优势(11,12]。由于高维特征可能导致过度学习和高维灾难或增加冗余信息,训练有素的机器学习模型初始高维特征是经常发现在实践(表现不佳13- - - - - -17]。
在本文中,一个低维特征模型是通过使用各种特征提取策略和降维技术(18- - - - - -23]。增强子的识别和分类取得了通过机器学习模型和人工神经网络相结合的准确率为76.7%和84.9%,分别。还应该注意的是,功能模型的维数用来识别增强剂只有37,这比过去低得多的方法。本文还得到了18-dimension特性为增强器识别模型,测试后,其准确性达到76.5%。
2。材料和方法
2.1。基准数据集
本文使用的数据集提出的刘et al .,也用于iEnhizer-2L的发展,EnhancerPred iEnhancer-EL, iEnhancer-ECNN。在这个数据集,增强信息收集从9不同的细胞系,并提取DNA序列长度的200个基点。为了避免偏差的分类器,增强剂与90%以上的相似度通过CD-HIT(从数据集中删除24,25]。数据集包含1484增强剂和1484 nonenhancers。其中,1484增强剂包括742强大的增强子和742弱增强剂。
2.2。特征提取
机器学习算法不能直接执行注释连续核苷酸序列,因此有必要将核苷酸序列表示为字符串转换成特征向量所代表的数字(26- - - - - -28]。本文通过iLearn实现特征提取(29日]。
2.2.1。K-mer
K-mer特征提取策略指的是计算单位在整个序列的频率与k相邻核苷酸作为一个单元(30.,31日]。本文使用m,展览、模和4-mer特征提取方法,由以下公式表示:
DNA序列的长度和吗 是相邻的单元由K核苷酸。
2.2.2。反向恭维K-mer (RCK-mer)
反向恭维K-mer K-mer的变种,忽略相邻核苷酸序列的互补序列。例如,有16个类型的展览:“AA”,“交流”,“AG)”“,”“CA”,“CC”,“重心”,“CT,”“,”“GC,”“GG,”“GT,”“助教”,“TC, TG,”和“TT。“因为TT的反向完成K-mer”AA,“它可以被排除在外。因此,在此方法中,只有10种全身:“AA”,“交流”,“AG)”“,”“CA”,“CC”,“重心”,“GC,”和“GA,助教。“每个K-mer的频率依次计算。
2.2.3。增强核酸成分(钠)
增强核酸组成每个核苷酸发生的频率在一个固定的序列窗口长度,幻灯片不断从5结束3每个核苷酸序列,通常用于编码的核苷酸序列长度相同。
2.2.4。K-Spaced核酸的合成双(CKSNAP)
该方法计算的频率对核苷酸由K核苷酸全序列。当 ,它与展览所代表的功能是一致的。应该注意的是,核苷酸对计算的频率,当 ,1、2、3、4和5,序列的长度应该是l - 1, l2, l - 3,,骶置之不理,L-6。
2.2.5。核苷酸化学性质(NCP)
该方法考虑了不同的化学结构和化学性质的四核苷酸(32,33]。提出了“A”(1, 1, 1)、“C”(0,1,0),“G”(1, 0, 0),和“T”(0 0 1)。
2.2.6款。积累核苷酸频率(曾帮工)
该方法结合核苷酸化学性质的方法,考虑了化学性质,位置,以及每个核苷酸的频率。例如,对于一个序列“TCGTTCATGG”、“T”出现在1,4,5,8,频率对应1(1/1),0.5(2/4),0.6(3/5),和0.5(4/8),分别;“C”出现在2和6位,与频率对应于0.5(1/2)和0.33(2/6),分别;“G”出现在第3位,9日和10日频率对应于0.33(1/3),0.22(2/9),和0.3(3/10),分别;“A”出现在第七的位置,所以它的频率为0.14 (1/7)。因此,序列可以表示为{(0,0,1,1),(0,1,0,0.5),(1,0,0,0.33),(0,0,1,0.5),(0,0,1,0.6),(0.33 0 1 0),(1,1,1,0.14),(0,0,1,0.5),(1,0,0,0.22),(0.3 1 0 0)}(34,35]。
2.2.7。电子离子相互作用的伪势三核苷酸(EIIP)
奈尔和皮拉伊36)提出了伪势电子离子相互作用的三核苷酸(EIIP)的核苷酸,G, C,和T的EIIP四核苷酸是:0.1260,C: 0.1340, 0.0806,和T: 0.1335。该方法直接利用EIIP代表核苷酸的DNA序列。因此,维EIIP DNA序列的长度。
2.2.8。电子离子相互作用的伪势三核苷酸(PseEIIP)
这些代码,EIIPA EIIPT、EIIPG和EIIPC代表核苷酸的EIIP, T、G和C,分别。然后,EIIP的平均价值的三个核苷酸在每个样本用于构造特征向量,可以表示如下:
是归一化频率的三核苷酸, 三个核苷酸的是EIIP值的总和。
2.2.9。在一个炎热的
每个增强器的数据集是一个200个基点核苷酸序列,由四个核苷酸,即腺嘌呤(a)、鸟嘌呤(G)、胞嘧啶(C)、胸腺嘧啶(T)每个核苷酸由一组向量(表1)[37,38]。
2.3。特征选择
特征选择是选择相关功能的一个子集的方法用于模型建筑(39,40]。因为选择特征的维数将减少后,这个过程称为降维。
2.3.1。MRMD2.0
本文使用MRMD2.0 [41)来实现降维。首先,MRMD2.0使用七种主要特性的排名方法(方差分析、MRMD麦克风,套索,mRMR,卡方检验,和RFE)计算特性集,分别,然后使用网页排名算法的概念,全面处理结果的七个特征排名排名算法,得到最终的特性,然后,使用积极的补充策略,以降序排列的特性被添加到验证的特征子集,子集终于获得最好的特性。
2.3.2。进化搜索
进化搜索使用进化算法进行特征选择。进化算法并不是一个特定的算法;它包括各种算法(遗传算法、迷因算法和多目标进化算法)。灵感的进化算法利用自然界中生物的进化操作。与传统的优化算法相比如微积分方法和详尽的方法,这是一个成熟的全球高鲁棒性和广泛适用性。优化方法具有自组织的特点,自适应,自学习。这不是限制问题的性质,可以有效地处理复杂的问题,很难解决传统优化算法。
2.4。分类器
2.4.1。递归神经网络
本文还利用递归神经网络进行预测的基础上,内存模型。预计网络可以记得以前的特性和推断出随后的结果根据功能;因此,整个网络结构在循环继续。最大的问题是它已经忘却的记忆。我们可以永远记住最近发生的事件更清楚,忘记很久以前发生的事件。复发性神经网络也有这个问题。为了解决这个问题,出现了网络结构的两个变量:一个叫做LSTM,另一种是叫做格勒乌。这两种变体可以解决这个问题的长期依赖。
2.4.2。随机森林
在这项研究中,随机森林应用作为分类器预测中发挥作用。随机森林是广泛用于生物信息学研究[42- - - - - -52]。这个分类器总结多个决策树,同时输出类别安排的模式类别分别输出由树木。本文实现了一个随机森林分类器通过weka平台。
2.4.3。支持向量机
作为一个非常强大的机器学习方法广泛应用于生物序列预测(53- - - - - -71年),支持向量机用于预测在这个研究。一类广义线性分类器,分类数据二进制监督学习方法,及其决策边界的最大边界超平面是解决学习样本。本文采用libSVM实现支持向量机和调整参数和使用网格优化预测的结果。
2.4.4。libD3C
本文还应用libD3C分类器(72年测试模型的性能。分类器采用选择性集成策略,基于混合合奏修剪模型相结合 - - - - - -意味着集群和功能选择周期框架和顺序搜索,通过训练多个候选人分类器,然后选择一组准确,不同的分类器来解决这个问题。
2.5。评价预测
本文使用灵敏度(Sn),特异性(Sp),总精度(Acc),马修(Mcc)相关系数来评估模型的性能(73年- - - - - -83年]。
TP是真阳性;FN假阴性;FP是假阳性;TN是真实的负面的。
3所示。结果与讨论
3.1。增强子的识别
得到的特征向量的增强子和nonenhancers K-mer, RCK-mer,钠,CKSNAP,大会党,曾帮工,EIIP PseEIIP,一个炎热的特征提取方法。为了确定哪些特征提取方法适合增强子的识别,采用随机森林通过十倍交叉验证为每个方法。测试后(图3模),本文认为,展览,4-mer, CKSNAP,钠,PseEIIP, RCK-mer,七个特征提取方法,更加有效。由于特征的维数模型通过七提取方法是相当高,这可能导致分类器过度拟合训练集,导致更有效的性能在实际的应用程序。本文将获得一个低维和优秀的性能特性模型;因此,七个特性模型合并后个人通过MRMD2.0降维;然后,我们发现尺寸是1049,这还是相对较高。因此,合并后的模型经历了5个维度MRMD2.0减少,最终和37-dimension特征模型实现。此时,尺寸不能再进一步降低(图4)。使用随机森林分类器,37-dimension特性模型是通过十倍交叉验证测试(表2),和准确性达到76.7%;该方法的运行时间是2.14秒。
(一)
(b)
同时,本文使用进化搜索减少合并1049 -维度模型的维数来比较不同的降维工具之间的差异。8-dimension减少后,18-dimension模型得到本文10倍交叉验证后,准确率达到76.5%。尽管这个特性模型性能不如MRMD2.0获得的模型,它在尺寸有明显的优势。18-dimensional特性模型可能暗示这是一个增强剂的区别的重要标志。2米,这些18-dimension特性来自4-mer CKSNAP, RCK-mer, PseEIIP,分别表明特定的二核苷酸,三核苷酸,electronic-ion交互发挥重要作用在增强子序列。通过使用两个工具,我们可以发现进化搜索有优势在降维后尺寸,和MRMD2.0拥有更多优势降维后的性能参数。
为了进一步确定模型的稳定特性,本文利用支持向量机和测试37-dimension libD3C模型在同一时间(表2)。通过支持向量机结合网格搜索方法(0.001953125 c 8192.0 g),精度达到76.5%。使用libD3C分类器,精度达到75.5%。三种分类器的预测精度特性模型都超过75%,表明一个非常稳定的特征模型。同时,除了性能优良特性模型的检查在这篇文章中,它也有一个非常低的维度与以前的工作相比(表2),它可以有效地避免维灾害。
3.2。增强剂的分类
特征提取的强大的增强子和弱增强剂,像增强器识别采用了相同的方法,然后,通过使用随机森林十倍交叉验证检查性能。测试后,本文认为,展览,模,4-mer, CKSNAP,钠,PseEIIP, RCK-mer,七个特征提取方法,执行略优于其他方法,但并不令人满意。因此,本文试图通过降维技术提高精确度。减少后的尺寸7特性模型,表现略好,他们继续降维合并。四维度降低后,一个82维特征模型。在这个时候,是不可能继续进一步降维。82 -维度模型和随机森林分类器,旨在和62.3%的准确性仍不理想。
接下来,本文使用的投票机制来输出预测结果82三个分类器libSVM的特征模型,随机森林,libD3C和保留最高的预测结果的信心基于给定每个分类器结果的信心。统计数据后,最后的准确性为63.1%,结果还是不理想。
递归神经网络的贡献了很多领域的序列问题和自然语言处理能力有限的内存,递归神经网络,很久以前的变体短期记忆是应用于本研究生物序列预测。本文使用模方法段序列,然后通过词向量训练嵌入这个词。接下来,本研究使用了基于注意机制LSTM模型来预测这个词分割文件。当模型是一个两层的神经元,hidden_dim是100,学习速率为0.005,和亚当优化器使用;十倍交叉验证的准确性达到84.9%。后比较(表3),本文在增强剂的分类取得了理想的结果。
4所示。结论
摘要37-dimension特性模型识别增强剂是通过多个维度降低。测试后,健康稳定的性能模型。同时,本文取得了理想的分类结果增强剂通过模方法、词向量技术,RNN模型。预计,本文提出的方法可以为今后的研究提供一定的参考在学术界增强剂。
数据可用性
原始数据支持了本文的结论将由作者提供,没有过度的预订。
的利益冲突
作者宣称没有利益冲突有关的出版。
作者的贡献
晴雯李大观园和Lei徐同样这项工作。
确认
这项工作由深圳职业技术学院的资金支持(6020320002 k)。这手稿iLearn使用在线工具来提取特征,使用分类器通过Weka平台,使用MRMD2.0和进化搜索减少维度。东源Yu促成了本文的语言编辑。东源Yu来自东北农业大学。