使用周5步法则分类蛋白与神经网络修改网站

文摘

赖氨酸malonylation是一种新型蛋白质翻译后修饰在许多生物活性和扮演着重要的角色。malonylation网站有一个好的知识可以在许多问题上提供指导,包括疾病预防和药物发现和其他相关领域。有几种实验方法来确定修改网站在生物学领域。然而,这些方法似乎是昂贵的。在这项研究中,我们提出malNet,采用神经网络和利用一些新颖和有效的特征描述方法。指出,安的性能优于其他模型。此外,我们训练分类器根据一个名为分割的原始crossvalidation方法等于验证(股票)。结果实现了AUC值为0.6684,54.93%的准确性,MCC为0.1045,比以前表现出极大的改善。

1。介绍

蛋白质翻译后修饰(天车)是一个关键机制调节蛋白功能的共价酶改性。发现了数百种多功能天车和报告在这个领域1- - - - - -6]。他们扮演了重要的角色在细胞生物学和发病机理的影响几乎所有的方面,例如,基因表达、细胞分裂、细胞信号(7- - - - - -10]。作为一种新发现的天车在真核和原核,赖氨酸malonylation (Kmal)已经广泛联系各种生物过程,一些Kmal网站在哪里可能与癌症有关。因此,它是非常重要的识别和理解Kmal网站在生物学和疾病的研究11- - - - - -16]。

天车的不同于传统的实验方法,计算方法为实验提供了一个快速和低成本的战略设计、多功能天车的网站预测可以抽象为一个典型的分类问题。与此同时,有一个列表的机器学习方法,可以成功的利用。例如,逻辑回归(LR)是用于ModPred 23修改使用序列特性不同,物理化学性质和演化特性功能(17]。Musite,将军和kinase-specific蛋白质磷酸化网站预测,应用支持向量机(SVM)模型利用三种特征:再得分,障碍得分和氨基酸的频率。在前面的工作中,魏等人提出了预测PhosPred-RF磷酸化网站,利用进化信息功能从位置具体得分矩阵(18,19]。深入学习方法也应用于这一领域,如MusiteDeep最近出版的工具,这是用于一般kinase-specific磷酸化网站预测(20.]。

在本文中,我们采用人工神经网络(ANN)分类器基于随机梯度下降法(SGD)算法对蛋白质Kmal网站预测。指出,我们调查了各种类型的特征提取方案,最后选择EBAG +概要和EAAC方法来训练我们的预测。此外,我们雇佣了两个分类器,包括支持向量机和资讯的比较实验,用相同的特征提取方案。此外,鉴于这一事实Kmal预测问题可以被看作是一个二元分类问题,我们采用了原方法解决内在失衡问题签订的正负样本训练集。我们的实验结果显示安比SVM和资讯进行预测。总的来说,安可以为确定Kmal网站是一个有用的工具。

2。方法和材料

在我们的研究中,有4个步骤,如图1。第一步是数据集建设和队伍,训练集和测试集生成。然后我们根据两种特征提取方法编码的数据集。下一步是构建三个模型,它是由训练集训练。最后,所有的分类器将由crossvalidation测试和独立测试集。五个评价指标可以用来评估我们的分类器的性能。

2.1。数据集建设

在这项工作中,我们很多Kmal肽来自老鼠和人类蛋白质组分析显示。指陈等人建立的过程。21),我们构建了一个基准数据集。有67322 Kmal网站在训练集,在网站信心被视为积极的网站和其他高赖氨酸残留物收集作为消极的网站。对于每个样本,我们提取31-residue肽与赖氨酸(−15 + 15)网站在中心的代表。因此,5023年积极的肽和62299 -肽被保留作进一步分析。我们可以很容易地发现正负样本训练集的比例接近1 - 12所示。因此,训练模型将由分裂等于验证测试和独立测试,35955肽(包括2798积极肽和33157 -肽)被作为独立的测试数据集。

2.2。功能编码

2.2.1。EBAG +概要文件编码

EBAG +概要文件编码是一种集成方案包括两个不同的特征编码方法利用汉et al。22]。一个基于属性分组编码(EBAG) (23),20种氨基酸分为5组根据不同的物理和化学性质。表1显示了基于EBAG分组结果。


集团	氨基酸残基	标签

C1	A、F、G, L, M, P, V, W	疏水
C2	C、N、Q、S、T、Y	极地
C3	D、E	酸性
C4	H, K, R	基本
C5	X	差距

其他编码方法概要,计数每个氨基酸残基的频率发生在蛋白质肽。然后的频率被用来表示这个序列中的残留,这样每个肽与31残留物可以转化成一个31-dimension向量。结合EBAG和概要文件的方法是更换源氨基酸肽到EGBA序列,然后编码序列根据配置文件的方法。因此,肽与31残留物转化为31维的向量EBAG +概要文件编码。

2.2.2。EAAC编码

典型的编码方案对天车的预测是AAC编码(24),这反映了20个氨基酸残基的频率周围的修改网站。在这项工作中,我们编码每个EAAC氨基酸的方法提出的甄et al。25),这是基于AAC编码。8-size窗口不断幻灯片从每个肽糖基的n端数据集,EAAC方法计算频率的20个氨基酸残基。因此,特征的维数可以计算如下: 在哪里指每个肽的长度,滑动窗口的长度,特征向量的维数。当我们设置8,肽31残留物会对应到24(31 - 8 + 1)滑动窗口和转换成一个矩阵的2420个维度。

2.3。建筑的分类

2.3.1。人工神经网络

安是一个传统的机器学习算法被广泛用于赖氨酸天车预测应用。在本文中,我们建立一个四层的ANN模型,即。、输入层、输出层和两个隐藏层。输入层收到不同的编码特征序列生成方法。两个隐藏层欠100个神经元和采用“reLu”作为他们的激活函数。输出层欠一个单元,输出每个站点的得分概率。

2.3.2。支持向量机

支持向量机是一种基于结构风险最小化的和普遍采用的算法,从统计学习理论20.]。支持向量机可以样本变换到一个高维特征空间,然后构建一个最优分离超平面(OSH)最大化其距离最近的训练样本。在这里,基于Tensorflow [26]和Scikit-learn [27),我们使用SCV SVM模型,应用核函数的线性内核。

2.3.3。再算法

然而,算法是另一个广泛使用的算法,计算样本的距离聚集他们(28]。如果我们获取训练数据集D= { , ,…,}和测试样本x,我们可以利用资讯来计算之间的距离x和所有的实例D。因此,作为最近邻(最短的距离)的训练数据集,查询示例将分配到同一个类。在这个工作中,我们也建立一个资讯模型通过Tensorflow和Scikit-learn来实现。资讯的参数被设置为默认值。

3所示。Crossvalidation方法

一般来说,分类模型建立时,研究人员将数据集划分为两个部分作为训练集和测试集。数据集使用分区图中描述的过程2。充分利用训练集的样本,我们通常crossvalidation火车模型通过10倍。训练集的样本分为训练集和验证集的crossvalidation方法。然后,训练集用于训练模型,在验证集是用于验证模型的效果和获得验证分数。crossvalidation完成后,培训模式将通过测试来评估它的性能和测试成绩。

针对这一事实分类器总是比较敏感的类别包含更多的样本和更少的敏感类别包含更少的样品在二元分类问题,有必要进行预处理前的训练集数据与不平衡正负样本输入到分类器。在前面的工作中,我们提出了一种新的特征提取方法命名(分裂等于验证)签订,可以解决训练样本不平衡的问题在天车网站预测研究。在这个实验中,我们还采用方法同时签订10倍crossvalidation做对比实验。签订工作流程如下。

(注意:pos意味着积极的和消极的否定意味着图3。)

在图所示的实验3是整个实验的一部分,它对应于使用训练集获取分类器的过程及其验证分数后数据集分为训练集和测试集在图吗3。在细节,SE验证由五个步骤组成。假设负样本的比例正样本训练集的接近n:1、(1)第一步是把负样本n组织;(2)在第二步中,每一个正样本加上积极的示例生成n平衡的子集;(3)随后,模型将训练子集1和验证了子集2;模型2将由2和3验证了子集,子集训练等;(4)根据n平衡的子集,n模型训练和验证;(5)最后,每个模型将由独立的测试集,测试的平均成绩将被用来评估他们的表现。

3.1。性能评估预测

一套有四个指标(29日直接,往往利用定量评价预测的性能:Sn(灵敏度),也称为TPR(真阳性),反映了真阳性样本的比例(TP)确定模型中的所有积极的样本数据集;Sp(特异性),也被称为TNR,反映了真正的负样本的比例模型来判断所有负样本;Acc(精度)的比例是正确的样品由模型的总样本;和MCC(马修的相关系数)之间的相关系数反映了实际的和预期的预测样本预测样本: 在哪里 , , ,和代表真正的阳性、假阳性、假阴性,分别和真正的底片。pre意味着精度和矩形意味着召回分类模型。相反,ROC曲线和AUC值也被用来评估预测的性能。

4所示。结果与讨论

4.1。三种分类模型的性能基于不同的编码方案

在这项研究中,我们首先构造三个机器学习模型,即。,安,支持向量机,和然而,algorithm, and then trained them according to Amino Acid Composition (AAC) encoding scheme that considered the hydrophobicity and charged character of the amino acid. Split to Equal Validation (SEV) and independent training sets were utilized to assess the performance of models above, where AUC, Acc, MCC, Sn, and Sp were adopted as assessment metrics. The results of the independent testing results were depicted in Table2。


AAC格式	分类器	AUC	Acc (%)	世纪挑战集团	Sn (%)	Sp (%)	F1

测试分数	安	0.5833	54.94	0.0598	56.35	54.83	55.58
	支持向量机	0.6149	53.92	0.0856	62.86	53.17	57.61
	然而,	0.6224	47.64	0.0906	71.20	45.67	55.65

根据实验结果,我们推测,特征提取方案是非常重要的影响因素最终的分类精度。因此,我们采用EBAG +概要文件编码方法,该方法利用氨基酸的物理和化学性质。EAAC编码方法,该方法是基于AAC编码和协议的发生概率中的特定氨基酸肽序列,也采用了这个实验。测试成绩表中描述3和4,分别。


EAPR	分类器	AUC	Acc (%)	世纪挑战集团	Sn (%)	Sp (%)	F1

测试分数	安	0.6552	56.57	0.1226	67.23	55.68	60.91
	支持向量机	0.5041	82.71	0.0056	12.06	88.61	21.23
	然而,	0.5874	64.69	0.0705	46.38	66.21	54.55


EAAC	分类器	AUC	Acc (%)	世纪挑战集团	Sn (%)	Sp (%)	F1

测试分数	安	0.7471	63.54	0.2002	74.16	62.65	67.92
	支持向量机	0.6322	56.21	0.1028	63.61	55.59	59.33
	然而,	0.6317	43.60	0.0931	76.19	40.88	53.21

我们知道,一个更大的AUC值意味着当前分类算法更有可能排名正样本的负样本,以便得到更好的分类结果。因此,很明显,分类器EAAC编码模式下发挥更好的性能比其他两个方案获得更高的AUC值。和其他实验结果如MCC和Acc价值和EAAC编码也获得更高的分数,显示出类似的优势比其他人。

相反,有一件事肯定安的分类效果比SVM和资讯EAAC编码方案。作为独立的测试,当EAAC,安的AUC值0.7471,而支持向量机和资讯算法获得的AUC值0.6322和0.6317。所有这些结果表2- - - - - -4表明,不同类型的分类器对预测的性能有很大的影响。在这个工作中,安是最好的分类器。

4.2。比较的结果与签订10倍Crossvalidation塞和扩展训练样本的数量

在这个研究中,我们利用塞验证方法训练样本进行预处理,从而训练分类器模型。此外,在其他条件不变的前提下,我们使用10倍crossvalidation与其签订做同样的实验。实验结果如表所示5:


分数	验证方法	AUC	ACC (%)	世纪挑战集团	SN (%)	SP (%)	F1

验证分数	10 f的简历	0.5751	21.11	0.0776	95.23	15.14	26.13
验证分数	塞夫	0.8465	64.35	0.3260	100.00	61.48	76.15

测试分数	10 f的简历	0.6965	90.12	0.1060	10.91	96.73	19.61
测试分数	塞夫	0.7471	63.54	0.2002	74.16	62.65	67.92

其中,实验是基于神经网络模型,分别使用10倍crossvalidation和塞夫方法。可以看出,尽管Acc相当于10倍交叉太高,AUC值不执行。这是因为,在极其不平衡的正负样本的情况下,分类器将猜的样本训练集的概率较高,但其分类能力并不突出。塞夫验证方法能够很好地解决这个问题。尽管Acc等价不如10倍交叉验证,AUC值签订有更多优点,最能代表模型的分类能力在现实意义。

更重要的是,为了进一步探索不平衡正面和负面的影响在训练集样本,我们使用了塞夫方法扩展训练样本。我们验证这一事实不平衡训练数据最终会导致非常低的Sn和非常高的Sp的分类器,进一步使这些评价指标失去其意义。为了进一步探讨深远的积极的和消极的样本比率影响分类器的性能,我们计算的五个指标,即。,AUC, Acc, MCC、Sn和Sp通过调整不同的积极和消极的样本比例从1:1 - 1:12塞下。

从表可以看出6正面和负面的比例,在训练集样本的增加,模型的AUC值逐渐减少从0.7471到0.7000,MCC值逐渐降低到0.1300,ACC值不断增加到89.43%。这也验证我们之前的结论:积极和消极的样本训练集时非常不平衡,分类器会想更多的样本,但其分类效果并不好。


扩大比例	AUC	Acc (%)	世纪挑战集团	Sn (%)	Sp (%)	F1

1:1	0.7471	63.54	0.2002	74.16	62.65	67.92
1:2	0.7399	76.67	0.1982	52.99	78.65	63.32
1:3	0.7324	82.60	0.1828	38.61	86.28	53.35
1:4	0.7290	84.33	0.1689	32.65	88.64	47.72
1:5	0.7228	85.54	0.1623	28.93	90.26	43.82
1:6	0.7205	86.71	0.1476	24.13	91.94	38.23
1:7	0.7196	87.27	0.1499	23.12	92.62	37.00
1:8	0.7193	86.64	0.1539	25.18	91.77	39.52
书1:9	0.7012	87.32	0.1340	20.91	92.86	34.13
1:10	0.6984	88.08	0.1382	19.61	93.80	32.44
1:11	0.6972	88.96	0.1337	16.87	94.97	28.65
1:12	0.7033	89.43	0.1292	15.10	95.64	26.08

此外,表6也显示了另一个信息,即,当正负样本训练集的比例达到1:9日的AUC值分类器也将趋于稳定,仅波动约0.7000没有进一步下降。这意味着,在这个实验中,尽管正负样本的比例改变朝着更加平衡的方向发展,分类器的性能不会无限期地下降,但达到某一阈值后趋于稳定。

总之,通过这个实验,我们可以进一步验证积极和消极样本比率产生深远影响结果的二元分类问题,和股票的方法可以解决这个问题。

5。结论

当前可用的天车预测方法主要是基于ML需要预处理氨基酸数据转换成数字特性。这里,我们采用了两种特征提取方案根据不同想法的物理和化学特征和发生频率,然后构造三毫升分类器,虽然塞的方法解决问题的应用程序二进制分类的样本不平衡。结果不仅表明,特征提取方法和分类器类型扮演重要角色的预测结果也表明我们的下一步工作的方向。除了提出新特性编码方案,在这个领域可以利用更多的分类器,包括深度学习(DL)分类器如CNN或RNN。此外,该方法将改进并应用于新签订的机器学习模型。总的来说,毫升的出色表现的预测Kmal网站表明,计算方法可以广泛应用于这一领域。

数据可用性

数据用来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是支持的人才工程”Qingtan学者“枣庄大学的山东省自然科学基金、中国(没有。ZR2015PF007),枣庄大学的博士研究创业基金会和枣庄大学基金会(2014 bs13和2015 yy02号)。

引用

c .彭、陆z z谢et al .,”第一个识别赖氨酸malonylation基质及其监管酶”分子和细胞蛋白质组学,10卷,不。12篇文章ID 012658 M111.012658页,2011年。视图:出版商的网站|谷歌学术搜索
收听距离马修和d生产”,由赖氨酸malonylation代谢调节、succinylation glutarylation,”分子和细胞蛋白质组学Mcp,14卷,2015年。视图:谷歌学术搜索
h·穆贾希德x孟,s, x, z .彭,c . Wang”Malonylome分析发展中大米(栽培稻)表明种子蛋白质赖氨酸乙酰化和succinylation malonylation是守恒的,重叠,“蛋白质组学杂志》卷,170年,第98 - 88页,2018年。视图:谷歌学术搜索
t·阿伦特h . g . Zveuintshva, t . a . Lkontovich“树突基底核的变化meynert和斜角带核的阿尔茨海默氏症和嗜睡定量高尔基调查,“神经科学,19卷,不。4、1265 - 1278年,1986页。视图:出版商的网站|谷歌学术搜索
x包,问:赵,t·杨y . m . e . Fung和x·d·李,“赖氨酸malonylation化学探针,”《应用化学》,卷125,不。18日,第4986 - 4983页,2013年。视图:出版商的网站|谷歌学术搜索
p . Boevink k . Oparka c . s .圣诞老人,b . Martin a . Betteridge和c·霍斯,“堆栈跟踪:植物高尔基体肌动蛋白/ ER网络交通量,”植物细胞与分子生物学》杂志上15卷,第447 - 441页,2010年。视图:谷歌学术搜索
m .交给美国Munro,“胆固醇和高尔基体”,科学,卷261,不。5126年,第1281 - 1280页,1993年。视图:出版商的网站|谷歌学术搜索
m . Canuel s Lefrancois j .曾和c·r·莫拉莱斯”AP-1和retromer相反的角色之间的贩卖sortilin高尔基体和溶酶体,“生物化学和生物物理研究通信,卷366,不。3、724 - 730年,2008页。视图:出版商的网站|谷歌学术搜索
k .卡罗琳·m·凯蒂a Shireen et al .,“口蹄疫病毒复制网站形成细胞核旁边,靠近高尔基体,但排除标记与主机相关的蛋白质膜隔间,”普通病毒学杂志,86卷,2005年。视图:谷歌学术搜索
l . Citores l .白诉Sørensen, s . Olsnes”纤维母细胞生长因子receptor-induced磷酸化STAT1的高尔基体没有核易位,”细胞生理学杂志,卷212,不。1,第156 - 148页,2007。视图:出版商的网站|谷歌学术搜索
g·沃纳和k·沃纳”,改变在细胞核,内质网,高尔基体,并在精子形成顶体精子waterstrider,格里眼镜蛇度(半翅目:银鲈科),“国际昆虫形态学和胚胎学杂志》上,22卷,不。5,521 - 534年,1993页。视图:出版商的网站|谷歌学术搜索
w·g·惠利和m . Dauwalder高尔基体、质膜,功能集成,”细胞学的国际评论58卷,第245 - 199页,1979年。视图:出版商的网站|谷歌学术搜索
i . h .威滕和e·弗兰克”数据挖掘:实用机器学习工具和技术,”Acm Sigmod记录31卷,第77 - 76页,2011年。视图:谷歌学术搜索
J.-Y。徐,徐z, y周,在公元前。你们“赖氨酸malonylome可能影响中央新陈代谢和红霉素生物合成途径在saccharopolyspora erythraea,”蛋白质组研究期刊》的研究,15卷,不。5,1685 - 1701年,2016页。视图:出版商的网站|谷歌学术搜索
r·杨c .张高r, l .张“小说特征提取与特征选择方法以确定golgi-resident蛋白质类型不平衡数据,”国际分子科学杂志》上,17卷,不。2,p。218年,2016年。视图:出版商的网站|谷歌学术搜索
美国丫和P.-F。娇,“预测golgi-resident使用伪氨基酸组成的蛋白质类型:方法与位置特定的物理化学性质,“理论生物学杂志》上,391卷,2016年。视图:谷歌学术搜索
m . Bujnicki Dunin-Horkawicz,德Stanislaw et al .,“tRNAmodpred:计算方法预测在转运rna转录后的修改,“方法一个同伴在酶学方法,107卷,2016年。视图:谷歌学术搜索
l ., p, j .唐问:邹,“PhosPred-RF:一种新颖的基于预测磷酸化网站使用顺序信息,“IEEE生物科学,16卷,不。4、240 - 247年,2017页。视图:出版商的网站|谷歌学术搜索
Banerjee s, s .巴苏,d . Ghosh和m . Nasipuri”PhospredRF:预测蛋白质磷酸化位点随机森林分类器使用一个共识,”《国际会议和研讨会的计算和通信2015年3月,德国卡塞尔。视图:谷歌学术搜索
d . Wang s曾许c . et al .,“MusiteDeep:深度学习框架一般kinase-specific磷酸化网站预测,“生物信息学33卷,2017年。视图:谷歌学术搜索
张c .甄z元,z, j .歌曲,“对泛素化网站的更准确的预测:目前的综合评估方法,工具和特性,”简报的生物信息学,4卷,2014年。视图:谷歌学术搜索
黄懿慧韩r . z d . Wang Chen l . k .盾和y l .粉丝”磷酸化预测网站基于多个分类器的集成,”遗传学和分子研究,2017年16卷。视图:出版商的网站|谷歌学术搜索
c·巴格利和r·b·奥特曼”描述蛋白质站点周围的微环境,蛋白质科学,4卷,不。4、622 - 635年,2008页。视图:出版商的网站|谷歌学术搜索
L.-N。王,S.-P。史》。徐,p。温,j。邱”,计算预测物种特异性malonylation网站通过增强特色战略,”生物信息学2016年,33卷,p . btw755。视图:出版商的网站|谷歌学术搜索
c, h .政法h . Yu et al .,“深度学习分类器的集成一个随机森林方法预测malonylation网站,“基因组蛋白质组学和生物信息学,2018年16卷。视图:谷歌学术搜索
l . Rampasek和a·戈登伯格TensorFlow:生物学的网关深度学习?”电池系统,卷2,不。1、12 - 14,2016页。视图:出版商的网站|谷歌学术搜索
f . Pedregosa g . Varoquaux a Gramfort et al .,“Scikit-learn:机器学习在python中,”机器学习研究杂志》上》12卷,第2830 - 2825页,2011年。视图:谷歌学术搜索
x y Cai、黄t . l . Hu, l .谢和y,“预测mRMR赖氨酸泛素化的特征选择和分析,“氨基酸,42卷,不。4、1387 - 1395年,2012页。视图:出版商的网站|谷歌学术搜索
j·j·陈,h . Liu Yang, K.-C。周,“线性b细胞抗原表位的预测使用氨基酸对抗原性规模,”氨基酸,33卷,不。3、423 - 428年,2007页。视图:出版商的网站|谷歌学术搜索

科学的规划

对智能世界2020年科学规划

文摘