研究文章|开放获取
留西Qilemuge Xi,郝Wang Yi,剑,梁刘宇超(音),小青赵Yongchun左, ”ANPrAod:确定抗氧化蛋白氨基酸集群战略和融合 - - - - - -肽的组合”,计算和数学方法在医学, 卷。2021年, 文章的ID5518209, 10 页面, 2021年。 https://doi.org/10.1155/2021/5518209
ANPrAod:确定抗氧化蛋白氨基酸集群战略和融合 - - - - - -肽的组合
文摘
抗氧化蛋白执行重要功能在疾病控制和延缓衰老,可以防止自由基破坏生物。抗氧化蛋白有重要意义的准确识别开发新的药物和治疗相关的疾病,因为他们扮演关键角色的控制或预防癌症和体内环境。因为实验识别技术是费时和昂贵,许多计算方法提出了确定抗氧化蛋白。虽然这些方法的准确性是可以接受的,仍有一些挑战。在这项研究中,我们建立了一个计算模型称为ANPrAod确定抗氧化蛋白基于支持向量机。为了消除潜在的冗余特性,提高预测精度,减少673氨基酸字母表的计算是通过我们找到最优方案特性表示。最终的模型可以产生一个总体精度5倍交叉验证中华民国为0.7266 87.53%,优于现有方法。独立的数据集的结果也证明了良好的鲁棒性和可靠性ANPrAod,这可能是一个有前途的工具,抗氧化蛋白识别和假说驱动的实验设计。
1。介绍
高浓度的活性氧会导致氧化损伤蛋白质、DNA / RNA,和多不饱和脂肪酸,这反过来会导致高血压、癌症、冠心病、和阿尔茨海默病(1- - - - - -4]。抗氧化蛋白通过交互来消除多余的自由基保护细胞和DNA氧化损伤,疾病控制密切相关,所以他们已经成为生命科学领域的研究热点和药理学5,6]。确定抗氧化蛋白通过生化实验的方法耗时和昂贵的问题,因此迫切需要开发相关的计算方法来补充实验。
近年来,随着蛋白质序列的大规模生产,开发了一系列的方法来识别不同类型的蛋白质。基于支持向量机(SVM),左等人成功地预测defensin蛋白质的准确性达92.38% (7,8]。峰等人设计了一个预测称为Aodpred确定抗氧化蛋白,交叉验证的准确性为74.79% (9]。称为StackCPPred福等人提出了一个方法,使用一种基于堆栈的机器学习方法来有效地预测cell-penetrating肽(10]。谭等人运用二项分布的方法来重新编码序列预测hormone-binding蛋白(11]。这些机器学习方法的研究取得了可喜的成果,但也有一些局限性在预测的准确性和抗氧化蛋白的效率。
在这项研究中,一种新的特征提取方法,氨基酸减少字母结合 - - - - - -肽合成策略是用来确定抗氧化蛋白。氨基acid-reduced字母通常用于大规模蛋白质结构分析和预测8,12,13]。它可以容忍许多变化序列,同时仍然保留了基本的蛋白质折叠和功能。图1显示了ANPrAod框架流。首先,严格的基准数据集构造的有效性模型之间的比较。随后,氨基酸减少字母结合 - - - - - -肽成分( ,2、3)策略是用来提取特征向量并进行比较来获得最优方案。基于支持向量机(SVM), ANPrAod取得了87.53%的精度比现有的5倍交叉验证方法通过一系列的比较结果。最后,预测性能ANPrAod客观地评估在独立的数据集和主成分分析(PCA),证明了模型的鲁棒性和可靠性。总之,ANPrAod预测抗氧化蛋白是一个有效的工具,可以帮助治疗相关疾病的实验研究。
2。材料和方法
2.1。数据集
构建一个高质量的模型的前提是使用一个可靠的数据库(14- - - - - -16]。促进我们的模型的比较与先前的工作,我们使用相同的基准数据集收集研究冯et al。9,17]。最后,1805个蛋白质序列作为训练数据集,其中包括253抗氧化蛋白和1552 nonantioxidant蛋白质。此外,严格独立的数据集是由我们,包含240个蛋白质序列(190 nonantioxidant抗氧化蛋白质和蛋白质)Uniprot客观地评估模型的鲁棒性。
2.2。支持向量机
内核支持向量机包括四个主要功能:线性核函数,多项式核函数,径向基函数(RBF)和乙状结肠内核函数(18]。支持向量机的核心是将数据转换到高维希尔伯特空间,找到最优分离超平面。为方便科学研究,常和林发达LIBSVM包,可以免费下载从以下位置http://www.csie.ntu.edu.tw/ cjlin / libsvm /(19]。它被用于计算生物学20.- - - - - -22]。
在这项研究中,LIBSVM包与RBF内核用来预测抗氧化蛋白。我们使用了网格搜索优化正则化参数和内核参数提高模型的性能。的选择范围和如下:
2.3。减少氨基酸字母
研究人员表明,氨基酸序列可以重新定义根据位置,结构,功能,蛋白质的氨基酸序列的相似性称为氨基酸减少字母(23]。原始蛋白质序列相比,降低了氨基酸字母表中表现优越的预测能力降低复杂性和提取蛋白质保守的功能隐藏在噪声信号(24]。基于RAACBook,我们采用673氨基酸减少方案应用到我们的模型(25,26]。
2.4。 - - - - - -肽成分
单一氨基酸的相互作用和更详细的信息可以有效地开采序列 - - - - - -肽( ,2、3)组成。我们还没有尝试过了 - - - - - -肽因为我们的内存限制(8,27]。天然蛋白质序列,二肽成分可以描述如下: 在哪里代表第一个氨基酸在蛋白质序列,代表了蛋白质序列的总长度。( )是th 400氨基酸二肽组合,意味着换位算子。
2.5。特征选择
特征选择是一个重要的步骤在建设一个强大的模型,具有重要意义,提高分类器的性能(28- - - - - -30.]。方差分析(方差分析),衡量特征通过计算的方差的比值之间和组织内部特性,有助于我们评估每个特性的重量和广泛用于生物信息学(31日,32]。适当维特性可以节省计算资源,减少过度拟合的风险,提高预测精度,所以我们使用增量特征选择(IFS)过滤功能来衡量方差分析训练模式33]。方差分析的公式定义如下: 在哪里方差值的特性,团体之间的样本方差,表示组内样本方差。
2.6。绩效评估
传统指标,敏感性(Sn),特异性(Sp)、准确性(Acc),和接受者操作特征曲线下面积(AUC),被用来评估模型的性能,它定义如下(20.- - - - - -22,34- - - - - -37]: 在哪里 TP、TN、FP和FN代表真阳性,真正的负面,假阳性、假阴性样本,分别。和( )假阳性率和假阴性率得到不同的阈值。接收机操作曲线(ROC)是我们用来定量评价模型的性能(38]。真正的阳性率和假阳性率 - - - - - -轴和 - - - - - -分别轴。
3所示。结果
3.1。不同的氨基酸减少字母的性能
RAACBook总结了673氨基酸减少字母,将他们分为74类型;每种类型包含减少三分之一的大小(25]。基于支持向量机的蛋白质序列训练数据集根据RAACBook减少,和 - - - - - -肽( )作文是用来提取特征向量来评估不同的特征提取方法的影响模型的预测性能。数据2(一个)和2 (b)显示的准确性密度资料673氨基酸减少集群模型预测抗氧化蛋白与不同 - - - - - -肽成分( )。兴奋地,与单一肽和三肽的组合相比,二肽取得更好的精度性能,这意味着他们可以极大地简化复杂性和减少信息冗余。因此,我们进一步分析了所有的详细准确性二肽的组合与优化计算结果显示22类型使用的热图。从数据可以看出3(一个)和3 (b)19型和10码,5倍交叉验证的准确性达到87.31%,最佳的区别的能力。
(一)
(b)
(一)
(b)
(c)
3.2。确定最优的特性
众所周知,模型的预测能力不提高线性特征维度的增加,所以有必要研究不同的特性集二肽的预测性能组合(19型,大小10)。首先,我们使用方差分析得分每个特性的重量,然后排序根据分数从最大到最小。然后,IFS(步长是1)是用来确定最优数量的特性。从图3 (c),排名前93的功能使用时,模型精度最高的5倍交叉验证结果的87.53%。最后,用最优特性集我们构建的SVM模型抗氧化蛋白的预测。ROC曲线绘制根据最优特性集的5倍交叉验证结果被用来进一步客观评价ANPrAod的性能(图4(一))。
(一)
(b)
(c)
(d)
3.3。特性分析
用信息论的信息最大化方法索利斯三分之一的聚合氨基酸为组(表1)[39]。互信息最大化是基于相似性的配对接触互动的20种氨基酸,然后,这是作为目标函数来模拟自然接触,发生在天然蛋白质(配对39]。具体地说,他们被分配根据极性芳香(FWY),非极性脂族和含硫(CILMV),酸(DE),基本(人力资源)、小(在),和其他极性(nq),这也证明这些字母保持识别远程交互的能力。
|
||||||||||||||||||||||||||||||||||||||||||||
3.4。与以前的方法相比
证明的优越性ANPrAod在抗氧化蛋白的鉴定,我们比较它与发布的方法。如表所示2基于相同的数据集,5倍交叉验证结果表明,ANPrAod具有最优性能的准确性达87.53%,优于其他方法。这是由于支持向量机的动力最初设计用于二进制分类和泛化误差的理论界限(40]。泛化误差的上界不依赖于空间的维度,和最大边界用于最小化错误边界超平面之间的距离最小化两个类和最近的数据点41]。此外,ANPrAod只用93特性比158年AodPred使用的特性,降低了计算复杂度和过度拟合的风险。这种比较证明了氨基酸减少字母结合的有效性 - - - - - -肽组合策略和ANPrAod的强大功能来确定抗氧化蛋白。
|
|||||||||||||||||||||||||||||||||||||||||||||
3.5。性能评估ANPrAod独立的数据集
它不是严格的评估模型只是基于训练集的信息,这可能会高估的性能模型。为了避免这个问题,我们测试了ANPrAod在一个独立的数据集来评估其实际性能。混淆矩阵结果表明ANPrAod仍然取得了良好的预测结果,证明了模型的鲁棒性和有效性,可以是一个强大的工具来帮助抗氧化蛋白(图的研究4 (b))。此外,我们比较了天然蛋白质序列与降低氨基酸蛋白质序列通过使用主成分分析,进一步证实了氨基酸减少结合的优越性 - - - - - -肽合成策略(数字4 (c)和4 (d))。
4所示。结论
特征提取是极其重要的泛化能力;它可以促进模型的后续学习和有更好的可解释性10,42]。在这项研究中,一个新特性表征氨基酸减少字母结合的方案 - - - - - -肽组合策略是用于定义蛋白质序列。新特性向量被用来训练SVM找到最优方案预测抗氧化蛋白。5倍交叉验证的准确性为87.53%,和ROC曲线面积为0.7266,优于其它模型。主成分分析和独立的数据集的结果还表明,氨基酸减少字母结合 - - - - - -肽组合策略可以有效降低数据的复杂性,和ANPrAod准确预测抗氧化蛋白具有较强的鲁棒性。我们预期,ANPrAod可以准确、快速识别基于肽抗氧化蛋白质序列和促进相关药物研究的发展。在未来的工作中,我们将建立一个在线的web服务器和扩展其他领域的研究内容。
数据可用性
促进我们的模型的比较与先前的工作,我们使用相同的基准数据集收集研究冯et al。(doi:10.1007 / s12539 - 015 - 0124 - 9)。
的利益冲突
作者宣称没有利益冲突有关的出版。
作者的贡献
Qilemuge Xi和王郝同样这项工作。
确认
这项工作得到了国家自然科学基金(号:62061034和61861036),计划为年轻科技人才的大学内蒙古自治区(NJYT-18-B01),内蒙古和优秀青年学者基金(2017 jq04)。
引用
- Liguori说道,g . Russo f . Curcio et al .,“氧化应激、衰老和疾病,”临床干预衰老13卷,第772 - 757页,2018年。视图:出版商的网站|谷歌学术搜索
- a . m . Pisoschi和a .流行”抗氧化剂的化学氧化应激的作用:复习一下,”欧洲药物化学杂志》上卷。97年,55 - 74、2015页。视图:出版商的网站|谷歌学术搜索
- l .邵h .高,z . Liu j .冯l . Tang和h·林,“抗氧化蛋白的识别与深度学习序列信息,“在药理学领域,9卷,p。1036年,2018年。视图:出版商的网站|谷歌学术搜索
- 问:太阳,w .香港、x谅解备忘录和王,“转录监管分析阿尔茨海默病FastNCA算法的基础上,“目前的生物信息学,14卷,不。8,771 - 782年,2019页。视图:出版商的网站|谷歌学术搜索
- c . Ao w·周l .高董,和l . Yu”预测的抗氧化蛋白使用混合特性表征方法和随机森林,”基因组学,卷112,不。6,4666 - 4674年,2020页。视图:出版商的网站|谷歌学术搜索
- 翟y, y, z腾,y赵,“确定抗氧化蛋白通过使用氨基酸组成和蛋白质的相互作用,”细胞生物学和发展前沿,8卷,2020年。视图:出版商的网站|谷歌学术搜索
- f·c·孟金,l . Wang郭,问:邹,“AOPs-SVM:序列使用支持向量机分类器的抗氧化蛋白,”在生物工程和生物技术前沿,7卷,p。224年,2019年。视图:出版商的网站|谷歌学术搜索
- y左,y,黄,l .郑l·杨和g .曹”iDEF-PseRAAC:识别defensin肽通过降低氨基酸组成描述符,“进化的生物信息学,15卷,117693431986708页,2019年。视图:出版商的网站|谷歌学术搜索
- p•冯•陈(george w . bush)和h·林,“确定抗氧化蛋白通过优化二肽成分,”跨学科的科学,8卷,不。2、186 - 191年,2016页。视图:谷歌学术搜索
- x赋,l . Cai,曾庆红x,邹,“StackCPPred:叠加和成对能源基于内容的预测cell-penetrating肽及其吸收效率,”生物信息学,36卷,不。10日,3028 - 3034年,2020页。视图:出版商的网站|谷歌学术搜索
- z . m . s . h . j . x Tan Li Zhang et al .,“激素结合蛋白的识别基于机器学习的方法,”数学生物科学与工程,16卷,不。4、2466 - 2480年,2019页。视图:出版商的网站|谷歌学术搜索
- p .汉张x r·s·诺顿和Z.-P。冯,”预测无序地区基于决策树的减少蛋白质氨基酸组成、”计算生物学杂志》上,13卷,不。10日,1723 - 1734年,2006页。视图:出版商的网站|谷歌学术搜索
- j . b . Liu, x局域网et al .,“iDNA-Prot |说:识别dna结合蛋白质通过合并氨基酸distance-pairs和减少字母一般伪氨基酸组成,”《公共科学图书馆•综合》,9卷,不。9篇文章e106691 2014。视图:出版商的网站|谷歌学术搜索
- p, h·丁、h·林和w·陈,“大气气溶胶:抗氧化蛋白数据库”,科学报告,7卷,不。1,p。7449年,2017。视图:出版商的网站|谷歌学术搜索
- 杨z . y . Liang h . y .赖h . et al .,“Pro54DB:数据库实验验证sigma-54推动者,”生物信息学,33卷,不。3、467 - 469年,2017页。视图:出版商的网站|谷歌学术搜索
- 王t, p . Tan l . et al .,“RNALocate: RNA亚细胞本地化的资源,”核酸的研究,45卷,不。D1, D135-D138, 2017页。视图:出版商的网站|谷歌学术搜索
- 答:热心、r·纳和e . Perumal”ZFARED:抗氧化反应的一个数据库元素在斑马鱼,”目前的生物信息学,15卷,不。5,415 - 419年,2020页。视图:出版商的网站|谷歌学术搜索
- y左,y Lv, z, l .杨g . Li和g .粉丝,“iDPF-PseRAAAC:服务器识别defensin肽家族和亚科使用伪氨基酸减少字母组成,”《公共科学图书馆•综合》,10卷,不。12篇文章e0145541 2015。视图:出版商的网站|谷歌学术搜索
- c . c . Chang和c·j·林,”LIBSVM。”ACM智能交易系统和技术,卷2,不。3,1-27,2011页。视图:出版商的网站|谷歌学术搜索
- f . y . Dao, h . Lv, d, z . m . Zhang l . Liu和h·林,“DeepYY1:深度学习的方法来识别YY1-mediated染色质循环,”简报的生物信息学2020年,卷。21日。视图:出版商的网站|谷歌学术搜索
- f . y . Dao h . Lv h . Zulfiqar et al .,”一个计算平台在真核生物识别复制网站的起源,”简报的生物信息学2020年,卷。21日。视图:出版商的网站|谷歌学术搜索
- d, z . c .徐w·苏et al .,“iCarPS:计算工具识别蛋白质羰基化网站通过小说编码特性,”生物信息学2020年,卷。21日。视图:出版商的网站|谷歌学术搜索
- 李y, y左,y, z燕,g . Li和l .杨”PseKRAAC:一个灵活的web服务器生成伪K-tuple减少氨基酸成分,”生物信息学,33卷,不。1,第124 - 122页,2017。视图:出版商的网站|谷歌学术搜索
- p . j .严Bhadra, a .李et al .,“Deep-AmPEP30:改善短抗菌肽与深度学习预测,“——核酸分子治疗,20卷,第894 - 882页,2020年。视图:出版商的网站|谷歌学术搜索
- μl .郑黄,n . et al .,“RAACBook: web服务器减少氨基酸字母表顺序相依推理的使用周的五步法则,“数据库,2019卷,2019年。视图:出版商的网站|谷歌学术搜索
- w . l .郑d . Liu Yang l·杨和y .左,“RaacLogo:一个新的序列标识发电机利用氨基酸减少集群,”简报的生物信息学2020年,卷。21日。视图:出版商的网站|谷歌学术搜索
- t . ValizadehAslani z赵,b . a . Sokhansanj g·l·罗森,“氨基酸k-mer特征提取定量抗菌素耐药性(AMR)预测生物见解,通过机器学习和模型解释”生物学,9卷,不。11,365年,页2020。视图:出版商的网站|谷歌学术搜索
- s . f .郭,他问:邹,HuiDing,“MRMD2.0: Python工具排名和减少对机器学习功能,“目前的生物信息学,15卷,不。10日,1213 - 1221年,2021页。视图:出版商的网站|谷歌学术搜索
- 希夫拉吉·k·帕蒂尔和美国·乔汉”相关的机器学习技术和各种蛋白质折叠蛋白质特性分类:复习一下,”目前的生物信息学,14卷,不。8,688 - 697年,2019页。视图:出版商的网站|谷歌学术搜索
- 问:邹,广域网,y Ju, j . Tang和x曾庆红,”塔塔Pretata:预测结合蛋白与小说的特性和降维策略,”BMC系统生物学,10卷,不。S4,第114页,2016年。视图:出版商的网站|谷歌学术搜索
- h·林和h .叮”预测离子通道及其类型的二肽的伪氨基酸组成模式,”理论生物学杂志》上,卷269,不。1,第69 - 64页,2011。视图:出版商的网站|谷歌学术搜索
- y . w . h . Tang赵,p .邹et al .,“HBPred:一个工具来识别增长hormone-binding蛋白质,”国际生物科学杂志》上,14卷,不。8,957 - 964年,2018页。视图:出版商的网站|谷歌学术搜索
- c .问:冯z . y .张x朱j . et al .,“iTerm-PseKNC:基于工具预测细菌转录终止剂,”生物信息学,35卷,不。9日,第1477 - 1469页,2019年。视图:出版商的网站|谷歌学术搜索
- a·p·布拉德利“ROC曲线下的面积的使用机器学习算法的评价,“模式识别,30卷,不。7,1145 - 1159年,1997页。视图:出版商的网站|谷歌学术搜索
- 焦y和p .杜”绩效指标在评估基于机器学习的生物信息学预测分类时,“定量生物学,4卷,不。4、320 - 330年,2016页。视图:出版商的网站|谷歌学术搜索
- d .张》。h . Zulfiqar et al .,“iBLP: XGBoost-based预测识别生物荧光蛋白质,”计算和数学方法在医学卷,2021篇文章ID 6664362, 15页,2021年。视图:出版商的网站|谷歌学术搜索
- Z.-Y。张,中州。w·杨h .叮,d . Wang Chen和h·林,”设计的有力预测mRNA在智人,亚细胞定位预测”简报的生物信息学,22卷,不。1,第535 - 526页,2021。视图:出版商的网站|谷歌学术搜索
- f . y . Dao h . Lv王f . et al .,“识别复制起源在酿酒酵母利用两步特征选择技术,”生物信息学,35卷,不。12日,第2083 - 2075页,2019年。视图:出版商的网站|谷歌学术搜索
- 公元索利斯,”氨基酸减少字母保存在蛋白质折叠信息包含在联系交互,”蛋白质,卷83,不。12日,第2216 - 2198页,2015年。视图:出版商的网站|谷歌学术搜索
- C.-W。许和C.-J。林,”比较多类支持向量机方法,”IEEE神经网络,13卷,不。2、415 - 425年,2002页。视图:出版商的网站|谷歌学术搜索
- c·坎贝尔,“内核方法:调查当前的技术,”Neurocomputing,48卷,不。1 - 4、63 - 84年,2002页。视图:出版商的网站|谷歌学术搜索
- 张j . b .刘,“回顾近期的事态发展基于蛋白质的特征提取方法,”目前的生物信息学,14卷,不。3、190 - 199年,2019页。视图:出版商的网站|谷歌学术搜索
版权
版权©2021 Qilemugeξet al。这是一个开放的分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。