CMMM 计算和数学方法在医学 1748 - 6718 1748 - 670 x Hindawi 10.1155 / 2021/5518209 5518209 研究文章 ANPrAod:确定抗氧化蛋白氨基酸集群战略和融合<我nline-formula> N 肽的组合 Qilemuge 1 1 留西 2 1 Yuchao 1 https://orcid.org/0000 - 0002 - 6631 - 2870 小青 3 https://orcid.org/0000 - 0002 - 6065 - 7835 Yongchun 1 Lei 1 国家重点实验室草地家畜的生殖调控和繁殖 生命科学学院 内蒙古大学 呼和浩特010070 中国 imu.edu.cn 2 大学农学 内蒙古农业大学 呼和浩特 内蒙古010019 中国 imau.edu.cn 3 生物技术研究中心 内蒙古农业和畜牧科学院 呼和浩特010021 中国 2021年 8 4 2021年 2021年 2 2 2021年 2 3 2021年 10 3 2021年 8 4 2021年 2021年 版权©2021 Qilemugeξet al。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

抗氧化蛋白执行重要功能在疾病控制和延缓衰老,可以防止自由基破坏生物。抗氧化蛋白有重要意义的准确识别开发新的药物和治疗相关的疾病,因为他们扮演关键角色的控制或预防癌症和体内环境。因为实验识别技术是费时和昂贵,许多计算方法提出了确定抗氧化蛋白。虽然这些方法的准确性是可以接受的,仍有一些挑战。在这项研究中,我们建立了一个计算模型称为ANPrAod确定抗氧化蛋白基于支持向量机。为了消除潜在的冗余特性,提高预测精度,减少673氨基酸字母表的计算是通过我们找到最优方案特性表示。最终的模型可以产生一个总体精度5倍交叉验证中华民国为0.7266 87.53%,优于现有方法。独立的数据集的结果也证明了良好的鲁棒性和可靠性ANPrAod,这可能是一个有前途的工具,抗氧化蛋白识别和假说驱动的实验设计。

内蒙古的优秀青年学者基金 2017年jq04 程序对年轻科技人才在大学内蒙古自治区 NJYT-18-B01 中国国家自然科学基金 61861036 62061034
1。介绍

高浓度的活性氧会导致氧化损伤蛋白质、DNA / RNA,和多不饱和脂肪酸,这反过来会导致高血压、癌症、冠心病、和阿尔茨海默病( 1- - - - - - 4]。抗氧化蛋白通过交互来消除多余的自由基保护细胞和DNA氧化损伤,疾病控制密切相关,所以他们已经成为生命科学领域的研究热点和药理学 5, 6]。确定抗氧化蛋白通过生化实验的方法耗时和昂贵的问题,因此迫切需要开发相关的计算方法来补充实验。

近年来,随着蛋白质序列的大规模生产,开发了一系列的方法来识别不同类型的蛋白质。基于支持向量机(SVM),左等人成功地预测defensin蛋白质的准确性达92.38% ( 7, 8]。峰等人设计了一个预测称为Aodpred确定抗氧化蛋白,交叉验证的准确性为74.79% ( 9]。称为StackCPPred福等人提出了一个方法,使用一种基于堆栈的机器学习方法来有效地预测cell-penetrating肽( 10]。谭等人运用二项分布的方法来重新编码序列预测hormone-binding蛋白( 11]。这些机器学习方法的研究取得了可喜的成果,但也有一些局限性在预测的准确性和抗氧化蛋白的效率。

在这项研究中,一种新的特征提取方法,氨基酸减少字母结合<我nline-formula> N 肽合成策略是用来确定抗氧化蛋白。氨基acid-reduced字母通常用于大规模蛋白质结构分析和预测 8, 12, 13]。它可以容忍许多变化序列,同时仍然保留了基本的蛋白质折叠和功能。图 1显示了ANPrAod框架流。首先,严格的基准数据集构造的有效性模型之间的比较。随后,氨基酸减少字母结合<我nline-formula> N 肽成分(<我nline-formula> N = 1 、2、3)策略是用来提取特征向量并进行比较来获得最优方案。基于支持向量机(SVM), ANPrAod取得了87.53%的精度比现有的5倍交叉验证方法通过一系列的比较结果。最后,预测性能ANPrAod客观地评估在独立的数据集和主成分分析(PCA),证明了模型的鲁棒性和可靠性。总之,ANPrAod预测抗氧化蛋白是一个有效的工具,可以帮助治疗相关疾病的实验研究。

ANPrAod预测的工作流。

2。材料和方法 2.1。数据集

构建一个高质量的模型的前提是使用一个可靠的数据库( 14- - - - - - 16]。促进我们的模型的比较与先前的工作,我们使用相同的基准数据集收集研究冯et al。 9, 17]。最后,1805个蛋白质序列作为训练数据集,其中包括253抗氧化蛋白和1552 nonantioxidant蛋白质。此外,严格独立的数据集是由我们,包含240个蛋白质序列(190 nonantioxidant抗氧化蛋白质和蛋白质)Uniprot客观地评估模型的鲁棒性。

2.2。支持向量机

内核支持向量机包括四个主要功能:线性核函数,多项式核函数,径向基函数(RBF)和乙状结肠内核函数( 18]。支持向量机的核心是将数据转换到高维希尔伯特空间,找到最优分离超平面。为方便科学研究,常和林发达LIBSVM包,可以免费下载从以下位置 http://www.csie.ntu.edu.tw/ cjlin / libsvm /( 19]。它被用于计算生物学 20.- - - - - - 22]。

在这项研究中,LIBSVM包与RBF内核用来预测抗氧化蛋白。我们使用了网格搜索优化正则化参数<我nline-formula> C 和内核参数<我nline-formula> γ 提高模型的性能。的选择范围<我nline-formula> C 和<我nline-formula> γ 如下: (1) 2 5 < C < 2 15 , 2 15 < γ < 2 3

2.3。减少氨基酸字母

研究人员表明,氨基酸序列可以重新定义根据位置,结构,功能,蛋白质的氨基酸序列的相似性称为氨基酸减少字母( 23]。原始蛋白质序列相比,降低了氨基酸字母表中表现优越的预测能力降低复杂性和提取蛋白质保守的功能隐藏在噪声信号( 24]。基于RAACBook,我们采用673氨基酸减少方案应用到我们的模型( 25, 26]。

2.4。< inline-formula > < mml:数学xmlns: mml = " http://www.w3.org/1998/Math/MathML " id = " M10 " > < mml: mi > N < / mml: mi > < / mml:数学> < / inline-formula >肽成分

单一氨基酸的相互作用和更详细的信息可以有效地开采序列<我nline-formula> N 肽(<我nline-formula> N = 1 、2、3)组成。我们还没有尝试过了<我nline-formula> N 肽因为我们的内存限制( 8, 27]。天然蛋白质序列,二肽成分可以描述如下: (2) P = R 1 R 2 R 3 R l 1 R l , F = d 1 , d 2 , , d 400年 T , 在哪里<我nline-formula> R 1 代表第一个氨基酸在蛋白质序列,<我nline-formula> l 代表了蛋白质序列的总长度。<我nline-formula> d (<我nline-formula> = 1 , 2 , , 400年 )是<我nline-formula> th 400氨基酸二肽组合,<我nline-formula> T 意味着换位算子。

2.5。特征选择

特征选择是一个重要的步骤在建设一个强大的模型,具有重要意义,提高分类器的性能( 28- - - - - - 30.]。方差分析(方差分析),衡量特征通过计算的方差的比值之间和组织内部特性,有助于我们评估每个特性的重量和广泛用于生物信息学( 31日, 32]。适当维特性可以节省计算资源,减少过度拟合的风险,提高预测精度,所以我们使用增量特征选择(IFS)过滤功能来衡量方差分析训练模式 33]。方差分析的公式定义如下: (3) F = 年代 x 2 年代 γ 2 , 年代 X 2 = 1 n 1 = 1 n x x ¯ 2 , 年代 y 2 = 1 1 = 1 y y ¯ 2 , 在哪里<我nline-formula> F 方差值的特性,<我nline-formula> 年代 X 2 团体之间的样本方差,<我nline-formula> 年代 y 2 表示组内样本方差。

2.6。绩效评估

传统指标,敏感性(Sn),特异性(Sp)、准确性(Acc),和接受者操作特征曲线下面积(AUC),被用来评估模型的性能,它定义如下( 20.- - - - - - 22, 34- - - - - - 37]: (4) Sn = TP TP + FN , Sp = TN TN + 《外交政策》 , Acc = TP + TN TP + FN + TN + 《外交政策》 , AUC = 1 β · Δ α + 1 2 Δ 1 β · Δ α , 在哪里 (5) Δ 1 β = 1 β 1 β 1 , Δ α = 一个 一个 1 , TP、TN、FP和FN代表真阳性,真正的负面,假阳性、假阴性样本,分别。<我nline-formula> α 和<我nline-formula> β (<我nline-formula> N )获得的假阳性率和假阴性率不同的阈值。接收机操作曲线(ROC)是我们用来定量评价模型的性能( 38]。真正的阳性率和假阳性率<我nline-formula> x 设在和<我nline-formula> y 分别设在。

3所示。结果 3.1。不同的氨基酸减少字母的性能

RAACBook总结了673氨基酸减少字母,将他们分为74类型;每种类型包含减少三分之一的大小( 25]。基于支持向量机的蛋白质序列训练数据集根据RAACBook减少,和<我nline-formula> N 肽(<我nline-formula> N = 1 , 2 , 3 )成分被用来提取特征向量来评估不同的特征提取方法的影响模型的预测性能。数据 2(一个) 2 (b)显示的准确性密度资料673氨基酸减少集群模型预测抗氧化蛋白与不同<我nline-formula> N 肽成分(<我nline-formula> K = 1 , 2 , 3 )。兴奋地,与单一肽和三肽的组合相比,二肽取得更好的精度性能,这意味着他们可以极大地简化复杂性和减少信息冗余。因此,我们进一步分析了所有的详细准确性二肽的组合与优化计算结果显示22类型使用的热图。从数据可以看出 3(一个) 3 (b)19型和10码,5倍交叉验证的准确性达到87.31%,最佳的区别的能力。

二元密度地图精度。基于氨基酸减少字母(a),二进制精确密度不同的地图<我nline-formula> N 肽组合(<我nline-formula> N = 1 , 2 , 3 )。基于氨基酸减少字母(b), Acc单变量密度不同的地图<我nline-formula> N 肽组合(<我nline-formula> N = 1 , 2 , 3 )。

评价预测蛋白质的抗氧化性能。(一)5倍交叉验证结果不同特性的表示方案。(b)不同类型的最优规模的预测精度。(c)下的IFS曲线表明,二肽组合(<我nline-formula> 类型 = 19 ,<我nline-formula> 大小 = 10 ),准确度高达87.53%在使用前93名功能。

3.2。确定最优的特性

众所周知,模型的预测能力不提高线性特征维度的增加,所以有必要研究不同的特性集二肽的预测性能组合(19型,大小10)。首先,我们使用方差分析得分每个特性的重量,然后排序根据分数从最大到最小。然后,IFS(步长是1)是用来确定最优数量的特性。从图 3 (c),排名前93的功能使用时,模型精度最高的5倍交叉验证结果的87.53%。最后,用最优特性集我们构建的SVM模型抗氧化蛋白的预测。ROC曲线绘制根据最优特性集的5倍交叉验证结果被用来进一步客观评价ANPrAod的性能(图 4(一))。

中华民国曲线ANPrAod及其表现的独立的数据集。(a) ANPrAod ROC曲线由最优特性集。(b) ANPrAod预测混淆矩阵在独立的数据集。(c) PCA对自然独立的数据集。独立数据集(d) PCA处理氨基酸减少字母。

3.3。特性分析

用信息论的信息最大化方法索利斯三分之一的聚合氨基酸为组(表 1)[ 39]。互信息最大化是基于相似性的配对接触互动的20种氨基酸,然后,这是作为目标函数来模拟自然接触,发生在天然蛋白质(配对 39]。具体地说,他们被分配根据极性芳香(FWY),非极性脂族和含硫(CILMV),酸(DE),基本(人力资源)、小(在),和其他极性(nq),这也证明这些字母保持识别远程交互的能力。

氨基酸减少字母使用最大化的信息设备。

大小 集群
2 CFILMVWY-ADEGHKNPQRST
3 CFILMVWY-DEGKNQS-AHPRT
4 FWY-CILMV-DEGKNQS-AHPRT
5 FWY-CILMV-DEGKNS-APQT-HR
6 FWY-CILMV-DE-GKNQS-APT-HR
7 FWY-CILMV-DE-K-GNPQS-AT-HR
8 FWY-ILMV-C-DE-K-GNPQS-AT-HR
9 FWY-ILMV-C-DE-K-GNQS-PT-A-HR
10 WY-F-ILMV-C-DE-K-GNQS-PT-A-HR
11 WY-F-ILMV-C-DE-K-G-PNQS-T-A-HR
12 WY-F-IL-MV-C-DE-K-G-PNQS-T-A-HR
13 WY-F-IL-MV-C-DE-K-G-P-NQS-T-A-HR
14 W-Y-F-IL-MV-C-DE-K-G-P-NQS-T-A-HR
15 W-Y-F-IL-MV-C-DE-K-G-P-NQS-T-A-H-R
16 W-Y-F-IL-M-V-C-DE-K-G-P-NQS-T-A-H-R
17 W-Y-F-I-L-M-V-C-DE-K-G-P-NQS-T-A-H-R
18 W-Y-F-I-L-M-V-C-DE-K-G-P-N-QS-T-A-H-R
19 W-Y-F-I-L-M-V-C-D-E-K-G-P-N-QS-T-A-H-R
3.4。与以前的方法相比

证明的优越性ANPrAod在抗氧化蛋白的鉴定,我们比较它与发布的方法。如表所示 2基于相同的数据集,5倍交叉验证结果表明,ANPrAod具有最优性能的准确性达87.53%,优于其他方法。这是由于支持向量机的动力最初设计用于二进制分类和泛化误差的理论界限( 40]。泛化误差的上界不依赖于空间的维度,和最大边界用于最小化错误边界超平面之间的距离最小化两个类和最近的数据点 41]。此外,ANPrAod只用93特性比158年AodPred使用的特性,降低了计算复杂度和过度拟合的风险。这种比较证明了氨基酸减少字母结合的有效性<我nline-formula> N 肽组合策略和ANPrAod的强大功能来确定抗氧化蛋白。

与最先进的预测性能比较基准数据集。

方法 Sn (%) Sp (%) Acc (%) 特征数
冯et al。 72.04 66.05 66.88 44
贝叶斯网 38.68 93.55 85.09 90年
随机森林 28.09 93.12 80.34 - - - - - -
AodPred 75.09 74.48 74.79 158年
ANPrAod 92.92 98.33 87.53 93年
3.5。性能评估ANPrAod独立的数据集

它不是严格的评估模型只是基于训练集的信息,这可能会高估的性能模型。为了避免这个问题,我们测试了ANPrAod在一个独立的数据集来评估其实际性能。混淆矩阵结果表明ANPrAod仍然取得了良好的预测结果,证明了模型的鲁棒性和有效性,可以是一个强大的工具来帮助抗氧化蛋白(图的研究 4 (b))。此外,我们比较了天然蛋白质序列与降低氨基酸蛋白质序列通过使用主成分分析,进一步证实了氨基酸减少结合的优越性<我nline-formula> N 肽合成策略(数字 4 (c) 4 (d))。

4所示。结论

特征提取是极其重要的泛化能力;它可以促进模型的后续学习和有更好的可解释性 10, 42]。在这项研究中,一个新特性表征氨基酸减少字母结合的方案<我nline-formula> N 肽组合策略是用于定义蛋白质序列。新特性向量被用来训练SVM找到最优方案预测抗氧化蛋白。5倍交叉验证的准确性为87.53%,和ROC曲线面积为0.7266,优于其它模型。主成分分析和独立的数据集的结果还表明,氨基酸减少字母结合<我nline-formula> N 肽组合策略可以有效降低数据的复杂性,和ANPrAod准确预测抗氧化蛋白具有较强的鲁棒性。我们预期,ANPrAod可以准确、快速识别基于肽抗氧化蛋白质序列和促进相关药物研究的发展。在未来的工作中,我们将建立一个在线的web服务器和扩展其他领域的研究内容。

数据可用性

促进我们的模型的比较与先前的工作,我们使用相同的基准数据集收集研究冯et al。(doi: 10.1007 / s12539 - 015 - 0124 - 9)。

的利益冲突

作者宣称没有利益冲突有关的出版。

作者的贡献

Qilemuge Xi和王郝同样这项工作。

确认

这项工作得到了国家自然科学基金(号:62061034和61861036),计划为年轻科技人才的大学内蒙古自治区(NJYT-18-B01),内蒙古和优秀青年学者基金(2017 jq04)。

Liguori说道 我。 Russo G。 Curcio F。 Bulli G。 阿然 l Della-Morte D。 Gargiulo G。 外种皮 G。 水银地震计 F。 Bonaduce D。 Abete P。 氧化应激、衰老和疾病 临床干预衰老 2018年 13 757年 772年 10.2147 / CIA.S158513 2 - s2.0 - 85047073565 29731617 Pisoschi a . M。 流行 一个。 抗氧化剂的化学氧化应激的作用:复习一下 欧洲药物化学杂志》上 2015年 97年 55 74年 10.1016 / j.ejmech.2015.04.040 2 - s2.0 - 84929152649 25942353 l H。 Z。 J。 l H。 识别的抗氧化蛋白序列信息的深度学习 在药理学领域 2018年 9 1036年 10.3389 / fphar.2018.01036 2 - s2.0 - 85055165728 太阳 Q。 香港 W。 谅解备忘录 X。 年代。 转录调控阿尔茨海默病基于FastNCA算法分析 目前的生物信息学 2019年 14 8 771年 782年 10.2174 / 1574893614666190919150411 Ao C。 W。 l 越南盾 B。 l 使用混合特性表征方法预测蛋白质的抗氧化和随机森林 基因组学 2020年 112年 6 4666年 4674年 10.1016 / j.ygeno.2020.08.016 32818637 Y。 Y。 Z。 Y。 确定抗氧化剂通过氨基酸组成和蛋白质相互作用的蛋白质 细胞生物学和发展前沿 2020年 8 10.3389 / fcell.2020.591487 C。 年代。 l F。 Q。 AOPs-SVM:序列使用支持向量机分类器的抗氧化蛋白 在生物工程和生物技术前沿 2019年 7 224年 10.3389 / fbioe.2019.00224 2 - s2.0 - 85072822792 Y。 Y。 年代。 l l G。 iDEF-PseRAAC:识别defensin肽通过降低氨基酸组成描述符 进化的生物信息学 2019年 15 117693431986708 10.1177 / 1176934319867088 2 - s2.0 - 85071286371 P。 W。 H。 确定抗氧化蛋白通过使用最佳的二肽成分 跨学科的科学 2016年 8 2 186年 191年 X。 l X。 Q。 StackCPPred:叠加和成对能源cell-penetrating肽及其吸收效率的基于内容的预测 生物信息学 2020年 36 10 3028年 3034年 10.1093 /生物信息学/ btaa131 32105326 唐ydF4y2Ba j . X。 s . H。 z . M。 c . X。 W。 H。 H。 识别激素结合蛋白基于机器学习的方法 数学生物科学与工程 2019年 16 4 2466年 2480年 10.3934 / mbe.2019123 2 - s2.0 - 85064926946 31137222 P。 X。 诺顿 r S。 Z.-P。 预测无序地区蛋白质氨基酸组成基于决策树的减少 计算生物学杂志》上 2006年 13 10 1723年 1734年 10.1089 / cmb.2006.13.1723 2 - s2.0 - 33846594201 B。 J。 局域网 X。 R。 J。 X。 k . C。 iDNA-Prot |说:识别dna结合蛋白质通过合并氨基酸distance-pairs和减少字母一般伪氨基酸组成 《公共科学图书馆•综合》 2014年 9 9条e106691 10.1371 / journal.pone.0106691 2 - s2.0 - 84906975785 25184541 P。 H。 H。 W。 大气气溶胶:抗氧化蛋白数据库 科学报告 2017年 7 1 7449年 10.1038 / s41598 - 017 - 08115 - 6 2 - s2.0 - 85027060121 28784999 z Y。 h . Y。 H。 c·J。 H。 H . H。 X X。 y W。 z D。 w . C。 e . Z。 H。 W。 H。 Pro54DB:数据库进行实验验证sigma-54推动者 生物信息学 2017年 33 3 467年 469年 10.1093 /生物信息学/ btw630 2 - s2.0 - 85021669018 28171531 T。 唐ydF4y2Ba P。 l N。 Y。 l H。 Z。 l C。 C。 K。 C。 Y。 K。 H。 D。 RNALocate: RNA亚细胞本地化的资源 核酸的研究 2017年 45 D1 D135 D138 10.1093 / nar / gkw728 2 - s2.0 - 85016157034 27543076 热心 一个。 R。 Perumal E。 ZFARED:数据库在斑马鱼中抗氧化反应的元素 目前的生物信息学 2020年 15 5 415年 419年 10.2174 / 1574893614666191018172213 Y。 Lv Y。 Z。 l G。 风扇 G。 iDPF-PseRAAAC:服务器识别defensin肽家族和亚科使用伪氨基酸减少字母组成 《公共科学图书馆•综合》 2015年 10 12条e0145541 10.1371 / journal.pone.0145541 2 - s2.0 - 84957999007 C . C。 c·J。 LIBSVM ACM智能交易系统和技术 2011年 2 3 1 27 10.1145/1961189.1961199 2 - s2.0 - 79955702502 f . Y。 Lv H。 D。 z . M。 l H。 DeepYY1:深度学习的方法来识别YY1-mediated染色质循环 简报的生物信息学 2020年 21 10.1093 /龙头/ bbaa356 f . Y。 Lv H。 Zulfiqar H。 H。 W。 H。 H。 H。 一个计算平台在真核生物识别复制网站的起源 简报的生物信息学 2020年 21 10.1093 /龙头/ bbaa017 D。 z . C。 W。 y . H。 Lv H。 H。 H。 iCarPS:计算工具识别蛋白质羰基化小说网站的编码功能 生物信息学 2020年 21 10.1093 /生物信息学/ btaa702 Y。 Y。 Y。 G。 杨ydF4y2Ba Z。 l PseKRAAC:一个灵活的web服务器生成伪K-tuple氨基酸成分减少 生物信息学 2017年 33 1 122年 124年 10.1093 /生物信息学/ btw564 2 - s2.0 - 85014825165 杨ydF4y2Ba J。 Bhadra P。 一个。 Sethiya P。 l h·K。 k . H。 Siu s . w . I。 Deep-AmPEP30:改善短抗菌肽预测与深度学习 ——核酸分子治疗 2020年 20. 882年 894年 10.1016 / j.omtn.2020.05.006 32464552 l 年代。 μ N。 H。 J。 Y。 l Y。 RAACBook: web服务器减少氨基酸字母表顺序相依推理的使用周的五步法则 数据库 2019年 2019年 10.1093 /数据库/ baz131 l D。 W。 l Y。 RaacLogo:一个新的序列标识发电机利用氨基酸减少集群 简报的生物信息学 2020年 21 10.1093 /龙头/ bbaa096 ValizadehAslani T。 Z。 Sokhansanj b。 罗森 g . L。 氨基酸k-mer特征提取为定量抗菌素耐药性(AMR)通过机器学习和预测模型解释生物的见解 生物学 2020年 9 11 365年 10.3390 / biology9110365 33126516 年代。 F。 Q。 HuiDing MRMD2.0: Python工具排名和减少对机器学习功能 目前的生物信息学 2021年 15 10 1213年 1221年 10.2174 / 1574893615999200503030350 帕蒂尔 K。 Chouhan U。 机器学习的相关技术和各种蛋白质折叠蛋白质特性分类:复习一下 目前的生物信息学 2019年 14 8 688年 697年 10.2174 / 1574893614666190204154038 Q。 王ydF4y2Ba 年代。 Y。 J。 X。 Pretata:预测塔塔结合蛋白与小说的特性和降维的策略 BMC系统生物学 2016年 10 S4 114年 10.1186 / s12918 - 016 - 0353 - 5 2 - s2.0 - 85006925536 28155714 H。 H。 预测离子通道及其类型的二肽的伪氨基酸组成模式 理论生物学杂志》上 2011年 269年 1 64年 69年 10.1016 / j.jtbi.2010.10.019 2 - s2.0 - 77958586156 20969879 H。 y W。 P。 c . M。 R。 P。 H。 HBPred:一个工具来识别增长hormone-binding蛋白质 国际生物科学杂志》上 2018年 14 8 957年 964年 10.7150 / ijbs.24174 2 - s2.0 - 85048181400 29989085 c . Q。 z Y。 x J。 Y。 W。 H。 H。 iTerm-PseKNC:序列预测细菌转录终止剂的工具 生物信息学 2019年 35 9 1469年 1477年 10.1093 /生物信息学/ bty827 2 - s2.0 - 85065658961 30247625 布拉德利 答:P。 使用ROC曲线下的面积在机器学习算法的评价 模式识别 1997年 30. 7 1145年 1159年 10.1016 / s0031 - 3203 (96) 00142 - 2 2 - s2.0 - 0031191630 Y。 P。 绩效指标在评估基于机器学习的生物信息学预测分类 定量生物学 2016年 4 4 320年 330年 10.1007 / s40484 - 016 - 0081 - 2 2 - s2.0 - 85031499899 D。 》。 Zulfiqar H。 s。 Q.-L。 Z.-Y。 K.-J。 iBLP: XGBoost-based预测识别生物荧光蛋白 计算和数学方法在医学 2021年 2021年 15 6664362 10.1155 / 2021/6664362 33505515 Z.-Y。 中州。 H。 D。 W。 H。 设计的有力预测mRNA智人的亚细胞定位预测 简报的生物信息学 2021年 22 1 526年 535年 10.1093 /龙头/ bbz177 31994694 f . Y。 Lv H。 F。 c . Q。 H。 W。 H。 在酿酒酵母利用两步识别复制起源特征选择技术 生物信息学 2019年 35 12 2075年 2083年 10.1093 /生物信息学/ bty943 2 - s2.0 - 85068418977 30428009 索利斯 答:D。 氨基酸减少字母保存折叠信息包含在联系在蛋白质相互作用 蛋白质 2015年 83年 12 2198年 2216年 10.1002 / prot.24936 2 - s2.0 - 84954321171 26407535 C.-W。 C.-J。 多类支持向量机方法的比较 IEEE神经网络 2002年 13 2 415年 425年 10.1109/72.991427 2 - s2.0 - 0036505670 坎贝尔 C。 内核方法:调查当前的技术 Neurocomputing 2002年 48 1 - 4 63年 84年 10.1016 / s0925 - 2312 (01) 00643 - 9 2 - s2.0 - 0036825821 J。 B。 回顾近期的事态发展基于蛋白质的特征提取方法 目前的生物信息学 2019年 14 3 190年 199年 10.2174 / 1574893614666181212102749