CMMM 计算和数学方法在医学 1748 - 6718 1748 - 670 x Hindawi 10.1155 / 2020/8845133 8845133 研究文章 使用多层感知器PredAmyl-MLP:淀粉样蛋白的预测 https://orcid.org/0000 - 0002 - 0907 - 2559 Yanjuan 1 https://orcid.org/0000 - 0003 - 3123 - 1509 梓潼 1 https://orcid.org/0000 - 0002 - 6968 - 4354 Zhixia 1 小燕 2 回族 1 信息与计算机工程学院 东北林业大学 哈尔滨150040 中国 nefu.edu.cn 2 学院计算机科学与技术 哈尔滨工业大学 哈尔滨150040 中国 hit.edu.cn 2020年 21 11 2020年 2020年 14 9 2020年 6 10 2020年 31日 10 2020年 21 11 2020年 2020年 版权©2020李Yanjuan et al。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

淀粉样蛋白通常是不溶性纤维蛋白的聚合;它的异常沉积是各种疾病的发病机理,如阿尔茨海默病和II型糖尿病。因此,准确地确定淀粉样蛋白在病理有必要了解它的作用。我们提出了一个基于机器学习预测模型称为PredAmyl-MLP,由以下三个步骤:特征提取、特征选择和分类。在特征提取的步骤,七个特征提取算法和不同组合的调查,并结合svmprot - 188 d和三肽成分(TPC)根据实验结果被选中。特征选择的步骤、最大相关的最大距离(MRMD)和二项分布(BD),分别用来删除冗余或噪声特性,选择合适的特征根据实验结果。在分类的步骤中,我们采用多层感知器(MLP)训练预测模型。10倍交叉验证结果表明,PredAmyl-MLP的总体精度达到91.59%,和性能比现有的方法。

黑龙江省自然科学基金 LH2019F002 中国国家自然科学基金 61671189 61901103 中央大学基础研究基金 2572017 cb33 2572018 bh05
1。介绍

淀粉样蛋白是一种不溶性纤维蛋白形成的某些错误折叠蛋白质的聚合( 1]。他们发现在细菌、真菌、酵母和哺乳动物( 2];功能的多样性与可溶性蛋白质。淀粉样蛋白在生物膜的形成扮演重要角色 3),肽激素的绑定和存储 4],抗菌活性[ 5),和抗病毒先天免疫反应( 6]。但并不是所有的淀粉样蛋白是有益的,淀粉样原纤维的细胞外沉积会导致一系列的疾病,如阿尔茨海默病( 7)、二型糖尿病和帕金森病( 8, 9]。了解淀粉样蛋白和相关疾病,研究人员对淀粉样蛋白进行了大量的工作,包括淀粉样变( 10, 11),在分子水平上淀粉样蛋白的多晶型物 12),淀粉样蛋白区域( 13,淀粉样蛋白抗体( 14]。

多肽的研究表明,并不是所有的地区同样有助于其聚合;只有一些短的特定氨基酸序列可以作为主持人淀粉样原纤维形成的 15, 16]。因此,许多计算方法检测amyloid-forming区域。AGGRESCAN [ 17)是一个web工具,它标识了aggregation-prone地区序列基于氨基酸的内在aggregation-prone概要文件和它们的相对位置。由于其依赖分析的线性序列,AGGRESCAN很难预测折叠蛋白质的聚合性能。摩尔诺等人改善AGGRESCAN和提出一个新方法叫做AGGRESCAN3D(简称A3D) [ 18]。通过使用许多因素影响蛋白质聚合,A3D球状蛋白质获得更准确的预测。Zyggregator [ 19]预测多肽aggregation-prone地区基于蛋白质一级结构的物理和化学性质,如疏水性和二级结构的趋势。形成机制的基础上 β表在淀粉样蛋白聚集,意大利面 20.)使用能量函数来计算序列的氨基酸片段。FoldAmyloid [ 21]介绍了氢键的期望概率和残留检测的堆积密度amyloidogenic地区多肽链。Maurer-Stroh的方法( 22)是一种预测算法使用position-specific得分矩阵来确定形成淀粉样蛋白序列。

上述方法的预测原则是不同的,都有自己的优点和缺点。相结合的想法不同的预测来提高识别能力被首次引入AmylPred [ 23随后,紧随其后的是改良版AmylPred2 [ 24]。AmylPred2 11个不同的个人预测结合形成的共识预测amyloidogenic地区。AmylPred2基于二进制的共识预测;艾米丽等人改进了权重过程并提出了MetAmyl [ 25]。MetAmyl介绍输入的meta-prediction base-prediction基于统计方法的预测成绩。

近年来,机器学习越来越成为一个最喜欢的工具在生物信息学领域( 26- - - - - - 35]。许多学者尝试使用机器学习算法来预测amyloidogenic倾向。面2.0 [ 36)不仅使用成对的能源潜力预测淀粉样原纤维地区也使用机器学习算法来检测二级结构。鱼淀粉样蛋白( 37)提出了一个原始的机器学习分类方法研究同现模式序列中的基于假设残留物的分布amyloid-forming position-specific碎片。APPNN [ 38)是一种现象学的淀粉样蛋白的形成倾向预测建立在递归特征选择和前馈神经网络。实验结果表明,APPNN高精度值相对于其他amyloidogenic倾向预测方法。

这些方法可以帮助我们理解amyloid-related疾病和找到潜在的治疗靶点。然而,他们的工作重点是预测amyloid-forming地区的一个给定的序列,而不是识别是否淀粉样这个序列。妞妞等人提出RFAmyloid [ 39确定淀粉样蛋白基于随机森林,获得89%的准确性。虽然精度高,仍有许多方面值得进一步研究,如冗余功能由于没有特征选择。在本文中,我们的目标是提出一种新的淀粉样蛋白预测,PredAmyl-MLP,进一步提高预测的性能。

2。材料和方法 2.1。PredAmyl-MLP框架

在本文中,我们提出了一种新的淀粉样蛋白预测称为PredAmyl-MLP框架如图所示 1。首先,我们分别提取188 -维向量和8000 -维向量来代表蛋白质序列通过svmprot - 188 d方法和TPC方法。接下来,我们减少了188 - 121 -维维的向量,向量使用MRMD方法,减少8000 - 425 -维维的向量,向量采用BD法,然后生成特征向量结合121维和425 -维向量。最后,我们构建了一个多层perceptron-based分类器的特征向量作为输入。我们将介绍数据集、特征提取、特征选择和分类器在以下部分中详细。

帧PredAmyl-MLP预测的图表。

2.2。数据集

在这项研究中,我们利用数据集由妞妞等人开发了一个名为RFAmyloid web服务器( 39)确定淀粉样蛋白。有三个原因考虑这个数据集作为我们的实验数据集。首先,收集的数据集是UniProt数据库( http://www.uniprot.org/)和AmyPro数据库( http://www.amypro.net/);因此,它是可靠的。其次,作者采用程序CD-HIT [ 40)集群蛋白质,满足相似性阈值和删除冗余和homology-biased序列( 41]。最后,也是最重要的是,使用相同的数据集允许我们比较该方法与现有的方法相当。165年最后一个数据集由淀粉样蛋白(正面例子)和382 non-amyloid蛋白质(负面的例子)。

2.3。特征提取

第一和最重要的一步是如何设计一个蛋白质的预测表示蛋白质的特性,能有效区分正样本负样本( 42- - - - - - 48]。在本文中,我们试图与特征编码淀粉样蛋白,它由两个基本的特征表示方法,即svmprot - 188 d和三肽成分(TPC)。svmprot - 188 d是基于氨基酸的组成和理化性质。它取得了良好的性能在一些生物信息学应用,如人类蛋白质亚细胞定位预测( 49- - - - - - 52),塔塔结合蛋白识别( 53,家庭和蛋白质功能预测 54- - - - - - 59]。TPC基于三肽组成的蛋白质。它还被广泛应用于解决许多激素结合蛋白等生物信息学问题识别( 60),分枝杆菌蛋白质的亚细胞定位预测,确定cancerlectins [ 61年- - - - - - 63年]。在这篇文章中,我们分别提取svmprot - 188 d和TPC特性从蛋白质和结合代表了蛋白质的特性。实验结果表明,单一特征可以有效地编码蛋白质,所示部分 3.2。svmprot - 188 d和TPC的细节如下。

2.3.1。svmprot - 188 d

基于氨基酸的组成和理化性质,svmprot - 188 d方法编码一种蛋白质作为一个188维的特征向量。第一个20尺寸由20个自然频率的计算氨基酸(A, C, D, E, F, G, H,我,K, L, M, N, P, Q, R, S, T, V, W, Y按字母顺序排列)的序列。这个公式可以定义为 (1) V 1 , V 2 , , V 20. = N l , 在哪里 N 表示的数 t h 蛋白质序列和氨基酸 l 是一个序列的长度。很明显, V = 1

后者与八个维度相关理化性质包括疏水性、规范化范德华体积,极性,极化电荷,表面张力,二级结构和溶剂可及性。每个属性分为三类,20种氨基酸(列在表属于不同的类别 1)。物理化学性质都是由三个描述符描述 C (作文) T (过渡), D (分布)。的 C , T , D 描述符的每个属性包含3,3,和15个数字,分别。 C 氨基酸的频率在一个特定的类别。 T 是氨基酸的百分比频率在一个类别在另一个类别,其次是氨基酸转换等亲水亲水疏水或中性。 D 计算的链长度的比例,25岁,50岁,75年,100%的氨基酸在一个特定的类别和扩大100倍的计算。

三组的氨基酸除以8不同的物理化学性质。

物理化学性质 Class1 类别2 类别3
疏水性 RKEDQN GASTPHY CVLIMFW
规范化范德华体积 GASCTPD NVEQIL MHKFRYW
极性 LIFWCMVY PATGS HQRKNED
极化率 GASDT CPNVEQIL KMHFRYW
负责 基米-雷克南 ANCQGHILMFPSTWYV
表面张力 ILMFPWYV KTSEC GQDNAHR
二级结构 EALMQKRH VIYCWFT GNPSD
溶剂可及性 ALFCGIVM RKQEND MPSTHY

因此,在分析了成分和8个氨基酸的物理化学性质,我们可以获得的 20. + C + T + D × 8 = 188年 特性。

2.3.2。TPC

TPC方法是基于三肽序列组成的蛋白质。三个氨基酸由肽键相连形成一个三肽,从而产生 20. × 20. × 20. = 8000年 可能的三肽。TPC 8000三肽转换成一个8000维的特征向量可以表达一种蛋白质序列。公式定义如下: (2) F = f 1 , f 2 , , f 8000年 T , 在哪里 T 是一个向量的换位, f 是频率的三肽序列,可以计算吗 (3) f = N l 2 , 在哪里 N 的数量吗 t h 三肽和 l 是一个序列的长度。

2.4。特征选择

特征选择中发挥着重要作用的提高识别性能。它可以删除冗余或噪声特性。我们采用了最大相关的最大距离(MRMD) [ 64年)方法从svmprot - 188 d选择最优特征特性和采用二项分布(BD) [ 65年)方法从TPC特点选择最优特征。两种特征选择方法的原则如下。

2.4.1。MRMD

大多数降维方法关注特性和目标类之间的关系,忽略了冗余的功能( 64年]。然而,高度相关的特征向量对分类的影响不能叠加。MRMD方法认为这两个方面评分功能。因此,分数为每个特性包含两个组件,最大相关分数先生和最大距离MD得分,这可以被定义为 (4) 马克斯 先生 + 医学博士

特征之间的相关性和目标类的皮尔森相关系数(PCC)。公式被定义为 (5) P C C F , C = k = 1 N F k F ¯ C k C ¯ k = 1 N F k F ¯ 2 k = 1 N C k C ¯ 2 , 在哪里 N 样本总数, F C 包括 t h 维特征向量和相应的目标类 c 在每个示例中,分别; F k C k k t h 的元素 F C ,分别。如果这个特性很大程度上有助于分类、的值 PCC 将是巨大的。因此,奥评分功能 是计算 (6) 马克斯 先生 = PCC F , C

特征之间的相关性评估通过计算特征之间的距离。在这工作,欧几里得距离(ED)、余弦相似度(COS)和Tanimoto系数(TC)是用作距离函数。公式如下: (7) 艾德 = k = 1 F F k 2 1 k , k , 因为 = F F k F F k 1 k , k , TC = F F k F 2 + F k 2 F F k 1 k , k , 和MD评分功能 被定义为 (8) 马克斯 医学博士 = 1 3 艾德 + 因为 + TC

2.4.2。双相障碍

在这项工作中,二项分布方法( 66年- - - - - - 68年)是应用于从8000年三肽的特性选择最佳的子集。首先,我们来判断是否发生某种蛋白质的三肽通过计算的概率是随机的 t h 班上三肽 j 样品,像这样: (9) P j = k = n j N N ! k ! N k ! j k 1 j N k , 在哪里 类的三肽的比例 j 在所有样品中,样品 n j N 发生的数量吗 t h 三肽在课堂上 j ( j = 0 , 1 )和所有样本,分别。一个更小的 P 值表示更多的确定性三肽的发生。因此,(CL)的信心水平 t h 班上三肽 j 样品可以被定义为 (10) CL j = 1 P j

显然,每个三肽的特性有两个CL的价值观,我们将选择较大的一个。

然后,CL值按降序排列的特性来创建一个排名列表。第一个特性子集只包含列表中的第一个特性, D 1 = f 1 T 。和每一个新的子集时产生下一个候选功能添加到前面的子集。重复此过程,直到所有的功能列表中添加了。结果8000特性可以被描述为子集 (11) D = D 1 , D 2 , , D 8000年 T

最后,对于每一个特性集,建立了预测模型。最优特征子集可以选择基于交叉验证的最大精度10倍。

2.5。分类器

怀卡托知识环境分析(Weka)是一个著名的机器学习和数据挖掘软件。在Weka的平台,我们可以整合自己的算法,甚至用自己的算法来实现分类的任务。在本文中,我们尝试了很多分类算法基于Weka平台,如随机森林,朴素贝叶斯、物流,IBK,装袋 69年, 70年]。最后,我们选择了多层感知器(MLP)作为分类器,和实验结果所示部分 3.3

人工神经网络是一种机器学习算法,模拟人类大脑。多层感知器是一种前馈人工神经网络,具有强大的学习能力和鲁棒性 71年]。它执行很好解决各种实际问题,已广泛应用于生物信息学领域,如疾病诊断( 72年, 73年),蛋白质二级结构的预测 74年),和基因分类( 75年]。中长期规划利用特征向量作为输入层节点。在培训过程中,输出值与实际值相比,和错误信息反馈。基于信息,权重不断更新,直到预测误差足够小。图 2是一个中长期规划的原理图。在这项工作中,我们构造了一个与一个隐层网络模型。隐层神经元的数目设置为总和的一半数量的输入特性和输出类。与此同时,学习速度和迭代的数量设置为0.3和500年,分别。

延时一个隐层的结构。

2.6。测量

评估的性能预测模型,我们用四个指标常用于生物信息学:准确性(ACC),灵敏度(SE)、特异性(SP),马修的相关系数(MCC) [ 76年- - - - - - 87年]。制定本措施如下: (12) ACC = TP + TN TP + TN + 《外交政策》 + FN , SE = TP TP + FN , SP = TN TN + 《外交政策》 , 世纪挑战集团 = TP × TN 《外交政策》 × FN TP + 《外交政策》 TP + FN TN + 《外交政策》 TN + FN , TP是真阳性的缩写,意思是淀粉样蛋白在积极的预测样本的数量;FP是假阳性的缩写,意思是淀粉样蛋白预测负样本的数量;TN是真阴性的缩写,这意味着non-amyloid蛋白质预测负样本的数量;和FN是假阴性的缩写,这意味着non-amyloid蛋白质的数量在积极的预测样本。SE和SP,分别表示模型的预测能力的积极的和消极的样本。ACC和MCC表示模型的整体性能。对于所有上述指标,他们达到更高的分数,更好的性能模型。

3所示。结果与讨论 3.1。实验特征选择

中描述的框架PredAmyl-MLP,我们分别提取svmprot - 188 d和TPC特性从每个样本与样本和编码一个8188维的特征。使用太多的特征向量训练分类模型较低的信心相对耗时,和模型可能会过度拟合。相反,如果特征向量的数量太小了,他们不会提供足够的信息来区分正样本负样本。因此,构建一个健壮的和有效的预测模型,我们分别采用MRMD和BD方法选择合适的特征数量从svmprot - 188 d和TPC特性。在本节中,我们将特征选择的过程和实验结果。

188 - svmprot - 188 d维特征提取的方法,我们通过计算评估其重要性MRMD分数。特性和更高的分数有淀粉样蛋白识别更重要的贡献。MRMD分数由皮尔森相关系数和距离的函数。MRMD方法提供了三个距离函数包括欧几里得距离(ED)、余弦相似度(COS)和Tanimoto系数(TC)。不同的距离函数会导致不同MRMD分数为每个特性。因此,选择一个适当的距离函数删除冗余特性是至关重要的。

我们采用支持向量机(SVM) [ 88年, 89年),一个强大的分类算法,检查三个距离函数的性能,选择最优的特征子集。首先,我们排名的特性减少顺序MRMD分数获取特性列表。然后,我们建立了特征子集根据功能列表中的顺序。第一组只包含功能列表中排名第一。生成一组新的当第二个特性被添加到前面的设置。重复此过程,直到所有候选人特性被添加。最后,构建188子集被输入到一个基于svm分类器,和10倍交叉验证的准确性。

3说明了MRMD基于不同的距离函数的性能,其中的意思是表示三个距离函数的平均值。如图 3艾德,因为,TC,意思是有最好的预测性能在使用121年排名第一,174年,177年和121年的特性,分别。此外,ED距离函数得到的结果几乎相同的人通过不同的距离函数的平均值。它表明使用ED距离函数方法可以达到同样的效果,使用三个距离函数的平均值。尽管TC的最大精度略高于ED, ED所需特性的数量来获得最佳的性能远低于TC。因此,我们采用ED的距离函数MRMD方法和使用ED排名的前121名特性构建一个最优的特征子集。

比较不同的距离函数。

4介绍了每个特性的MRMD得分计算使用ED距离函数,特征选择标有红色和蓝色标注的是删除。从图我们可以看出 4,大部分的冗余特性出现连续和集中,如,第21到26 42-47,126 - 131,147 - 152,168 - 175。我们分析原因,发现这些特征提取是基于内容的三个类别的氨基酸序列,每两个类别之间的过渡频率。这些特性被认为是冗余特性,可能是因为他们不确定淀粉样蛋白或编码非常相似。这一发现也为我们的未来的研究带来了新的想法。

188年MRMD分数svmprot - 188 d特征提取的方法。

8000年TPC特征提取的方法,我们采用BD法排序它们。根据排序顺序,选择一定数量的特性,形成一个功能子集。因此,我们可以构造8000特征子集。对于每个子集,10倍交叉验证的支持向量机分类器训练。精度和功能的数量之间的关系如图 5。如图 5,精度达到91.22%的最大当特征的数量是1565。这个数字远远大于547个样本的数量在我们的数据集。建设一个强大的预测模型必须考虑耗时和风险造成过度拟合的高维特征向量。最终,我们选择了排名前425的特性可以实现87.93%的总体精度只是略低于最高精度(91.22%)产生的前1565名功能。因此,排名前425的特性作为最优特征子集的TPC特性的方法。

模型的精度由不同数量的特性。

总之,我们分别选择121特性svmprot特征和425 - 188 d的TPC特性,然后结合121特性和425特征形成特征由546年的特性。单一特征用于训练多层感知器分类器在这个研究。

3.2。性能不同的特性

所示实验特征选择,我们分别提取188 - 8000 -维维的向量和向量从蛋白质序列通过svmprot - 188 d方法和TPC方法。接下来,我们减少了188 - 121 -维维的向量,向量使用MRMD方法,减少8000 - 425 -维维的向量,向量采用BD法,然后生成特征向量结合121维和425 -维向量。我们使用单一特征尺寸为546代表样本。

验证本文中使用的特征的有效性,我们首先使用多层感知器分类器和特征与其他特征相比,包括 k -skip-2-gram [ 90年),伪氨基酸组成(PseAAC) [ 91年),联合三合会(CTriad) [ 92年),二肽成分(DPC) [ 93年,473 d ( 94年]。然后,相比三特性和更高的准确性和评估相结合。PseAAC和DPC都基于氨基酸组成。PseAAC考虑本地和远程信息相关的序列。DPC代表一个蛋白质序列通过二肽成分信息。 N 蟋蟀是一种常见的模型在自然语言处理,和 k 跳过, n 蟋蟀之间的距离信息集成 n 残留的传统 n 克模型。CTriad特征提取方法基于氨基酸的邻居关系。473 d序列编码成基于PSI-BLAST[473 -维特征向量 95年]和PSI-PRED [ 96年概要文件。

10倍交叉验证结果如表所示 2,svmprot - 188和TPC表示特征选择后的最终功能。如表所示 2指标的ACC和MCC, svm的组合- 188 d和TPC用于本文执行比所有其他方法和有更好的整体性能。根据SE的指标,我们的特征也有最高的价值,这表明我们的方法执行比其他方法确定淀粉样蛋白的阳性样本。根据SP的指标,我们的方法比TPC略低,473 d, CTriad和473 d。然而,ACC的值,MCC, SE的方法显然是比他们的高。特别是473 d的SE和CTriad和473 d是0.339和0.036,分别,确认他们有偏见对蛋白质non-amyloid蛋白质进行分类。因此,从整体的角度来看,我们的方法显然比所有其他方法表现更好。

比较不同的特征表示方法。

方法 ACC (%) SE SP 世纪挑战集团
svmprot - 188 d + TPC 91.59 0.836 0.950 0.798
PseAAC + 473 d 64.71 0.339 0.780 0.126
PseAAC + CTriad 72.76 0.491 0.830 0.333
CTriad + 473 d 70.56 0.036 0.995 0.119
473 d + PseAAC + CTriad 67.45 0.230 0.866 0.120
svmprot - 188 d 80.80 0.606 0.895 0.527
TPC 90.12 0.776 0.955 0.760
k -skip-2-gram 71.11 0.291 0.893 0.228
PseAAC 78.42 0.570 0.877 0.469
CTriad 72.57 0.345 0.890 0.281
DPC 68.37 0.345 0.830 0.193
473 d 76.96 0.339 0.955 0.398

进一步说明我们的多特征融合方法具有更好的性能判断不管分类器,我们分别,而特征与其他特征提取方法基于六种不同的分类方法。结果如图 6。从图我们可以看出 6,每组使用相同的分类器模型,结合的准确性SVMProt 188 - d和TPC明显高于其他特征提取方法。分类器SGD为例,结合的准确性SVMProt 188 - d和TPC大约是9 - 16%高于其他方法。一般来说,我们的多特征融合方法具有更好的性能判断不管分类器。

各种特征提取方法的准确性使用不同的分类器。

3.3。不同的分类器的性能

一个分类算法的选择是一个重要的步骤来提高模型的准确性。基于本文中使用的特征,我们将多层感知器与十流行的分类器,包括随机森林,朴素贝叶斯,决策树,AdaBoostM1,物流,SGD, LibSVM, IBK,低潮位,装袋。SGD是一个线性分类器使用一个随机梯度下降优化算法。朴素贝叶斯是基于贝叶斯定理和假定是独立的特性同样重要。LibSVM是林等人开发的软件来实现支持向量机。物流建立回归方程为决策边界基于训练数据和分类相应的测试数据。决策树划分测试数据集的基于信息熵的概念。演算法、装袋和随机森林系综分类器。演算法是一种自适应迭代算法,集成了多个弱分类器训练在同一数据集到一个强分类器。装袋是一个并行集成学习方法基于引导抽样。 It trains a base classifier for each sampled dataset and then combines the base classifiers. Random forest is an extended variant of bagging that uses decision trees as the base classifier and introduces random attribute selection. Both IBK and LWL are lazy learning algorithms, which mean that the model is trained after receiving a test sample. IBK works by finding the k 训练样本的一个给定的测试样本,确定给定的类别根据这些样本 k “邻居”,在低潮位添加一个加权的概念。10倍交叉验证的结果如表所示 3

与其他分类器比较多层感知器。

方法 ACC (%) SE SP 世纪挑战集团
多层感知器 91.59 0.836 0.950 0.798
随机森林 85.00 0.642 0.940 0.629
朴素贝叶斯 86.28 0.848 0.869 0.692
决策树 79.52 0.618 0.872 0.503
AdaBoostM1 82.81 0.612 0.921 0.574
物流 87.93 0.721 0.948 0.705
SGD 89.57 0.776 0.948 0.747
LibSVM 74.95 0.424 0.890 0.357
韩国中小企业银行 79.52 0.376 0.976 0.481
低潮位 81.35 0.594 0.908 0.537
装袋 83.36 0.588 0.940 0.585

在表 3,虽然提出了多层感知器方法略低于IBK SP指数,多层感知器显然是比在其他三个指标。的指标,朴素贝叶斯实现更高的价值比多层感知器,但是在ACC的其他三个指标,SP, MCC,多层感知器优于朴素贝叶斯。根据指标的ACC和MCC,多层感知器高于所有其他分类器。总的来说,本文中使用的多层感知器分类器有更好的性能比其他分类器,这表明,我们的方法是有效的识别淀粉样蛋白。

3.4。与其他方法相比

进一步评估PredAmyl-MLP的性能,我们比较了两种最先进的方法如RFAmyloid [ 39]和BioSeq-Analysis [ 97年在相同的数据集。BioSeq-Analysis是一个平台的DNA、RNA和蛋白质序列分析,可在网上 http://bioinformatics.hitsz.edu.cn/BioSeq-Analysis/PROTEIN。支持向量机和随机森林算法用于BioSeq-Analysis预测方法,我们分别比较。比较结果如表所示 4。从表中我们可以看出 4,我们预测在所有指标优于其他方法。此外,图 7情节ROC曲线的四个方法。我们还可以看到,PredAmyl-MLP优于现有的淀粉样蛋白的预测方法。

与其他现有的方法比较,我们的方法。

方法 ACC (%) SE SP 世纪挑战集团
PredAmyl-MLP 91.59 0.836 0.950 0.798
RFAmyloid 89.19 0.781 0.927 0.739
BioSeq (RF) 81.31 0.6374 0.8989 0.5626
BioSeq(支持向量机) 76.86 0.4953 0.9006 0.4419

ROC曲线PredAmyl-MLP和其他方法。

4所示。结论

在本文中,我们提出了一个新颖的模型识别淀粉样蛋白,称为PredAmyl-MLP。我们使用了svmprot - 188 d和三肽合成方法来表示蛋白质序列,分别。后删除冗余特性,构建多层基于知觉预测模型使用混合特征向量。验证PredAmyl-MLP的性能,我们比较不同的特征子集,分类器和其他方法。因此,降维后的特征可以实现更好的性能。此外,两种特性的组合表达方法极大地提高了精度。通过大量的实验,PredAmyl-MLP达到91.59%的精度,和MCC达到0.798,优于现有的其他方法。本文的网络服务器是可用的 http://106.12.83.135:8080 amyWeb_Release / index . jsp

在未来的工作中,我们将优化特征表示方法,用低维特征向量代表淀粉样蛋白序列。此外,我们将考虑其他计算智能模型( 98年- - - - - - 102年和优化方法 103年- - - - - - 105年淀粉样蛋白预测。

数据可用性

在当前使用的数据集的研究可从相应的作者在合理的请求,或可以从下载 http://106.12.83.135:8080 amyWeb_Release / index . jsp

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是支持的基础研究基金为中央大学(2572018 bh05, 2572017 cb33),中国国家自然科学基金(61901103,61901103),和黑龙江省自然科学基金(LH2019F002)。

多布森 c . M。 蛋白质错误折叠,进化和疾病 生化科学趋势 1999年 24 9 329年 332年 10.1016 / s0968 - 0004 (99) 01445 - 0 2 - s2.0 - 0033200063 10470028 艾森伯格 D。 张超 M。 淀粉样蛋白在人类疾病的状态 细胞 2012年 148年 6 1188年 1203年 10.1016 / j.cell.2012.02.022 2 - s2.0 - 84858374665 22424229 Lembre P。 我们试图 C。 马蒂诺 P。 识别一个amyloidogenic Bap蛋白肽的葡萄球菌epidermidis 蛋白质和多肽的信件 2014年 21 1 75年 79年 10.2174 / 09298665113209990072 2 - s2.0 - 84891468157 24354773 Maji 美国K。 佩兰 m . H。 莎瓦亚 m·R。 Jessberger 年代。 Vadodaria K。 Rissman r。 Singru p S。 尼尔森 k·p·R。 西蒙 R。 舒伯特 D。 艾森伯格 D。 J。 Sawchenko P。 淡水河谷 W。 里克• R。 功能性淀粉样肽激素的自然存储垂体分泌颗粒 2009年 325年 5938年 328年 332年 10.1126 / science.1173155 2 - s2.0 - 67650809307 比尔 年代。 埃斯特拉达 l 拉各斯 R。 也应有所差异 M。 卡斯提拉 J。 索托 C。 淀粉样蛋白形成调节细菌蛋白的生物活性 生物化学杂志 2005年 280年 29日 26880年 26885年 10.1074 / jbc.m502031200 2 - s2.0 - 22844451606 F。 太阳 l H。 Skaug B。 Q.-X。 程ydF4y2Ba z . J。 小牛形式功能prion-like总量来激活和传播抗病毒先天免疫反应 细胞 2011年 146年 3 448年 461年 10.1016 / j.cell.2011.06.041 2 - s2.0 - 79961133270 C。 Chyr J。 W。 Y。 Z。 唐ydF4y2Ba H。 索托 C。 X。 阿尔茨海默病的神经影像学 全基因组协会和机械的研究表明,免疫反应导致阿尔茨海默氏病的发展 遗传学前沿 2018年 9 410年 10.3389 / fgene.2018.00410 2 - s2.0 - 85055101045 Obici l Perfetti V。 Palladini G。 莫拉蒂 R。 Merlini G。 系统性淀粉样疾病的临床方面 Biochimica et Biophysica学报(BBA)——蛋白质和蛋白质组学 2005年 1753年 1 11 22 10.1016 / j.bbapap.2005.08.014 2 - s2.0 - 27744561904 ·兰斯伯里 p . T。 淀粉样蛋白的进化:正常蛋白质折叠可能告诉我们关于fibrillogenesis和疾病 美国国家科学院院刊》上 1999年 96年 7 3342年 3344年 10.1073 / pnas.96.7.3342 2 - s2.0 - 0033616682 10097040 格里芬 j·w·D。 布拉德肖 p C。 在硅片的预测小说残留参与人类I56T和D67H溶菌酶淀粉样蛋白初级成核 BMC结构生物学 2018年 18 1 9 10.1186 / s12900 - 018 - 0088 - 1 2 - s2.0 - 85050229283 30029603 J。 C。 l F。 年代。 扩散hepatosplenic 99 mtc-pyrophosphate活动引起的淀粉样变 临床核医学 2020年 45 3 246年 247年 10.1097 / rlu.0000000000002877 31977456 Guenther e . L。 通用电气 P。 H。 莎瓦亚 m·R。 卡西欧 D。 波伊尔 d·R。 Gonen T。 z H。 艾森伯格 d S。 原子水平的证据包装和位置的部分淀粉样蛋白多态性TDP-43 RRM2 《自然结构和分子生物》上 2018年 25 4 311年 319年 10.1038 / s41594 - 018 - 0045 - 5 2 - s2.0 - 85043449784 29531287 Roisman l . C。 年代。 Chuei m·J。 康纳 a。R。 Cappai R。 淀粉样前体如蛋白2的晶体结构E2域完成淀粉样前体蛋白家族 美国实验生物学学会联合会杂志 2019年 33 4 5076年 5081年 10.1096 / fj.201802315r 2 - s2.0 - 85064110929 30608876 大卫 m p C。 康赛普西翁 g . P。 Padlan 大肠。 使用简单的人工智能方法预测amyloidogenesis抗体 BMC生物信息学 2010年 11 1 79年 79年 10.1186 / 1471-2105-11-79 2 - s2.0 - 77949516611 de Groot n S。 Pallares 我。 铁砧 f . X。 Vendrell J。 文图拉 年代。 预测“热点”的病有关多肽的聚合 BMC结构生物学 2005年 5 1 18 文图拉 年代。 Zurdo J。 Narayanan 年代。 Parreno M。 一下mangu R。 赖夫 B。 丁质 F。 Giannoni E。 多布森 c . M。 铁砧 f . X。 萨拉诺 l 短的氨基酸延伸可以调解在球状蛋白质淀粉样蛋白的形成:Src同源性3 (SH3)情况 美国国家科学院院刊》上 2004年 101年 19 7258年 7263年 10.1073 / pnas.0308249101 2 - s2.0 - 2442553006 15123800 Conchillo-Sole O。 de Groot n S。 铁砧 f . X。 Vendrell J。 Daura X。 文图拉 年代。 AGGRESCAN:服务器的预测和评价\“热点\“多肽的聚合 BMC生物信息学 2007年 8 1 65年 10.1186 / 1471-2105-8-65 2 - s2.0 - 33947517558 摩尔诺 R。 Jamroz M。 Szczasiuk 一个。 Pujols J。 Kmiecik 年代。 文图拉 年代。 聚集AGGRESCAN3D (A3D):服务器进行预测蛋白质结构的性质 核酸的研究 2015年 43 W1 W306 W313 10.1093 / nar / gkv359 2 - s2.0 - 84979865185 塔尔塔利亚 G·G。 Vendruscolo M。 Zyggregator方法预测蛋白质聚合的倾向 化学学会评论 2008年 37 7 1395年 1401年 10.1039 / b706784b 2 - s2.0 - 45749102914 18568165 它起码 一个。 Seno F。 Tosatto s . c, E。 意大利面服务器进行蛋白质聚合预测 蛋白质工程的设计和选择 2007年 20. 10 521年 523年 10.1093 /蛋白质/ gzm042 2 - s2.0 - 36248964819 Garbuzynskiy s . O。 Lobanov m . Y。 Galzitskaya o . V。 FoldAmyloid: amyloidogenic地区从蛋白质序列预测的方法 生物信息学 2010年 26 3 326年 332年 10.1093 /生物信息学/ btp691 2 - s2.0 - 77949532822 20019059 Maurer-Stroh 年代。 Debulpaep M。 Kuemmerer N。 拉巴斯德 m . L。 马丁斯 i . C。 Reumers J。 莫里斯 k . L。 科普兰 一个。 Serpell l 萨拉诺 l Schymkowitz j·w·H。 卢梭 F。 探索使用position-specific得分矩阵序列淀粉样蛋白结构的决定因素 自然方法 2010年 7 3 237年 242年 10.1038 / nmeth.1432 2 - s2.0 - 77649265357 Frousios K·K。 Iconomidou 诉。 Karletidi C.-M。 Hamodrakas 美国J。 Amyloidogenic因素通常不埋 BMC结构生物学 2009年 9 1 44 44 10.1186 / 1472-6807-9-44 2 - s2.0 - 67651177799 Tsolis a . C。 帕潘德里欧 n . C。 Iconomidou 诉。 Hamodrakas 美国J。 达成共识的aggregation-prone肽的预测方法的球状蛋白 《公共科学图书馆•综合》 2013年 8 1 e54175 10.1371 / journal.pone.0054175 2 - s2.0 - 84872223302 23326595 艾米丽 M。 Talvas 一个。 Delamarche c . j . p . O。 MetAmyl: METa-predictor淀粉样蛋白 《公共科学图书馆•综合》 2013年 8 11 e79722 10.1371 / journal.pone.0079722 2 - s2.0 - 84896736323 24260292 Q。 Mrozek D。 Q。 Y。 可伸缩的数据挖掘算法在计算生物学和生物医学 生物医学研究的国际 2017年 2017年 3 10.1155 / 2017/5652041 2 - s2.0 - 85015736736 28337450 Q。 程ydF4y2Ba l T。 Z。 Y。 机器学习和计算生物医学图像分析 人工智能在医学上 2017年 83年 1 10.1016 / j.artmed.2017.09 Y。 Y。 J。 W。 X。 深度学习的拼接(epi)遗传密码揭示小说候选人机制组蛋白修饰与ESC命运的决定 核酸的研究 2017年 45 21 12100年 12112年 10.1093 / nar / gkx870 2 - s2.0 - 85039060379 29036709 l C。 程ydF4y2Ba H。 首歌 J。 R。 ACPred-FL:序列预测使用有效的特征表示提高抗癌肽的预测 生物信息学 2018年 34 23 4007年 4016年 10.1093 /生物信息学/ bty451 2 - s2.0 - 85053737791 l R。 B。 X。 Q。 X。 集成深度特性的表征和手工制作的特性来提高N6-methyladenosine预测网站 Neurocomputing 2019年 324年 3 9 10.1016 / j.neucom.2018.04.082 2 - s2.0 - 85048546014 l 烹调的菜肴 年代。 Nagai 洛杉矶E。 R。 Q。 探索DNA序列特性改进的预测N4-methylcytosine网站在多个物种 生物信息学 2018年 35 8 1326年 1333年 10.1093 /生物信息学/ bty824 2 - s2.0 - 85060092473 l C。 J。 F。 LightCpG:视点CpG网站检测单细胞全基因组序列数据 BMC基因组学 2019年 20. 1 306年 10.1186 / s12864 - 019 - 5654 - 9 2 - s2.0 - 85064623809 31014252 Z。 首歌 J。 J。 X。 F。 检测复合物从edge-weighted PPI网络通过基因表达分析 BMC系统生物学 2018年 12 S4 40 10.1186 / s12918 - 018 - 0565 - y 2 - s2.0 - 85045739502 29745859 F。 D。 l SNP的渐进方法调用和单体型组装使用单分子测序数据 生物信息学 2018年 34 12 2012年 2018年 10.1093 /生物信息学/ bty059 2 - s2.0 - 85049083989 29474523 Y。 Y。 W。 Y。 太阳 C。 l M。 定量构效关系模型,基于机器学习的苯并咪唑衍生物缓蚀剂通过合并综合特征选择 跨学科的科学 2019年 11 4 738年 747年 10.1007 / s12539 - 019 - 00346 - 7 2 - s2.0 - 85071747855 沃尔什 我。 Seno F。 Tosatto s . c, E。 它起码 一个。 面2.0:蛋白质聚合预测的改进的服务器 核酸的研究 2014年 42 W1 W301 W307 10.1093 / nar / gku399 2 - s2.0 - 84904786762 24848016 Gasior P。 Kotulska m·j·B·B。 寻找新方法——鱼淀粉amyloidogenic段在基于网站的特定co-occurence蛋白质氨基酸 BMC生物信息学 2014年 15 1 54 10.1186 / 1471-2105-15-54 2 - s2.0 - 84894838898 C。 高秤 s R。 别墅 一个。 凤凰城 d . A。 肽和蛋白质的预测倾向淀粉样蛋白的形成 《公共科学图书馆•综合》 2015年 10 8 e0134679 10.1371 / journal.pone.0134679 2 - s2.0 - 84941966151 妞妞 M。 Y。 C。 K。 RFAmyloid:预测淀粉样蛋白的web服务器 国际分子科学杂志》上 2018年 19 7 2071年 10.3390 / ijms19072071 2 - s2.0 - 85050178586 30013015 l 妞妞 B。 Z。 年代。 W。 CD-HIT:加速集群下一代测序数据 生物信息学 2012年 28 23 3150年 3152年 10.1093 /生物信息学/ bts565 2 - s2.0 - 84870431038 Q。 G。 X。 X。 X。 序列聚类在生物信息学:一个实证研究 简报的生物信息学 2018年 21 1 1 10 10.1093 /龙头/ bby090 J。 B。 回顾近期的事态发展基于蛋白质的特征提取方法 目前的生物信息学 2019年 14 3 190年 199年 10.2174 / 1574893614666181212102749 W。 x J。 J。 H。 H。 简短的调查机器学习方法在蛋白质sub-Golgi本地化 目前的生物信息学 2019年 14 3 234年 240年 10.2174 / 1574893613666181113131415 2 - s2.0 - 85065335112 m . L。 W。 z . X。 D。 程ydF4y2Ba W。 l H。 概述预测蛋白质subchloroplast本地化使用机器学习方法 当前蛋白质和肽科学 2020年 21 10.2174 / 1389203721666200117153412 s . H。 J。 y W。 f . Y。 H。 程ydF4y2Ba W。 H。 iPhoPred:预测识别人类蛋白质磷酸化的网站 IEEE访问 2019年 7 177517年 177528年 10.1109 / ACCESS.2019.2953951 程ydF4y2Ba W。 P。 T。 D。 最新进展在机器学习的方法来预测热休克蛋白质 目前的药物代谢 2019年 20. 3 224年 228年 10.2174 / 1389200219666181031105916 2 - s2.0 - 85064906498 Y。 Q。 J。 X。 d Q。 PredT4SE-stack:从蛋白质序列预测细菌IV型分泌效应器使用堆叠合奏的方法 微生物学前沿 2018年 9 2571年 10.3389 / fmicb.2018.02571 2 - s2.0 - 85055810506 J。 Y。 P。 N。 Q。 J。 NeuroPP:神经肽的预测前兆的工具基于最优序列组成 跨学科的科学 2019年 11 1 108年 114年 10.1007 / s12539 - 018 - 0287 - 2 2 - s2.0 - 85053072958 郭宏源。 S.-W。 预测蛋白质的亚细胞位置的进步与机器学习 目前的生物信息学 2019年 14 5 406年 421年 10.2174 / 1574893614666181217145156 2 - s2.0 - 85070947093 Y。 J。 F。 识别的蛋白质亚细胞定位通过进化和物理化学信息集成到周总PseAAC 理论生物学杂志》上 2019年 462年 230年 239年 10.1016 / j.jtbi.2018.11.012 2 - s2.0 - 85056761158 Y。 Y。 J。 Q。 F。 关键的评估基于web的人类蛋白质亚细胞定位预测工具 简报的生物信息学 2020年 21 5 1628年 1640年 10.1093 /龙头/ bbz106 王ydF4y2Ba 年代。 Y。 问:j . P。 HPSLPred:一个多标记分类器对人类蛋白质亚细胞定位预测与不平衡的来源 蛋白质组学 2017年 17 17日,1700262条 10.1002 / pmic.201700262 2 - s2.0 - 85029831735 Q。 王ydF4y2Ba 年代。 Y。 J。 X。 Pretata:预测塔塔结合蛋白与小说的特性和降维的策略 BMC系统生物学 2016年 10 S4 114年 10.1186 / s12918 - 016 - 0353 - 5 2 - s2.0 - 85006925536 28155714 y . H。 j . Y。 l x F。 年代。 X。 程ydF4y2Ba s Y。 P。 C。 C。 程ydF4y2Ba Z。 F。 程ydF4y2Ba y Z。 SVM-Prot 2016:服务器机器学习预测蛋白质功能的家庭无论相似序列 《公共科学图书馆•综合》 2016年 11 8条e0155290 10.1371 / journal.pone.0155290 2 - s2.0 - 84984783441 27525735 H。 W。 H。 p . M。 J。 程ydF4y2Ba W。 H。 PHYPred:识别噬菌体酶和水解酶的工具 Virologica中央研究院 2016年 31日 4 350年 352年 10.1007 / s12250 - 016 - 3740 - 6 2 - s2.0 - 84966318339 27151186 Naveed M。 Mehboob m Z。 侯赛因 一个。 伊克 K。 达拉 一个。 Zeeshan N。 守恒的致命的假想的蛋白质的结构和功能注释沙眼衣原体:一个in-silico方法 目前的生物信息学 2019年 14 4 344年 352年 10.2174 / 1574893613666181107111259 2 - s2.0 - 85067954745 Lei w·A。 传播系统的建立成熟胚和茎段的velutina 林业科技 2008年 3 3 J。 聚氨酯 Y。 J。 Q。 F。 DeepAVP:双通道深神经网络识别变长抗病毒肽 IEEE生物医学和卫生信息学杂志》上 2020年 24 10 3012年 3019年 H。 Y。 J。 F。 膜蛋白类型的识别通过多元信息融合与Hilbert-Schmidt独立标准 Neurocomputing 2020年 383年 257年 269年 10.1016 / j.neucom.2019.11.103 唐ydF4y2Ba j . X。 s . H。 z . M。 程ydF4y2Ba c . X。 程ydF4y2Ba W。 H。 H。 1为Neuro-Information的教育部重点实验室,生命科学与技术学院生物信息中心中国电子科技大学,成都610054年,中国 2国家计划生育研究所,北京100081,中国 3人类遗传资源的国家中心,北京100081,中国 4创新中药研究所和制药、成都中医药大学、成都611730年,中国 5部的病理生理学,西南医科大学,646000年泸州,中国 识别激素结合蛋白基于机器学习的方法 数学生物科学与工程 2019年 16 4 2466年 2480年 10.3934 / mbe.2019123 2 - s2.0 - 85064926946 31137222 l Y。 Y。 J。 F。 发现癌症亚型在多个配置文件数据通过一个精确的融合策略 遗传学前沿 2019年 10 10.3389 / fgene.2019.00020 2 - s2.0 - 85065851017 p。 观测。 Z.-J。 E.-Z。 H。 程ydF4y2Ba W。 H。 分枝杆菌蛋白质的亚细胞定位预测将最优三肽纳入伪氨基酸组成的一般形式 分子生物系统 2015年 11 2 558年 563年 10.1039 / c4mb00645c 2 - s2.0 - 84921459189 H.-Y。 程ydF4y2Ba x x。 程ydF4y2Ba W。 H。 H。 识别cancerlectins序列预测建模 Oncotarget 2017年 8 17 28169年 28175年 10.18632 / oncotarget.15963 2 - s2.0 - 85018437687 Q。 J。 l R。 小说特征与应用程序排名指标可伸缩的视觉和生物信息学数据分类 Neurocomputing 2016年 173年 346年 354年 10.1016 / j.neucom.2014.12.123 2 - s2.0 - 84948719605 Y。 l . j . A。 使用四肽信号对蛋白质二级结构预测 氨基酸 2008年 35 3 607年 614年 10.1007 / s00726 - 008 - 0089 - 7 2 - s2.0 - 50949130619 x J。 c . Q。 h . Y。 程ydF4y2Ba W。 l 预测蛋白质结构类low-similarity序列通过评估不同的特性 以知识为基础的系统 2019年 163年 787年 793年 10.1016 / j.knosys.2018.10.007 2 - s2.0 - 85055091222 H。 W。 F.-Y。 Lv H。 H。 程ydF4y2Ba W。 H。 计算方法的比较和评估识别在酿酒酵母重组热点 简报的生物信息学 2020年 21 10.1093 /龙头/ bbz123 Z.-Y。 中州。 H。 D。 程ydF4y2Ba W。 H。 设计的有力预测mRNA智人的亚细胞定位预测 简报的生物信息学 2020年 10.1093 /龙头/ bbz177 M。 l X。 程ydF4y2Ba C。 H。 Q。 B。 细胞外基质蛋白的预测,通过多个特征信息融合弹性网,和随机森林算法 数学 2020年 8 2 169年 10.3390 / math8020169 X。 B。 一个。 程ydF4y2Ba C。 B。 Q。 网站整体随机森林预测的蛋白质间交互作用合成少数过采样技术 生物信息学 2019年 35 14 2395年 2402年 10.1093 /生物信息学/ bty995 2 - s2.0 - 85067413018 Y。 X。 应用单细胞测序multiomics,在分子生物学的方法 2018年 施普林格自然 Q。 Q。 机器学习的应用对疾病的诊断和治疗 数学生物科学 2020年 320年 108305年 10.1016 / j.mbs.2019.108305 Işik H。 经济特区 E。 诊断癫痫的脑电图信号使用多层感知器和Elman神经网络和小波变换 医疗系统杂志 2012年 36 1 1 13 10.1007 / s10916 - 010 - 9440 - 0 2 - s2.0 - 84860258234 狮子座Dencelin X。 拉姆库玛儿 T。 分析多层感知器机器学习分类方法在蛋白质二级结构 生物医学研究 2016年 27 166年 173年 de Oliveira Poswar F。 法瑞斯 l . C。 德·卡瓦略弗拉格 c。 Bambirra W。 Brito-Junior M。 Sousa-Neto m D。 桑托斯 S·h·S。 德波拉 a . m . B。 D天使 m·f·s V。 吉马良斯 a·l·S。 生物信息学、交互网络分析和神经网络描述基因表达的根端囊肿和根尖周的肉芽肿 牙髓学杂志》 2015年 41 6 877年 883年 10.1016 / j.joen.2015.02.004 2 - s2.0 - 84930082318 l J。 F。 首歌 J。 R。 Q。 群体感应肽使用特性的比较分析和预测表示学习和机器学习算法 简报的生物信息学 2020年 21 1 106年 119年 10.1093 /龙头/ bby107 l 程ydF4y2Ba H。 R。 M6APred-EL:序列预测识别N6-methyladenosine网站整体学习使用 分子Therapy-Nucleic酸 2018年 12 635年 644年 10.1016 / j.omtn.2018.07.004 2 - s2.0 - 85050883725 R。 H。 B。 X。 l 开发一个多剂量药物引起的肝毒性预测计算模型基于toxicogenomics数据 IEEE / ACM事务计算生物学和生物信息学 2019年 16 4 1231年 1239年 10.1109 / tcbb.2018.2858756 2 - s2.0 - 85050408266 Z。 W。 J。 F。 识别highest-affinity酵母转录因子的结合位点的家庭 《化学信息和建模 2020年 60 3 1876年 1883年 10.1021 / acs.jcim.9b01012 l Y。 Y。 J。 F。 FKL-Spa-LapRLS:人类microRNA-disease协会一个精确的识别方法 BMC基因组学 2018年 19 911年 11 25 10.1186 / s12864 - 018 - 5273 - x 2 - s2.0 - 85059267005 Y。 J。 F。 识别drug-side效果协会通过多种信息集成为中心内核对齐 Neurocomputing 2019年 325年 211年 224年 10.1016 / j.neucom.2018.10.028 2 - s2.0 - 85055111970 Y。 J。 F。 协会通过semi-supervised drug-side效应模型的识别和多个内核的学习 IEEE生物医学和卫生信息学杂志》上 2019年 23 6 2619年 2632年 H。 z Y。 H。 程ydF4y2Ba W。 识别sigma70推动者与小说伪核苷酸组成 IEEE / ACM事务计算生物学和生物信息学 2019年 16 4 1316年 1321年 10.1109 / TCBB.2017.2666141 2 - s2.0 - 85050885325 28186907 程ydF4y2Ba W。 F。 H。 最新进展的计算方法确定噬菌体病毒蛋白质 蛋白质和多肽的信件 2020年 27 4 259年 264年 10.2174 / 0929866526666190410124642 Y。 Y。 Kihara给 D。 h . Y。 X。 d Q。 机器学习技术的调查预测同种型特异性的细胞色素P450基质 目前的药物代谢 2019年 20. 3 229年 235年 10.2174 / 1389200219666181019094526 2 - s2.0 - 85063706720 30338736 X。 X。 c, D。 Y。 Y。 Y。 d Q。 预测CYP450 es选择性基于网络标签空间划分方法 《化学信息和建模 2019年 59 11 4577年 4586年 10.1021 / acs.jcim.9b00749 31603319 Y。 Kaushik a . C。 X。 W。 Y。 X。 Salahub d·R。 Y。 d Q。 DTI-CDF:级联森林深处的预测模型对基于混合药物的相互作用特性 简报的生物信息学 2019年 20. 10.1093 /龙头/ bbz152 Y。 l C。 M。 Q。 B。 SGL-SVM:一种新型肿瘤通过支持向量机分类方法与稀疏集团套索 理论生物学杂志》上 2020年 486年 110098年 10.1016 / j.jtbi.2019.110098 Y。 K。 Q。 唐ydF4y2Ba Y。 W。 Lv Y。 Y。 H。 胰腺癌生物标志物检测由两个支持向量的递归特性消除策略 生物标志物在医学 2019年 13 2 105年 121年 10.2217 / bmm - 2018 - 0273 2 - s2.0 - 85062343510 30767554 l J。 Q。 SkipCPP-Pred:一种改进和有前途的预测cell-penetrating肽序列预测 BMC基因组学 2017年 18 S7 742年 10.1186 / s12864 - 017 - 4128 - 1 2 - s2.0 - 85031509034 29513192 k量。C。 预测蛋白质的细胞属性使用pseudo-amino酸组成 蛋白质:结构、功能,和遗传学 2010年 43 3 246年 255年 10.1002 / prot.1072 2 - s2.0 - 0035400447 J。 J。 X。 W。 K。 程ydF4y2Ba K。 Y。 H。 预测蛋白质相互作用仅基于序列信息 美国国家科学院院刊》上 2007年 104年 11 4337年 4341年 10.1073 / pnas.0607879104 2 - s2.0 - 34248371273 17360525 萨拉瓦南 V。 N。 利用计算生物学精确线性b细胞表位预测:一种新型氨基酸composition-based特征描述符 组学:一个综合生物学》杂志上 2015年 19 10 648年 658年 10.1089 / omi.2015.0095 2 - s2.0 - 84945274796 l M。 X。 Q。 增强蛋白质折叠预测方法通过小说特征提取技术 IEEE生物科学 2015年 14 6 649年 659年 10.1109 / tnb.2015.2450233 2 - s2.0 - 84940999933 Altschul 美国F。 有缺口的爆炸和PSI-BLAST:新一代的蛋白质数据库搜索程序 核酸的研究 1997年 25 17 3389年 3402年 10.1093 / nar / 25.17.3389 2 - s2.0 - 0030801002 琼斯 d . T。 蛋白质二级结构预测基于position-specific评分矩阵 分子生物学杂志 1999年 292年 2 195年 202年 10.1006 / jmbi.1999.3091 2 - s2.0 - 0033578684 10493868 B。 BioSeq-analysis:平台DNA, RNA和蛋白质序列分析基于机器学习的方法 简报的生物信息学 2019年 20. 4 1280年 1294年 10.1093 /龙头/ bbx165 2 - s2.0 - 85072962192 29272359 Cabarle f·g·C。 de la Cruz r·t·A。 X。 M。 X。 X。 在强化神经P系统生成的字符串的语言结构可塑性 IEEE生物科学 2018年 17 4 560年 566年 10.1109 / TNB.2018.2879345 2 - s2.0 - 85056186495 在香港 Q。 杨ydF4y2Ba R。 C。 太阳 J。 记忆性的电路实现生物非联合型学习机制及其应用 IEEE生物医学电路和系统 2020年 14 5 1036年 1050年 10.1109 / TBCAS.2020.3018777 首歌 T。 Rodriguez-Paton 一个。 P。 X。 强化神经P系统与彩色的峰值 IEEE认知和发展系统 2018年 10 4 1106年 1115年 10.1109 / TCDS.2017.2785332 2 - s2.0 - 85039773929 X。 年代。 Y。 P。 l J。 l F。 刘易斯 美国J。 Nussinov R。 F。 网络预测药物的交互使用一个任意次序接近森林深处 生物信息学 2020年 36 9 2805年 2812年 10.1093 /生物信息学/ btaa010 31971579 首歌 B。 K。 Orellana-Martin D。 Valencia-Cabrera l Perez-Jimenez m·J。 细胞样的P系统与演化同向转移/反向运输规则和膜的创造 信息和计算 2020年 270年 104542年 10.1016 / j.ic.2020.104542 H。 W。 D。 X。 MOEA /高清:基于层次分解的多目标进化算法 IEEE控制论 2019年 49 2 517年 526年 10.1109 / TCYB.2017.2779450 29990272 在香港 Q。 Z。 太阳 J。 年代。 记忆性学习与应用程序逻辑电路,编码器和译码器 神经计算和应用 2020年 32 1 13 10.1007 / s00521 - 020 - 05281 - z X。 W。 程ydF4y2Ba C。 日元 G·G。 达成共识以社区为基础的动态粒子群优化社区检测 IEEE控制论 2020年 50 6 2502年 2513年 10.1109 / TCYB.2019.2938895 31545758