1。介绍
淀粉样蛋白是一种不溶性纤维蛋白形成的某些错误折叠蛋白质的聚合(
1 ]。他们发现在细菌、真菌、酵母和哺乳动物(
2 ];功能的多样性与可溶性蛋白质。淀粉样蛋白在生物膜的形成扮演重要角色
3 ),肽激素的绑定和存储
4 ],抗菌活性[
5 ),和抗病毒先天免疫反应(
6 ]。但并不是所有的淀粉样蛋白是有益的,淀粉样原纤维的细胞外沉积会导致一系列的疾病,如阿尔茨海默病(
7 )、二型糖尿病和帕金森病(
8 ,
9 ]。了解淀粉样蛋白和相关疾病,研究人员对淀粉样蛋白进行了大量的工作,包括淀粉样变(
10 ,
11 ),在分子水平上淀粉样蛋白的多晶型物
12 ),淀粉样蛋白区域(
13 ,淀粉样蛋白抗体(
14 ]。
多肽的研究表明,并不是所有的地区同样有助于其聚合;只有一些短的特定氨基酸序列可以作为主持人淀粉样原纤维形成的
15 ,
16 ]。因此,许多计算方法检测amyloid-forming区域。AGGRESCAN [
17 )是一个web工具,它标识了aggregation-prone地区序列基于氨基酸的内在aggregation-prone概要文件和它们的相对位置。由于其依赖分析的线性序列,AGGRESCAN很难预测折叠蛋白质的聚合性能。摩尔诺等人改善AGGRESCAN和提出一个新方法叫做AGGRESCAN3D(简称A3D) [
18 ]。通过使用许多因素影响蛋白质聚合,A3D球状蛋白质获得更准确的预测。Zyggregator [
19 ]预测多肽aggregation-prone地区基于蛋白质一级结构的物理和化学性质,如疏水性和二级结构的趋势。形成机制的基础上
β 表在淀粉样蛋白聚集,意大利面
20. )使用能量函数来计算序列的氨基酸片段。FoldAmyloid [
21 ]介绍了氢键的期望概率和残留检测的堆积密度amyloidogenic地区多肽链。Maurer-Stroh的方法(
22 )是一种预测算法使用position-specific得分矩阵来确定形成淀粉样蛋白序列。
上述方法的预测原则是不同的,都有自己的优点和缺点。相结合的想法不同的预测来提高识别能力被首次引入AmylPred [
23 随后,紧随其后的是改良版AmylPred2 [
24 ]。AmylPred2 11个不同的个人预测结合形成的共识预测amyloidogenic地区。AmylPred2基于二进制的共识预测;艾米丽等人改进了权重过程并提出了MetAmyl [
25 ]。MetAmyl介绍输入的meta-prediction base-prediction基于统计方法的预测成绩。
近年来,机器学习越来越成为一个最喜欢的工具在生物信息学领域(
26 - - - - - -
35 ]。许多学者尝试使用机器学习算法来预测amyloidogenic倾向。面2.0 [
36 )不仅使用成对的能源潜力预测淀粉样原纤维地区也使用机器学习算法来检测二级结构。鱼淀粉样蛋白(
37 )提出了一个原始的机器学习分类方法研究同现模式序列中的基于假设残留物的分布amyloid-forming position-specific碎片。APPNN [
38 )是一种现象学的淀粉样蛋白的形成倾向预测建立在递归特征选择和前馈神经网络。实验结果表明,APPNN高精度值相对于其他amyloidogenic倾向预测方法。
这些方法可以帮助我们理解amyloid-related疾病和找到潜在的治疗靶点。然而,他们的工作重点是预测amyloid-forming地区的一个给定的序列,而不是识别是否淀粉样这个序列。妞妞等人提出RFAmyloid [
39 确定淀粉样蛋白基于随机森林,获得89%的准确性。虽然精度高,仍有许多方面值得进一步研究,如冗余功能由于没有特征选择。在本文中,我们的目标是提出一种新的淀粉样蛋白预测,PredAmyl-MLP,进一步提高预测的性能。
2。材料和方法
2.1。PredAmyl-MLP框架
在本文中,我们提出了一种新的淀粉样蛋白预测称为PredAmyl-MLP框架如图所示
1 。首先,我们分别提取188 -维向量和8000 -维向量来代表蛋白质序列通过svmprot - 188 d方法和TPC方法。接下来,我们减少了188 - 121 -维维的向量,向量使用MRMD方法,减少8000 - 425 -维维的向量,向量采用BD法,然后生成特征向量结合121维和425 -维向量。最后,我们构建了一个多层perceptron-based分类器的特征向量作为输入。我们将介绍数据集、特征提取、特征选择和分类器在以下部分中详细。
图1
帧PredAmyl-MLP预测的图表。
2.2。数据集
在这项研究中,我们利用数据集由妞妞等人开发了一个名为RFAmyloid web服务器(
39 )确定淀粉样蛋白。有三个原因考虑这个数据集作为我们的实验数据集。首先,收集的数据集是UniProt数据库(
http://www.uniprot.org/ )和AmyPro数据库(
http://www.amypro.net/ );因此,它是可靠的。其次,作者采用程序CD-HIT [
40 )集群蛋白质,满足相似性阈值和删除冗余和homology-biased序列(
41 ]。最后,也是最重要的是,使用相同的数据集允许我们比较该方法与现有的方法相当。165年最后一个数据集由淀粉样蛋白(正面例子)和382 non-amyloid蛋白质(负面的例子)。
2.3。特征提取
第一和最重要的一步是如何设计一个蛋白质的预测表示蛋白质的特性,能有效区分正样本负样本(
42 - - - - - -
48 ]。在本文中,我们试图与特征编码淀粉样蛋白,它由两个基本的特征表示方法,即svmprot - 188 d和三肽成分(TPC)。svmprot - 188 d是基于氨基酸的组成和理化性质。它取得了良好的性能在一些生物信息学应用,如人类蛋白质亚细胞定位预测(
49 - - - - - -
52 ),塔塔结合蛋白识别(
53 ,家庭和蛋白质功能预测
54 - - - - - -
59 ]。TPC基于三肽组成的蛋白质。它还被广泛应用于解决许多激素结合蛋白等生物信息学问题识别(
60 ),分枝杆菌蛋白质的亚细胞定位预测,确定cancerlectins [
61年 - - - - - -
63年 ]。在这篇文章中,我们分别提取svmprot - 188 d和TPC特性从蛋白质和结合代表了蛋白质的特性。实验结果表明,单一特征可以有效地编码蛋白质,所示部分
3.2 。svmprot - 188 d和TPC的细节如下。
2.3.1。svmprot - 188 d
基于氨基酸的组成和理化性质,svmprot - 188 d方法编码一种蛋白质作为一个188维的特征向量。第一个20尺寸由20个自然频率的计算氨基酸(A, C, D, E, F, G, H,我,K, L, M, N, P, Q, R, S, T, V, W, Y按字母顺序排列)的序列。这个公式可以定义为
(1)
V
1
,
V
2
,
⋯
,
V
20.
=
N
我
l
,
在哪里
N
我
表示的数
我
t
h
蛋白质序列和氨基酸
l
是一个序列的长度。很明显,
∑
V
我
=
1
。
后者与八个维度相关理化性质包括疏水性、规范化范德华体积,极性,极化电荷,表面张力,二级结构和溶剂可及性。每个属性分为三类,20种氨基酸(列在表属于不同的类别
1 )。物理化学性质都是由三个描述符描述
C
(作文)
T
(过渡),
D
(分布)。的
C
,
T
,
D
描述符的每个属性包含3,3,和15个数字,分别。
C
氨基酸的频率在一个特定的类别。
T
是氨基酸的百分比频率在一个类别在另一个类别,其次是氨基酸转换等亲水亲水疏水或中性。
D
计算的链长度的比例,25岁,50岁,75年,100%的氨基酸在一个特定的类别和扩大100倍的计算。
表1
三组的氨基酸除以8不同的物理化学性质。
物理化学性质
Class1
类别2
类别3
疏水性
RKEDQN
GASTPHY
CVLIMFW
规范化范德华体积
GASCTPD
NVEQIL
MHKFRYW
极性
LIFWCMVY
PATGS
HQRKNED
极化率
GASDT
CPNVEQIL
KMHFRYW
负责
基米-雷克南
ANCQGHILMFPSTWYV
德
表面张力
ILMFPWYV
KTSEC
GQDNAHR
二级结构
EALMQKRH
VIYCWFT
GNPSD
溶剂可及性
ALFCGIVM
RKQEND
MPSTHY
因此,在分析了成分和8个氨基酸的物理化学性质,我们可以获得的
20.
+
C
+
T
+
D
×
8
=
188年
特性。
2.3.2。TPC
TPC方法是基于三肽序列组成的蛋白质。三个氨基酸由肽键相连形成一个三肽,从而产生
20.
×
20.
×
20.
=
8000年
可能的三肽。TPC 8000三肽转换成一个8000维的特征向量可以表达一种蛋白质序列。公式定义如下:
(2)
F
=
f
1
,
f
2
,
⋯
,
f
8000年
T
,
在哪里
T
是一个向量的换位,
f
我
是频率的三肽序列,可以计算吗
(3)
f
我
=
N
我
l
−
2
,
在哪里
N
我
的数量吗
我
t
h
三肽和
l
是一个序列的长度。
2.4。特征选择
特征选择中发挥着重要作用的提高识别性能。它可以删除冗余或噪声特性。我们采用了最大相关的最大距离(MRMD) [
64年 )方法从svmprot - 188 d选择最优特征特性和采用二项分布(BD) [
65年 )方法从TPC特点选择最优特征。两种特征选择方法的原则如下。
2.4.1。MRMD
大多数降维方法关注特性和目标类之间的关系,忽略了冗余的功能(
64年 ]。然而,高度相关的特征向量对分类的影响不能叠加。MRMD方法认为这两个方面评分功能。因此,分数为每个特性包含两个组件,最大相关分数先生和最大距离MD得分,这可以被定义为
(4)
马克斯
先生
我
+
医学博士
我
。
特征之间的相关性和目标类的皮尔森相关系数(PCC)。公式被定义为
(5)
P
C
C
F
我
→
,
C
→
=
∑
k
=
1
N
F
我
k
−
F
我
¯
C
k
−
C
¯
∑
k
=
1
N
F
我
k
−
F
我
¯
2
∑
k
=
1
N
C
k
−
C
¯
2
,
在哪里
N
样本总数,
F
我
→
和
C
→
包括
我
t
h
维特征向量和相应的目标类
c
在每个示例中,分别;
F
我
k
和
C
k
是
k
t
h
的元素
F
我
→
和
C
→
,分别。如果这个特性很大程度上有助于分类、的值
PCC
将是巨大的。因此,奥评分功能
我
是计算
(6)
马克斯
先生
我
=
PCC
F
我
→
,
C
→
。
特征之间的相关性评估通过计算特征之间的距离。在这工作,欧几里得距离(ED)、余弦相似度(COS)和Tanimoto系数(TC)是用作距离函数。公式如下:
(7)
艾德
我
=
∑
∑
k
=
1
米
F
我
−
F
k
2
米
−
1
我
≤
k
≤
米
,
k
≠
我
,
因为
我
=
∑
F
我
∗
F
k
F
我
∗
F
k
∗
米
−
1
我
≤
k
≤
米
,
k
≠
我
,
TC
我
=
∑
F
我
∗
F
k
F
我
2
+
F
k
2
−
F
我
∗
F
k
∗
米
−
1
我
≤
k
≤
米
,
k
≠
我
,
和MD评分功能
我
被定义为
(8)
马克斯
医学博士
我
=
1
3
艾德
我
+
因为
我
+
TC
我
。
2.4.2。双相障碍
在这项工作中,二项分布方法(
66年 - - - - - -
68年 )是应用于从8000年三肽的特性选择最佳的子集。首先,我们来判断是否发生某种蛋白质的三肽通过计算的概率是随机的
我
t
h
班上三肽
j
样品,像这样:
(9)
P
我
j
=
∑
k
=
n
我
j
N
我
N
我
!
k
!
N
我
−
k
!
问
j
k
1
−
问
j
N
我
−
k
,
在哪里
问
我
类的三肽的比例
j
在所有样品中,样品
n
我
j
和
N
我
发生的数量吗
我
t
h
三肽在课堂上
j
(
j
=
0
,
1
)和所有样本,分别。一个更小的
P
值表示更多的确定性三肽的发生。因此,(CL)的信心水平
我
t
h
班上三肽
j
样品可以被定义为
(10)
CL
我
j
=
1
−
P
我
j
。
显然,每个三肽的特性有两个CL的价值观,我们将选择较大的一个。
然后,CL值按降序排列的特性来创建一个排名列表。第一个特性子集只包含列表中的第一个特性,
D
1
=
f
1
T
。和每一个新的子集时产生下一个候选功能添加到前面的子集。重复此过程,直到所有的功能列表中添加了。结果8000特性可以被描述为子集
(11)
D
=
D
1
,
D
2
,
⋯
,
D
8000年
T
。
最后,对于每一个特性集,建立了预测模型。最优特征子集可以选择基于交叉验证的最大精度10倍。
2.5。分类器
怀卡托知识环境分析(Weka)是一个著名的机器学习和数据挖掘软件。在Weka的平台,我们可以整合自己的算法,甚至用自己的算法来实现分类的任务。在本文中,我们尝试了很多分类算法基于Weka平台,如随机森林,朴素贝叶斯、物流,IBK,装袋
69年 ,
70年 ]。最后,我们选择了多层感知器(MLP)作为分类器,和实验结果所示部分
3.3 。
人工神经网络是一种机器学习算法,模拟人类大脑。多层感知器是一种前馈人工神经网络,具有强大的学习能力和鲁棒性
71年 ]。它执行很好解决各种实际问题,已广泛应用于生物信息学领域,如疾病诊断(
72年 ,
73年 ),蛋白质二级结构的预测
74年 ),和基因分类(
75年 ]。中长期规划利用特征向量作为输入层节点。在培训过程中,输出值与实际值相比,和错误信息反馈。基于信息,权重不断更新,直到预测误差足够小。图
2 是一个中长期规划的原理图。在这项工作中,我们构造了一个与一个隐层网络模型。隐层神经元的数目设置为总和的一半数量的输入特性和输出类。与此同时,学习速度和迭代的数量设置为0.3和500年,分别。
图2
延时一个隐层的结构。
2.6。测量
评估的性能预测模型,我们用四个指标常用于生物信息学:准确性(ACC),灵敏度(SE)、特异性(SP),马修的相关系数(MCC) [
76年 - - - - - -
87年 ]。制定本措施如下:
(12)
ACC
=
TP
+
TN
TP
+
TN
+
《外交政策》
+
FN
,
SE
=
TP
TP
+
FN
,
SP
=
TN
TN
+
《外交政策》
,
世纪挑战集团
=
TP
×
TN
量
《外交政策》
×
FN
TP
+
《外交政策》
TP
+
FN
TN
+
《外交政策》
TN
+
FN
,
TP是真阳性的缩写,意思是淀粉样蛋白在积极的预测样本的数量;FP是假阳性的缩写,意思是淀粉样蛋白预测负样本的数量;TN是真阴性的缩写,这意味着non-amyloid蛋白质预测负样本的数量;和FN是假阴性的缩写,这意味着non-amyloid蛋白质的数量在积极的预测样本。SE和SP,分别表示模型的预测能力的积极的和消极的样本。ACC和MCC表示模型的整体性能。对于所有上述指标,他们达到更高的分数,更好的性能模型。
3所示。结果与讨论
3.1。实验特征选择
中描述的框架PredAmyl-MLP,我们分别提取svmprot - 188 d和TPC特性从每个样本与样本和编码一个8188维的特征。使用太多的特征向量训练分类模型较低的信心相对耗时,和模型可能会过度拟合。相反,如果特征向量的数量太小了,他们不会提供足够的信息来区分正样本负样本。因此,构建一个健壮的和有效的预测模型,我们分别采用MRMD和BD方法选择合适的特征数量从svmprot - 188 d和TPC特性。在本节中,我们将特征选择的过程和实验结果。
188 - svmprot - 188 d维特征提取的方法,我们通过计算评估其重要性MRMD分数。特性和更高的分数有淀粉样蛋白识别更重要的贡献。MRMD分数由皮尔森相关系数和距离的函数。MRMD方法提供了三个距离函数包括欧几里得距离(ED)、余弦相似度(COS)和Tanimoto系数(TC)。不同的距离函数会导致不同MRMD分数为每个特性。因此,选择一个适当的距离函数删除冗余特性是至关重要的。
我们采用支持向量机(SVM) [
88年 ,
89年 ),一个强大的分类算法,检查三个距离函数的性能,选择最优的特征子集。首先,我们排名的特性减少顺序MRMD分数获取特性列表。然后,我们建立了特征子集根据功能列表中的顺序。第一组只包含功能列表中排名第一。生成一组新的当第二个特性被添加到前面的设置。重复此过程,直到所有候选人特性被添加。最后,构建188子集被输入到一个基于svm分类器,和10倍交叉验证的准确性。
图
3 说明了MRMD基于不同的距离函数的性能,其中的意思是表示三个距离函数的平均值。如图
3 艾德,因为,TC,意思是有最好的预测性能在使用121年排名第一,174年,177年和121年的特性,分别。此外,ED距离函数得到的结果几乎相同的人通过不同的距离函数的平均值。它表明使用ED距离函数方法可以达到同样的效果,使用三个距离函数的平均值。尽管TC的最大精度略高于ED, ED所需特性的数量来获得最佳的性能远低于TC。因此,我们采用ED的距离函数MRMD方法和使用ED排名的前121名特性构建一个最优的特征子集。
图3
比较不同的距离函数。
图
4 介绍了每个特性的MRMD得分计算使用ED距离函数,特征选择标有红色和蓝色标注的是删除。从图我们可以看出
4 ,大部分的冗余特性出现连续和集中,如,第21到26 42-47,126 - 131,147 - 152,168 - 175。我们分析原因,发现这些特征提取是基于内容的三个类别的氨基酸序列,每两个类别之间的过渡频率。这些特性被认为是冗余特性,可能是因为他们不确定淀粉样蛋白或编码非常相似。这一发现也为我们的未来的研究带来了新的想法。
图4
188年MRMD分数svmprot - 188 d特征提取的方法。
8000年TPC特征提取的方法,我们采用BD法排序它们。根据排序顺序,选择一定数量的特性,形成一个功能子集。因此,我们可以构造8000特征子集。对于每个子集,10倍交叉验证的支持向量机分类器训练。精度和功能的数量之间的关系如图
5 。如图
5 ,精度达到91.22%的最大当特征的数量是1565。这个数字远远大于547个样本的数量在我们的数据集。建设一个强大的预测模型必须考虑耗时和风险造成过度拟合的高维特征向量。最终,我们选择了排名前425的特性可以实现87.93%的总体精度只是略低于最高精度(91.22%)产生的前1565名功能。因此,排名前425的特性作为最优特征子集的TPC特性的方法。
图5
模型的精度由不同数量的特性。
总之,我们分别选择121特性svmprot特征和425 - 188 d的TPC特性,然后结合121特性和425特征形成特征由546年的特性。单一特征用于训练多层感知器分类器在这个研究。
3.2。性能不同的特性
所示实验特征选择,我们分别提取188 - 8000 -维维的向量和向量从蛋白质序列通过svmprot - 188 d方法和TPC方法。接下来,我们减少了188 - 121 -维维的向量,向量使用MRMD方法,减少8000 - 425 -维维的向量,向量采用BD法,然后生成特征向量结合121维和425 -维向量。我们使用单一特征尺寸为546代表样本。
验证本文中使用的特征的有效性,我们首先使用多层感知器分类器和特征与其他特征相比,包括
k
-skip-2-gram [
90年 ),伪氨基酸组成(PseAAC) [
91年 ),联合三合会(CTriad) [
92年 ),二肽成分(DPC) [
93年 ,473 d (
94年 ]。然后,相比三特性和更高的准确性和评估相结合。PseAAC和DPC都基于氨基酸组成。PseAAC考虑本地和远程信息相关的序列。DPC代表一个蛋白质序列通过二肽成分信息。
N
蟋蟀是一种常见的模型在自然语言处理,和
k
跳过,
n
蟋蟀之间的距离信息集成
n
残留的传统
n
克模型。CTriad特征提取方法基于氨基酸的邻居关系。473 d序列编码成基于PSI-BLAST[473 -维特征向量
95年 ]和PSI-PRED [
96年 概要文件。
10倍交叉验证结果如表所示
2 ,svmprot - 188和TPC表示特征选择后的最终功能。如表所示
2 指标的ACC和MCC, svm的组合- 188 d和TPC用于本文执行比所有其他方法和有更好的整体性能。根据SE的指标,我们的特征也有最高的价值,这表明我们的方法执行比其他方法确定淀粉样蛋白的阳性样本。根据SP的指标,我们的方法比TPC略低,473 d, CTriad和473 d。然而,ACC的值,MCC, SE的方法显然是比他们的高。特别是473 d的SE和CTriad和473 d是0.339和0.036,分别,确认他们有偏见对蛋白质non-amyloid蛋白质进行分类。因此,从整体的角度来看,我们的方法显然比所有其他方法表现更好。
表2
比较不同的特征表示方法。
方法
ACC (%)
SE
SP
世纪挑战集团
svmprot - 188 d + TPC
91.59
0.836
0.950
0.798
PseAAC + 473 d
64.71
0.339
0.780
0.126
PseAAC + CTriad
72.76
0.491
0.830
0.333
CTriad + 473 d
70.56
0.036
0.995
0.119
473 d + PseAAC + CTriad
67.45
0.230
0.866
0.120
svmprot - 188 d
80.80
0.606
0.895
0.527
TPC
90.12
0.776
0.955
0.760
k
-skip-2-gram
71.11
0.291
0.893
0.228
PseAAC
78.42
0.570
0.877
0.469
CTriad
72.57
0.345
0.890
0.281
DPC
68.37
0.345
0.830
0.193
473 d
76.96
0.339
0.955
0.398
进一步说明我们的多特征融合方法具有更好的性能判断不管分类器,我们分别,而特征与其他特征提取方法基于六种不同的分类方法。结果如图
6 。从图我们可以看出
6 ,每组使用相同的分类器模型,结合的准确性SVMProt 188 - d和TPC明显高于其他特征提取方法。分类器SGD为例,结合的准确性SVMProt 188 - d和TPC大约是9 - 16%高于其他方法。一般来说,我们的多特征融合方法具有更好的性能判断不管分类器。
图6
各种特征提取方法的准确性使用不同的分类器。
3.3。不同的分类器的性能
一个分类算法的选择是一个重要的步骤来提高模型的准确性。基于本文中使用的特征,我们将多层感知器与十流行的分类器,包括随机森林,朴素贝叶斯,决策树,AdaBoostM1,物流,SGD, LibSVM, IBK,低潮位,装袋。SGD是一个线性分类器使用一个随机梯度下降优化算法。朴素贝叶斯是基于贝叶斯定理和假定是独立的特性同样重要。LibSVM是林等人开发的软件来实现支持向量机。物流建立回归方程为决策边界基于训练数据和分类相应的测试数据。决策树划分测试数据集的基于信息熵的概念。演算法、装袋和随机森林系综分类器。演算法是一种自适应迭代算法,集成了多个弱分类器训练在同一数据集到一个强分类器。装袋是一个并行集成学习方法基于引导抽样。 It trains a base classifier for each sampled dataset and then combines the base classifiers. Random forest is an extended variant of bagging that uses decision trees as the base classifier and introduces random attribute selection. Both IBK and LWL are lazy learning algorithms, which mean that the model is trained after receiving a test sample. IBK works by finding the
k
训练样本的一个给定的测试样本,确定给定的类别根据这些样本
k
“邻居”,在低潮位添加一个加权的概念。10倍交叉验证的结果如表所示
3 。
表3
与其他分类器比较多层感知器。
方法
ACC (%)
SE
SP
世纪挑战集团
多层感知器
91.59
0.836
0.950
0.798
随机森林
85.00
0.642
0.940
0.629
朴素贝叶斯
86.28
0.848
0.869
0.692
决策树
79.52
0.618
0.872
0.503
AdaBoostM1
82.81
0.612
0.921
0.574
物流
87.93
0.721
0.948
0.705
SGD
89.57
0.776
0.948
0.747
LibSVM
74.95
0.424
0.890
0.357
韩国中小企业银行
79.52
0.376
0.976
0.481
低潮位
81.35
0.594
0.908
0.537
装袋
83.36
0.588
0.940
0.585
在表
3 ,虽然提出了多层感知器方法略低于IBK SP指数,多层感知器显然是比在其他三个指标。的指标,朴素贝叶斯实现更高的价值比多层感知器,但是在ACC的其他三个指标,SP, MCC,多层感知器优于朴素贝叶斯。根据指标的ACC和MCC,多层感知器高于所有其他分类器。总的来说,本文中使用的多层感知器分类器有更好的性能比其他分类器,这表明,我们的方法是有效的识别淀粉样蛋白。
3.4。与其他方法相比
进一步评估PredAmyl-MLP的性能,我们比较了两种最先进的方法如RFAmyloid [
39 ]和BioSeq-Analysis [
97年 在相同的数据集。BioSeq-Analysis是一个平台的DNA、RNA和蛋白质序列分析,可在网上
http://bioinformatics.hitsz.edu.cn/BioSeq-Analysis/PROTEIN 。支持向量机和随机森林算法用于BioSeq-Analysis预测方法,我们分别比较。比较结果如表所示
4 。从表中我们可以看出
4 ,我们预测在所有指标优于其他方法。此外,图
7 情节ROC曲线的四个方法。我们还可以看到,PredAmyl-MLP优于现有的淀粉样蛋白的预测方法。
表4
与其他现有的方法比较,我们的方法。
方法
ACC (%)
SE
SP
世纪挑战集团
PredAmyl-MLP
91.59
0.836
0.950
0.798
RFAmyloid
89.19
0.781
0.927
0.739
BioSeq (RF)
81.31
0.6374
0.8989
0.5626
BioSeq(支持向量机)
76.86
0.4953
0.9006
0.4419
图7
ROC曲线PredAmyl-MLP和其他方法。
4所示。结论
在本文中,我们提出了一个新颖的模型识别淀粉样蛋白,称为PredAmyl-MLP。我们使用了svmprot - 188 d和三肽合成方法来表示蛋白质序列,分别。后删除冗余特性,构建多层基于知觉预测模型使用混合特征向量。验证PredAmyl-MLP的性能,我们比较不同的特征子集,分类器和其他方法。因此,降维后的特征可以实现更好的性能。此外,两种特性的组合表达方法极大地提高了精度。通过大量的实验,PredAmyl-MLP达到91.59%的精度,和MCC达到0.798,优于现有的其他方法。本文的网络服务器是可用的
http://106.12.83.135:8080 amyWeb_Release / index . jsp 。
在未来的工作中,我们将优化特征表示方法,用低维特征向量代表淀粉样蛋白序列。此外,我们将考虑其他计算智能模型(
98年 - - - - - -
102年 和优化方法
103年 - - - - - -
105年 淀粉样蛋白预测。