在这项研究中,一种新的特征提取方法,氨基酸减少字母结合<我nline-formula>
N
肽合成策略是用来确定抗氧化蛋白。氨基acid-reduced字母通常用于大规模蛋白质结构分析和预测
8,
12,
13]。它可以容忍许多变化序列,同时仍然保留了基本的蛋白质折叠和功能。图
1显示了ANPrAod框架流。首先,严格的基准数据集构造的有效性模型之间的比较。随后,氨基酸减少字母结合<我nline-formula>
N
肽成分(<我nline-formula>
N
=
1
、2、3)策略是用来提取特征向量并进行比较来获得最优方案。基于支持向量机(SVM), ANPrAod取得了87.53%的精度比现有的5倍交叉验证方法通过一系列的比较结果。最后,预测性能ANPrAod客观地评估在独立的数据集和主成分分析(PCA),证明了模型的鲁棒性和可靠性。总之,ANPrAod预测抗氧化蛋白是一个有效的工具,可以帮助治疗相关疾病的实验研究。
2.4。< inline-formula > < mml:数学xmlns: mml = " http://www.w3.org/1998/Math/MathML " id = " M10 " > < mml: mi > N < / mml: mi > < / mml:数学> < / inline-formula >肽成分
单一氨基酸的相互作用和更详细的信息可以有效地开采序列<我nline-formula>
N
肽(<我nline-formula>
N
=
1
、2、3)组成。我们还没有尝试过了<我nline-formula>
N
肽因为我们的内存限制(
8,
27]。天然蛋白质序列,二肽成分可以描述如下:
(2)
P
=
R
1
R
2
R
3
⋯
R
l
−
1
R
l
,
F
=
d
1
,
d
2
,
⋯
,
d
400年
T
,
在哪里<我nline-formula>
R
1
代表第一个氨基酸在蛋白质序列,<我nline-formula>
l
代表了蛋白质序列的总长度。<我nline-formula>
d
我
(<我nline-formula>
我
=
1
,
2
,
⋯
,
400年
)是<我nline-formula>
我
th 400氨基酸二肽组合,<我nline-formula>
T
意味着换位算子。
2.5。特征选择
特征选择是一个重要的步骤在建设一个强大的模型,具有重要意义,提高分类器的性能(
28- - - - - -
30.]。方差分析(方差分析),衡量特征通过计算的方差的比值之间和组织内部特性,有助于我们评估每个特性的重量和广泛用于生物信息学(
31日,
32]。适当维特性可以节省计算资源,减少过度拟合的风险,提高预测精度,所以我们使用增量特征选择(IFS)过滤功能来衡量方差分析训练模式
33]。方差分析的公式定义如下:
(3)
F
=
年代
x
2
年代
γ
2
,
年代
X
2
=
1
n
−
1
∑
我
=
1
n
x
我
−
x
¯
2
,
年代
y
2
=
1
米
−
1
∑
我
=
1
米
y
我
−
y
¯
2
,
在哪里<我nline-formula>
F
方差值的特性,<我nline-formula>
年代
X
2
团体之间的样本方差,<我nline-formula>
年代
y
2
表示组内样本方差。
证明的优越性ANPrAod在抗氧化蛋白的鉴定,我们比较它与发布的方法。如表所示
2基于相同的数据集,5倍交叉验证结果表明,ANPrAod具有最优性能的准确性达87.53%,优于其他方法。这是由于支持向量机的动力最初设计用于二进制分类和泛化误差的理论界限(
40]。泛化误差的上界不依赖于空间的维度,和最大边界用于最小化错误边界超平面之间的距离最小化两个类和最近的数据点
41]。此外,ANPrAod只用93特性比158年AodPred使用的特性,降低了计算复杂度和过度拟合的风险。这种比较证明了氨基酸减少字母结合的有效性<我nline-formula>
N
肽组合策略和ANPrAod的强大功能来确定抗氧化蛋白。
与最先进的预测性能比较基准数据集。
方法
Sn (%)
Sp (%)
Acc (%)
特征数
冯et al。
72.04
66.05
66.88
44
贝叶斯网
38.68
93.55
85.09
90年
随机森林
28.09
93.12
80.34
- - - - - -
AodPred
75.09
74.48
74.79
158年
ANPrAod
92.92
98.33
87.53
93年
3.5。性能评估ANPrAod独立的数据集
它不是严格的评估模型只是基于训练集的信息,这可能会高估的性能模型。为了避免这个问题,我们测试了ANPrAod在一个独立的数据集来评估其实际性能。混淆矩阵结果表明ANPrAod仍然取得了良好的预测结果,证明了模型的鲁棒性和有效性,可以是一个强大的工具来帮助抗氧化蛋白(图的研究
4 (b))。此外,我们比较了天然蛋白质序列与降低氨基酸蛋白质序列通过使用主成分分析,进一步证实了氨基酸减少结合的优越性<我nline-formula>
N
肽合成策略(数字
4 (c)和
4 (d))。
4所示。结论
特征提取是极其重要的泛化能力;它可以促进模型的后续学习和有更好的可解释性
10,
42]。在这项研究中,一个新特性表征氨基酸减少字母结合的方案<我nline-formula>
N
肽组合策略是用于定义蛋白质序列。新特性向量被用来训练SVM找到最优方案预测抗氧化蛋白。5倍交叉验证的准确性为87.53%,和ROC曲线面积为0.7266,优于其它模型。主成分分析和独立的数据集的结果还表明,氨基酸减少字母结合<我nline-formula>
N
肽组合策略可以有效降低数据的复杂性,和ANPrAod准确预测抗氧化蛋白具有较强的鲁棒性。我们预期,ANPrAod可以准确、快速识别基于肽抗氧化蛋白质序列和促进相关药物研究的发展。在未来的工作中,我们将建立一个在线的web服务器和扩展其他领域的研究内容。