IFS进行进一步选择最优特性基因(
8]。特性集<我nline-formula>
F
(<我nline-formula>
F
=
f
1
,
f
2
,
f
3
,
⋯
。
,
f
N
,<我nline-formula>
N
范围从1到500)首次建造。后来,相应的每个子集构造基于SVM分类器<我nline-formula>
F
使用python包<我talic>
sklearn。支持向量机是一种有效的分类器构造方法(
4]。具体方法是创建一个决策两种类型之间的界限以预测输入样本的类型。决定边界或超平面,定义距离最近的数据网站(称为支持向量)尽可能多的在每一个类。具体算法如下所示:
(4)
x
1
,
y
1
,
⋯
,
x
n
,
y
n
,
x
我
∈
R
d
,
y
1
∈
−
1
,
+
1
。
x
我特征向量和吗<我nline-formula>
y
我
是在训练集的类(正面或负面)。最优超平面的定义如下:
(5)
w
x
T
+
b
=
0
。
w权向量,<我nline-formula>
x
是输入特征向量,然后呢<我nline-formula>
b
偏差。这两个<我nline-formula>
w
和<我nline-formula>
b
满足下列条件:
(6)
w
x
我
T
+
b
≥
+
1
,
ⅈf
y
我
=
+
1
,
w
x
我
T
+
b
≤
−
1
,
ⅈf
y
我
=
−
1
。
w和<我nline-formula>
b
由输入特征向量和类在训练集分类预测集。由于样本不平衡,python包吗<我talic>
imblearn被用来放大小样本的数量一样大的样品(
9]。不同特性集作为训练集,训练模型进行构建一个支持向量机分类器对每个集合。建立了分类器的性能分析评估了交叉验证(LOOCV)和马修斯提出的相关系数(MCC)。MCC的皮尔森相关系数的实际值和预测值由混淆矩阵计算方法。世纪挑战帐户集团值是- 1和+ 1之间。MCC值接近+ 1意味着准确预测,接近于0意味着没有比随机预测,和接近1意味着分歧之间的预测和实际观察(
10]。一系列的MCC值对应不同的特性集是通过假设。IFS曲线绘制了MCC的价值<我nline-formula>
y
设在和功能设置<我nline-formula>
x
设在。最高的训练集MCC IFS的价值曲线选择和基因在这组被设置为最优特性的基因。
最优特征基因由IFS方法。特性集<我nline-formula>
F
(<我nline-formula>
F
=
f
1
,
f
2
,
f
3
,
⋯
。
,
f
N
,<我nline-formula>
N
范围从1到500)是由500年的筛选功能基因,和一个支持向量机分类器对应每组也建立了。IFS曲线绘制了MCC的SVM分类器的价值<我nline-formula>
y
设在和功能基因的数量<我nline-formula>
x
设在(图
2(一个))。根据IFS曲线,前66名的MCC价值功能基因(补充表
3)是作为训练集。66强特性以基因为基础的支持向量机分类器的分类效果提出了MCC的值:0.894,灵敏度:0.991,特异性:0.889,和准确性:0.979。因此,排名前66的功能基因设置为最优特性的基因。接下来,去富集分析排名前66的功能基因。结果显示如下:在BP模块中,这些基因主要是丰富的蛋白质定位内质网,SRP-dependent cotranslational目标蛋白质膜,和cotranslational蛋白质定位膜。在CC模块中,这些基因主要是胞质核糖体丰富,核糖体亚基,核糖体。在曼氏金融模块,这些基因主要富集在核糖体的结构组成(图
2 (b))。富集分析展出,这些大多是核糖体蛋白相关的功能基因,蛋白质分泌,和膜的位置。
筛选最优特性的基因。(a) IFS SVM分类器的性能评估基于不同群体的特征基因。<我nline-formula>
x
设在:功能基因数量;<我nline-formula>
y
设在:MCC价值。(b)泡沫块去浓缩分析最优特性的基因。分类结果包括英国石油(BP)、CC、CF。