在这个工作中,肝细胞癌的问卷调查数据集包括407个样本两年之内,和每个病人观察57临床症状(表
1)。每个病人样品贴上临床阶段的象征,这是中医相关的综合症和模式表明HCC的严重程度。根据国际分期系统[
14),有三个阶段和两个子阶段每个阶段在这个数据集。我们工作的目的是识别症状签名,这三个临床相关阶段:阶段I, II, III,大的值表明,强阳性症状发生。在我们的数据集,所有最初的症状是描述了两种类型的数据:二进制(0或1)或整数(0、1、2、3、…)。例如,症状“耳鸣”是二进制的类型(0或1),这意味着两种可能的状态:发生(积极)或不发生(负的)。另一个例子是“失眠”,其价值可以是0,1,2,3。值越大,越强的积极状态。症状没有出现积极的如果它的值等于零。
的描述最初的肝细胞癌患者的临床资料。
性
第一阶段(82)
第二阶段(195)
第三阶段(130)
阶段IA
阶段IB
阶段花絮
阶段IIB
阶段iii a
阶段希望
男性
33
27
50
115年
95年
10
女
12
10
10
20.
16
9
2.1.2。数据预处理
改进的特性集。原始数据集由407名肝癌患者样本(表
1)。预处理的第一步是删除无用的功能,因为他们为以下分类提供任何有用的信息。如果一个特性是恒定在所有观察到的样本,它可以被视为无用的功能。对于我们的数据集,一些症状,如“苍白的舌头”和“慢脉冲,”被移除,因为没有任何观察病人看好这些症状。消除这种特性,精制后临床数据集407样品和57症状(<我nl在e-formula>
V
1
,
…
,
V
57
)可以获得。
让<我nl在e-formula>
X
是<我nl在e-formula>
n
×
p
非负矩阵;也就是说,每个元素<我nl在e-formula>
x
我
j
≥
0
在<我nl在e-formula>
X
。非负矩阵分解(NMF)在于找到一个近似
(1)
X
≈
W
H
,
在哪里<我t一个l我c>基础矩阵
W和<我t一个l我c>混合系数矩阵
H是<我nl在e-formula>
n
×
r
和<我nl在e-formula>
r
×
p
非负矩阵,分别<我nl在e-formula>
r
>
0
和<我nl在e-formula>
r
≪
米
我
n
(
n
,
p
)
。小背后的客观价值<我nl在e-formula>
r
是总结和分裂中包含的信息吗<我nl在e-formula>
X
成<我nl在e-formula>
r
因素(也称为“基础”或“metafeature”)。矩阵<我nl在e-formula>
H
有相同数量的样品但较小数量的功能而不是矩阵<我nl在e-formula>
X
。因此,metafeature表达模式<我nl在e-formula>
H
通常提供一个健壮的聚类样本的
22]。
NMF的主要方法是求解估计矩阵<我nl在e-formula>
W
和<我nl在e-formula>
H
作为一个局部最小值:
(2)
(
D
(
X
,
W
H
)
+
R
(
W
,
H
)]
W
,
H
≥
0
最小值
,
在哪里<我nl在e-formula>
D
是一种措施的质量损失函数近似通常基于弗罗贝尼乌斯距离或Kullback-Leibler散度(
19]。<我nl在e-formula>
R
是一个可选的正则化函数,定义执行的属性矩阵<我nl在e-formula>
W
和<我nl在e-formula>
H
,如平滑或稀疏(
23,
24]。
在我们的研究中,NMF的损失函数是基于Kullback-Leibler散度(
25]。上面的函数<我nl在e-formula>
R
定义如下:
(3)
R
W
,
H
=
F
1
W
+
F
2
H
,
在哪里<我nl在e-formula>
F
1
W
和<我nl在e-formula>
F
2
H
是调节功能<我nl在e-formula>
W
和<我nl在e-formula>
H
,分别。在这里,我们应用Tikhonov平滑正规化(
26]<我nl在e-formula>
W
在
(4)
F
1
W
=
1
2
∑
我
,
j
W
我
j
- - - - - -
c
2
,
在哪里<我nl在e-formula>
c
是一个常数积极或零。另外,我们应用sparsity-enforcing正规化(
26]<我nl在e-formula>
H
在
(5)
F
2
H
=
1
2
∑
j
H
。
j
2
2
- - - - - -
α
2
H
。
j
1
2
2
。
在公式(
5),<我nl在e-formula>
H
。
j
是<我nl在e-formula>
j
th排<我nl在e-formula>
H
。<我nl在e-formula>
H
。
j
2
2
和<我nl在e-formula>
H
。
j
1
2
定义<我nl在e-formula>
l
2
规范和<我nl在e-formula>
l
1
规范的<我nl在e-formula>
H
。
j
。李提出的算法是一种行之有效的方法来解决NMF的优化
27]。
无关紧要的症状被移除后,非负矩阵分解应用于数据集<我nl在e-formula>
X
(<我nl在e-formula>
n
×
p
)。对于一个给定的排名<我nl在e-formula>
r
,矩阵<我nl在e-formula>
X
可以分解<我t一个l我c>基础矩阵
W和<我t一个l我c>系数矩阵
H。通常,排名的价值<我nl在e-formula>
r
远小于的数量特性(<我nl在e-formula>
n
)和样本数量(<我nl在e-formula>
p
),所以,都至少有一个维度<我nl在e-formula>
W
和<我nl在e-formula>
H
是非常小的。NMF的广泛电器biclustering进一步表明,基础矩阵<我nl在e-formula>
W
可用于特征聚类系数矩阵<我nl在e-formula>
H
分别用于样本聚类(
20.,
21]。在我们的研究中,样本的数量远远大于维度;因此,直接计算距离衡量原始特征之间的相似性或相关性(症状)所有的样品将会导致偏见,因为一些特性可能代表当地类似的模式样本的一部分。幸运的是,基础矩阵<我nl在e-formula>
W
代表了压缩矩阵的样本空间<我nl在e-formula>
X
,这有助于揭示特性之间的区别。在这里,我们介绍两个特性(<我nl在e-formula>
v
我
和<我nl在e-formula>
v
j
在原始数据集<我nl在e-formula>
X
作为一个例子来阐明这个步骤的基本思想。根据NMF的定义,我们可以很容易知道
(6)
x
我
=
w
我
×
H
,
x
j
=
w
j
×
H
,
在哪里<我nl在e-formula>
x
我
和<我nl在e-formula>
x
j
是<我nl在e-formula>
我
th和<我nl在e-formula>
j
矩阵的行<我nl在e-formula>
X
;<我nl在e-formula>
w
我
和<我nl在e-formula>
w
j
是<我nl在e-formula>
我
th和<我nl在e-formula>
j
矩阵的行<我nl在e-formula>
W
。以下可以很容易地找到。(1)如果<我nl在e-formula>
w
我
≈
w
j
,然后<我nl在e-formula>
x
我
≈
x
j
;(2)如果<我nl在e-formula>
w
我
=
k
w
j
,然后<我nl在e-formula>
x
我
=
k
x
j
,在那里<我nl在e-formula>
k
是一个常数。此外,如果<我nl在e-formula>
我
th行<我nl在e-formula>
w
我
在矩阵<我nl在e-formula>
W
非常接近<我nl在e-formula>
w
j
,该功能<我nl在e-formula>
v
我
可能有一个类似的模式<我nl在e-formula>
v
j
所有的样品。因此,我们定义了一个小说<我t一个l我c>相似度测量在公式(
7),大约通过矩阵评估两个原始症状之间的冗余<我nl在e-formula>
W
:
(7)
sim卡
v
我
,
v
j
≈
sim卡
w
我
,
w
j
=
sim_dist
w
我
,
w
j
+
sim_corr
w
我
,
w
j
2
,
在哪里
(8)
sim_dist
w
我
,
w
j
=
1
- - - - - -
w
我
- - - - - -
w
j
×
w
我
- - - - - -
w
j
T
马克斯
D
,
(9)
sim_corr
w
我
,
w
j
=
w
我
- - - - - -
w
- - - - - -
×
w
j
- - - - - -
w
- - - - - -
T
w
我
- - - - - -
w
- - - - - -
×
w
我
- - - - - -
w
- - - - - -
T
×
w
j
- - - - - -
w
- - - - - -
×
w
j
- - - - - -
w
- - - - - -
T
。
公式(
8)使用<我t一个l我c>基于距离的相似性,这表明两个相应的特性是如何接近彼此;和公式(
9)采用<我t一个l我c>correlation-based相似用于描述相似的两个原始特征的模式。因此,我们开发了相似性度量考虑距离和在同一时间关联特性。<我nl在e-formula>
马克斯
D
在公式(
8)是在所有成对的最大距离值(<我nl在e-formula>
w
我
,
w
j
)。基于上述的定义相似,我们进一步计算相似性矩阵<我nl在e-formula>
年代
米
X
使用所有行<我nl在e-formula>
W
(<我nl在e-formula>
年代
米
X
我
,
j
=
年代
我
米
v
我
,
v
j
),元素<我nl在e-formula>
年代
米
X
我
,
j
表示原始特征之间的相似性<我nl在e-formula>
我
和<我nl在e-formula>
j
。给定阈值<我nl在e-formula>
θ
(<我nl在e-formula>
0
<
θ
<
1
),我们可以通过组与屏幕上所有的冗余功能<我nl在e-formula>
年代
米
X
我
,
j
>
θ
。
(1)计算均值向量的冗余的症状
(10)
x
NgydF4y2Ba
F
=
的意思是
x
r
1
,
x
r
2
,
…
,
x
r
n
,
在哪里<我nl在e-formula>
x
r
1
,
x
r
2
,
…
,<我nl在e-formula>
x
r
n
原始数据集的特征向量<我nl在e-formula>
X
和决心,多余的一组症状。<我nl在e-formula>
n
表示数量的推断出多余的一组症状。向量<我nl在e-formula>
x
NgydF4y2Ba
F
新单的功能<我nl在e-formula>
v
NgydF4y2Ba
F
在这个群体平均。
(2)随机选择一个向量从冗余的症状之一
(11)
x
NgydF4y2Ba
F
∈
x
r
1
,
x
r
2
,
…
,
x
r
n
。
在我们的研究中,我们改变了冗余组症状新的混合特性通过使用公式(
10)。这一步后,临床数据集的特征空间进一步缩小,这样最优特征子集很少包括冗余功能。
3所示。仿真设计
首先,我们计算每个最初症状出现的频率在每个临床阶段积极然后删除无关紧要的症状如果他们的频率值很低。
其次,一套代表性NMF分析了放映。在我们的数据集,肝细胞变化的三个阶段的样本数量很多,也就是说,从82年开始,130年到195年。如果使用整个数据集,一个类不平衡问题将导致(
29日- - - - - -
31日]。此外,病人也严重不平衡的性别比例在原始数据集(表
1)。避免偏差引起的不平衡样本,我们选择40个样本每个临床阶段以同样比例的男性和女性(20:20)构建一个代表临床数据集<我nl在e-formula>
D
R
(总共120个样本)以下NMF分析。考虑到每个原始样品有一个类标签,对应于临床阶段的病人,对所有原始样本(407),我们可以得到一个样品的初步参与三个集群,也可以认为是一个训练有素的资讯集群模式
32]。然后我们定义每个集群的中心,这是所有样品的平均向量在同一集群。给定一个较大的值<我nl在e-formula>
K
,我们将每个中心集群输入以上资讯模型并保持输出符合相应的类中心的标签。基于<我nl在e-formula>
K
最近的邻居,我们终于可以筛选出40代表男性和20名女性(20)的样品根据欧几里得距离每个临床阶段。
其次,NMF的计算是实现在移除所有检测到不相关的症状。根据“模拟设计”的描述,NMF是应用于代表矩阵<我nl在e-formula>
D
R
120份肝癌样本,均匀覆盖三个临床阶段。图
2(一个)代表这一事实<我nl在e-formula>
D
R
是一个稀疏矩阵,大分区的元素为零(没有正面),如症状<我nl在e-formula>
V
6
如图
2 (b)。然而,也有一些积极在许多患者的症状,如症状<我nl在e-formula>
V
25
如图
2 (c)。矩阵<我nl在e-formula>
D
R
不显示明显的子类型和模式;因此,很难直接比较相似的行向量之间的症状<我nl在e-formula>
D
R
因为样品的数量仍然很大。在这项研究中,我们使用了NMF压缩代表矩阵<我nl在e-formula>
D
R
和的分布模式特性(症状)更少的样本。NMF的计算之前,应首先确定临界参数:分解等级的价值<我nl在e-formula>
r
。根据深色的方法,第一个值<我nl在e-formula>
r
同表象的系数开始降低最优是一个(
36]。Frigyesi和霍格伦德建议选择第一个值的RSS曲线提供了一个拐点(
37]。基于这两种方法,我们认为“3”是一个等级的合理价值<我nl在e-formula>
r
临床数据矩阵<我nl在e-formula>
D
R
。在图所示的曲线
3也证实了这一结论。非负矩阵分解在矩阵上实现<我nl在e-formula>
D
R
(<我nl在e-formula>
49
×
120年
等级3。它还表明,metafeatures的数量(基础)= 3。
代表的热图临床数据集<我nl在e-formula>
D
R
。(一)的热图<我nl在e-formula>
D
R
49岁的症状和120个样本。(b)症状的分布模式<我nl在e-formula>
V
6
,<我nl在e-formula>
V
8
,<我nl在e-formula>
V
28
,<我nl在e-formula>
V
37
,<我nl在e-formula>
V
53
表明积极的频率很低。(c)症状的分布模式<我nl在e-formula>
V
46
,<我nl在e-formula>
V
42
,<我nl在e-formula>
V
25
表明积极的频率很高。
最优估计<我nl在e-formula>
r
。
图
4代表了NMF的最终结果包括基础矩阵<我nl在e-formula>
W
(<我nl在e-formula>
49
×
3
)和混合系数<我nl在e-formula>
H
(<我nl在e-formula>
3
×
120年
)。矩阵的每一行<我nl在e-formula>
W
使用一个压缩模式来近似地代表一种症状的分布在所有原始样品。比较矩阵<我nl在e-formula>
D
R
如图
2,最明显的差异矩阵<我nl在e-formula>
W
是有几组压缩特性揭示相似的样本空间,如<我nl在e-formula>
V
40
和<我nl在e-formula>
V
36
在图
4。根据图
2(一个),我们可以发现症状的向量之间的距离<我nl在e-formula>
V
40
和<我nl在e-formula>
V
36
在<我nl在e-formula>
D
R
也关闭;此外,压缩模式<我nl在e-formula>
V
40
和<我nl在e-formula>
V
36
在矩阵<我nl在e-formula>
W
(<我nl在e-formula>
w
40
和<我nl在e-formula>
w
36
)在图
4促进更容易识别冗余特性具有非常相似的分布模式。
NMF的数据集的结果<我nl在e-formula>
D
R
。左侧显示的可视化矩阵<我nl在e-formula>
W
(<我nl在e-formula>
49
∗
3
),右侧表示矩阵<我nl在e-formula>
H
(<我nl在e-formula>
3
∗
120年
)。
矩阵<我nl在e-formula>
H
有相同数量的样品但是较小数量的metafeatures(基础)而不是原始矩阵<我nl在e-formula>
X
(
36]。因此,metafeature表达模式<我nl在e-formula>
H
通常提供一个健壮的聚类的样本。考虑到<我nl在e-formula>
j
th列<我nl在e-formula>
H
作为<我nl在e-formula>
H
j
=
(
h
j
1
,
h
j
2
,
h
j
3
]
T
,我们决定<我nl在e-formula>
j
临床样本放入<我nl在e-formula>
k
th集群如果<我nl在e-formula>
马克斯
H
j
=
H
j
(
k
)
,在那里<我nl在e-formula>
k
∈
{
1、2
,
3
}
。因此,我们使用矩阵<我nl在e-formula>
H
将所有样本分组成3集群,对应3基地(metafeature)。图
5表明clinical-staging标记之间有很大的重叠(先验知识的类标签)和索引的基础组件(metafeatures)在120年最初的临床样本包含在数据集<我nl在e-formula>
D
R
。
NMF-derived基础组件之间的关系和临床阶段的样本。
在矩阵<我nl在e-formula>
W
,每一列对应一个metafeature或基础(见图
4)。条目<我nl在e-formula>
w
我
j
在矩阵<我nl在e-formula>
W
是原始的系数特性<我nl在e-formula>
我
在metafeature(基础)<我nl在e-formula>
j
(
36]。因此,一个原始的特性<我nl在e-formula>
我
与特定的基础<我nl在e-formula>
j
如果<我nl在e-formula>
w
我
j
是最大的输入行吗<我nl在e-formula>
我
的矩阵<我nl在e-formula>
W
。从图
4,我们可以清楚地看到,最初的症状特征参与相同的基础有相似的表达模式,而不是在其他基地。表
3代表所有基础组件相关的症状。组合图
5和表
3进一步表明,“基础1”相关的症状是非常相关的临床样本二期,“基础2”和“3”相关的症状非常相关的第一阶段和第三阶段,分别。这一发现有助于识别<我t一个l我c>临床分阶段通过NMF重要症状。此外,49个临床症状的分区表所示
3了相关研究的支持。例如,<我t一个l我c>恶心观察是常见的不利影响肝癌患者在第一阶段(
44]。的症状<我t一个l我c>腹水、厌食、发热,<我t一个l我c>黄疸经常发生在第二阶段(
43,
45- - - - - -
48]。症状”<我t一个l我c>黄色的肤色”和“<我t一个l我c>黄色的皮肤和眼睛”见表
3很明显的表象<我t一个l我c>黄疸。第三阶段,<我t一个l我c>疼痛最明显的特点是在肝细胞癌患者
49]。有三个疼痛症状显示表
3:“<我t一个l我c>肩膀和背部疼痛,”“<我t一个l我c>胸痛、”和“<我t一个l我c>向季肋部疼痛。“此外,<我t一个l我c>疲劳和<我t一个l我c>弱点也是常见的肝癌患者(
43]。在一起,这些发现表明,NMF的最佳排名可以揭示潜在的症状之间的潜在关联特性和临床阶段。
症状的NMF-derived参与到每个相应的基础组件。
基础组件
的症状
症状的名称
基础1
16
静脉曲张(<我nl在e-formula>
V
7
];黄色的肤色(<我nl在e-formula>
V
11
];黄色的皮肤和眼睛(<我nl在e-formula>
V
13
];胃疼(<我nl在e-formula>
V
31日
];干燥的粪便(<我nl在e-formula>
V
38
];感觉口渴(<我nl在e-formula>
V
27
];潮热(<我nl在e-formula>
V
20.
];做腹部饱胀[<我nl在e-formula>
V
33
];丰满在胃<我nl在e-formula>
V
32
];块肋骨下(<我nl在e-formula>
V
49
];发冷(<我nl在e-formula>
V
18
];热(<我nl在e-formula>
V
19
];蜘蛛毛细管扩张在肝掌<我nl在e-formula>
V
15
];腹水(<我nl在e-formula>
V
50
];黄色油腻(<我nl在e-formula>
V
9
];厌食症(<我nl在e-formula>
V
34
]
基础2
17
恶心(<我nl在e-formula>
V
35
];脉滑(<我nl在e-formula>
V
54
];瘀斑的和瘀斑的舌头<我nl在e-formula>
V
6
];白滑(<我nl在e-formula>
V
8
];胸闷(<我nl在e-formula>
V
28
];半流体凳子(<我nl在e-formula>
V
37
];弱脉冲(<我nl在e-formula>
V
53
];盗汗(<我nl在e-formula>
V
22
];脏口(<我nl在e-formula>
V
17
];红色的舌头(<我nl在e-formula>
V
3
];纤细的脉冲(<我nl在e-formula>
V
57
];粘腻涂料(<我nl在e-formula>
V
10
];紫色的舌头(<我nl在e-formula>
V
4
];绳的脉冲(<我nl在e-formula>
V
52
];苍白的嘴唇(<我nl在e-formula>
V
2
];大型和teeth-printed舌头<我nl在e-formula>
V
5
];黯淡的肤色(<我nl在e-formula>
V
14
]
基础3
16
耳鸣(<我nl在e-formula>
V
24
];头晕(<我nl在e-formula>
V
23
];在肩膀和背部疼痛<我nl在e-formula>
V
48
];胸痛(<我nl在e-formula>
V
29日
];向季肋部疼痛(<我nl在e-formula>
V
30.
];苦味[<我nl在e-formula>
V
26
];失眠(<我nl在e-formula>
V
42
]; 外观与彩色黄色(<我nl在e-formula>
V
12
];黄色的尿液(<我nl在e-formula>
V
40
];打嗝(<我nl在e-formula>
V
36
];疼痛和腰和膝盖的弱点<我nl在e-formula>
V
44
];干燥的喉咙(<我nl在e-formula>
V
25
];发烧在手掌和脚底<我nl在e-formula>
V
45
];自汗(<我nl在e-formula>
V
21
]; 夜尿多(<我nl在e-formula>
V
39
];身心疲惫(<我nl在e-formula>
V
46
]
正如上面所提到的“仿真设计,”几组冗余特性根据给定的阈值被筛选出来<我nl在e-formula>
θ
=
0.95
(表
4)。我们得到两个冗余的症状组从每个基础组件,这表明冗余的症状包括在相同的组也可能有类似的原始样本空间中的模式。在这里,我们把数字
2 (b)- - - - - -
2 (c)为例进行合作我们的方法的有效性。图
2 (b)代表积极的5个症状的分布数据集<我nl在e-formula>
D
R
。这五个症状(<我nl在e-formula>
V
6
,<我nl在e-formula>
V
8
,<我nl在e-formula>
V
28
,<我nl在e-formula>
V
37
,<我nl在e-formula>
V
53
)被确定为基础2相关功能,他们最可能属于第一阶段(表
4)。虽然每一个行向量图
2 (b)并不是完全平等的,他们都表示相对低频率的积极(<我nl在e-formula>
15.17
±
3.25
%
)和当地的分布模式在某种程度上是相似的。比较这五种症状的相应行矩阵<我nl在e-formula>
W
在图
4,我们发现这些症状非常相似的压缩模式。同样,症状(<我nl在e-formula>
V
46
,<我nl在e-formula>
V
42
,<我nl在e-formula>
V
25
)是潜在的相关基础3,每超过50%,阳性的频率和阳性这三个症状的平均值是1.77,这进一步表明,它们可能与一些病人的条件是非常严重的。虽然症状<我nl在e-formula>
V
46
,
V
42
,<我nl在e-formula>
V
25
没有确定为冗余的症状与给定阈值(0.95),其压缩模式矩阵<我nl在e-formula>
W
在图
4还指出,他们的模式是非常接近。总之,我们考虑一个事实,即矩阵<我nl在e-formula>
W
促进评估症状,之间的差异和矩阵<我nl在e-formula>
H
可以验证样本的类标签之间高度的相关性和基础索引。与给定阈值推断冗余的症状后,我们结合每个症状的组在一起,转化成一个新特性(命名混合的特性)。最后,我们获得了39临床特征(<我nl在e-formula>
F
年代
1
)肝癌的最优特征子集,它由两个部分组成:33最初症状特征(<我nl在e-formula>
F
年代
2
)和6个新的混合特性(<我nl在e-formula>
F
年代
3
)(表
5)。基于NMF的分析结果,原始数据集的特征空间进一步缩小。
平均相似度值的双冗余的症状在同一组。
基础组件
筛选冗余的症状
基于距离的相似性sim_dist<我nl在e-formula>
(
w
我
,
w
j
)
Correlation-based相似sim_corr<我nl在e-formula>
(
w
我
,
w
j
)
基础1
V
38,<我nl在e-formula>
V
27
,<我nl在e-formula>
V
20.
0.9672
1。0
V
19,<我nl在e-formula>
V
15
0.9507
1。0
基础2
V
35,<我nl在e-formula>
V
54
0.9685
0.9960
V
6,<我nl在e-formula>
V
8
,<我nl在e-formula>
V
53
,<我nl在e-formula>
V
37
,<我nl在e-formula>
V
28
0.9628
1。0
基础3
V
48,<我nl在e-formula>
V
29日
0.9686
1。0
V
44,<我nl在e-formula>
V
45
0.9520
0.9926
NMF-driven潜在的肝细胞癌的临床特征(阈值:0.95)。
基础组件
原来的功能
混合特性
描述关于混合特性
基础1
V
7;<我nl在e-formula>
V
11
;<我nl在e-formula>
V
13
;<我nl在e-formula>
V
31日
;<我nl在e-formula>
V
33
;<我nl在e-formula>
V
32
;
V
49;<我nl在e-formula>
V
18
;<我nl在e-formula>
V
50
;<我nl在e-formula>
V
9
;<我nl在e-formula>
V
34
米
11
米
12
转换从<我nl在e-formula>
V
38
,
V
27
,
V
20.和<我nl在e-formula>
V
19
,
V
15
,分别。
基础2
V
22;<我nl在e-formula>
V
17
;<我nl在e-formula>
V
3
;<我nl在e-formula>
V
57
;<我nl在e-formula>
V
2
;<我nl在e-formula>
V
10
;
V
4;<我nl在e-formula>
V
52
;<我nl在e-formula>
V
5
;<我nl在e-formula>
V
14
米
21
米
22
转换从<我nl在e-formula>
V
35
,
V
54
和
V
6
,
V
8
,
V
53
,
V
37
,
V
28,分别。
基础3
V
24;<我nl在e-formula>
V
23
;<我nl在e-formula>
V
30.
;<我nl在e-formula>
V
26
;<我nl在e-formula>
V
42
;<我nl在e-formula>
V
12
;
V
40;<我nl在e-formula>
V
36
;<我nl在e-formula>
V
25
;<我nl在e-formula>
V
21
;<我nl在e-formula>
V
39
;<我nl在e-formula>
V
46
米
31日
米
32
转换从<我nl在e-formula>
V
48
,
V
29日
和
V
44
,
V
45,分别。
数的功能
33
6
总:39功能
评估潜在的NMFBFS-inferred最优特征子集,我们首先测试了三个候选人特性子集的分类精度<我nl在e-formula>
F
年代
1
,<我nl在e-formula>
F
年代
2
,<我nl在e-formula>
O
F
年代
在训练集(120代表样本)。<我nl在e-formula>
F
年代
1
和<我nl在e-formula>
F
年代
2
通过特征选择生成阈值<我nl在e-formula>
θ
(0.95)。<我nl在e-formula>
O
F
年代
在数据集表示49最初的症状特征<我nl在e-formula>
D
R
。表
6表明39最优特性,覆盖33个最初的症状特点和6个新的混合特性,导致最好的训练样本分类精度。的性能<我nl在e-formula>
F
年代
2
是比<我nl在e-formula>
O
F
年代
;但是,它还是比<我nl在e-formula>
F
年代
1
因为新的混合特性也有重要贡献的分类。
然后我们将我们NMFBFS的性能与三个著名的特征选择方法(ReliefF [
11],mRMR [
12,弹性网(
13])。ReliefF是使用MATLAB实现的函数。“mRMRe”和“elasticnet”<我nl在e-formula>
R
包申请mRMR和基于弹性网的特征选择,分别。补充图S1表示ReliefF-based特性排名。补充图S2表示弹性网(<我nl在e-formula>
λ
=
0.5
)解决方案特征选择的路径。我们选择排名前20位的特性和前40名特性两个候选特征子集的方法来评估他们的分类性能:<我nl在e-formula>
F
年代
R
F
20.
和<我nl在e-formula>
F
年代
R
F
40
从ReliefF生成;<我nl在e-formula>
F
年代
米
R
20.
和<我nl在e-formula>
F
年代
米
R
40
从mRMR推断;<我nl在e-formula>
F
年代
E
NgydF4y2Ba
20.
和<我nl在e-formula>
F
年代
E
NgydF4y2Ba
40
从弹性网络推断。表
7代表上述六个候选特征子集的分类性能和NMFBFS-derived最优特征子集<我nl在e-formula>
F
年代
1
在训练集(120代表样本)。结果表明,NMFBFS-inferred特征子集的分类精度最好的训练样本。