NMFBFS: NMF-Based特征选择方法在识别关键的肝细胞癌的临床症状

文摘

背景。肝细胞癌(HCC)是一个高度积极的恶性肿瘤。中国传统医学(中医),辨证的特点,在肝癌的综合治疗中发挥着重要作用。本研究旨在开发一种基于非负矩阵分解(NMF)——的特征选择方法(NMFBFS)为HCC患者分层识别潜在的临床症状。方法。NMFBFS方法包括三个主要步骤。首先,乐此不疲的初步功能筛查的目的是检测和删除不相关的症状。其次,NMF来推断出冗余的症状。基于基NMF-derived矩阵,我们定义了一个小说相似度测量intersymptoms。最后,我们将每组冗余的症状一个新的单一功能,这样尺寸进一步缩小。结果。基于临床数据集组成的407的肝癌患者样本57症状,NMFBFS方法检测到8不相关的症状,然后确定16冗余的症状在6组。最后,一个最优特征子集与39临床特征生成冗余压缩后症状组。分类性能的验证表明,这些39特性明显改善肝癌患者的预测精度。结论。与其他方法相比,NMFBFS有明显优势识别肝癌的重要临床特征。

1。介绍

肝细胞癌(HCC)是第三个全球癌症死亡的最常见原因,患者死亡的主要原因肝硬化的并发症1,2]。肝癌的发生是larvaceous和短的具体症状(3,4]。其诊断取决于活组织检查,多普勒超声等成像检查,ct、磁共振成像,和血液测试5,6]。一旦HCC患者看病,疾病常常进入晚期,失去手术切除的机会。因此,寻找简单的方法来预测HCC及其临床阶段非常有意义,有利于提高肝癌的诊断。

作为一个最受欢迎的补充和替代医学模式,中国传统医学(中医)中发挥着积极的作用在治疗恶性肿瘤包括肝细胞癌在中国和东亚一些国家7,8]。不同于现代医学,中医诊断和治疗取决于收集的分析肝癌的症状与体征检查、闻、脉冲和切(8]。中医认为特定组合的症状和体征作为中医综合症,这是治疗的主要依据;它也可以用于指导肝癌的临床诊断。我们以前的工作提出了一个分层特征选择(PSOHFS)模型来快速识别潜在的肝细胞癌综合征的中医临床数据集9),最初的症状都是根据类别分为几组的临床观察,和每个症状组被转换成一个综合症签名,以减少特征选择的搜索空间。但是这种方法的局限性是属于不同类别的症状之间的交互(方面)都被忽略了。因此,当前的挑战是设计一个有效的特征选择方法对高维中医数据考虑的临床意义。

在这项研究中,一个非负矩阵分解(NMF) - - - (10)基于特征选择(NMFBFS)方法,提出了选择关键的临床症状为肝细胞癌的诊断。中医临床数据集用于这项工作,407年由肝细胞癌患者57临床症状。每个病人样品贴上clinical-staging象征这表明某些病人的严重程度。首先,初步筛选与统计方法旨在检测无关的症状从完整的症状组。其次,NMF的过程实施后消除不相关的症状。基于NMF-derived基础矩阵,我们定义了相似度测量来推断冗余症状通过计算之间的距离和相关症状。最后,二次降维是实现基于推断冗余组的症状。我们每个症状组转化为一个新特性(名为“混合特性”)如果这些症状代表类似的样本空间分布模式。实验结果表明,39小说特征推断NMFBFS明显改善诊断肝癌的临床样本的准确性。此外,NMFBFS-derived 39最佳临床特征包括一些著名的HCC患者的常见症状。比较三种具有代表性的特征选择方法(ReliefF [11],mRMR [12,弹性网(13]),我们建议的方法显示最佳的性能来确定最优为肝癌患者临床特征。

2。材料和方法

2.1。实验数据

2.1.1。描述

在这个工作中,肝细胞癌的问卷调查数据集包括407个样本两年之内,和每个病人观察57临床症状(表1)。每个病人样品贴上临床阶段的象征,这是中医相关的综合症和模式表明HCC的严重程度。根据国际分期系统[14),有三个阶段和两个子阶段每个阶段在这个数据集。我们工作的目的是识别症状签名,这三个临床相关阶段:阶段I, II, III,大的值表明,强阳性症状发生。在我们的数据集,所有最初的症状是描述了两种类型的数据:二进制(0或1)或整数(0、1、2、3、…)。例如,症状“耳鸣”是二进制的类型(0或1),这意味着两种可能的状态:发生(积极)或不发生(负的)。另一个例子是“失眠”,其价值可以是0,1,2,3。值越大,越强的积极状态。症状没有出现积极的如果它的值等于零。


性	第一阶段(82)		第二阶段(195)		第三阶段(130)
性	阶段 IA	阶段 IB	阶段花絮	阶段 IIB	阶段 iii a	阶段希望

男性	33	27	50	115年	95年	10
女	12	10	10	20.	16	9

2.1.2。数据预处理

改进的特性集。原始数据集由407名肝癌患者样本(表1)。预处理的第一步是删除无用的功能,因为他们为以下分类提供任何有用的信息。如果一个特性是恒定在所有观察到的样本,它可以被视为无用的功能。对于我们的数据集,一些症状,如“苍白的舌头”和“慢脉冲,”被移除,因为没有任何观察病人看好这些症状。消除这种特性,精制后临床数据集407样品和57症状()可以获得。

简化的临床分期。肝细胞癌患者的临床分期在我们最初的数据集是标有集合“IA,”“IB”,“花絮”,“iii a,”和“IIB,希望。“识别相关的症状特征三个临床阶段,所有的样品将会重新贴上了三个类。在这里,我们说的类标签“1”样本标记为“是”和“IB。“以类似的方式,类标签“2”是用于“花絮”和“IIB”和“3”是“iii a”和“希望。“最后,所有407份临床样本可以分布在三个类别:82个样本在第一阶段,195年的第二阶段,第三阶段和130年。精致的细节数据集表中描述1。

2.2。特征选择

特征选择可以分成三个类别,这取决于它们如何相互作用模型的建设。过滤方法采用一个标准来评估每个特性单独和独立的模型15]。其中,功能的排名是一种常见的方法包括排名的所有特性基于一定的测量和选择一个特征子集包含高排名的功能[16]。然而,排名方法的缺点之一是所选子集可能不是最佳的,可能会获得一个冗余的子集。包装方法包括通过特征空间组合搜索,指导下一个模型的预测性能(17]。启发式搜索广泛用于包装方法搜索策略可以产生好结果和计算是可行的;然而,他们经常产生局部最优的结果。对于嵌入式方法,特征搜索过程是嵌入到分类算法,所以学习的过程和特征选择过程是不可分割的18]。

2.3。非负矩阵分解

非负矩阵分解(NMF)旨在获得nonnegativity约束下的多元数据的线性表示。因为只有这些约束导致部分原因表示添加剂,没有减去,原始数据的组合允许(19]。一般来说,NMF可以用来描述对成千上万的特性在一个数据集在少数metafeatures方面,特别是在基因表达谱分析(20.- - - - - -22]。

让是非负矩阵;也就是说,每个元素在。非负矩阵分解(NMF)在于找到一个近似在哪里基础矩阵 和混合系数矩阵 是和非负矩阵,分别和。小背后的客观价值是总结和分裂中包含的信息吗成因素(也称为“基础”或“metafeature”)。矩阵有相同数量的样品但较小数量的功能而不是矩阵。因此,metafeature表达模式通常提供一个健壮的聚类样本的22]。

NMF的主要方法是求解估计矩阵和作为一个局部最小值: 在哪里是一种措施的质量损失函数近似通常基于弗罗贝尼乌斯距离或Kullback-Leibler散度(19]。是一个可选的正则化函数,定义执行的属性矩阵和,如平滑或稀疏(23,24]。

在我们的研究中,NMF的损失函数是基于Kullback-Leibler散度(25]。上面的函数定义如下: 在哪里和是调节功能和,分别。在这里,我们应用Tikhonov平滑正规化(26]在在哪里是一个常数积极或零。另外,我们应用sparsity-enforcing正规化(26]在在公式(5),是th排。和定义规范和规范的。李提出的算法是一种行之有效的方法来解决NMF的优化27]。

2.4。NMF-Based特征选择

在这项研究中,我们提出了NMF-based特征选择(NMFBFS)方法可以被看作是一个两级过滤器的方法。在第一阶段,初步筛选实现检测无关的症状和删除它们从整个特性集。在第二阶段,NMF集群冗余的症状可能有类似的模式分成不同的组,然后每组是转化成新的单一特性减少维度。显然,NMFBFS独立于分类器的过程中,可以快速推断出即使在高维数据集最优特征子集。NMFBFS如图的流程图1。

2.4.1。移除不相关的症状

在我们的问卷调查,所有的症状都是由临床医生、患者的许多方面。然而,每个特性的相关性权重区分样本的临床阶段没有定量研究。在机器学习中,无关的特性在任何情况下提供任何有用的信息,几乎总是导致患者分层(28]。如果样本容量很大,它是有意义的快速检测阳性症状通过计算频率无关的。这里,我们计算了存在的比率(频率)(积极的)每个样本在每个临床症状的阶段。如果某些症状的临床阶段的频率非常低,这表明这个症状很难出现积极的在大多数患者中,因此它被认为是一个无关紧要的症状。从原始数据集删除无关紧要的症状后,其余症状视为相关功能,可能与至少一个类的患者(或一个临床阶段)。

2.4.2。基于NMF识别冗余的症状

无关紧要的症状被移除后,非负矩阵分解应用于数据集()。对于一个给定的排名,矩阵可以分解基础矩阵 和系数矩阵 。通常,排名的价值远小于的数量特性()和样本数量(),所以,都至少有一个维度和是非常小的。NMF的广泛电器biclustering进一步表明,基础矩阵可用于特征聚类系数矩阵分别用于样本聚类(20.,21]。在我们的研究中,样本的数量远远大于维度;因此,直接计算距离衡量原始特征之间的相似性或相关性(症状)所有的样品将会导致偏见,因为一些特性可能代表当地类似的模式样本的一部分。幸运的是,基础矩阵代表了压缩矩阵的样本空间,这有助于揭示特性之间的区别。在这里,我们介绍两个特性(和在原始数据集作为一个例子来阐明这个步骤的基本思想。根据NMF的定义,我们可以很容易知道在哪里和是th和矩阵的行;和是th和矩阵的行。以下可以很容易地找到。(1)如果,然后;(2)如果,然后,在那里是一个常数。此外,如果th行在矩阵非常接近,该功能可能有一个类似的模式所有的样品。因此,我们定义了一个小说相似度测量在公式(7),大约通过矩阵评估两个原始症状之间的冗余: 在哪里公式(8)使用基于距离的相似性,这表明两个相应的特性是如何接近彼此;和公式(9)采用correlation-based相似用于描述相似的两个原始特征的模式。因此,我们开发了相似性度量考虑距离和在同一时间关联特性。在公式(8)是在所有成对的最大距离值()。基于上述的定义相似,我们进一步计算相似性矩阵使用所有行(),元素表示原始特征之间的相似性和。给定阈值(),我们可以通过组与屏幕上所有的冗余功能。

2.4.3。变换的冗余症状组

在上面的部分中,冗余的症状都筛选出来,被组织成不同的组。每个症状组,一个新的混合特征提取作为整个集团的代表,取代了原来的所有功能在这个组。因此,NMFBFS-inferred最优特征子集包括两个部分:nonredundant原始特性和新生成的混合特性(见图1)。有两种策略可以用来将多余的症状组混合特性。

(1)计算均值向量的冗余的症状在哪里,原始数据集的特征向量和决心,多余的一组症状。表示数量的推断出多余的一组症状。向量新单的功能在这个群体平均。

(2)随机选择一个向量从冗余的症状之一在我们的研究中,我们改变了冗余组症状新的混合特性通过使用公式(10)。这一步后,临床数据集的特征空间进一步缩小,这样最优特征子集很少包括冗余功能。

3所示。仿真设计

首先,我们计算每个最初症状出现的频率在每个临床阶段积极然后删除无关紧要的症状如果他们的频率值很低。

其次,一套代表性NMF分析了放映。在我们的数据集,肝细胞变化的三个阶段的样本数量很多,也就是说,从82年开始,130年到195年。如果使用整个数据集,一个类不平衡问题将导致(29日- - - - - -31日]。此外,病人也严重不平衡的性别比例在原始数据集(表1)。避免偏差引起的不平衡样本,我们选择40个样本每个临床阶段以同样比例的男性和女性(20:20)构建一个代表临床数据集(总共120个样本)以下NMF分析。考虑到每个原始样品有一个类标签,对应于临床阶段的病人,对所有原始样本(407),我们可以得到一个样品的初步参与三个集群,也可以认为是一个训练有素的资讯集群模式32]。然后我们定义每个集群的中心,这是所有样品的平均向量在同一集群。给定一个较大的值,我们将每个中心集群输入以上资讯模型并保持输出符合相应的类中心的标签。基于最近的邻居,我们终于可以筛选出40代表男性和20名女性(20)的样品根据欧几里得距离每个临床阶段。

最后,一些冗余的症状组确认。然后我们将每个冗余症状组转变为一个新的混合特性。结合所有nonredundant原始特性与新生成的混合特性,我们获得一个最优的肝细胞癌的临床症状子集。最后,这个功能子集的分类性能进一步验证了最小二乘支持向量机(LSSVM) [33,34]。

实验参数。首先,我们设置一个频率阈值来识别不相关的症状。NMF的包(35]当时作为计算框架使用非负矩阵分解算法。对于这种方法,最佳排名应该首先决定。目前有几种方法,提出了确定最优值(36,37]。在我们的研究中,两种方法,即同表象系数(36)和RSS曲线(37),被用来确定最优排序范围从2到7。在获得NMF与最优的结果,我们计算了相似矩阵所有的基础行和阈值推断出冗余的症状,符合下列条件:和在公式(7)- (9)。最后,LSSVM分类器实现验证的分类性能的最佳子集症状。LSSVM的多级模型,采用高斯RBF内核,内核参数和是由网格搜索(38]。在我们的网格搜索,我们集和。变量变化与步骤0.25−1到5,和变量从−1到4步骤0.2。因此,我们的范围为和的范围为。完全有24的价值水平和25水平。换句话说,有600对测试当LSSVM分类器训练。找到一个最优值,我们使用5倍交叉验证评估LSSVM模型的分类精度。

4所示。结果与讨论

首先,我们积极为所有的频率计算每个临床阶段的最初症状(57)(见补充表S1网上http://dx.doi.org/10.1155/2015/846942)。八不相关症状的人被认为是无关紧要的功能(阈值:10%)。从表2,我们可以清楚地看到,这些症状出现在一些病人在每个临床阶段(少于10%)的临床观察,因此他们被认为是噪声特性在诊断的过程中。因为样品的总数是大(407),我们认为八不相关的症状与统计分析是非常可靠的。症状显示在表的一部分2由以前的研究证明。例如,赖昌星等人得出的结论是,“情感抑郁”之间没有检测到协会和肝细胞癌的风险在老年人在台湾39,40]。此外,彭等人研究了169中国肝癌患者;只有三个患者伴有胸水,这也表明,这种症状不是关键症状肝癌发展的过程(41,42]。此外,“下肢水肿”无疑是一个著名的肝细胞癌患者的临床症状(43];然而,它被认为是一个无关紧要的症状在这项研究中,因为它很少出现在我们的数据的所有三个阶段。增加了观察到的样本或减少阈值将作为候选人的症状。


症状	第一阶段		二期		第三阶段
症状	IA期	IB阶段	阶段活动花絮	IIB阶段	阶段iii a	希望具有相

苍白的嘴唇(]	0	5.41%	6.67%	5.19%	4.5%	0
在下肢水肿]	2.22%	8.1%	1.67%	5.19%	3.6%	0
缺乏尿量(]	0	2.7%	0	0	5.41%	0
情绪抑郁(]	4.44%	0	5%	8.89%	6.31%	5.26%
头身体困重(]	0	2.7%	3.33%	2.22%	2.7%	0
水胸(]	6.67%	2.7%	1.67%	3.7%	2.7%	0
快速脉冲(]	4.44%	2.7%	1.67%	0.74%	5.41%	5.26%
不均匀的脉冲(]	4.44%	5.41%	8.33%	3.7%	3.6%	0

其次,NMF的计算是实现在移除所有检测到不相关的症状。根据“模拟设计”的描述,NMF是应用于代表矩阵120份肝癌样本,均匀覆盖三个临床阶段。图2(一个)代表这一事实是一个稀疏矩阵,大分区的元素为零(没有正面),如症状如图2 (b)。然而,也有一些积极在许多患者的症状,如症状如图2 (c)。矩阵不显示明显的子类型和模式;因此,很难直接比较相似的行向量之间的症状因为样品的数量仍然很大。在这项研究中,我们使用了NMF压缩代表矩阵和的分布模式特性(症状)更少的样本。NMF的计算之前,应首先确定临界参数:分解等级的价值。根据深色的方法,第一个值同表象的系数开始降低最优是一个(36]。Frigyesi和霍格伦德建议选择第一个值的RSS曲线提供了一个拐点(37]。基于这两种方法,我们认为“3”是一个等级的合理价值临床数据矩阵。在图所示的曲线3也证实了这一结论。非负矩阵分解在矩阵上实现(等级3。它还表明,metafeatures的数量(基础)= 3。

(一)

(b)

(c)

(一)

(b)

图4代表了NMF的最终结果包括基础矩阵()和混合系数()。矩阵的每一行使用一个压缩模式来近似地代表一种症状的分布在所有原始样品。比较矩阵如图2,最明显的差异矩阵是有几组压缩特性揭示相似的样本空间,如和在图4。根据图2(一个),我们可以发现症状的向量之间的距离和在也关闭;此外,压缩模式和在矩阵(和)在图4促进更容易识别冗余特性具有非常相似的分布模式。

(一)

(b)

矩阵有相同数量的样品但是较小数量的metafeatures(基础)而不是原始矩阵(36]。因此,metafeature表达模式通常提供一个健壮的聚类的样本。考虑到th列作为,我们决定临床样本放入th集群如果,在那里。因此,我们使用矩阵将所有样本分组成3集群,对应3基地(metafeature)。图5表明clinical-staging标记之间有很大的重叠(先验知识的类标签)和索引的基础组件(metafeatures)在120年最初的临床样本包含在数据集。

在矩阵,每一列对应一个metafeature或基础(见图4)。条目在矩阵是原始的系数特性在metafeature(基础)(36]。因此,一个原始的特性与特定的基础如果是最大的输入行吗的矩阵。从图4,我们可以清楚地看到,最初的症状特征参与相同的基础有相似的表达模式,而不是在其他基地。表3代表所有基础组件相关的症状。组合图5和表3进一步表明,“基础1”相关的症状是非常相关的临床样本二期,“基础2”和“3”相关的症状非常相关的第一阶段和第三阶段,分别。这一发现有助于识别临床分阶段通过NMF重要症状。此外,49个临床症状的分区表所示3了相关研究的支持。例如,恶心观察是常见的不利影响肝癌患者在第一阶段(44]。的症状腹水、厌食、发热,黄疸经常发生在第二阶段(43,45- - - - - -48]。症状”黄色的肤色”和“黄色的皮肤和眼睛”见表3很明显的表象黄疸。第三阶段,疼痛最明显的特点是在肝细胞癌患者49]。有三个疼痛症状显示表3:“肩膀和背部疼痛,”“胸痛、”和“向季肋部疼痛。“此外,疲劳和弱点也是常见的肝癌患者(43]。在一起,这些发现表明,NMF的最佳排名可以揭示潜在的症状之间的潜在关联特性和临床阶段。


基础组件	的症状	症状的名称

基础1	16	静脉曲张(];黄色的肤色(];黄色的皮肤和眼睛(];胃疼(];干燥的粪便(];感觉口渴(];潮热(]; 做腹部饱胀[];丰满在胃];块肋骨下(];发冷(];热(];蜘蛛毛细管扩张在肝掌]; 腹水(];黄色油腻(];厌食症(]

基础2	17	恶心(];脉滑(];瘀斑的和瘀斑的舌头]; 白滑(];胸闷(];半流体凳子(];弱脉冲(]; 盗汗(];脏口(];红色的舌头(];纤细的脉冲(]; 粘腻涂料(];紫色的舌头(];绳的脉冲(];苍白的嘴唇(];大型和teeth-printed舌头];黯淡的肤色(]

基础3	16	耳鸣(];头晕(];在肩膀和背部疼痛];胸痛(];向季肋部疼痛(];苦味[];失眠(]; 外观与彩色黄色(];黄色的尿液(];打嗝(];疼痛和腰和膝盖的弱点];干燥的喉咙(]; 发烧在手掌和脚底];自汗(]; 夜尿多(];身心疲惫(]

正如上面所提到的“仿真设计,”几组冗余特性根据给定的阈值被筛选出来(表4)。我们得到两个冗余的症状组从每个基础组件,这表明冗余的症状包括在相同的组也可能有类似的原始样本空间中的模式。在这里,我们把数字2 (b)- - - - - -2 (c)为例进行合作我们的方法的有效性。图2 (b)代表积极的5个症状的分布数据集。这五个症状(,,,,)被确定为基础2相关功能,他们最可能属于第一阶段(表4)。虽然每一个行向量图2 (b)并不是完全平等的,他们都表示相对低频率的积极()和当地的分布模式在某种程度上是相似的。比较这五种症状的相应行矩阵在图4,我们发现这些症状非常相似的压缩模式。同样,症状(,,)是潜在的相关基础3,每超过50%,阳性的频率和阳性这三个症状的平均值是1.77,这进一步表明,它们可能与一些病人的条件是非常严重的。虽然症状,没有确定为冗余的症状与给定阈值(0.95),其压缩模式矩阵在图4还指出,他们的模式是非常接近。总之,我们考虑一个事实,即矩阵促进评估症状,之间的差异和矩阵可以验证样本的类标签之间高度的相关性和基础索引。与给定阈值推断冗余的症状后,我们结合每个症状的组在一起,转化成一个新特性(命名混合的特性)。最后,我们获得了39临床特征()肝癌的最优特征子集,它由两个部分组成:33最初症状特征()和6个新的混合特性()(表5)。基于NMF的分析结果,原始数据集的特征空间进一步缩小。


基础组件	筛选冗余的症状	基于距离的相似性 sim_dist	Correlation-based相似 sim_corr

基础1	,,	0.9672	1。0
基础1	,	0.9507	1。0

基础2	,	0.9685	0.9960
基础2	,,,,	0.9628	1。0

基础3	,	0.9686	1。0
基础3	,	0.9520	0.9926


基础组件	原来的功能	混合特性	描述关于混合特性

基础1	;;;;;; ;;;;		转换从和,分别。

基础2	;;;;;; ;;;		转换从和 ,分别。

基础3	;;;;;; ;;;;;		转换从和 ,分别。

数的功能	33	6	总:39功能

评估潜在的NMFBFS-inferred最优特征子集,我们首先测试了三个候选人特性子集的分类精度,,在训练集(120代表样本)。和通过特征选择生成阈值(0.95)。在数据集表示49最初的症状特征。表6表明39最优特性,覆盖33个最初的症状特点和6个新的混合特性,导致最好的训练样本分类精度。的性能是比;但是,它还是比因为新的混合特性也有重要贡献的分类。


特征子集	维	在LSSVM分类精度(%)

FS₁	39	80.002±9.95
FS₂	33	77.50±12.36
OFS	49	72.50±11.64

然后我们将我们NMFBFS的性能与三个著名的特征选择方法(ReliefF [11],mRMR [12,弹性网(13])。ReliefF是使用MATLAB实现的函数。“mRMRe”和“elasticnet”包申请mRMR和基于弹性网的特征选择,分别。补充图S1表示ReliefF-based特性排名。补充图S2表示弹性网()解决方案特征选择的路径。我们选择排名前20位的特性和前40名特性两个候选特征子集的方法来评估他们的分类性能:和从ReliefF生成;和从mRMR推断;和从弹性网络推断。表7代表上述六个候选特征子集的分类性能和NMFBFS-derived最优特征子集在训练集(120代表样本)。结果表明,NMFBFS-inferred特征子集的分类精度最好的训练样本。


方法	特征子集	维	在LSSVM分类精度(%)

NMFBFS		39	80.002±9.95

ReliefF	FS_RF20	20.	65.00±10.03
ReliefF	FS_RF40	40	73.33±15.76

mRMR	FS_MR20	20.	70.83±12.5
mRMR	FS_MR40	40	74.17±9.03

弹性网	FS_EN20	20.	70.00±11.56
弹性网	FS_EN40	40	76.67±10.46

除了120年代表训练样本筛选实现NMF分析,剩余的样品可用于测试的分类精度最优特征子集。我们随机选择40个样品(10:20:10为每个临床阶段)的样本,然后推断特征子集的分类精度评估每个方法(NMFBFS, ReliefF、mRMR和弹性网)。表8显示所有这些方法之间的差异,可以发现最优特征子集推断出我们的方法最好的泛化性能。


方法	特征子集	维	在LSSVM分类精度(%)

NMFBFS		39	79.65±6.48

ReliefF	FS_RF20	20.	50.71±1.22
ReliefF	FS_RF40	40	76.43±8.27

mRMR	FS_MR20	20.	63.79±1.22
mRMR	FS_MR40	40	77.14±9.18

弹性网	FS_EN20	20.	67.57±4.09
弹性网	FS_EN40	40	78.38±9.62

最后,更重要的是,阈值的选择决定多少组冗余的症状将会筛选出来。在这里,我们进一步讨论了阈值的影响最优特征子集的分类性能。表9显示了差异三个最优特征子集的推断提出了阈值方法和不同的价值观。从表9,我们可以很明显看到的更大的价值严格将屏幕上多余的症状,导致少获得类似的症状。与一个更小的值,更多的症状可以分为同一组;因此,原始特征空间将大大减少我们的方法。表9表示,减少最优特征子集的大小缩小但分类精度也降低了。这些结果表明,一个更大的价值将导致更少的冗余的症状,因此诱发更大的最优特征子集的大小;相对的,小可以提供更多的冗余的症状和大幅降低特征维度。一个极端的例子=“0”,这意味着我们可以为每一个混合特性基础和最优特征子集的大小等于基地的数量。总之,如何确定的价值取决于最优特征子集的大小和其相应的分类性能。


的值	最初的症状特点	新的混合特性	总数量的功能	分类精度(%)

	33	6	39	80.002±9.95
	21	9	30.	70.83±6.59
	10	8	18	70.00±4.56

5。结论

在这项研究中,我们发展了NMFBFS高效提取方法从临床观察数据肝癌的重要临床症状。NMFBFS是一个两级过滤特征选择方法如下。(1)在第一阶段,初步筛选实现检测和删除无关紧要的功能;(2)第二阶段,NMF应用于识别冗余特征的团体可能代表类似的分布模式。每个冗余症状组就变成了一个新的混合功能,进一步降低维度的数据集。

NMFBFS在肝细胞癌的临床数据集的应用证明了该方法的有效性。最佳的临床特征源自NMFBFS方法包含许多公认HCC患者的症状。此外,本研究还提供了一个通用的计算框架的小说特征选择方法有效地提取从高维数据集的最优特征子集。

缩写

肝细胞癌:	肝细胞癌
中医:	中国传统医学
NMF:	非负矩阵分解
LSSVM:	最小二乘支持向量机
资讯:	最近的邻居。

利益冲突

作者宣称没有利益冲突。

作者的贡献

给霁和孟Guanmin贡献了同样的工作。

确认

这项工作是由美国国家科学基金会支持的中国(61472282和61472282号)。收集的数据在这个工作是长海医院,上海,中国。

补充材料

补充信息包括两个数字和一个表。

无花果S1:表示结果的特性与ReliefF排名。

无花果S2:表示特征选择的结果与弹性。

表S1:代表每个症状的频率特性出现积极的样本在所有临床阶段。

补充材料

引用

f . x博世,j .酷栗r . Cleries m·迪亚兹,“肝细胞癌的流行病学,”诊所在肝脏疾病,9卷,不。2、191 - 211年,2005页。视图:出版商的网站|谷歌学术搜索
m . m .中心,a . Jemal r·a·史密斯和大肠的病房里,“全球变化结直肠癌,”CA-Cancer对临床医师杂志卷,59号6,366 - 378年,2009页。视图:出版商的网站|谷歌学术搜索
h·b·El-Serag“肝癌”,《新英格兰医学杂志》上,卷365,不。12日,第1127 - 1118页,2011年。视图:出版商的网站|谷歌学术搜索
“一个新的肝细胞癌预后系统:回顾性研究435例:肝癌意大利项目(夹)调查,“肝脏病学,28卷,不。3、751 - 755年,1998页。视图:谷歌学术搜索
g·米勒,l·h·施瓦茨和m . D 'Angelica”使用成像技术在肝胆的恶性肿瘤的诊断和分期,”肿瘤外科诊所北美,16卷,不。2、343 - 368年,2007页。视图:出版商的网站|谷歌学术搜索
a·福尔和j . Bruix”诊断肝肝硬化结节20毫米或更小:前瞻性验证肝细胞carcinoma-reply无创性诊断标准的,“肝脏病学卷,47号6,2146 - 2147年,2008页。视图:谷歌学术搜索
中州。廖,c c。林,苏耿赋。李,J.-G。林”,利用中国传统医学模式对肝癌病人在台湾,“BMC补充和替代医学第146条,卷。12日,2012年。视图:出版商的网站|谷歌学术搜索
r . Mourad c Sinoquet, p . Leray“概率图形模型基因关联研究,”简报的生物信息学,13卷,不。1篇文章ID bbr015特尔,2012页。视图:出版商的网站|谷歌学术搜索
z霁和b .王”,识别潜在的肝细胞癌的临床症状使用PSO-based分层特征选择算法,”生物医学研究的国际文章ID 127572卷,2014年,12页,2014。视图:出版商的网站|谷歌学术搜索
J.-X。杜,C.-M。翟,Y.-Q。你们,“面对老化模拟和识别基于NMF算法具有稀疏约束,“Neurocomputing卷,116年,第259 - 250页,2013年。视图:出版商的网站|谷歌学术搜索
梁j . n, s·杨,a . Winstanley”不变的最佳特征选择:基于距离判别排名和特性的解决方案,“模式识别第41卷。。5,1429 - 1439年,2008页。视图:出版商的网站|谷歌学术搜索
f·h·h·c·Peng长,c .丁”的基于互信息的特征选择:标准max-dependency, max-relevance, min-redundancy,”IEEE模式分析与机器智能,27卷,不。8,1226 - 1238年,2005页。视图:出版商的网站|谷歌学术搜索
h .邹和t . Hastie正规化和变量选择通过弹性网”皇家统计学会杂志》系列B:统计方法,卷67,不。2、301 - 320年,2005页。视图:出版商的网站|谷歌学术搜索|MathSciNet
s . Wildi公元前裴斯塔洛齐,l·麦考马克和中国。Clavien”,不同的分期系统的关键评估肝细胞癌,”英国杂志的手术,卷91,不。4、400 - 408年,2004页。视图:出版商的网站|谷歌学术搜索
沙玛,美国并且绕着圆圈圈打转,宫野,“基于滤波器的特征选择算法利用协方差矩阵的零空间DNA微阵列基因表达数据,”目前的生物信息学,7卷,不。3、289 - 294年,2012页。视图:出版商的网站|谷歌学术搜索
f . Bellal h . Elghazel, A . Aussem”与整体学习半监督功能排序法”,模式识别的字母,33卷,不。10日,1426 - 1433年,2012页。视图:出版商的网站|谷歌学术搜索
H.-W。常,中州。赵,H.-Y。花王,学术界。杨,W.-H。Ho”分类算法的比较与wrapper-based预测骨质疏松症的特征选择结果基于遗传因素在台湾女性人口,”国际内分泌学杂志ID 850735条,卷。2013年,8页,2013。视图:出版商的网站|谷歌学术搜索
m·b·艾曼尼·m·r·Keyvanpour r·阿,“一种新型嵌入式特征选择方法:在文本分类中的应用,比较研究”应用人工智能,27卷,不。5,408 - 427年,2013页。视图:出版商的网站|谷歌学术搜索
r . Zdunek和a . Cichocki”与约束非负矩阵分解二阶优化”,信号处理,卷87,不。8,1904 - 1916年,2007页。视图:出版商的网站|谷歌学术搜索|Zentralblatt数学
c·阿什比z . Chang z Wang et al .,“eMBI:提高癌症亚型基因聚类,“癌症信息学补充2卷。13日,第112 - 105页,2014年。视图:出版商的网站|谷歌学术搜索
学术界。郑,D.-S。黄,l·张,X.-Z。香港,“肿瘤集群使用非负矩阵分解与基因选择,”IEEE在生物医学信息技术,13卷,不。4、599 - 607年,2009页。视图:出版商的网站|谷歌学术搜索
学术界。郑,T.-Y。Ng, l . Zhang C.-K。萧若元,H.-Q。王,“肿瘤分类基于非负矩阵分解使用基因表达数据,”IEEE生物科学,10卷,不。2、86 - 93年,2011页。视图:出版商的网站|谷歌学术搜索
a . Cichocki Y.-D h . Lee。金姆,崔,“非负矩阵因子分解α分歧。”模式识别的字母卷,29号9日,第1440 - 1433页,2008年。视图:出版商的网站|谷歌学术搜索
r . Zdunek和a . Cichocki”,非负矩阵分解与二次规划,“Neurocomputing,卷71,不。10 - 12,2309 - 2320年,2008页。视图:出版商的网站|谷歌学术搜索
d·d·李和h . s . Seung“非负矩阵分解算法,”诉讼进展的神经信息处理系统(捏' 01),2001年。视图:谷歌学术搜索
c .他们h . Lanteri, c·理查德“SGM解决NMF-application高光谱数据,”在成像新概念:光学和统计模型59岁的卷东亚峰会出版物系列,第379 - 357页,2013年。视图:出版商的网站|谷歌学术搜索
g . Casalino n . del好,c . Mencar“减法聚类为播种非负矩阵分解,”信息科学卷,257年,第387 - 369页,2014年。视图:出版商的网站|谷歌学术搜索|MathSciNet
l . d . Vignolo d·h·Milone, j . Scharcanski”特征选择对人脸识别基于多目标进化的包装器,”专家系统与应用程序,40卷,不。13日,5077 - 5084年,2013页。视图:出版商的网站|谷歌学术搜索
a . Anand g . Pugalenthi g·b·福格尔,和p . n . Suganthan“高度不平衡数据分类的方法使用加权和欠采样,”氨基酸,39卷,不。5,1385 - 1391年,2010页。视图:出版商的网站|谷歌学术搜索
a . Bria n Karssemeijer f . Tortorella,“学习不平衡数据:cascade-based方法检测集群微钙化物质,”医学图像分析,18卷,不。2、241 - 252年,2014页。视图:出版商的网站|谷歌学术搜索
p .曹、z d .赵和o . Zaiane”混合概率抽样与随机子空间不平衡数据的学习,“智能数据分析,18卷,不。6,1089 - 1108年,2014页。视图:出版商的网站|谷歌学术搜索
a . Shubair、美国阿纳和a . a . Altyeb”KENFIS: kNN-based进化神经模糊推理系统为计算机蠕虫检测”智能和模糊系统杂志》上,26卷,不。4、1893 - 1908年,2014页。视图:出版商的网站|谷歌学术搜索
H.-Q。王,F.-C。太阳,Y.-N。Cai, L.-G。丁,n .陈”一个无偏LSSVM模型分类和回归,”软计算,14卷,不。2、171 - 180年,2010页。视图:出版商的网站|谷歌学术搜索|Zentralblatt数学
z Mustaffa和y尤索夫”与增强人工蜂群LSSVM参数调优,”国际阿拉伯信息技术杂志》上,11卷,不。3、236 - 242年,2014页。视图:谷歌学术搜索
李y和a .在“非负矩阵分解生物数据挖掘、工具箱”生物学和医学的源代码,8卷,不。1,第十条,2013。视图:出版商的网站|谷歌学术搜索
j。深色,p . Tamayo, t·r·戈卢布,j . p . Mesirov”Metagenes和分子模式发现使用矩阵分解,“美国国家科学院院刊》上的美利坚合众国,卷101,不。12日,第4169 - 4164页,2004年。视图:出版商的网站|谷歌学术搜索
a . Frigyesi m·霍格伦德,“非负矩阵分解为分析复杂的基因表达数据:临床相关的识别肿瘤亚型,”癌症信息学》第六卷,第292 - 275页,2008年。视图:谷歌学术搜索
l . f . Bo l . Wang和l . c .焦”多个回归模型的参数选择使用平滑分析错误,”在2005年神经Networks-ISNN进步卷,3496在计算机科学的课堂讲稿施普林格,页851 - 856年,柏林,德国,2005年。视图:出版商的网站|谷歌学术搜索
S.-W。赖,周宏儒。陈,C.-L。林,K.-F。廖:“没有阿尔茨海默病和肝细胞癌的风险之间的相关性在老年人:观察在台湾,“老年与老年病学国际,14卷,不。1,第232 - 231页,2014。视图:出版商的网站|谷歌学术搜索
S.-M。或者,Y.-J。李,Y.-W。胡锦涛等人。,”阿尔茨海默病预防癌症吗?一个全国性的以人群为基础的研究中,“神经,40卷,不。1,42-49,2012页。视图:出版商的网站|谷歌学术搜索
S.-Y。彭,X.-D。冯,Y.-B。刘et al .,“手术治疗肝细胞癌起源于尾状叶,”中华围客,43卷,不。1,49-52,2005页。视图:谷歌学术搜索
郑胜耀彭,j·t·李,刘y . b . et al .,“手术治疗肝细胞癌起源于尾lobe-a报告39例,“胃肠外科杂志》,10卷,不。3、371 - 378年,2006页。视图:出版商的网站|谷歌学术搜索
M.-H。林,P.-Y。吴,S.-T。蔡,C.-L。林,t.w。陈,S.-J。黄,“安宁缓和医疗患者肝细胞癌在台湾,“姑息医学,18卷,不。2、93 - 99年,2004页。视图:出版商的网站|谷歌学术搜索
富士山,j .柴田s Maeda et al ., " I期临床研究小说的亲脂性的白金复杂(sm - 11355)在肝细胞癌患者耐火顺铂/ lipiodol,”英国癌症杂志》,卷89,不。9日,第1619 - 1614页,2003年。视图:出版商的网站|谷歌学术搜索
x, h .赵l .刘et al .,“随机二期研究自体细胞因子诱导的杀伤细胞在肝癌的治疗,”临床免疫学杂志,34卷,不。2、194 - 203年,2014页。视图:出版商的网站|谷歌学术搜索
k . k . Ciombor y, a b·本森三世et al .,“血液病中的作用二期试验+阿霉素在肝细胞癌(E6202):东部合作肿瘤学集团的审判”临床实验的新药,32卷,不。5,1017 - 1027年,2014页。视图:出版商的网站|谷歌学术搜索
j .吴c·亨德森l . Feun et al .,”第二阶段研究darinaparsin的晚期肝癌患者,”临床实验的新药,28卷,不。5,670 - 676年,2010页。视图:出版商的网站|谷歌学术搜索
j j。林,C.-N。金,>。郑,X.-N。欧阳,J.-X。曾和X.-H。戴”,临床研究治疗原发性肝细胞癌由Shenqi混合物结合微波凝固,“中国结合医学杂志》上,11卷,不。2、104 - 110年,2005页。视图:出版商的网站|谷歌学术搜索
m . Doffoel f . Bonnetain o .钻孔et al .,“多中心随机III期试验比较它莫西芬单独或与肝动脉Lipiodol Chemoembolisation不可切除的肝细胞癌的肝硬化患者(9402年法语Cancerologie联合会消化),“欧洲癌症杂志,44卷,不。4、528 - 538年,2008页。视图:出版商的网站|谷歌学术搜索

计算和数学方法在医学

机器学习和网络生物学和医学的方法

文摘

1。介绍

2。材料和方法

2.1。实验数据

2.1.1。描述

2.1.2。数据预处理

2.2。特征选择

2.3。非负矩阵分解

2.4。NMF-Based特征选择

2.4.1。移除不相关的症状

2.4.2。基于NMF识别冗余的症状

2.4.3。变换的冗余症状组

3所示。仿真设计

4所示。结果与讨论

5。结论

缩写

利益冲突

作者的贡献

确认

补充材料

引用

版权

更多相关文章

相关文章