CMMM 计算和数学方法在医学 1748 - 6718 1748 - 670 x Hindawi出版公司 10.1155 / 2015/846942 846942年 研究文章 NMFBFS: NMF-Based特征选择方法在识别关键的肝细胞癌的临床症状 http://orcid.org/0000 - 0001 - 5781 - 3465 再次给 1、2 Guanmin 3 Deshuang 1 小强 4 必应 1、5、6 1 机器学习&系统生物学实验室 电子与信息工程学院 同济大学 Caoan路4800号 上海201804 中国 tongji.edu.cn 2 信息工程学院 浙江大学实习 88年的环城北路 临安311300 中国 zjfc.edu.cn 3 临床实验室的部门 浙江同德医院 第234 Gucui路 杭州310012 中国 zjtongde.com 4 中国传统医学的部门 长征医院 第二军医大学 凤阳路415号 上海200003 中国 smmu.edu.cn 5 智能传感网络的高级研究学院 同济大学 Caoan路4800号 上海201804 中国 tongji.edu.cn 6 嵌入式系统和服务计算的重点实验室 同济大学 Caoan路4800号 上海201804 中国 tongji.edu.cn 2015年 12 10 2015年 2015年 22 04 2015年 20. 06 2015年 02 07年 2015年 12 10 2015年 2015年 版权©2015给et al。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

背景。肝细胞癌(HCC)是一个高度积极的恶性肿瘤。中国传统医学(中医),辨证的特点,在肝癌的综合治疗中发挥着重要作用。本研究旨在开发一种基于非负矩阵分解(NMF)——的特征选择方法(NMFBFS)为HCC患者分层识别潜在的临床症状。<我t一个l我c>方法。NMFBFS方法包括三个主要步骤。首先,乐此不疲的初步功能筛查的目的是检测和删除不相关的症状。其次,NMF来推断出冗余的症状。基于基NMF-derived矩阵,我们定义了一个小说<我t一个l我c>相似度测量intersymptoms。最后,我们将每组冗余的症状一个新的单一功能,这样尺寸进一步缩小。<我t一个l我c>结果。基于临床数据集组成的407的肝癌患者样本57症状,NMFBFS方法检测到8不相关的症状,然后确定16冗余的症状在6组。最后,一个最优特征子集与39临床特征生成冗余压缩后症状组。分类性能的验证表明,这些39特性明显改善肝癌患者的预测精度。<我t一个l我c>结论。与其他方法相比,NMFBFS有明显优势识别肝癌的重要临床特征。

1。介绍

肝细胞癌(HCC)是第三个全球癌症死亡的最常见原因,患者死亡的主要原因肝硬化的并发症 1, 2]。肝癌的发生是larvaceous和短的具体症状( 3, 4]。其诊断取决于活组织检查,多普勒超声等成像检查,ct、磁共振成像,和血液测试 5, 6]。一旦HCC患者看病,疾病常常进入晚期,失去手术切除的机会。因此,寻找简单的方法来预测HCC及其临床阶段非常有意义,有利于提高肝癌的诊断。

作为一个最受欢迎的补充和替代医学模式,中国传统医学(中医)中发挥着积极的作用在治疗恶性肿瘤包括肝细胞癌在中国和东亚一些国家 7, 8]。不同于现代医学,中医诊断和治疗取决于收集的分析肝癌的症状与体征检查、闻、脉冲和切( 8]。中医认为特定组合的症状和体征作为中医综合症,这是治疗的主要依据;它也可以用于指导肝癌的临床诊断。我们以前的工作提出了一个分层特征选择(PSOHFS)模型来快速识别潜在的肝细胞癌综合征的中医临床数据集 9),最初的症状都是根据类别分为几组的临床观察,和每个症状组被转换成一个综合症签名,以减少特征选择的搜索空间。但是这种方法的局限性是属于不同类别的症状之间的交互(方面)都被忽略了。因此,当前的挑战是设计一个有效的特征选择方法对高维中医数据考虑的临床意义。

在这项研究中,一个非负矩阵分解(NMF) - - - ( 10)基于特征选择(NMFBFS)方法,提出了选择关键的临床症状为肝细胞癌的诊断。中医临床数据集用于这项工作,407年由肝细胞癌患者57临床症状。每个病人样品贴上clinical-staging象征这表明某些病人的严重程度。首先,初步筛选与统计方法旨在检测无关的症状从完整的症状组。其次,NMF的过程实施后消除不相关的症状。基于NMF-derived基础矩阵,我们定义了相似度测量来推断冗余症状通过计算之间的距离和相关症状。最后,二次降维是实现基于推断冗余组的症状。我们每个症状组转化为一个新特性(名为“混合特性”)如果这些症状代表类似的样本空间分布模式。实验结果表明,39小说特征推断NMFBFS明显改善诊断肝癌的临床样本的准确性。此外,NMFBFS-derived 39最佳临床特征包括一些著名的HCC患者的常见症状。比较三种具有代表性的特征选择方法(ReliefF [ 11],mRMR [ 12,弹性网( 13]),我们建议的方法显示最佳的性能来确定最优为肝癌患者临床特征。

2。材料和方法 2.1。实验数据 2.1.1。描述

在这个工作中,肝细胞癌的问卷调查数据集包括407个样本两年之内,和每个病人观察57临床症状(表 1)。每个病人样品贴上临床阶段的象征,这是中医相关的综合症和模式表明HCC的严重程度。根据国际分期系统[ 14),有三个阶段和两个子阶段每个阶段在这个数据集。我们工作的目的是识别症状签名,这三个临床相关阶段:阶段I, II, III,大的值表明,强阳性症状发生。在我们的数据集,所有最初的症状是描述了两种类型的数据:二进制(0或1)或整数(0、1、2、3、…)。例如,症状“耳鸣”是二进制的类型(0或1),这意味着两种可能的状态:发生(积极)或不发生(负的)。另一个例子是“失眠”,其价值可以是0,1,2,3。值越大,越强的积极状态。症状没有出现积极的如果它的值等于零。

的描述最初的肝细胞癌患者的临床资料。

第一阶段(82) 第二阶段(195) 第三阶段(130)
阶段IA 阶段IB 阶段花絮 阶段IIB 阶段iii a 阶段希望
男性 33 27 50 115年 95年 10
12 10 10 20. 16 9
2.1.2。数据预处理

改进的特性集。原始数据集由407名肝癌患者样本(表 1)。预处理的第一步是删除无用的功能,因为他们为以下分类提供任何有用的信息。如果一个特性是恒定在所有观察到的样本,它可以被视为无用的功能。对于我们的数据集,一些症状,如“苍白的舌头”和“慢脉冲,”被移除,因为没有任何观察病人看好这些症状。消除这种特性,精制后临床数据集407样品和57症状(<我nl在e-formula> V 1 , , V 57 )可以获得。

简化的临床分期。肝细胞癌患者的临床分期在我们最初的数据集是标有集合“IA,”“IB”,“花絮”,“iii a,”和“IIB,希望。“识别相关的症状特征三个临床阶段,所有的样品将会重新贴上了三个类。在这里,我们说的类标签“1”样本标记为“是”和“IB。“以类似的方式,类标签“2”是用于“花絮”和“IIB”和“3”是“iii a”和“希望。“最后,所有407份临床样本可以分布在三个类别:82个样本在第一阶段,195年的第二阶段,第三阶段和130年。精致的细节数据集表中描述 1

2.2。特征选择

特征选择可以分成三个类别,这取决于它们如何相互作用模型的建设。过滤方法采用一个标准来评估每个特性单独和独立的模型 15]。其中,功能的排名是一种常见的方法包括排名的所有特性基于一定的测量和选择一个特征子集包含高排名的功能[ 16]。然而,排名方法的缺点之一是所选子集可能不是最佳的,可能会获得一个冗余的子集。包装方法包括通过特征空间组合搜索,指导下一个模型的预测性能( 17]。启发式搜索广泛用于包装方法搜索策略可以产生好结果和计算是可行的;然而,他们经常产生局部最优的结果。对于嵌入式方法,特征搜索过程是嵌入到分类算法,所以学习的过程和特征选择过程是不可分割的 18]。

2.3。非负矩阵分解

非负矩阵分解(NMF)旨在获得nonnegativity约束下的多元数据的线性表示。因为只有这些约束导致部分原因表示添加剂,没有减去,原始数据的组合允许( 19]。一般来说,NMF可以用来描述对成千上万的特性在一个数据集在少数metafeatures方面,特别是在基因表达谱分析( 20.- - - - - - 22]。

让<我nl在e-formula> X 是<我nl在e-formula> n × p 非负矩阵;也就是说,每个元素<我nl在e-formula> x j 0 在<我nl在e-formula> X 。非负矩阵分解(NMF)在于找到一个近似 (1) X W H , 在哪里<我t一个l我c>基础矩阵 W 和<我t一个l我c>混合系数矩阵 H 是<我nl在e-formula> n × r 和<我nl在e-formula> r × p 非负矩阵,分别<我nl在e-formula> r > 0 和<我nl在e-formula> r n ( n , p ) 。小背后的客观价值<我nl在e-formula> r 是总结和分裂中包含的信息吗<我nl在e-formula> X 成<我nl在e-formula> r 因素(也称为“基础”或“metafeature”)。矩阵<我nl在e-formula> H 有相同数量的样品但较小数量的功能而不是矩阵<我nl在e-formula> X 。因此,metafeature表达模式<我nl在e-formula> H 通常提供一个健壮的聚类样本的 22]。

NMF的主要方法是求解估计矩阵<我nl在e-formula> W 和<我nl在e-formula> H 作为一个局部最小值: (2) ( D ( X , W H ) + R ( W , H )] W , H 0 最小值 , 在哪里<我nl在e-formula> D 是一种措施的质量损失函数近似通常基于弗罗贝尼乌斯距离或Kullback-Leibler散度( 19]。<我nl在e-formula> R 是一个可选的正则化函数,定义执行的属性矩阵<我nl在e-formula> W 和<我nl在e-formula> H ,如平滑或稀疏( 23, 24]。

在我们的研究中,NMF的损失函数是基于Kullback-Leibler散度( 25]。上面的函数<我nl在e-formula> R 定义如下: (3) R W , H = F 1 W + F 2 H , 在哪里<我nl在e-formula> F 1 W 和<我nl在e-formula> F 2 H 是调节功能<我nl在e-formula> W 和<我nl在e-formula> H ,分别。在这里,我们应用Tikhonov平滑正规化( 26]<我nl在e-formula> W (4) F 1 W = 1 2 , j W j - - - - - - c 2 , 在哪里<我nl在e-formula> c 是一个常数积极或零。另外,我们应用sparsity-enforcing正规化( 26]<我nl在e-formula> H (5) F 2 H = 1 2 j H j 2 2 - - - - - - α 2 H j 1 2 2 在公式( 5),<我nl在e-formula> H j 是<我nl在e-formula> j th排<我nl在e-formula> H 。<我nl在e-formula> H j 2 2 和<我nl在e-formula> H j 1 2 定义<我nl在e-formula> l 2 规范和<我nl在e-formula> l 1 规范的<我nl在e-formula> H j 。李提出的算法是一种行之有效的方法来解决NMF的优化 27]。

2.4。NMF-Based特征选择

在这项研究中,我们提出了NMF-based特征选择(NMFBFS)方法可以被看作是一个两级过滤器的方法。在第一阶段,初步筛选实现检测无关的症状和删除它们从整个特性集。在第二阶段,NMF集群冗余的症状可能有类似的模式分成不同的组,然后每组是转化成新的单一特性减少维度。显然,NMFBFS独立于分类器的过程中,可以快速推断出即使在高维数据集最优特征子集。NMFBFS如图的流程图 1

该方法的流程图。

2.4.1。移除不相关的症状

在我们的问卷调查,所有的症状都是由临床医生、患者的许多方面。然而,每个特性的相关性权重区分样本的临床阶段没有定量研究。在机器学习中,无关的特性在任何情况下提供任何有用的信息,几乎总是导致患者分层( 28]。如果样本容量很大,它是有意义的快速检测阳性症状通过计算频率无关的。这里,我们计算了存在的比率(频率)(积极的)每个样本在每个临床症状的阶段。如果某些症状的临床阶段的频率非常低,这表明这个症状很难出现积极的在大多数患者中,因此它被认为是一个无关紧要的症状。从原始数据集删除无关紧要的症状后,其余症状视为相关功能,可能与至少一个类的患者(或一个临床阶段)。

2.4.2。基于NMF识别冗余的症状

无关紧要的症状被移除后,非负矩阵分解应用于数据集<我nl在e-formula> X (<我nl在e-formula> n × p )。对于一个给定的排名<我nl在e-formula> r ,矩阵<我nl在e-formula> X 可以分解<我t一个l我c>基础矩阵 W 和<我t一个l我c>系数矩阵 H 。通常,排名的价值<我nl在e-formula> r 远小于的数量特性(<我nl在e-formula> n )和样本数量(<我nl在e-formula> p ),所以,都至少有一个维度<我nl在e-formula> W 和<我nl在e-formula> H 是非常小的。NMF的广泛电器biclustering进一步表明,基础矩阵<我nl在e-formula> W 可用于特征聚类系数矩阵<我nl在e-formula> H 分别用于样本聚类( 20., 21]。在我们的研究中,样本的数量远远大于维度;因此,直接计算距离衡量原始特征之间的相似性或相关性(症状)所有的样品将会导致偏见,因为一些特性可能代表当地类似的模式样本的一部分。幸运的是,基础矩阵<我nl在e-formula> W 代表了压缩矩阵的样本空间<我nl在e-formula> X ,这有助于揭示特性之间的区别。在这里,我们介绍两个特性(<我nl在e-formula> v 和<我nl在e-formula> v j 在原始数据集<我nl在e-formula> X 作为一个例子来阐明这个步骤的基本思想。根据NMF的定义,我们可以很容易知道 (6) x = w × H , x j = w j × H , 在哪里<我nl在e-formula> x 和<我nl在e-formula> x j 是<我nl在e-formula> th和<我nl在e-formula> j 矩阵的行<我nl在e-formula> X ;<我nl在e-formula> w 和<我nl在e-formula> w j 是<我nl在e-formula> th和<我nl在e-formula> j 矩阵的行<我nl在e-formula> W 。以下可以很容易地找到。(1)如果<我nl在e-formula> w w j ,然后<我nl在e-formula> x x j ;(2)如果<我nl在e-formula> w = k w j ,然后<我nl在e-formula> x = k x j ,在那里<我nl在e-formula> k 是一个常数。此外,如果<我nl在e-formula> th行<我nl在e-formula> w 在矩阵<我nl在e-formula> W 非常接近<我nl在e-formula> w j ,该功能<我nl在e-formula> v 可能有一个类似的模式<我nl在e-formula> v j 所有的样品。因此,我们定义了一个小说<我t一个l我c>相似度测量在公式( 7),大约通过矩阵评估两个原始症状之间的冗余<我nl在e-formula> W : (7) sim卡 v , v j sim卡 w , w j = sim_dist w , w j + sim_corr w , w j 2 , 在哪里 (8) sim_dist w , w j = 1 - - - - - - w - - - - - - w j × w - - - - - - w j T 马克斯 D , (9) sim_corr w , w j = w - - - - - - w - - - - - - × w j - - - - - - w - - - - - - T w - - - - - - w - - - - - - × w - - - - - - w - - - - - - T × w j - - - - - - w - - - - - - × w j - - - - - - w - - - - - - T 公式( 8)使用<我t一个l我c>基于距离的相似性,这表明两个相应的特性是如何接近彼此;和公式( 9)采用<我t一个l我c>correlation-based相似用于描述相似的两个原始特征的模式。因此,我们开发了相似性度量考虑距离和在同一时间关联特性。<我nl在e-formula> 马克斯 D 在公式( 8)是在所有成对的最大距离值(<我nl在e-formula> w , w j )。基于上述的定义相似,我们进一步计算相似性矩阵<我nl在e-formula> 年代 X 使用所有行<我nl在e-formula> W (<我nl在e-formula> 年代 X , j = 年代 v , v j ),元素<我nl在e-formula> 年代 X , j 表示原始特征之间的相似性<我nl在e-formula> 和<我nl在e-formula> j 。给定阈值<我nl在e-formula> θ (<我nl在e-formula> 0 < θ < 1 ),我们可以通过组与屏幕上所有的冗余功能<我nl在e-formula> 年代 X , j > θ

2.4.3。变换的冗余症状组

在上面的部分中,冗余的症状都筛选出来,被组织成不同的组。每个症状组,一个新的混合特征提取作为整个集团的代表,取代了原来的所有功能在这个组。因此,NMFBFS-inferred最优特征子集包括两个部分:nonredundant原始特性和新生成的混合特性(见图 1)。有两种策略可以用来将多余的症状组混合特性。

(1)计算均值向量的冗余的症状 (10) x NgydF4y2Ba F = 的意思是 x r 1 , x r 2 , , x r n , 在哪里<我nl在e-formula> x r 1 , x r 2 , ,<我nl在e-formula> x r n 原始数据集的特征向量<我nl在e-formula> X 和决心,多余的一组症状。<我nl在e-formula> n 表示数量的推断出多余的一组症状。向量<我nl在e-formula> x NgydF4y2Ba F 新单的功能<我nl在e-formula> v NgydF4y2Ba F 在这个群体平均。

(2)随机选择一个向量从冗余的症状之一 (11) x NgydF4y2Ba F x r 1 , x r 2 , , x r n 在我们的研究中,我们改变了冗余组症状新的混合特性通过使用公式( 10)。这一步后,临床数据集的特征空间进一步缩小,这样最优特征子集很少包括冗余功能。

3所示。仿真设计

首先,我们计算每个最初症状出现的频率在每个临床阶段积极然后删除无关紧要的症状如果他们的频率值很低。

其次,一套代表性NMF分析了放映。在我们的数据集,肝细胞变化的三个阶段的样本数量很多,也就是说,从82年开始,130年到195年。如果使用整个数据集,一个类不平衡问题将导致( 29日- - - - - - 31日]。此外,病人也严重不平衡的性别比例在原始数据集(表 1)。避免偏差引起的不平衡样本,我们选择40个样本每个临床阶段以同样比例的男性和女性(20:20)构建一个代表临床数据集<我nl在e-formula> D R (总共120个样本)以下NMF分析。考虑到每个原始样品有一个类标签,对应于临床阶段的病人,对所有原始样本(407),我们可以得到一个样品的初步参与三个集群,也可以认为是一个训练有素的资讯集群模式 32]。然后我们定义每个集群的中心,这是所有样品的平均向量在同一集群。给定一个较大的值<我nl在e-formula> K ,我们将每个中心集群输入以上资讯模型并保持输出符合相应的类中心的标签。基于<我nl在e-formula> K 最近的邻居,我们终于可以筛选出40代表男性和20名女性(20)的样品根据欧几里得距离每个临床阶段。

最后,一些冗余的症状组确认。然后我们将每个冗余症状组转变为一个新的混合特性。结合所有nonredundant原始特性与新生成的混合特性,我们获得一个最优的肝细胞癌的临床症状子集。最后,这个功能子集的分类性能进一步验证了最小二乘支持向量机(LSSVM) [ 33, 34]。

实验参数。首先,我们设置一个频率阈值来识别不相关的症状。NMF的<我nl在e-formula> R 包( 35]当时作为计算框架使用非负矩阵分解算法<我nl在e-formula> R 。对于这种方法,最佳排名<我nl在e-formula> r 应该首先决定。目前有几种方法,提出了确定最优值<我nl在e-formula> r ( 36, 37]。在我们的研究中,两种方法,即同表象系数( 36)和RSS曲线( 37),被用来确定最优排序<我nl在e-formula> r 范围从2到7。在获得NMF与最优的结果<我nl在e-formula> r ,我们计算了相似矩阵<我nl在e-formula> 年代 X 所有的基础行和阈值推断出冗余的症状<我nl在e-formula> θ = 0.95 ,符合下列条件:<我nl在e-formula> 年代 _ c o r r ( w , w j ) 0.95 和<我nl在e-formula> 年代 _ d 年代 t ( w , w j ) 0.95 在公式( 7)- ( 9)。最后,LSSVM分类器实现验证的分类性能的最佳子集症状。LSSVM的多级模型,采用高斯RBF内核,内核参数<我nl在e-formula> σ 2 和<我nl在e-formula> γ 是由网格搜索( 38]。在我们的网格搜索,我们集<我nl在e-formula> σ 2 = 10 一个 和<我nl在e-formula> γ = 10 b 。变量<我nl在e-formula> 一个 变化与步骤0.25−1到5,和变量<我nl在e-formula> b 从−1到4步骤0.2。因此,我们的范围<我nl在e-formula> ( 0.1,100000 ] 为<我nl在e-formula> σ 2 和的范围<我nl在e-formula> ( 0.1,10000 ] 为<我nl在e-formula> γ 。完全有24的价值水平<我nl在e-formula> σ 2 和25水平<我nl在e-formula> γ 。换句话说,有600对<我nl在e-formula> σ 2 , γ 测试当LSSVM分类器训练。找到一个最优值<我nl在e-formula> σ 2 , γ ,我们使用5倍交叉验证评估LSSVM模型的分类精度。

4所示。结果与讨论

首先,我们积极为所有的频率计算每个临床阶段的最初症状(57)(见补充表S1网上 http://dx.doi.org/10.1155/2015/846942)。八不相关症状的人被认为是无关紧要的功能(阈值:10%)。从表 2,我们可以清楚地看到,这些症状出现在一些病人在每个临床阶段(少于10%)的临床观察,因此他们被认为是噪声特性在诊断的过程中。因为样品的总数是大(407),我们认为八不相关的症状与统计分析是非常可靠的。症状显示在表的一部分 2由以前的研究证明。例如,赖昌星等人得出的结论是,“情感抑郁”之间没有检测到协会和肝细胞癌的风险在老年人在台湾 39, 40]。此外,彭等人研究了169中国肝癌患者;只有三个患者伴有胸水,这也表明,这种症状不是关键症状肝癌发展的过程( 41, 42]。此外,“下肢水肿”无疑是一个著名的肝细胞癌患者的临床症状( 43];然而,它被认为是一个无关紧要的症状在这项研究中,因为它很少出现在我们的数据的所有三个阶段。增加了观察到的样本或减少阈值将作为候选人的症状。

八个无关紧要的症状是筛选阈值为10%。他们每个人很少是积极的在每一个阶段。

症状 第一阶段 二期 第三阶段
IA期 IB阶段 阶段活动花絮 IIB阶段 阶段iii a 希望具有相
苍白的嘴唇(<我nl在e-formula> V 1 ] 0 5.41% 6.67% 5.19% 4.5% 0
在下肢水肿<我nl在e-formula> V 16 ] 2.22% 8.1% 1.67% 5.19% 3.6% 0
缺乏尿量(<我nl在e-formula> V 41 ] 0 2.7% 0 0 5.41% 0
情绪抑郁(<我nl在e-formula> V 43 ] 4.44% 0 5% 8.89% 6.31% 5.26%
头身体困重(<我nl在e-formula> V 47 ] 0 2.7% 3.33% 2.22% 2.7% 0
水胸(<我nl在e-formula> V 51 ] 6.67% 2.7% 1.67% 3.7% 2.7% 0
快速脉冲(<我nl在e-formula> V 55 ] 4.44% 2.7% 1.67% 0.74% 5.41% 5.26%
不均匀的脉冲(<我nl在e-formula> V 56 ] 4.44% 5.41% 8.33% 3.7% 3.6% 0

其次,NMF的计算是实现在移除所有检测到不相关的症状。根据“模拟设计”的描述,NMF是应用于代表矩阵<我nl在e-formula> D R 120份肝癌样本,均匀覆盖三个临床阶段。图 2(一个)代表这一事实<我nl在e-formula> D R 是一个稀疏矩阵,大分区的元素为零(没有正面),如症状<我nl在e-formula> V 6 如图 2 (b)。然而,也有一些积极在许多患者的症状,如症状<我nl在e-formula> V 25 如图 2 (c)。矩阵<我nl在e-formula> D R 不显示明显的子类型和模式;因此,很难直接比较相似的行向量之间的症状<我nl在e-formula> D R 因为样品的数量仍然很大。在这项研究中,我们使用了NMF压缩代表矩阵<我nl在e-formula> D R 和的分布模式特性(症状)更少的样本。NMF的计算之前,应首先确定临界参数:分解等级的价值<我nl在e-formula> r 。根据深色的方法,第一个值<我nl在e-formula> r 同表象的系数开始降低最优是一个( 36]。Frigyesi和霍格伦德建议选择第一个值的RSS曲线提供了一个拐点( 37]。基于这两种方法,我们认为“3”是一个等级的合理价值<我nl在e-formula> r 临床数据矩阵<我nl在e-formula> D R 。在图所示的曲线 3也证实了这一结论。非负矩阵分解在矩阵上实现<我nl在e-formula> D R (<我nl在e-formula> 49 × 120年 等级3。它还表明,metafeatures的数量(基础)= 3。

代表的热图临床数据集<我nl在e-formula> D R 。(一)的热图<我nl在e-formula> D R 49岁的症状和120个样本。(b)症状的分布模式<我nl在e-formula> V 6 ,<我nl在e-formula> V 8 ,<我nl在e-formula> V 28 ,<我nl在e-formula> V 37 ,<我nl在e-formula> V 53 表明积极的频率很低。(c)症状的分布模式<我nl在e-formula> V 46 ,<我nl在e-formula> V 42 ,<我nl在e-formula> V 25 表明积极的频率很高。

最优估计<我nl在e-formula> r

4代表了NMF的最终结果包括基础矩阵<我nl在e-formula> W (<我nl在e-formula> 49 × 3 )和混合系数<我nl在e-formula> H (<我nl在e-formula> 3 × 120年 )。矩阵的每一行<我nl在e-formula> W 使用一个压缩模式来近似地代表一种症状的分布在所有原始样品。比较矩阵<我nl在e-formula> D R 如图 2,最明显的差异矩阵<我nl在e-formula> W 是有几组压缩特性揭示相似的样本空间,如<我nl在e-formula> V 40 和<我nl在e-formula> V 36 在图 4。根据图 2(一个),我们可以发现症状的向量之间的距离<我nl在e-formula> V 40 和<我nl在e-formula> V 36 在<我nl在e-formula> D R 也关闭;此外,压缩模式<我nl在e-formula> V 40 和<我nl在e-formula> V 36 在矩阵<我nl在e-formula> W (<我nl在e-formula> w 40 和<我nl在e-formula> w 36 )在图 4促进更容易识别冗余特性具有非常相似的分布模式。

NMF的数据集的结果<我nl在e-formula> D R 。左侧显示的可视化矩阵<我nl在e-formula> W (<我nl在e-formula> 49 3 ),右侧表示矩阵<我nl在e-formula> H (<我nl在e-formula> 3 120年 )。

矩阵<我nl在e-formula> H 有相同数量的样品但是较小数量的metafeatures(基础)而不是原始矩阵<我nl在e-formula> X ( 36]。因此,metafeature表达模式<我nl在e-formula> H 通常提供一个健壮的聚类的样本。考虑到<我nl在e-formula> j th列<我nl在e-formula> H 作为<我nl在e-formula> H j = ( h j 1 , h j 2 , h j 3 ] T ,我们决定<我nl在e-formula> j 临床样本放入<我nl在e-formula> k th集群如果<我nl在e-formula> 马克斯 H j = H j ( k ) ,在那里<我nl在e-formula> k { 1、2 , 3 } 。因此,我们使用矩阵<我nl在e-formula> H 将所有样本分组成3集群,对应3基地(metafeature)。图 5表明clinical-staging标记之间有很大的重叠(先验知识的类标签)和索引的基础组件(metafeatures)在120年最初的临床样本包含在数据集<我nl在e-formula> D R

NMF-derived基础组件之间的关系和临床阶段的样本。

在矩阵<我nl在e-formula> W ,每一列对应一个metafeature或基础(见图 4)。条目<我nl在e-formula> w j 在矩阵<我nl在e-formula> W 是原始的系数特性<我nl在e-formula> 在metafeature(基础)<我nl在e-formula> j ( 36]。因此,一个原始的特性<我nl在e-formula> 与特定的基础<我nl在e-formula> j 如果<我nl在e-formula> w j 是最大的输入行吗<我nl在e-formula> 的矩阵<我nl在e-formula> W 。从图 4,我们可以清楚地看到,最初的症状特征参与相同的基础有相似的表达模式,而不是在其他基地。表 3代表所有基础组件相关的症状。组合图 5和表 3进一步表明,“基础1”相关的症状是非常相关的临床样本二期,“基础2”和“3”相关的症状非常相关的第一阶段和第三阶段,分别。这一发现有助于识别<我t一个l我c>临床分阶段通过NMF重要症状。此外,49个临床症状的分区表所示 3了相关研究的支持。例如,<我t一个l我c>恶心观察是常见的不利影响肝癌患者在第一阶段( 44]。的症状<我t一个l我c>腹水、厌食、发热,<我t一个l我c>黄疸经常发生在第二阶段( 43, 45- - - - - - 48]。症状”<我t一个l我c>黄色的肤色”和“<我t一个l我c>黄色的皮肤和眼睛”见表 3很明显的表象<我t一个l我c>黄疸。第三阶段,<我t一个l我c>疼痛最明显的特点是在肝细胞癌患者 49]。有三个疼痛症状显示表 3:“<我t一个l我c>肩膀和背部疼痛,”“<我t一个l我c>胸痛、”和“<我t一个l我c>向季肋部疼痛。“此外,<我t一个l我c>疲劳和<我t一个l我c>弱点也是常见的肝癌患者( 43]。在一起,这些发现表明,NMF的最佳排名可以揭示潜在的症状之间的潜在关联特性和临床阶段。

症状的NMF-derived参与到每个相应的基础组件。

基础组件 的症状 症状的名称
基础1 16 静脉曲张(<我nl在e-formula> V 7 ];黄色的肤色(<我nl在e-formula> V 11 ];黄色的皮肤和眼睛(<我nl在e-formula> V 13 ];胃疼(<我nl在e-formula> V 31日 ];干燥的粪便(<我nl在e-formula> V 38 ];感觉口渴(<我nl在e-formula> V 27 ];潮热(<我nl在e-formula> V 20. ];做腹部饱胀[<我nl在e-formula> V 33 ];丰满在胃<我nl在e-formula> V 32 ];块肋骨下(<我nl在e-formula> V 49 ];发冷(<我nl在e-formula> V 18 ];热(<我nl在e-formula> V 19 ];蜘蛛毛细管扩张在肝掌<我nl在e-formula> V 15 ];腹水(<我nl在e-formula> V 50 ];黄色油腻(<我nl在e-formula> V 9 ];厌食症(<我nl在e-formula> V 34 ]

基础2 17 恶心(<我nl在e-formula> V 35 ];脉滑(<我nl在e-formula> V 54 ];瘀斑的和瘀斑的舌头<我nl在e-formula> V 6 ];白滑(<我nl在e-formula> V 8 ];胸闷(<我nl在e-formula> V 28 ];半流体凳子(<我nl在e-formula> V 37 ];弱脉冲(<我nl在e-formula> V 53 ];盗汗(<我nl在e-formula> V 22 ];脏口(<我nl在e-formula> V 17 ];红色的舌头(<我nl在e-formula> V 3 ];纤细的脉冲(<我nl在e-formula> V 57 ];粘腻涂料(<我nl在e-formula> V 10 ];紫色的舌头(<我nl在e-formula> V 4 ];绳的脉冲(<我nl在e-formula> V 52 ];苍白的嘴唇(<我nl在e-formula> V 2 ];大型和teeth-printed舌头<我nl在e-formula> V 5 ];黯淡的肤色(<我nl在e-formula> V 14 ]

基础3 16 耳鸣(<我nl在e-formula> V 24 ];头晕(<我nl在e-formula> V 23 ];在肩膀和背部疼痛<我nl在e-formula> V 48 ];胸痛(<我nl在e-formula> V 29日 ];向季肋部疼痛(<我nl在e-formula> V 30. ];苦味[<我nl在e-formula> V 26 ];失眠(<我nl在e-formula> V 42 ]; 外观与彩色黄色(<我nl在e-formula> V 12 ];黄色的尿液(<我nl在e-formula> V 40 ];打嗝(<我nl在e-formula> V 36 ];疼痛和腰和膝盖的弱点<我nl在e-formula> V 44 ];干燥的喉咙(<我nl在e-formula> V 25 ];发烧在手掌和脚底<我nl在e-formula> V 45 ];自汗(<我nl在e-formula> V 21 ]; 夜尿多(<我nl在e-formula> V 39 ];身心疲惫(<我nl在e-formula> V 46 ]

正如上面所提到的“仿真设计,”几组冗余特性根据给定的阈值被筛选出来<我nl在e-formula> θ = 0.95 (表 4)。我们得到两个冗余的症状组从每个基础组件,这表明冗余的症状包括在相同的组也可能有类似的原始样本空间中的模式。在这里,我们把数字 2 (b)- - - - - - 2 (c)为例进行合作我们的方法的有效性。图 2 (b)代表积极的5个症状的分布数据集<我nl在e-formula> D R 。这五个症状(<我nl在e-formula> V 6 ,<我nl在e-formula> V 8 ,<我nl在e-formula> V 28 ,<我nl在e-formula> V 37 ,<我nl在e-formula> V 53 )被确定为基础2相关功能,他们最可能属于第一阶段(表 4)。虽然每一个行向量图 2 (b)并不是完全平等的,他们都表示相对低频率的积极(<我nl在e-formula> 15.17 ± 3.25 % )和当地的分布模式在某种程度上是相似的。比较这五种症状的相应行矩阵<我nl在e-formula> W 在图 4,我们发现这些症状非常相似的压缩模式。同样,症状(<我nl在e-formula> V 46 ,<我nl在e-formula> V 42 ,<我nl在e-formula> V 25 )是潜在的相关基础3,每超过50%,阳性的频率和阳性这三个症状的平均值是1.77,这进一步表明,它们可能与一些病人的条件是非常严重的。虽然症状<我nl在e-formula> V 46 , V 42 ,<我nl在e-formula> V 25 没有确定为冗余的症状与给定阈值(0.95),其压缩模式矩阵<我nl在e-formula> W 在图 4还指出,他们的模式是非常接近。总之,我们考虑一个事实,即矩阵<我nl在e-formula> W 促进评估症状,之间的差异和矩阵<我nl在e-formula> H 可以验证样本的类标签之间高度的相关性和基础索引。与给定阈值推断冗余的症状后,我们结合每个症状的组在一起,转化成一个新特性(命名混合的特性)。最后,我们获得了39临床特征(<我nl在e-formula> F 年代 1 )肝癌的最优特征子集,它由两个部分组成:33最初症状特征(<我nl在e-formula> F 年代 2 )和6个新的混合特性(<我nl在e-formula> F 年代 3 )(表 5)。基于NMF的分析结果,原始数据集的特征空间进一步缩小。

平均相似度值的双冗余的症状在同一组。

基础组件 筛选冗余的症状 基于距离的相似性sim_dist<我nl在e-formula> ( w , w j ) Correlation-based相似sim_corr<我nl在e-formula> ( w , w j )
基础1 V 38 ,<我nl在e-formula> V 27 ,<我nl在e-formula> V 20. 0.9672 1。0
V 19 ,<我nl在e-formula> V 15 0.9507 1。0

基础2 V 35 ,<我nl在e-formula> V 54 0.9685 0.9960
V 6 ,<我nl在e-formula> V 8 ,<我nl在e-formula> V 53 ,<我nl在e-formula> V 37 ,<我nl在e-formula> V 28 0.9628 1。0

基础3 V 48 ,<我nl在e-formula> V 29日 0.9686 1。0
V 44 ,<我nl在e-formula> V 45 0.9520 0.9926

NMF-driven潜在的肝细胞癌的临床特征(阈值:0.95)。

基础组件 原来的功能 混合特性 描述关于混合特性
基础1 V 7 ;<我nl在e-formula> V 11 ;<我nl在e-formula> V 13 ;<我nl在e-formula> V 31日 ;<我nl在e-formula> V 33 ;<我nl在e-formula> V 32 ;  V 49 ;<我nl在e-formula> V 18 ;<我nl在e-formula> V 50 ;<我nl在e-formula> V 9 ;<我nl在e-formula> V 34 11 12 转换从<我nl在e-formula> V 38 , V 27 , V 20. 和<我nl在e-formula> V 19 , V 15 ,分别。

基础2 V 22 ;<我nl在e-formula> V 17 ;<我nl在e-formula> V 3 ;<我nl在e-formula> V 57 ;<我nl在e-formula> V 2 ;<我nl在e-formula> V 10 ;  V 4 ;<我nl在e-formula> V 52 ;<我nl在e-formula> V 5 ;<我nl在e-formula> V 14 21 22 转换从<我nl在e-formula> V 35 , V 54 V 6 , V 8 , V 53 , V 37 , V 28 ,分别。

基础3 V 24 ;<我nl在e-formula> V 23 ;<我nl在e-formula> V 30. ;<我nl在e-formula> V 26 ;<我nl在e-formula> V 42 ;<我nl在e-formula> V 12 ;  V 40 ;<我nl在e-formula> V 36 ;<我nl在e-formula> V 25 ;<我nl在e-formula> V 21 ;<我nl在e-formula> V 39 ;<我nl在e-formula> V 46 31日 32 转换从<我nl在e-formula> V 48 , V 29日 V 44 , V 45 ,分别。

数的功能 33 6 总:39功能

评估潜在的NMFBFS-inferred最优特征子集,我们首先测试了三个候选人特性子集的分类精度<我nl在e-formula> F 年代 1 ,<我nl在e-formula> F 年代 2 ,<我nl在e-formula> O F 年代 在训练集(120代表样本)。<我nl在e-formula> F 年代 1 和<我nl在e-formula> F 年代 2 通过特征选择生成阈值<我nl在e-formula> θ (0.95)。<我nl在e-formula> O F 年代 在数据集表示49最初的症状特征<我nl在e-formula> D R 。表 6表明39最优特性,覆盖33个最初的症状特点和6个新的混合特性,导致最好的训练样本分类精度。的性能<我nl在e-formula> F 年代 2 是比<我nl在e-formula> O F 年代 ;但是,它还是比<我nl在e-formula> F 年代 1 因为新的混合特性也有重要贡献的分类。

分类精度之间的三个特征子集训练集(120代表样本)。FS<年代ub>1获得了该方法与给定阈值(<我nl在e-formula> θ = 0.95 33),最初的症状特点和6个新的混合特性包括在内。FS<年代ub>2表示上述33最初症状特征(<我nl在e-formula> FS 2 FS 1 )。OFS表明所有49症状之前NMF计算。

特征子集 在LSSVM分类精度(%)
FS<年代ub>1 39 80.002±9.95
FS<年代ub>2 33 77.50±12.36
OFS 49 72.50±11.64

然后我们将我们NMFBFS的性能与三个著名的特征选择方法(ReliefF [ 11],mRMR [ 12,弹性网( 13])。ReliefF是使用MATLAB实现的函数。“mRMRe”和“elasticnet”<我nl在e-formula> R 包申请mRMR和基于弹性网的特征选择,分别。补充图S1表示ReliefF-based特性排名。补充图S2表示弹性网(<我nl在e-formula> λ = 0.5 )解决方案特征选择的路径。我们选择排名前20位的特性和前40名特性两个候选特征子集的方法来评估他们的分类性能:<我nl在e-formula> F 年代 R F 20. 和<我nl在e-formula> F 年代 R F 40 从ReliefF生成;<我nl在e-formula> F 年代 R 20. 和<我nl在e-formula> F 年代 R 40 从mRMR推断;<我nl在e-formula> F 年代 E NgydF4y2Ba 20. 和<我nl在e-formula> F 年代 E NgydF4y2Ba 40 从弹性网络推断。表 7代表上述六个候选特征子集的分类性能和NMFBFS-derived最优特征子集<我nl在e-formula> F 年代 1 在训练集(120代表样本)。结果表明,NMFBFS-inferred特征子集的分类精度最好的训练样本。

分类的准确性通过NMFBFS推断最优特征子集,ReliefF, mRMR,弹性网在训练集上。

方法 特征子集 在LSSVM分类精度(%)
NMFBFS F 年代 1 39 80.002±9.95

ReliefF FS<年代ub>RF20 20. 65.00±10.03
FS<年代ub>RF40 40 73.33±15.76

mRMR FS<年代ub>MR20 20. 70.83±12.5
FS<年代ub>MR40 40 74.17±9.03

弹性网 FS<年代ub>EN20 20. 70.00±11.56
FS<年代ub>EN40 40 76.67±10.46

除了120年代表训练样本筛选实现NMF分析,剩余的样品可用于测试的分类精度最优特征子集。我们随机选择40个样品(10:20:10为每个临床阶段)的样本,然后推断特征子集的分类精度评估每个方法(NMFBFS, ReliefF、mRMR和弹性网)。表 8显示所有这些方法之间的差异,可以发现最优特征子集推断出我们的方法最好的泛化性能。

分类的准确性通过NMFBFS推断最优特征子集,ReliefF mRMR,弹性网的测试集。

方法 特征子集 在LSSVM分类精度(%)
NMFBFS F 年代 1 39 79.65±6.48

ReliefF FS<年代ub>RF20 20. 50.71±1.22
FS<年代ub>RF40 40 76.43±8.27

mRMR FS<年代ub>MR20 20. 63.79±1.22
FS<年代ub>MR40 40 77.14±9.18

弹性网 FS<年代ub>EN20 20. 67.57±4.09
FS<年代ub>EN40 40 78.38±9.62

最后,更重要的是,阈值的选择<我nl在e-formula> θ 决定多少组冗余的症状将会筛选出来。在这里,我们进一步讨论了阈值的影响<我nl在e-formula> θ 最优特征子集的分类性能。表 9显示了差异三个最优特征子集的推断提出了阈值方法和不同的价值观<我nl在e-formula> θ 。从表 9,我们可以很明显看到的更大的价值<我nl在e-formula> θ 严格将屏幕上多余的症状,导致少获得类似的症状。与一个更小的值<我nl在e-formula> θ ,更多的症状可以分为同一组;因此,原始特征空间将大大减少我们的方法。表 9表示,减少<我nl在e-formula> θ 最优特征子集的大小缩小但分类精度也降低了。这些结果表明,一个更大的价值<我nl在e-formula> θ 将导致更少的冗余的症状,因此诱发更大的最优特征子集的大小;相对的,小<我nl在e-formula> θ 可以提供更多的冗余的症状和大幅降低特征维度。一个极端的例子<我nl在e-formula> θ =“0”,这意味着我们可以为每一个混合特性基础和最优特征子集的大小等于基地的数量。总之,如何确定的价值<我nl在e-formula> θ 取决于最优特征子集的大小和其相应的分类性能。

分类的性能与不同的阈值的最优特征子集<我nl在e-formula> θ

的值<我nl在e-formula> θ 最初的症状特点 新的混合特性 总数量的功能 分类精度(%)
θ = 0.95 33 6 39 80.002±9.95
θ = 0.90 21 9 30. 70.83±6.59
θ = 0.85 10 8 18 70.00±4.56
5。结论

在这项研究中,我们发展了NMFBFS高效提取方法从临床观察数据肝癌的重要临床症状。NMFBFS是一个两级过滤特征选择方法如下。(1)在第一阶段,初步筛选实现检测和删除无关紧要的功能;(2)第二阶段,NMF应用于识别冗余特征的团体可能代表类似的分布模式。每个冗余症状组就变成了一个新的混合功能,进一步降低维度的数据集。

NMFBFS在肝细胞癌的临床数据集的应用证明了该方法的有效性。最佳的临床特征源自NMFBFS方法包含许多公认HCC患者的症状。此外,本研究还提供了一个通用的计算框架的小说特征选择方法有效地提取从高维数据集的最优特征子集。

缩写 肝细胞癌:

肝细胞癌

中医:

中国传统医学

NMF:

非负矩阵分解

LSSVM:

最小二乘支持向量机

资讯:

K 最近的邻居。

利益冲突

作者宣称没有利益冲突。

作者的贡献

给霁和孟Guanmin贡献了同样的工作。

确认

这项工作是由美国国家科学基金会支持的中国(61472282和61472282号)。收集的数据在这个工作是长海医院,上海,中国。

博世 f . X。 酷栗 J。 Cleries R。 迪亚兹 M。 肝细胞癌的流行病学 诊所在肝脏疾病 2005年 9 2 191年 211年 10.1016 / j.cld.2004.12.009 2 - s2.0 - 17044371509 中心 M . M。 Jemal 一个。 史密斯 r。 病房 E。 全球变化在结肠直肠癌 CA-Cancer对临床医师杂志 2009年 59 6 366年 378年 10.3322 / caac.20038 2 - s2.0 - 73049112438 El-Serag h . B。 肝细胞癌 《新英格兰医学杂志》上 2011年 365年 12 1118年 1127年 10.1056 / nejmra1001683 2 - s2.0 - 80053088189 一个新的肝细胞癌预后系统:回顾性研究435例:肝癌意大利项目(夹)调查人员 肝脏病学 1998年 28 3 751年 755年 2 - s2.0 - 0031782818 米勒 G。 施瓦兹 l . H。 D 'Angelica M。 利用成像肝胆的恶性肿瘤的诊断和分期 肿瘤外科诊所北美 2007年 16 2 343年 368年 10.1016 / j.soc.2007.04.001 2 - s2.0 - 34249874594 福尔 一个。 Bruix J。 诊断肝肝硬化结节20毫米或更小:前瞻性验证肝细胞carcinoma-reply的无创性诊断标准 肝脏病学 2008年 47 6 2146年 2147年 中州。 c c。 苏耿赋。 J.-G。 利用模式在台湾中医对肝癌患者 BMC补充和替代医学 2012年 12日,第146条 10.1186 / 1472-6882-12-146 2 - s2.0 - 84865640882 Mourad R。 Sinoquet C。 Leray P。 概率图形模型的遗传关联研究 简报的生物信息学 2012年 13 1 20. 33 bbr015 10.1093 /龙头/ bbr015 2 - s2.0 - 84855682582 Z。 B。 识别潜在的肝细胞癌的临床症状使用PSO-based分层特征选择算法 生物医学研究的国际 2014年 2014年 12 127572年 10.1155 / 2014/127572 2 - s2.0 - 84897565065 J.-X。 C.-M。 Y.-Q。 面对老化模拟和识别基于NMF算法稀疏约束 Neurocomputing 2013年 116年 250年 259年 10.1016 / j.neucom.2012.08.030 2 - s2.0 - 84878479062 j . N。 年代。 Winstanley 一个。 不变的最佳特征选择:基于距离判别排名和特性的解决方案 模式识别 2008年 41 5 1429年 1439年 10.1016 / j.patcog.2007.10.018 2 - s2.0 - 38349127958 h . C。 f . H。 C。 基于互信息的特征选择:标准max-dependency, max-relevance, min-redundancy IEEE模式分析与机器智能 2005年 27 8 1226年 1238年 10.1109 / tpami.2005.159 2 - s2.0 - 24344458137 H。 黑斯蒂 T。 通过弹性净正规化和变量选择 皇家统计学会杂志》系列B:统计方法 2005年 67年 2 301年 320年 10.1111 / j.1467-9868.2005.00503.x MR2137327 2 - s2.0 - 16244401458 Wildi 年代。 裴斯塔洛齐 b . C。 麦科马克 l Clavien 中国。 不同分期系统的关键评估肝细胞癌 英国杂志的手术 2004年 91年 4 400年 408年 10.1002 / bjs.4554 2 - s2.0 - 1842845112 沙玛 一个。 并且绕着圆圈圈打转 年代。 宫野 年代。 基于滤波器的特征选择算法利用协方差矩阵的零空间进行DNA微阵列基因表达数据 目前的生物信息学 2012年 7 3 289年 294年 10.2174 / 157489312802460802 2 - s2.0 - 84866672652 Bellal F。 Elghazel H。 Aussem 一个。 半监督功能与整体学习排序法 模式识别的字母 2012年 33 10 1426年 1433年 10.1016 / j.patrec.2012.03.001 2 - s2.0 - 84860387759 H.-W。 中州。 花王 H.-Y。 学术界。 W.-H。 分类算法的比较与wrapper-based预测骨质疏松症的特征选择结果基于遗传因素在台湾女性人口 国际内分泌学杂志 2013年 2013年 8 850735年 10.1155 / 2013/850735 2 - s2.0 - 84873361818 Imani m B。 Keyvanpour m·R。 R。 一种新型嵌入式特征选择方法:在文本分类中的应用比较研究 应用人工智能 2013年 27 5 408年 427年 10.1080 / 08839514.2013.774211 2 - s2.0 - 84878720298 Zdunek R。 Cichocki 一个。 非负矩阵分解与约束二阶优化 信号处理 2007年 87年 8 1904年 1916年 10.1016 / j.sigpro.2007.01.024 ZBL1186.94391 2 - s2.0 - 34247173538 Z。 Z。 阿什比 C。 C。 G。 年代。 X。 eMBI:促进癌症亚型基因聚类 癌症信息学 2014年 13 补充2 105年 112年 10.4137 / cin.s13777 学术界。 D.-S。 l 香港 X.-Z。 肿瘤集群使用非负矩阵分解和基因的选择 IEEE在生物医学信息技术 2009年 13 4 599年 607年 10.1109 / titb.2009.2018115 2 - s2.0 - 67749108622 学术界。 Ng T.-Y。 l 萧若元 C.-K。 H.-Q。 肿瘤分类基于非负矩阵分解使用基因表达数据 IEEE生物科学 2011年 10 2 86年 93年 10.1109 / TNB.2011.2144998 2 - s2.0 - 80051776578 Cichocki 一个。 H。 Y.-D。 年代。 非负矩阵分解与<我t一个l我c>α散度 模式识别的字母 2008年 29日 9 1433年 1440年 10.1016 / j.patrec.2008.02.016 2 - s2.0 - 43249131130 Zdunek R。 Cichocki 一个。 非负矩阵分解与二次规划 Neurocomputing 2008年 71年 10 - 12 2309年 2320年 10.1016 / j.neucom.2007.01.013 2 - s2.0 - 44649157722 D D。 Seung h·S。 非负矩阵分解算法 诉讼进展的神经信息处理系统(捏' 01) 2001年 他们 C。 Lanteri H。 理查德。 C。 SGM解决NMF-application高光谱数据 在成像新概念:光学和统计模型 2013年 59 357年 379年 东亚峰会出版物系列 10.1051 / eas / 1359016 Casalino G。 德尔好 N。 Mencar C。 减法聚类为播种非负矩阵分解 信息科学 2014年 257年 369年 387年 10.1016 / j.ins.2013.05.038 MR3131801 2 - s2.0 - 84888641788 Vignolo l D。 Milone d . H。 Scharcanski J。 特征选择基于多目标进化的人脸识别包装器 专家系统与应用程序 2013年 40 13 5077年 5084年 10.1016 / j.eswa.2013.03.032 2 - s2.0 - 84878287376 阿南德 一个。 Pugalenthi G。 佛格尔 g . B。 Suganthan p . N。 一个方法使用加权和欠采样高度不平衡数据的分类 氨基酸 2010年 39 5 1385年 1391年 10.1007 / s00726 - 010 - 0595 - 2 2 - s2.0 - 78449268828 Bria 一个。 Karssemeijer N。 Tortorella F。 学习不平衡数据:cascade-based方法检测集群微钙化物质 医学图像分析 2014年 18 2 241年 252年 10.1016 / j.media.2013.10.014 2 - s2.0 - 84888787427 P。 d . Z。 Zaiane O。 混合学习概率抽样与随机子空间不平衡数据 智能数据分析 2014年 18 6 1089年 1108年 10.3233 / ida - 140686 2 - s2.0 - 84911098802 Shubair 一个。 阿纳 年代。 Altyeb 答:一个。 KENFIS: kNN-based进化神经模糊推理系统为计算机蠕虫检测 智能和模糊系统杂志》上 2014年 26 4 1893年 1908年 10.3233 / ifs - 130868 2 - s2.0 - 84897723050 H.-Q。 太阳 F.-C。 Y.-N。 L.-G。 N。 一个公正的LSSVM模型分类和回归 软计算 2010年 14 2 171年 180年 10.1007 / s00500 - 009 - 0435 - z ZBL1191.68604 2 - s2.0 - 70349275231 Mustaffa Z。 尤索夫 Y。 LSSVM参数调优,增强人工蜜蜂殖民地 国际阿拉伯信息技术杂志》上 2014年 11 3 236年 242年 2 - s2.0 - 84900003454 Y。 在他 一个。 非负矩阵分解的工具箱生物数据挖掘 生物学和医学的源代码 2013年 8 1、第十条 10.1186 / 1751-0473-8-10 2 - s2.0 - 84876097941 深色的 j。 Tamayo P。 Golub t·R。 Mesirov j . P。 Metagenes和分子模式发现使用矩阵分解 美国国家科学院院刊》上的美利坚合众国 2004年 101年 12 4164年 4169年 10.1073 / pnas.0308531101 2 - s2.0 - 1642529511 Frigyesi 一个。 霍格伦德 M。 非负矩阵分解为分析复杂的基因表达数据:临床相关的肿瘤亚型的识别 癌症信息学 2008年 6 275年 292年 2 - s2.0 - 49649102048 l F。 l l . C。 多个回归模型的参数选择使用平滑分析错误 在2005年神经Networks-ISNN进步 2005年 3496年 柏林,德国 施普林格 851年 856年 在计算机科学的课堂讲稿 10.1007 / 11427391 _136 S.-W。 周宏儒。 C.-L。 K.-F。 没有阿尔茨海默病和肝细胞癌的风险之间的相关性在老年人:在台湾一个观察 老年与老年病学国际 2014年 14 1 231年 232年 10.1111 / ggi.12141 2 - s2.0 - 84892165822 S.-M。 Y.-J。 Y.-W。 C.-J。 T.-J。 Fuh J.-L。 S.-J。 阿尔茨海默病预防癌症吗?一个全国性的以人群为基础的研究 神经 2012年 40 1 42 49 10.1159 / 000341411 2 - s2.0 - 84867458469 S.-Y。 X.-D。 Y.-B。 H.-R。 J.-T。 J.-W。 B。 H.-Q。 L.-P。 H.-W。 j j。 X.-J。 μ Y.-P。 肝细胞癌的外科治疗来自尾状叶 中华围客 2005年 43 1 49 52 2 - s2.0 - 25144518775 s Y。 j . T。 y . B。 x J。 谅解备忘录 y . P。 x D。 j·W。 B。 h·R。 在香港 d F。 x B。 h . Q。 l . P。 l c . H。 f . B。 j·F。 手术治疗的肝细胞癌起源于尾lobe-a报告39例 胃肠外科杂志》 2006年 10 3 371年 378年 10.1016 / j.gassur.2005.09.026 2 - s2.0 - 33644536758 M.-H。 P.-Y。 S.-T。 C.-L。 t.w。 S.-J。 临终关怀台湾肝细胞癌患者的姑息治疗 姑息医学 2004年 18 2 93年 99年 10.1191 / 0269216304 pm851oa 2 - s2.0 - 1642277253 富士山 年代。 柴田 J。 Maeda 年代。 田中 M。 Noumaru 年代。 佐藤 K。 获利, K。 I期临床研究小说的亲脂性的白金复杂(sm - 11355)在肝细胞癌患者顺铂/ lipiodol耐火材料 英国癌症杂志》 2003年 89年 9 1614年 1619年 10.1038 / sj.bjc.6601318 2 - s2.0 - 0344009740 X。 H。 l 年代。 B。 N。 一个 X。 J。 H。 X。 随机二期研究自体的细胞因子诱导的杀伤细胞在肝癌的治疗 临床免疫学杂志 2014年 34 2 194年 203年 10.1007 / s10875 - 013 - 9976 - 0 2 - s2.0 - 84898920952 Ciombor K·K。 Y。 本森 答:B。 三世 Y。 霍顿 l s P。 Kauh j·s·W。 Staley C。 马尔卡希 M。 鲍威尔 M。 阿米里 k . I。 里士满 一个。 柏林 J。 二期试验+阿霉素血液病中的作用在肝细胞癌(E6202):东部合作肿瘤组的审判 临床实验的新药 2014年 32 5 1017年 1027年 10.1007 / s10637 - 014 - 0111 - 8 2 - s2.0 - 84901578278 J。 亨德森 C。 Feun l 范Veldhuizen P。 黄金 P。 H。 瑞安 T。 Blaszkowsky l S。 H。 科斯塔 M。 罗森茨维格 B。 Nierodzik M。 Hochster H。 Muggia F。 Abbadessa G。 刘易斯 J。 a . X。 第二阶段的研究darinaparsin晚期肝细胞癌患者 临床实验的新药 2010年 28 5 670年 676年 10.1007 / s10637 - 009 - 9286 - 9 2 - s2.0 - 77956060553 j j。 C.-N。 >。 欧阳 X.-N。 J.-X。 X.-H。 原发性肝癌的临床研究治疗Shenqi混合物结合微波凝固 中国结合医学杂志》上 2005年 11 2 104年 110年 10.1007 / BF02836465 2 - s2.0 - 22144465154 Doffoel M。 Bonnetain F。 钻孔 O。 检查者 D。 做烤鸡 一个。 Fratte 年代。 画眉山庄 j . D。 Stremsdoerfer N。 Blanchi 一个。 Bronowicki j . P。 Caroli-Bosc f . X。 喀斯 X。 Masskouri F。 鲁吉尔 P。 Bedenne l 多中心随机III期试验比较它莫西芬单独或与肝动脉Lipiodol Chemoembolisation不可切除的肝细胞癌的肝硬化患者(9402年法语Cancerologie联合会消化) 欧洲癌症杂志 2008年 44 4 528年 538年 10.1016 / j.ejca.2008.01.004 2 - s2.0 - 40249116266