复杂性

PDF
复杂性/2020年/文章

研究文章|开放获取

体积 2020年 |文章的ID 4865738 | https://doi.org/10.1155/2020/4865738

胡安,金星Liu Chun-Hou郑,Cong-Hai Lu Ling-Yun戴,Xiang-Zhen香港, 癌症样本Block-Constraint Laplacian-Regularized低秩表示及其应用集群基于TCGA集成数据”,复杂性, 卷。2020年, 文章的ID4865738, 13 页面, 2020年 https://doi.org/10.1155/2020/4865738

癌症样本Block-Constraint Laplacian-Regularized低秩表示及其应用集群基于TCGA集成数据

学术编辑器:丹妮拉Paolotti
收到了 2019年5月03
修改后的 2019年12月13日
接受 2020年1月02
发表 2020年1月27日

文摘

低秩表示(远程雷达)是一个强大的子空间聚类方法由于其成功的学习数据的低维子空间。“组学”技术的突破,提出了许多LRR-based方法并用于癌症基于基因表达数据的聚类。此外,研究表明,除了基因表达数据,其他基因组数据,TCGA癌症研究也包含重要的信息。因此,这些基因数据可以作为癌症的综合功能源集成集群。如何建立一个有效的聚类模型,全面分析,综合,TCGA数据已经成为一个关键问题。在本文中,我们发展了传统远程雷达方法并提出一种新颖的方法叫Block-constraint Laplacian-Regularized低秩表示(BLLRR)为癌症样本聚类模型multigenome数据。该方法用于从多个基因组数据中提取更丰富的空间结构的信息来提高癌症样本聚类的准确性。考虑到不同的基因组数据的异质性,我们block-constraint思想引入到我们的方法。在BLLRR分解,我们对待每个基因组数据作为一个数据块和实施不同的约束不同的数据块。此外,图拉普拉斯算子也引入我们的方法,以更好地了解数据的拓扑结构维护当地的几何信息。 The experiments demonstrate that the BLLRR method can effectively analyze integrated TCGA data and extract more subspace structure information from multigenome data. It is a reliable and efficient clustering algorithm for cancer sample clustering.

1。介绍

癌症严重威胁世界各地的人们的健康。对于癌症患者,及时检测,准确的诊断和有效的治疗方法为挽救生命是至关重要的(1]。癌症分类作为一种重要的癌症的早期诊断和治疗的先决条件,在癌症研究中一直是一个具有挑战性的焦点。现代医学研究表明,癌症的原因之一是变异和突变的基因,而这些基因突变和异常导致癌症病理的差异,形成不同的分类在临床诊断(2]。因此,癌症研究在基因水平受到生物学家的重视。

随着后基因组时代的生物信息学研究,大量的基因组dna阵列正在生成的数据和深度排序技术(3- - - - - -6]。因为这些技术可以与此同时成千上万的基因,这些基因表达数据由这些技术可以充分反映转录活动在某种程度上,这给研究人员的途径来了解和研究生命机制在全基因组范围内。

癌症基因组图谱(TCGA),国际癌症基因组协会的最大组成部分(ICGC),是迄今为止最大的癌症基因组数据库的开放。TCGA的结束项目,TCGA数据库收集了超过11000个癌症病例涉及33个癌症类型(7]。TCGA项目旨在全面、系统地研究生物和分子基础的形成,发展,和转移的癌细胞映射人类癌症的基因组。TCGA的数据库可以为我们提供不同的基因组数据。这些基因组数据为我们提供前所未有的机会系统地,全面考虑不同基因畸变的生物过程。因此,TCGA癌症研究基于数据已经成为一个热点领域的生物信息学。

聚类癌症的癌症分类的样本是一个重要的手段。它的目的是找到样本的样本组类似的表达式。基于TCGA数据,大量的关于癌症的文章集群生产。例如,玉等人开发了一个方法基于共识集群(GCC)研究基于微阵列数据样本的类(8]。郑等人采用非负矩阵分解(NMF)和稀疏NMF方法研究肿瘤集群(9]。基于最大correntropy判据,王等人提出了一种新的非负矩阵分解方法命名NMF最大correntropy标准(NMF-MCC)癌症从基因表达数据聚类10]。香港等人提出了一个P-norm奇异值分解(PSVD)方法为集群的肿瘤(11]。峰等人实施graph-Laplacian正规化和P-norm PCA和提出的PgLPCA方法选择功能基因和样本聚类(12]。马尼等人用DNA甲基化数据集群肺癌(13]。你们等人研究了肿瘤集群基于独立分量分析(ICA)和亲和力传播(美联社)14]。基于基因组数据,刘等人采用稳健主成分分析(RPCA)方法研究肿瘤集群(15]。刘等人提出了一个network-assisted coclustering方法识别癌症亚型(16]。这些研究表明,基因表达数据之外,其他TCGA基因组数据也包含癌症集群所需的特征信息,可以用来作为癌症特征源聚类研究。因此,它是合理的认为集成数据由多个基因组数据可以包含更多癌症比单一基因组数据聚类特性,有助于更好地研究癌症集群。但是,不同的基因组,TCGA数据库中的数据来自不同类别的基因组分析,因此有不同的特点。换句话说,这些基因数据是异构的,这使得不同的基因组数据的集成和分析成为一个主要的瓶颈在生物信息学研究17]。因此,大多数癌症的聚类方法是基于单一基因组TCGA数据库中的数据,对基因表达数据更频繁。这可能忽略不同的遗传因素之间的相互作用,这并不有利于检测癌症的发病机理(18]。显然,这些聚类方法不能直接用于TCGA集成数据的综合分析。在这种情况下,如何建立一个有效的聚类算法,TCGA集成数据的综合分析进一步提高癌症集群的可靠性已成为一个迫在眉睫的问题。

近年来,刘等人开发了一种新的矩阵变换方法称为低秩表示(远程雷达)方法(19为子空间分割。远程雷达的方法是基于一个重要假设高维数据近似为未知的低维空间的映射。即高维数据可以从低维空间中恢复过来。在这种假设下,远程雷达旨在找到的最低等级结构表示每个样本通过低秩约束。和基于恢复最低等级的表示矩阵,每个样本分为自己的子空间。在远程雷达,因为全球空间信息的输入数据是利用恢复嵌入在高维数据子空间结构,远程雷达可以有效地拿起底层子空间结构的数据。因此,远程雷达在子空间分割方法取得了良好的性能和经常被应用在许多领域20.- - - - - -26]。众所周知,在现实世界中,高维数据通常驻留在未知的非线性流形。然而,经典的远程雷达的方法忽略了局部结构信息的数据,从而导致损失的固有非线性流形的拓扑特征。

与此同时,在流形学习理论和图论研究的深入,越来越多的研究人员引入图像正则化约束他们的研究算法(27- - - - - -33]。例如,长时间等人提出了一个graph-regularized歧视非负矩阵分解(GDNMF)方法(29日];GDNMF模型中,歧视的信息和局部几何信息进行图像正则化约束,考虑NMF模型。黄等人提出了Hypergraph-based属性预测(HAP)属性学习(31日]。进一步提高分类性能的极端学习机(ELM)、彭等人提出了一个graph-regularized榆树命名为GELM [32]。程等人提出了一个Graph-regularized双重套索方法整合内部的几何结构特征和遗传标记(33]。同样,为了更好地了解数据的拓扑结构,研究人员引入流形学习到远程雷达方法(34- - - - - -38]。例如,为了提高面部表情识别的有效性,王等人提出了一个正规化的低秩表示方法,结合线性子空间学习与数据恢复(34]。殷等人结合远程雷达和图像调整和发展了非负稀疏Hyper-Laplacian-regularized远程雷达(NSHLRR)方法(36]。王等人提出Laplacian-regularized低秩表示(LLRR)来识别不同表达基因(37]。除此之外,这些LRR-based方法结合图像正则化也引起极大的兴趣的生物学家和生物信息学建模用于癌症聚类或分类。氮化镓等人应用潜在的低秩表示获得肿瘤特性聚类(39]。王等人提出Mixed-norm拉普拉斯算子的正则化低秩表示(MLLRR)和应用肿瘤集群(40]。夏等人提出了一个自我训练子空间聚类算法在低秩表示(SSC-LRR)模式下癌症基因表达数据分类(41]。就在最近,王等人使用LLRR方法基于基因表达数据集群癌症样本(42]。虽然这些研究表明这些LRR-based方法和多方面的约束具有良好性能在癌症集群,这些方法的适用性multitype综合数据分析需要进一步研究。

灵感来自远程雷达的成功方法和图形正规化,在这项工作中,我们提出一个新颖的方法称为Block-constraint Laplacian-regularized低秩表示(BLLRR)研究癌症样本聚类。BLLRR方法致力于获得最低等级表示矩阵反映了样本之间的相似性通过TCGA集成数据的综合分析。TCGA考虑到不同类型的数据有不同的特征和噪声,在我们的方法中,我们把每种类型的数据作为一个数据块,对不同类型的数据不同的约束力量。这些不同的参数可以平衡不同基因组数据的噪音。另外,为了保持真实数据的非线性几何关系,图拉普拉斯算子引入基于流形BLLRR。图拉普拉斯算子,也叫图像正则化,可以最大化的光滑非线性流形中的数据通过维护当地的几何关系数据,大大提高的能力BLLRR子空间结构学习方法。我们列出了本文的贡献如下。(1)基于multigenome癌症样本聚类框架数据提出。这将会带来癌症集群研究的分析单基因表达数据的约束。(2)我们开发一种新方法叫做BLLRR TCGA模型集成数据。 In the BLLRR method, we introduce the block-constraint idea to decompose integrated TCGA data. Block-constraint solves the bottleneck problem of heterogeneous data integration and analysis by imposing different constraints on different genome data. Besides, in order to smooth the nonlinear manifold structure of data, graph regularization is introduced into BLLRR. Both graph regularization and block-constraint enable our method to pick up the subspace structures embedded in multigenome data well. (3) In BLLRR, adaptive balance parameters are proposed to balance the noise of different types of data. Namely, the constraint strength of each type of data is constantly adjusted with iteration, which greatly reduces the trouble of parameter selection and makes the model more adaptable. (4) BLLRR model is applied to the clustering of cancer samples, and many experiments of cancer clustering are provided. The experimental results substantiate the feasibility of cancer clustering based on integrated multigenome data and also show that the BLLRR method has remarkable reliability and accuracy in cancer sample clustering.

本文的其余部分组织如下。在方法部分,首先简要回顾经典远程雷达和图拉普拉斯算子2.12.2,然后提出BLLRR方法是复杂的2.3。节2.3。1BLLRR的目标函数。节2.3。2的求解过程BLLRR方法介绍,并给出最优解的迭代公式。节2.3。3分解的模型通过建立BLLRR multigenome数据。另外,在节2.3。4,聚类过程基于最优系数矩阵通过BLLRR介绍。节3介绍了数据集用于实验,癌症样本聚类实验的结果和讨论。节4,我们的结论。

2。方法

2.1。远程雷达

远程雷达是一个表示子空间聚类方法。远程雷达的基本假设是将高维数据来自多个低维子空间,而这些子空间是独立的(19]。所以,高维数据可以被视为在这些低维子空间的映射数据。在此基础上,致力于远程雷达方法计算权重的高维数据的映射。权重矩阵通常被称为系数矩阵或低秩表示矩阵。随着核规范是常用的近似算子,远程雷达产生的问题是解决核规范正规化的凸优化问题。假设高维数据矩阵为代表 ,每个列向量代表一个数据点,远程雷达是制定的问题 在哪里 被称为字典矩阵,可以线性跨越整个低维空间, 被称为相对应的系数矩阵 , 表示核标准, 奇异值的总和吗 , 是一个噪音或干扰项, 表示 - - - - - -规范是一个正规化策略产生稀疏矩阵, 元素的绝对值的总和在吗 , 是一个标量参数。远程雷达分解后的系数矩阵 从高维数据中获得。理想情况下, 是无声的,系数矩阵 稀疏和对称。一般来说,数据矩阵 是选为字典矩阵。因此,远程雷达可以新配方

在这种情况下,系数矩阵 反映了所有样本之间的映射关系。这些映射关系实际上是样本之间的相似性,从而揭示出低维嵌入在高维数据子空间结构。鉴于 ,列向量 表示之间的相似之处 - - - - - -样本和样本。相似的两个样品越多,他们就越有可能来自一个子空间。因此,可以实现基于子空间聚类

2.2。图拉普拉斯算子

众所周知,在现实世界中观察到的高维数据通常位于非线性低维流形。保持数据的局部几何结构为平滑的非线性流形结构非常重要。图拉普拉斯算子,作为一个受欢迎的方法保持嵌入在高维数据的内在结构,提出了一个基本思想叫哈德提出的局部不变性等。43]。假设 是观测数据,每一个列向量的 是一个数据样本。这些数据样本和他们的邻居形成原始观测数据的局部几何结构。在实践中,邻里关系被认为是线性的(44),即。,each data sample from a local geometry can be treated as a linear union of its neighbors. So, the linear representation coefficients between data samples can efficiently characterize the local geometric structures. According to this, we construct a - - - - - -加权图 在这里,每个数据样本作为一个节点,所以图 是用 节点。与此同时,我们定义的重量每条边连接的两个节点图 如下: 在哪里 边的权重值关联节点吗 , 数据样本对应的节点吗 ,分别为, 是一组 - - - - - -最近邻居节点 图中所有边的权值 构成一个矩阵表示为重量 显然,任何两个节点之间的关联图 可以测量矩阵 根据局部不变性的想法,自然在多方面的理论假设是,样本数据的关联关系在输入空间应该保存在一个新的空间。也就是说,如果数据样本相互附近的内在几何观测数据,然后他们的映射输出低维流形也在附近。假设可以通过社区关系。在数学中,可以制定如下的关系: 在哪里 的表示 分别在低维流形。接下来,我们定义一个对角矩阵 与大小 , - - - - - -th对角元素的 被定义为 很显然, 表明总亲和力与样本 ,所以矩阵 通常被称为度矩阵。因此,拉普拉斯算子矩阵(45] 被定义为 不难证明定义的关系(4)可以写成

因为配方(5)可以描述当地的邻接关系图 由边缘权重矩阵 这对节点之间的亲和力,它被称为图拉普拉斯算子。这条规则是必不可少的保护原始数据分布的内在几何结构。

2.3。BLLRR方法
2.3.1。BLLRR的定义

传统的远程雷达(19)方法及其改进算法,如NSHLRR [36],LLRR [37],SSC-LRR [41),通过实施提高算法鲁棒性噪声 - - - - - -规范或 - - - - - -在扰动项规范约束。在这些方法中,所有样本都受到统一的约束力量;因此,这些方法只适用于研究单一类型的数据。对于异构数据,不能直接使用这些方法。然而,在实践中,我们需要获得更多有用的信息通过各种异构数据的综合分析。对于多个异构数据的分析,有两个问题需要考虑。一个是异构数据有不同的特征,因为他们来自不同的实验或环境。另一种是多个异构数据将更复杂的噪声。基于这两个方面,在处理多个异构的数据时,我们引入block-constraint想法。即我们对待每个类别的数据作为一个数据块,和不同的数据块,我们实施不同的约束力量。 Block-constraint can not only balance the noise from different data but also preserve the feature information in the data by following the characteristics of heterogeneous data. In addition, similar to LLRR, to well discover the intrinsic geometrical structure embedding in the high-dimensional space, manifold constraint is also introduced into the algorithm. So, the optimization problem is formulated as follows: 在哪里 是一组输入数据矩阵的多类数据,在哪里 数据的类别和数量吗 - - - - - -类别数据。因此, 是噪声矩阵,具体而言, 噪声信号对吗 是惩罚参数。 是权重参数平衡不同类别的噪声项。在(6),远程雷达方法结合图拉普拉斯算子和block-constraint,所以称为block-constraint拉普拉斯算子的正则化低秩表示方法。显然,当 ,BLLRR模型退化到LLRR模型的目标函数如下:

2.3.2。优化BLLRR

为了恢复数据从低秩表示,已研制出许多算法(46- - - - - -48]。特别,ADM与线性化自适应惩罚(LADMAP) [48是一种更有效的算法。摘要LADMAP也应用到解决问题(6)。

首先,一个辅助变量 介绍了使问题(6)分离。因此,方程(6)可以转化为如下优化问题:

然后,我们把线性约束(8)通过引入增广拉格朗日公式。因此,优化问题(8)可以转化为以下: 在哪里 拉格朗日因子, 是一个惩罚参数,可以自适应地调整, 弗罗贝尼乌斯矩阵范数,值吗 是所有元素的平方和矩阵

最后,为了优化变量 , , 通过交替更新,原优化问题分为三个子问题:

(1)的计算 固定 ,的迭代公式 可以通过求解子问题(10)。

首先,我们定义了一个二次项如下:

然后,子问题(10)改写为如下目标函数: 在哪里 ,

最后的解决方案 是由 在哪里 是一个操作符的奇异值阈值(49), 被定义为 ,在这 是一个阈值, 是一个收缩算子, 被定义为 ,在哪里 是一个象征性的算子。

(2)的计算 固定其他变量的当前值,迭代公式 可以通过求解子问题(11)。的解决方案 是由 在哪里 是软收缩和操作员 被定义为

(3)计算 同样的,固定的 ,的迭代公式 可以通过求解子问题(12)。根据引理1 (50经营者),求解子问题(12)表示为 所以,解决 如下:

在这里, - - - - - -th子矩阵的 并表示对应的噪声信号 , - - - - - -th子矩阵的 表示相应的块的阈值。

的迭代公式 , , 如下: 在哪里

的主要过程BLLRR算法所示1

输入:观测矩阵 ,拉普拉斯算子的矩阵
参数
输出:
最初的:
循环,直到收敛
更新 (15)
更新 (16)
更新 (17)
更新 (18)
更新 (19)
更新 (20.)
结束循环
2.3.3。TCGA的BLLRR模型集成数据

虽然人们一直在研究癌症集群基于基因表达许多年来,它已经越来越认识到DNA拷贝数变异和DNA甲基化在癌症的理解和集群研究也起到重要的作用[51- - - - - -54]。此外,如前所述,TCGA数据集可以提供各种各样的基因组数据为每个样本,可以研究癌症基于多种生物过程。因此,我们整合这些不同的癌症基因组学数据作为综合特性来源研究集群。图1显示了一个示意图multiassay基因组数据。在图1、mRNA表达、DNA拷贝数和DNA甲基化TCGA代表不同的基因组分析数据,在每一行代表一个功能从某种类型的基因组数据,而每一列代表一个样本。因此,集成数据,每个样本包含的所有功能基因组数据的三个类别。

现在,我们专注于集成multigenome数据。在我们的综合数据,有三种不同类型的基因组数据。和每个类别的数据被认为是一个数据块。因为不同的数据块的异质性,在BLLRR方法中,我们对每个数据块不同的限制,称为block-constraint。BLLRR分解后的系数矩阵 ,它反映了样本之间的相似性,。不难理解,样品具有高相似度可以被视为位于相同的子空间。因此,基于 ,样品可以聚集。BLLRR分解的示意图描述集成multigenome数据如图所示2。在这个图中, multigenome数据矩阵, 是低秩表示矩阵, 是噪声矩阵,然后呢 上的约束强度吗 - - - - - -类别数据。

如图2,观测数据分解为两个部分:一个是低秩矩阵,另一个是噪声矩阵。当然,适当的约束力量,即。规模参数 ,是增强鲁棒性的关键BLLRR和获得准确的样本之间的相似性模式。由于不同的约束条件对不同类型的数据块,很难调优参数 遵循传统的方法的参数调优。此外,由于不同类型的数据有不同的声音,有理由认为某种类型的数据的噪声只与此相关的数据。因此,我们提出一个新的想法被称为参数自律来设置这些参数 为不同的数据块。具体来说,参数调整的迭代过程。类别的 ,的参数 设置如下: 在哪里 的约束强度 - - - - - -功能类别 如前所述, 是一个中间矩阵迭代过程中生成的,和它有相同的数据维度和相应的数据块的关系 所以, 矩阵对应的类别吗 , 表示 - - - - - -特征向量。我们可以看到从公式(21),在BLLRR方法中,我们对每个特性不同的约束向量平衡噪声项不同类别的数据。和每个特征向量计算的约束强度的比率F-norm F-norm的数据块的特征向量矩阵的特征所在。BLLRR算法的迭代过程中, 不断更新,所以每个类型的数据的约束强度也不断调整迭代。

2.3.4。集群与BLLRR

正如前面所讨论的,系数矩阵 BLLRR分解后获得反映样本之间的相似之处。根据 ,样品相似度高的聚集成一个类。然而,现实世界的观测数据不可避免地吵闹,所以 通常是既不稀疏,也不对称。使用前 实现聚类,我们需要做一些处理 提高聚类的准确性,提高集群的可解释性。首先, 由行和归一化适当的阈值下缩水 很小,接近于零。上述治疗后, 成为一个稀疏矩阵 即,每个样本类似于只有少数其他样品,这是集群的关键问题。接下来,我们构造一个亲和图使用所有的样品。基于 ,我们定义一个关联矩阵 表示样本之间的相似关联图。在 ,这两个元素 表示样本的亲和力 ,所以 等于 , 是一个对称矩阵。因此,关联矩阵 被定义为 到目前为止,基于关联矩阵,样本聚类问题可以被视为一个图表部分的问题。经过上述两个步骤的处理,关联矩阵变得稀疏,对称的。然而,亲和矩阵没有集群和所需的块结构不能直接获得样本的聚类结果。最后,一个经典的谱聚类方法K则采用获得的最终聚类标签样本的基础上

的主要聚类过程BLLRR算法所示2

输入:观测数据 ,聚类数目
输出:
(1) 得到的系数矩阵 的问题(8使用BLLRR方法)。
(2) 正常化 由行
(3) 缩小 稀疏矩阵 通过
(4) 计算矩阵的对称的亲缘关系
(5) 采用K——集群的每个样本基础上的标签

3所示。实验结果和讨论

首先,原始数据集从TCGA及其集成数据集介绍了实验。然后,基于实验数据集,我们开展癌症样本聚类实验来测试我们的方法的有效性。此外,为了进一步证明BLLRR的性能,我们选择K则,GNMF [27],gLPCA [55),远程雷达(19],LLRR [37比较方法在我们的实验。在下一节中,我们给出实验结果并讨论详细BLLRR方法的聚类性能。

3.1。数据集

TCGA的基因组数据用于我们的实验。在这里,我们下载三个公开发表的癌症数据集:结肠腺癌(COAD)数据集,食道癌(光电子能谱)的数据集,和头部和颈部癌症(HNSC)数据集。每个数据集包含两种类型的样品标签。一个是正常的,另一种是肿瘤。在COAD数据集,有262个肿瘤样本和19个正常样本。光电子能谱数据集,有183个肿瘤样本和9正常样本。HNSC数据集,有20 398个肿瘤样本和正常样本。因此,样品的三个数据集的总数是281,192和418年,分别。此外,基因组数据的每个数据集包括三类:DNA拷贝数变异,信使rna表达水平和DNA甲基化。同时,在这三个数据集,每个样本相同类别的基因组数据包含相同数量的基因。 Specifically, in DNA copy number data, one sample contains 23,627 genes. In mRNA expression data, one sample contains 20,502 genes. And in DNA methylation data, one sample contains 21,031 genes.

如前所述,除了mRNA表达数据,DNA拷贝数数据和DNA甲基化在癌症集群研究数据也发挥着重要的作用。根据图1,我们将三种类型的癌症基因组数据从每个数据集到multigenome数据样本聚类。相对应的三个集成数据COInteg COAD数据集,ESInteg相应的能谱数据集,HNInteg HNSC对应数据集。因此,COInteg包含281个样本,每个样本都包含65160个基因,ESInteg包含192个样本,每个样本都包含65160个基因,并且HNInteg包含418个样本,每个样本包含了65160个基因。

3.2。聚类性能的评价指标

在聚类的研究中,评价是一个必要的工作。许多指标设计,对聚类算法的性能进行评估,如精度(AC)、真阳性率(TPR),假阳性率(玻璃钢),接受者操作特征(ROC)曲线,精密,F1-measure。在本文中,我们使用AC, TPR,玻璃钢评估BLLRR算法的聚类性能。接下来,我们将介绍他们简洁。

3.2.1之上。交流

对于一个给定的数据集,样本正确集群的数量比样品的总数被定义为AC (56]。在实践中,交流是通过比较聚类计算标签和真正的标签样本。交流的数学定义如下: 在哪里 样品的总数量是包含在每个实验数据集, 是样本的聚类标签吗 由聚类算法, 是真正的标签样品吗 , 是一个函数,比较聚类与它真正的标签和标签的样本得到的结果比较。如果聚类标签符合真正的标签,函数值是1;否则,该值为0。和 匹配的是一个映射函数聚类标签的样本其真正的标签以方便标签比较。Kuhn-Munkres方法(57),可以实现最佳匹配。

3.2.2。TPR和玻璃钢

TPR和玻璃钢,共同的标准被广泛用于评估聚类质量,都是基于混淆矩阵的计算。所以,让我们先简要介绍混淆矩阵。混淆矩阵,也被称为误差矩阵,是评价的标准格式。模糊矩阵是一个二维矩阵。每一行代表一个实际的类,每一列表示一个预测类。混淆矩阵的一个简单的案例与两类表所示1。一般来说,在这两个类中,我们关心的是被指定为一个正类,另一个是负类。在这个表中,真阳性(TP)表示正类样本的数量正确聚集到积极的类。真阴性(TN)表示的数量负类样本正确聚集成负类。假阳性(FP)表示负类样本的数量错误聚集到积极的类。假阴性(FN)的数量意味着正类样本错误聚集到负类。TPR和玻璃钢定义如下:


指定的类
积极的

实际的类 积极的 TP FN
《外交政策》 TN

TPR的计算公式和玻璃钢,我们可以看到,TPR代表样本的数量的比例正确聚集到正类样本总数的积极类,和玻璃钢代表样本的数量的比例错误聚集到积极类的总数负类样本。

3.2.3。实验结果

在本节中,根据实验数据集,执行许多样本聚类实验充分证明我们的方法的性能。

首先,我们运用LLRR集群癌症样本基于DNA拷贝数变异,信使rna表达水平,DNA甲基化和集成数据。如前所述,当BLLRR方法应用于单基因数据,BLLRR模型相当于LLRR模型。集群的精度如表所示2。在表2、DNA拷贝数变异用CN,信使rna表达水平是用通用电气,DNA甲基化是用我。最好的结果是在每个数据集以粗体显示。


数据集 COAD 光电子能谱 HNSC
CN 通用电气 COInteg CN 通用电气 ESInteg CN 通用电气 HNInteg

LLRR 92.88 95.35 94.19 95.04 94.79 96.51 94.79 96.39 94.98 96.28 97.22 96.31

从表2,我们可以看到每一个基因组数据的聚类精度从我们三个实验数据集是超过92%。这表明每个基因组的三类癌症样本聚类数据包含有用的信息。接下来,我们比较了每个数据集的聚类结果在不同基因组数据。表2表明,COAD数据集和能谱数据集,对通用数据聚类精度是最好的,分别达到了95.35%和96.51%。HNSC数据集,数据聚类精度对我是最好的,达到了97.22%。这种比较进一步表明,除了通用数据,CN数据和我的数据也可以作为源数据特点研究癌症的聚类样本。最后,为每个数据集,我们比较聚类精度综合multigenome数据单基因组数据。不难看到,在所有三个数据集,集成数据的聚类效果比最好的集群效应实现单一基因组数据。这一结果的根本原因是LLRR方法忽略了不同的基因组数据的异构性和对综合multigenome相同的约束强度数据。所以,当LLRR用于分解multigenome数据,不同的基因组数据的噪声和特征信息不能加工。显然,LLRR模型只适用于单一基因组数据而不是multigenome数据。总结上述分析,我们得出以下两个结论:(1)DNA拷贝数变异,信使rna表达水平数据,和DNA甲基化具有重要意义癌症样本的聚类,所以它是合理的将它们集成到multigenome癌症样本聚类的数据。(2)在处理集成multigenome数据时,必须充分考虑数据的异质性。

其次,为了测试集群基于multigenome BLLRR方法的性能数据,癌症样本聚类实验是进行三个集成multigenome数据。作为比较的方法,K则,GNMF gLPCA、远程雷达和LLRR也用于集群癌症样本。此外,为了实验结果的可比性,我们统一使用K则算法得到最终的聚类结果,GNMF gLPCA,远程雷达,LLRR,就像BLLRR方法。我们都知道,因为K将随机选择集群则为每个聚类中心,当集群K则,有一个小的差异在每个聚类的结果。为了减少这种差异的影响实验结果的评价,在我们的实验中,我们以30聚类结果的平均值为最终结果。具体,GNMF gLPCA,远程雷达,LLRR BLLRR,首先,我们分解聚类的实验数据,得到一个矩阵。然后,我们使用K——集群重复30次得到矩阵的基础上,以30倍的均值聚类精度为最终的聚类结果。表3给出了每种方法的聚类精度multigenome详细数据。同样的,对于每一个数据集,最好的结果就是以粗体显示。


Multigenome数据 K GNMF gLPCA 远程雷达 LLRR BLLRR

COInteg 86.99 81.85 93.70 93.59 95.04 98.56
ESInteg 96.35 96.35 94.80 95.83 96.39 96.88
HNInteg 82.34 84.99 86.82 94.98 96.31 97.58

这些方法用于比较,远程雷达和LLRR LRR-based聚类方法;K则,GNMF gLPCA是传统的方法。首先,我们可以看到从表3的聚类精度远程雷达和LLRR高于三种传统方法。这得益于成功的学习LRR-based子空间结构嵌入数据的方法,它反映了集群的子空间结构研究的重要性。其次,比较远程雷达和LLRR,我们可以看到LLRR的集群性能优于远程雷达。这是由于LLRR图正则化项的引入方法。正如前面介绍的,图正规化可以保留数据的几何关系而且光滑非线性流形。因此,LLRR具有更好的学习能力比远程雷达子空间结构。第三,我们比较BLLRR LLRR。很明显,在每个集成数据,聚类的准确性高于LLRR BLLRR。LLRR和BLLRR基本聚类思想是一致的。此外,在这两种算法,图拉普拉斯算子的引入帮助更好的获取数据的子空间结构。 The main difference between the two methods is that when decomposing multigenome data, the idea of block-constraint is introduced into the BLLRR method. In the BLLRR method, each category of genome data contained in the integrated data is regarded as a data block, and different constraints are imposed on different data blocks. Because block-constraint considers the peculiarities of different genome data in multigenome data, it can improve the robustness of BLLRR to complex noise from multigenome data and protect the feature information of each genome data well. However, in the LLRR method, the integrated multigenome data are regarded as single genome data and imposed on a uniform constraint strength, which ignores the peculiarities of different types of data. So, BLLRR can deal with multiple heterogeneous data more effectively than LLRR. Finally, comparing the results of BLLRR shown in Table3结果LLRR基于单一基因组数据表所示2,我们可以看到,在所有三个数据集,BLLRR multigenome数据的聚类结果比LLRR单一基因组数据的最佳效果。这表明multigenome数据含有更多的子空间结构比单一基因组数据和信息可以作为癌症研究源综合特性。同时,再次说明BLLRR能够挖掘更多有用的子空间信息从多个基因组数据样本聚类。基于上述分析,我们可以得出这样的结论:BLLRR方法内在的子空间结构具有强大的学习能力在多个异构数据和集群能够有效癌症样本通过分解多个基因组数据。

现在,我们想进一步解释参数的重要性 和我们设置的合理性 首先,我们可以看到从公式(21),我们设置相应的参数 根据不同的基因组数据的整体表达水平,这有助于建立适当的约束为每个基因组数据和不同的表达水平。此外, 将持续更新迭代。因此,参数 将有助于更好地处理复杂的噪音在multigenomic数据。然后,我们比较的实验结果BLLRR法和LLRR法来说明参数的合理性 正如前面所讨论的,当一个统一的约束力量是应用于多个基因组数据,BLLRR滑向LLRR。的比较分析表23,我们可以得到以下两个点。之一是,multigenomic LLRR方法,聚类结果数据都不如单一基因组数据。这表明这不是可行的实施统一约束multigenomic数据处理不同的噪音水平。第二,BLLRR方法,其聚类结果multigenomic数据优于单一基因组数据。这证明参数 能有效平衡复杂的噪音在不同基因组数据。总结上述分析,公式和实验结果表明,该参数 获得BLLRR是合理和有效的。

然而,我们实验的样本数据集非常不平衡,也就是说,有更多的肿瘤样本和正常样本的减少。样本不平衡是生物信息学领域的一个常见问题。为了表明样本不平衡的程度,对于每个集成数据,我们计算两种类型的样本的比例,如表所示4。在表4, 表示数量的肿瘤样本和正常样本的数量,分别。所以, 表示肿瘤样本的比例正常样本,和 表示正常样本的肿瘤样本的比例。在这种情况下,正常的样本被大量的肿瘤样本,这是不利于正常样本的聚类。


Multigenome数据

COInteg 262年 19 13.79 0.07
ESInteg 183年 9 20.33 0.05
HNInteg 398年 20. 19.90 0.05

最后,鉴于这种情况,我们利用TPR和玻璃钢评价措施,研究样本的每个类的聚类效果。在癌症集群研究中,研究者往往更多关注疾病样本,即癌症样本或肿瘤样本。因此,我们认为癌症样本正样本和正常样本负样本。TPR和玻璃钢multigenome所有数据记录在表上5。根据TPR的定义,TPR的价值越大,癌症样本的聚类效果越好。和玻璃钢,玻璃钢的值越小,正常样本的聚类效果越好。所以,在表5为每个数据,TPR的最大值和最小值的玻璃钢在大胆的说。为便于比较,我们也使用直方图来说明结果如图34


Multigenome数据 指标 K GNMF gLPCA 远程雷达 LLRR BLLRR

COInteg TPR 88.80 88.79 98.15 100.00 98.89 99.92
玻璃钢 38.00 One hundred. 48.84 94.74 67.19 24.21

ESInteg TPR 99.45 99.45 98.61 100.00 99.11 99.45
玻璃钢 66.67 66.67 78.22 88.89 66.30 55.56

HNInteg TPR 85.03 88.21 93.37 99.75 99.46 99.44
玻璃钢 71.00 79.00 86.00 100.00 67.00 34.33

在我们的数据,因为正类样本远远超过负类样本,在以下描述,正类样本也称为多数类样本和负类样本也称为少数类样本。从图3,我们可以发现各种方法的PTR值通常在所有三个数据,特别是在ESInteg, PTR超过99%的平均值。此外,从图可以看出4,大多数玻璃钢值超过60%。特别是,从表5我们也看到,GNMF的玻璃钢值COInteg和远程雷达HNInteg是100%。这些结果表明,样本分布的极端不平衡有利于多数类样本的聚类,但它是一个巨大的挑战,少数类样本的聚类。为了演示BLLRR的集群性能为少数类样本,我们比较远程雷达,LLRR, BLLRR。首先,我们可以看到从表5为远程雷达,TPR和玻璃钢是最高的价值在每个数据。这表明远程雷达方法敏感学习子空间时极其不平衡的数据集。极其不平衡的数据集时,远程雷达方法只能学好多数类样本的子空间结构但不能学好少数类样本的子空间结构。远程雷达是不适合的子空间聚类的研究极其不平衡样本。其次,我们可以看到从图4与远程雷达相比,LLRR提高少数类样本的聚类性能。这进一步表明,图正则化有助于更好的学习子空间信息保存当地在高维数据几何结构,具有重要意义的少数类样本的聚类。最后,我们比较BLLRR LLRR。我们可以看到从图4,每个数据的玻璃钢价值BLLRR方法远低于LLRR的方法和所有的比较方法是最小的。这表明block-constraint有利于从multigenome数据提取更丰富的结构信息,从而避免损失的少数类样本的内在子空间结构多方面的学习。此外,这个实验结果也证明的有效性BLLRR极其不平衡的数据样本的聚类方法。总之,BLLRR可以有效地学习子空间结构嵌入multigenome数据以便BLLRR仍然可以集群每个类样本有效即使样品都极其不平衡。

4所示。结论

在本文中,我们提出一个新颖的方法称为BLLRR TCGA分析集成数据。BLLRR模型,图拉普拉斯算子的引入使BLLRR方法尊重当地的几何关系的数据更好的学习多方面的结构。此外,为了更好地处理异构数据,block-constraint介绍的概念,这使得BLLRR方便实施不同的约束强度在不同的数据块。因为block-constraint可以平衡复杂的多级噪声数据和更好的保护每个类的有用的特征信息的数据,我们的方法是主管学习多个异构数据的子空间结构。然后,我们应用BLLRR癌症样本聚类方法基于multigenome数据。首先,综合multigenome BLLRR分解的数据,和一个系数矩阵。其次,我们构造关联矩阵来表示样本基于系数矩阵之间的亲和力。最后,我们作为样本聚类图像分割的问题和使用K——实现癌症样本聚类。实验结果表明,我们的方法具有显著的子空间学习能力。尤其是对少数类样本极其不平衡的数据集,BLLRR方法的聚类性能明显优于其他方法。所以,BLLRR multigenome数据的方法是一种有效和可靠的方法分析。在未来,我们将继续努力,TCGA数据的综合分析。

数据可用性

数据集支持这项工作的结果是可用的https://cancergenome.nih.gov/

的利益冲突

作者宣称没有利益冲突。

确认

这部分工作是支持国家自然科学基金委批准号。61872220和61872220下。

引用

  1. k·a·克罗宁a . j .湖,s . Scott et al .,“年度报告的国家癌症的状态,第一部分:国家癌症统计数据,”癌症,卷124,不。13日,2785 - 2800年,2018页。视图:出版商的网站|谷歌学术搜索
  2. 是什么癌症?https://www.cancer.gov/about - cancer/understanding/what -癌症- 2019
  3. r·p·Woychik m . l . Klebig m . j .正义,t·r·Magnuson和e·d·avr的“后基因组时代,的功能基因组学”突变/基本和诱变的分子机制的研究,卷400,不。1 - 2,3 - 14,1998页。视图:出版商的网站|谷歌学术搜索
  4. c . k . Sarmah美国萨马拉辛哈,“微阵列基因表达:研究与站台Affymetrix cDNA数组,协会”计算机在生物学和医学第41卷。。10日,980 - 986年,2011页。视图:出版商的网站|谷歌学术搜索
  5. m·j·海勒“DNA微阵列技术:设备、系统和应用程序,”生物医学工程的年度审查,4卷,不。1,第153 - 129页,2002。视图:出版商的网站|谷歌学术搜索
  6. a . Mortazavi b·a·威廉姆斯k .麦丘l·谢弗和荒原,“映射和量化RNA-seq哺乳动物的转录组,”自然方法,5卷,不。7,621 - 628页。视图:出版商的网站|谷歌学术搜索
  7. 癌症基因组图谱计划,https://www.cancer.gov/about - nci/organization/ccg/research/structural genomics/tcga - 2019
  8. z Yu, h . s . Wong和h .王图建立共识从基因表达数据聚类类发现英国牛津,牛津大学出版社,2007年。
  9. 学术界。郑,D.-S。黄,l·张,X.-Z。香港,“肿瘤集群使用非负矩阵分解与基因选择,”IEEE在生物医学信息技术,13卷,不。4、599 - 607年,2009页。视图:出版商的网站|谷歌学术搜索
  10. j . J.-Y。王,王x, x高”,非负矩阵分解通过最大化correntropy癌症;集群、”BMC生物信息学,14卷,不。1,p。107年,2013。视图:出版商的网站|谷歌学术搜索
  11. X.-Z。香港,J.-X。刘,学术界。郑,M.-X。侯,j . Wang“健壮和高效的肿瘤生物分子聚类on-norm奇异值分解为基础,“IEEE生物科学,16卷,不。5,341 - 348年,2017页。视图:出版商的网站|谷歌学术搜索
  12. C.-M。冯,杨绍明。关铭高,J.-X。刘,学术界。郑,j . Yu”PCA基于图拉普拉斯算子的正则化和P-norm基因选择和集群、”IEEE生物科学,16卷,不。4、257 - 265年,2017页。视图:出版商的网站|谷歌学术搜索
  13. a·k·马尼j·a·祖文萃k·d·Siegmund et al .,“分层聚类的肺癌细胞系使用DNA甲基化标记,”癌症流行病学,生物标记与预防》:美国癌症研究协会出版的儿童预防肿瘤的美国社会,11卷,不。3、291 - 297年,2002页。视图:谷歌学术搜索
  14. f .你们j . f .夏y . w . Chong y,和c h .郑”肿瘤集群使用独立分量分析和自适应亲和力传播,”国际会议智能计算的程序页,34-40太原,中国,2014年8月。视图:谷歌学术搜索
  15. J.-X。刘、徐y学术界。郑,h .香港,Z.-H。赖,“RPCA-based肿瘤分类使用基因表达数据,”IEEE / ACM事务计算生物学和生物信息学,12卷,不。4、964 - 970年,2015页。视图:出版商的网站|谷歌学术搜索
  16. 顾,y . Liu j.p.侯,j .汉和j·马,”一个network-assisted co-clustering算法来发现癌症亚型基因表达的基础上,“BMC生物信息学,15卷,不。1,37页,2014年。视图:出版商的网站|谷歌学术搜索
  17. 第二,j·韦斯顿、美国威尔和诉Vapnik,“癌症基因选择使用支持向量机分类,“机器学习,46卷,不。1/3,389 - 422年,2002页。视图:出版商的网站|谷歌学术搜索
  18. 问:张、j . e . Burdette和j.p.王”卵巢癌TCGA综合网络分析的数据,”Bmc系统生物学,8卷,不。1,p。1338年,2014。视图:出版商的网站|谷歌学术搜索
  19. 林z . g . Liu,燕,j .太阳和马y, y Yu”强劲复苏的子空间结构低秩表示,“IEEE模式分析与机器智能,35卷,不。1,第184 - 171页,2013。视图:出版商的网站|谷歌学术搜索
  20. x周、杨c和w . Yu”移动物体检测连续的异常值检测的低秩表示,“IEEE模式分析与机器智能,35卷,第610 - 597页,2013年。视图:谷歌学术搜索
  21. h . Chang“学习歧视低秩表示图像分类,”国际神经网络联合会议学报》上,第318 - 313页,北京,中国,2014年7月。视图:谷歌学术搜索
  22. 徐h . g . Liu, s .严”的子空间分割和孤立点检测的低秩表示,“数学》16卷,第421 - 409页,2014年。视图:谷歌学术搜索
  23. 问:什么,n . m . Nasrabadi和t . d . Tran“丰度估计为双线性混合模型通过联合稀疏低秩表示,“IEEE地球科学和遥感52卷,第4423 - 4404页,2014年。视图:谷歌学术搜索
  24. j·陈和j·杨,健壮的子空间分割通过低秩表示,“IEEE控制论,44卷,不。8,1432 - 1445年,2014页。视图:出版商的网站|谷歌学术搜索
  25. n张和j·杨,“基于低秩表示有识别力的健壮的特征提取,预估”Neurocomputing卷。111年,13-20,2013页。视图:出版商的网站|谷歌学术搜索
  26. j .冯z林、徐h .和美国,“健壮的子空间分割与block-diagonal之前,”《IEEE计算机视觉与模式识别会议哥伦布,页3818 - 3825年,哦,美国,2014年6月。视图:谷歌学术搜索
  27. d . Cai x, j·汉,t . s .黄”图正规化的非负矩阵分解为数据表示,“IEEE模式分析与机器智能,33卷,不。33岁,1548 - 1560年,2011页。视图:出版商的网站|谷歌学术搜索
  28. m .郑j·布鲁里溃疡,c . Chen等人“图正规化稀疏编码的图像表示,“IEEE图像处理,20卷,不。5,1327 - 1336年,2011页。视图:出版商的网站|谷歌学术搜索
  29. 彭长x, h . Lu, y, w·李,“图正规化歧视非负矩阵分解的人脸识别,”多媒体工具和应用程序,卷72,不。3、2679 - 2699年,2014页。视图:出版商的网站|谷歌学术搜索
  30. i Almasri j . y . Wang, x高,“自适应图像正则化非负矩阵分解通过特征选择,”模式识别国际会议的程序筑波,页963 - 966年,日本,2012年11月。视图:谷歌学术搜索
  31. 黄,m . Elhoseiny a . Elgammal d·杨,“学习Hypergraph-Regularized属性预测”《IEEE计算机视觉与模式识别会议(CVPR),25卷,页409 - 417,波士顿,MA,美国,2015年6月。视图:谷歌学术搜索
  32. s . Wang y Peng x长,B.-L。陆”,歧视图正规化极端学习机和人脸识别的应用程序,“Neurocomputing卷,149年,第353 - 340页,2015年。视图:出版商的网站|谷歌学术搜索
  33. 郭w . Cheng x, z, y,和w·王,“健壮eQTL映射Graph-regularized双重套索,”生物信息学,30卷,不。12日,pp. i139-i148, 2014年。视图:出版商的网站|谷歌学术搜索
  34. 问:阮z . Wang, g, y,”一个正规化的面部表情识别、低秩表示模型”《IEEE国际会议上信号处理,页1072 - 1076,伦敦,英国,2017年8月。视图:谷歌学术搜索
  35. 王x, y, y元,“Graph-regularized destriping高光谱图像低秩表示,“IEEE地球科学和遥感,51卷,不。7,4009 - 4018年,2013页。视图:出版商的网站|谷歌学术搜索
  36. m .阴,j·高和z林,“拉普拉斯算子正规化低秩表示及其应用,”IEEE模式分析与机器智能,38卷,不。3、504 - 517年,2016页。视图:出版商的网站|谷歌学术搜索
  37. y。王,J.-X。刘,杨绍明。关铭高,学术界。郑,J.-L。商,“差异表达基因选择通过拉普拉斯算子的正则化低秩表示方法,”计算生物学和化学卷,65年,第192 - 185页,2016年。视图:出版商的网站|谷歌学术搜索
  38. 马马Du, y, y,”图正规化紧凑低秩表示子空间聚类,“以知识为基础的系统卷。118年,56 - 69,2016页。视图:出版商的网站|谷歌学术搜索
  39. 甘b, c·h·郑j . Zhang和h .问:王,“稀疏表示基于特征提取的肿瘤分类使用潜在的低秩表示,“生物医学研究的国际ID 420856条,卷。2014年,7页,2014。视图:出版商的网站|谷歌学术搜索
  40. c·h·j·j . Wang x Liu郑,y . x, x z,和c·g·翁”一个mixed-norm拉普拉斯算子的正则化低秩表示肿瘤样本聚类的方法,”IEEE / ACM交易计算生物学和生物信息学,16卷,不。1,第182 - 172页,2017。视图:出版商的网站|谷歌学术搜索
  41. c .问:夏k .汉,y, y,和d . j .,”一个自我训练子空间聚类算法在低秩表示癌症基因表达数据分类”IEEE / ACM交易计算生物学和生物信息学,15卷,不。4、1315 - 1324年,2017页。视图:出版商的网站|谷歌学术搜索
  42. j . Wang J.-X。刘,X.-Z。香港,s。元,L.-Y。戴,“拉普拉斯算子的正则化低秩表示癌症样本聚类,“计算生物学和化学卷,78年,第509 - 504页,2018年。视图:出版商的网站|谷歌学术搜索
  43. r·哈德美国Chopra, y Lecun(“通过学习一个不变的降维映射”《IEEE计算机学会学报计算机视觉与模式识别会议,页1735 - 1742,纽约,纽约,美国,2006年6月。视图:谷歌学术搜索
  44. m·贝尔金和p .他拉普拉斯算子Eigenmaps维数降低及数据表示美国马剑桥,麻省理工学院出版社,2003年。
  45. r·k·c .风扇谱图理论美国国际扶轮,美国数学学会,普罗维登斯,1997年。
  46. m .道和x元,“恢复矩阵的低秩和稀疏成分不完整和嘈杂的观察,“暹罗杂志上优化,21卷,不。1,57 - 81,2011页。视图:出版商的网站|谷歌学术搜索
  47. j . x和杨元,“线性化增广拉格朗日和交替方向方法核范数最小化”数学的计算,卷82,不。281年,第329 - 301页,2012年。视图:出版商的网站|谷歌学术搜索
  48. z z林、刘r和苏,“线性交替方向法与自适应惩罚低秩表示,“先进的神经信息处理系统美国纽约伊萨卡康奈尔大学,2011。视图:谷歌学术搜索
  49. j·f·蔡、e . j .萤石和z沈,“矩阵的奇异值的阈值算法完成。”暹罗杂志上优化,20卷,第1982 - 1956页,2008年。视图:谷歌学术搜索
  50. g . Tang和a . Nehorai“稳健主成分分析基于低秩和block-sparse矩阵分解,”学报》第45届会议信息科学和系统美国,普林斯顿,纽约,2011年5月。视图:谷歌学术搜索
  51. j·r·波拉克c . m . Perou Aa et al .,“全基因组分析DNA的人类基因组变化使用互补脱氧核糖核酸微阵列,”自然遗传学,23卷,不。1,41-46,1999页。视图:出版商的网站|谷歌学术搜索
  52. p . Marttinen s Myllykangas, j . Corander“贝叶斯聚类和特征选择对癌症组织样本,”BMC生物信息学,10卷,不。1,p。90年,2009。视图:出版商的网站|谷歌学术搜索
  53. f·瓦特和p·l·莫雷”DNA胞嘧啶甲基化阻止绑定所需的海拉细胞转录因子的最佳表达腺病毒主要晚期启动子,“基因与发展,卷2,不。9日,第1143 - 1136页,1988年。视图:出版商的网站|谷歌学术搜索
  54. 男孩和a .鸟,“DNA甲基化抑制转录间接通过methyl-CpG结合蛋白,”细胞,卷64,不。6,1123 - 1134年,1991页。视图:出版商的网站|谷歌学术搜索
  55. j . Bo c .丁、b·罗和t·金“Graph-laplacian PCA:封闭的解和健壮性,”《IEEE计算机视觉与模式识别会议2013年6月美国波特兰,OE。视图:谷歌学术搜索
  56. w·徐、刘x和y锣,“基于非负矩阵分解文档聚类,”《国际市立图书馆会议在信息检索的研究与开发加拿大多伦多,页267 - 273,,2003年8月。视图:谷歌学术搜索
  57. l . Lovasz和m·d·普卢默”匹配理论”,1986年《离散数学1986年,卷。29日。视图:谷歌学术搜索

版权©2020王胡安et al。这是一个开放分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。


更多相关文章

PDF 下载引用 引用
下载其他格式更多的
订单打印副本订单
的观点266年
下载549年
引用

相关文章

文章奖:2020年杰出的研究贡献,选择由我们的首席编辑。获奖的文章阅读