文摘

这是一个至关重要的任务来设计一个集成的方法来发现癌症亚型和理解癌症的异质性基于多个基因组数据。近年来,一些聚类算法被提出并应用于癌症亚型的预测。其中,相似性网络融合(SNF)可以集成多种类型的基因组数据,以确定癌症亚型,这提高了肿瘤发生的理解。SNF使用密集的相似矩阵来获取数据的全球信息,以及不同类别之间的互连的样本会导致噪声干扰。因此,如何构建一个更健壮的密度相似矩阵是一个重要的研究内容,来改善癌症亚型识别的性能。在本文中,我们提出了相似性网络融合基于随机游走和相对熵(R2SNF)对癌症亚型的预测。首先,随机游走算法被用来捕获每个基因组数据样本之间的复杂关系。和样品的跃迁概率分布网络。如果两个样本属于同一类,两个样品之间的转移概率是伟大的。相反,如果两个样品不属于同一类,两个样品之间的跃迁概率很小。通过这种方式,之间的相关程度,样本可以获得,从而减少噪声干扰引起的互连不同类别之间的样本。其次,相对熵是用来计算样本之间的转移概率分布的差异构建一个更好的密度相似矩阵包含结构样本之间相似度信息。第三,我们反复融合资讯的获得致密的相似矩阵相似矩阵构建融合相似矩阵的所有基因组数据。最后,利用谱聚类融合相似矩阵分为多个集群,这表明癌症亚型。七个癌症组学数据集实验表明,R2SNF算法表现良好在识别癌症亚型。

1。介绍

高通量技术的迅速发展,大量的基因组数据生成,包括基因表达数据,DNA甲基化数据和DNA拷贝数变异的数据。特别是,癌症基因组图谱(TCGA) [1)数据库研究不同的基因组、转录组、表观基因组信息的1100多名患者超过34癌症类型。癌症研究这些数据带来了前所未有的机遇,如驱动基因选择(2)和癌症亚型预测,因此癌症可以更彻底地控制和全面。

各种类型的基因组数据与癌症的发生和发展密切相关。一般来说,细胞生长和分化是由基因表达水平和基因表达水平的变化将导致从正常细胞转变为癌细胞(3]。基因单核苷酸多态性和基因影响基因的拷贝数变化不稳定,通过基因扩增或癌症抑制癌基因激活(4]。DNA甲基化在癌症基因组表观遗传变异也很常见。全基因组hypomethylation可导致基因组不稳定。的hypomethylation CpG岛还与抑癌基因的失活有关(5]。目前,许多研究试图使用这些基因数据预测癌症亚型。然而,癌症基因组是由各种各样的分子机制的复杂性和独立,很难发现癌症基因组和表型之间的关系。因此,整合不同的基因组数据捕捉复杂的表型的异质性和生物过程(6,7)是当前的趋势在预测癌症亚型。

在过去的几十年里,许多基因组数据集成算法被广泛开发。例如,沈et al。8]提出了一种联合命名为iCluster潜变量模型,结合不同类型的基因组数据之间的相关性和variance-covariance结构数据类型中挖掘潜在的癌症亚型。Akavia et al。9)提出了一个算法基于贝叶斯网络集成匹配染色体拷贝数和基因表达数据的肿瘤样本识别驱动突变和他们的影响过程。梁等。10)提出了一种多通道深度信念网算法,编码之间的关系特征每个基因组数据的多层网络隐藏变量,然后融合集群癌症的共同特征为不同的亚型。Speicher和具有11]添加正则化约束multikernel学习的优化过程,以避免过度拟合和使用一个内核为每个基因组数据类型来解决核函数和参数选择的问题。王等人。12)提出了一种多路复用网络于一体的异构基因组数据通过使用网络中每个节点之间的连接片和其相应的节点在每个其他网络。范et al。13)使用排序矩阵分解表示基因组数据和识别癌症亚型基于突变和基因表达特征。张先生和马14)提出了一个正规化的多视图的子空间聚类方法将基因表达数据与蛋白质相互作用网络的动态模块。基于网络的分层(国家统计局)15,16公司)方法结合体细胞突变概要文件与基因相互作用网络产生强劲的病人细分成子类型。和基因相互作用网络是由蛋白质-蛋白质之间的关系(PPI)。同时秩矩阵分解(SRF) [13)方法方法通过将patient-mutation和patient-expression数据分解为子类型化问题排名因素。

在这些综合算法,王et al。6)提出了一个非常有效的癌症亚型识别algorithm-similarity网络融合(SNF)。SNF由三个阶段组成:网络建设、网络融合和集群。在网络建设阶段,每个组学数据的欧氏距离是用来构造一个病人相似网络。在网络融合阶段,信息传播理论是用于执行非线性迭代构造网络的融合。最后,谱聚类算法用于聚类。SNF mRNA表达数据集成、DNA甲基化数据和microrna的表达数据和建立一个癌症亚型五癌症数据集的预测模型。

目前,许多研究改进和扩大SNF。徐et al。17)提出了一种加权相似网络融合算法,它使用一个复杂的miRNA-TF-mRNA监管网络识别癌症亚型。为了解决这个问题,SNF只适用于数据类型包含连续值,杨et al。18)使用随机游走方法平滑离散体细胞突变数据和平滑数据合并到SNF以便SNF离散数据融合算法。杨et al。19]提出了一种深度融合子空间聚类算法,使用self-encoding和数据表达的方法指导深子空间模型,可有效表达判别样本之间的相似性,从而实现集群之间的差异转移集群内的密实度和增强集群的集群。鉴于SNF的优越性能,它已成为最受欢迎的为癌症亚型识别算法。因此,本文改进了SNF从相似矩阵的角度建设,旨在进一步提高SNF癌症亚型的识别效果。

SNF网络融合完成后,需要集群通过谱聚类20.]。谱聚类的本质是图拉普拉斯算子矩阵,这样样品的原始空间不容易处理映射空间中可以很容易地处理。拉普拉斯算子矩阵计算的相似度矩阵,所以相似矩阵的建设是SNF的关键。SNF构造两个相似度矩阵为每个基因组数据,密集的相似矩阵和稀疏的相似矩阵,用于捕获全局和本地信息的基因组数据,分别。SNF,K最近的邻居(资讯)算法用于构造稀疏的相似性矩阵。然而,算法是最常用的施工方法和有效的稀疏的相似性矩阵。所有样品密度相似矩阵的连接边。谱聚类的互连密度不同类别的样本的相似度矩阵将导致噪声干扰和影响谱聚类的分割效果。因此,如何优化密度相似矩阵已成为SNF所面临的主要问题。

在本文中,我们提出了相似性网络融合基于随机游走(17)和相对熵(R2SNF)对癌症亚型的预测。随机漫步和相对熵是用来测量样本之间的相似性来构造一个更健壮的密度相似矩阵在每个基因组数据。相似矩阵施工方法基于随机游走的措施的跃迁概率样本沿着一个随机选择的相邻边到达其他样本,从而形成一个过渡概率分布的样本。为了更好地衡量样本之间的相似度,相对熵是用来计算转移概率分布的差异,以及它们之间的相似之处:获得更大的两个概率分布之间的差异是,类似的对应的样本越少,反之亦然。密集的相似矩阵施工方法是建立一个随机漫步点密度的基础上传统的相似性矩阵。它使用的差异之间的转移概率分布的样本,用于测量(口腔内两个样本的相似性这样类似的样品有较大的相似性值,和样品不相同类的相似性较小值。因此,一种更健壮的密集的相似性矩阵。在我们的R2SNF,我们使用密集的相似矩阵,获得稀疏相似矩阵获得的资讯算法进行相似性网络融合不同的基因组数据。最后,我们利用谱聚类集群融合相似性矩阵。实验结果在多个基因组数据显示,R2SNF可以识别生物重要的癌症亚型。

2。方法

在本节中,我们将介绍我们的算法相似网络融合基于随机游走和相对熵(R2SNF)的细节。首先,从一个样本的概率分布随机游走在每个基因组数据计算网络中其他的样品。其次,相对熵是用来计算两个样本的概率分布的差异,建立健壮的密集的相似性矩阵。第三,相似性网络融合构建健壮的密集的相似矩阵和资讯之间的相似矩阵进行获取融合相似性矩阵。最后,谱聚类用于聚类融合相似性矩阵。

2.1。随机游走模型的建设

随机漫步(21)是一种随机过程模型,该模型可以模拟网络中样本之间的交互。图上的随机游走可以被看作是马尔可夫链的随机选择节点。经过多年的发展,各种各样的随机漫步算法也被搬上了舞台。在这里,我们用随机漫步和重启(RWR)算法提出的通et al。22]。

给定一组的癌症基因组数据 , ,在哪里V代表基因组数据的数量, th基因数据 , 代表, th基因数据特性,n代表样本的数量。为每个基因组数据 ,th样本 ,的每一步RWR面临两种选择:选择相邻样本的概率 或返回起始样本的概率 ;然后,样本 将转移到任何样本并达到稳定状态的时间吗 根据马尔可夫决策过程,系统的当前状态只与前一时刻的状态有关。因此,稳定的状态向量 当时 可以被定义为 在哪里 代表当时的状态向量 , 的初始化向量th元素1和剩下的元素被0, 代表每个基因组数据的转移概率矩阵。在正常情况下,概率转移矩阵的随机游走图可以表示为数据归一化后的邻接矩阵。我们采用以下思想构建转移概率矩阵

首先,我们构造相似矩阵 为每个基因组数据 在哪里 表示样本之间的相似性 和样本 , 是一个经验hyperparameter, 样本之间的欧氏距离吗 可以被定义为 在哪里 表示样本之间的距离的平均值 和它的邻居。

随机游走的过程中, 是一个概率转移矩阵,需要满足的条件 我们可以得到 通过正常化 : 在哪里 度矩阵,其对角元素满足吗

2.2。建设基于相对熵的相似性矩阵

后计算稳定状态转换概率分布 从RWR部分2.1,相似 之间的样本 和样本 通常定义为(23] 在哪里 从的概率是 和到达 通过随机漫步。然而,这个方法仅考虑概率值的两个样本之间的随机漫步和忽略了它们之间的结构相似。

为了更好地衡量样本之间的相似性,两个节点的转移概率分布的差异是用来定义结构相似。我们用相对熵构造密集的相似矩阵(24]。相对熵,也称为Kullback-Leibler(吉隆坡)差异25),是一个方法来描述两个概率分布之间的差异。相对熵是用来计算转移概率分布的差异不同的样品。

为样本 ,转移概率分布 达到其他样品达到稳定状态后随机漫步可以写成 在哪里n的样品和数量吗 新从概率吗 和到达 通过随机漫步。 可以被定义为

概率分布的过渡 任何两个样品 ,分别的相对熵可以被定义为

,我们定义

相对熵是一种非对称度量;也就是说, 因此,矩阵被定义为概率分布差异 ;然后,任何两个概率分布之间的差异 :

最后, 转换为相似矩阵 ,的元素被定义为在哪里 : 在哪里 是最大的 从方程(8),我们可以得到以下:当样品之间的转移概率分布 大大不同,的价值 非常大,一个小的价值 被分配。相反,当样本之间的转移概率分布的差异 的值很小,也就是说, 很小,一个伟大的价值 被分配。因此,建设基于相对熵的相似矩阵的实现。

2.3。相似网络融合基于随机游走和相对熵(R2SNF)

通过以上两个步骤,相似矩阵 是获得。在相似性网络融合阶段,我们使用 密集的相似矩阵获得全球结构样品和使用资讯之间的相似性矩阵捕捉局部结构。

对于任何样品 ,然而,定义了相似矩阵 之间的 和它的k最相似的样品。的元素 被定义为 在哪里 的邻居

假设有一个总V基因组数据整合。SNF一样,我们进行了非线性迭代融合为密集的相似性矩阵 和稀疏的相似度矩阵 每个数据集。融合过程可以被描述为

根据方程(12),我们可以获得相似矩阵 的交叉扩散 基因组数据和其他数据。然后,最后融合相似性矩阵 可以获得的平均 :

2.4。谱聚类融合相似矩阵

假设我们想确定c癌症亚型从多个基因组数据,所以我们需要使用谱聚类簇癌症样本c集群。为th示例中,我们定义了一个集群指标向量 样品属于jth集群, ;否则, 集群指标矩阵可以写成

与融合相似性矩阵 ,谱聚类可以通过求解优化问题如下: 在哪里 , ,是扩展分区矩阵。根据融合相似性矩阵 , 规范化的拉普拉斯算子矩阵可以被定义为 ,在哪里 度矩阵,满足 , 通过这种方式,我们可以捕捉全球融合的结构通过光谱聚类相似矩阵。

3所示。结果与讨论

3.1。数据集和生存分析

在本文中,我们测试了该算法在三种类型的基因组数据,也就是说,mRNA表达数据,microrna的表达数据,和DNA甲基化数据。我们测试的癌症类型包括多形性胶质母细胞瘤(GBM),乳腺浸润性癌(BIC),肾肾透明细胞癌(KRCCC),肺鳞状细胞癌(LSCC)和结肠腺癌(COAD)。以上数据可以从TCGA网站下载(5]。此外,我们还进行了乳腺癌和肺癌实验数据集(26]。癌症multigenomic数据集的详细信息如表所示1

癌症亚型进行生存分析的基础上,通过聚类验证生存差异样本不同癌症亚型的发现算法。在统计假设检验通常是用来量化不同的生存曲线之间是否存在差异。在这里,考克斯生存率较(27用于计算 价值。考克斯生存率较非参数假设检验,通常用于评估不同亚型之间生存的重要性。的 值表示观察到的差异的生存是一个事件发生的可能性的机会。因此,越小 值,实验效果就越好。此外,kaplan meier估计方法(28)通常是用来估计生存函数,进一步获得kaplan meier存活曲线。的x设在存活曲线的观察的时间从一开始到最后的观察时间点。的y设在的存活率是生存的样本。曲线代表事件的发展。

3.2。实验结果

我们比较该算法R2SNF与几个癌症亚型预测方法,例如,SNF [6],LRAcluster [29日],iClusterPlus [30.),模式融合分析(PFA) [31日网络融合(曾帮工)[],亲和力32),和多视图集群基于施蒂费尔歧管(MCSM) [33),以验证其有效性。为了验证是否相对熵的R2SNF算法可以改善癌症亚型的预测结果,我们从R移除相对熵2SNF并使用方程(5)来构造相似矩阵。我们的名字上面的算法相似网络融合基于随机游走(RSNF)。简要介绍这些方法如下:(我)SNF首先使用指数相似内核方法定义每个基因组的采样点数据之间的相似性。它使用资讯的方法来定义一个密集的相似矩阵和稀疏的相似性矩阵。然后,信息传递模型提出了融合上述两个相似度矩阵,并融合相似性矩阵可以通过迭代更新。最后,谱聚类用于集群融合相似性矩阵。(2)LRAcluster是减少空间和multigenomic数据的聚类方法基于低秩近似。它可以处理各种分布式数据类和保证低维空间的正交性。适用于大规模multigenomic数据的聚类分析,得到了广泛的关注和应用。(3)iClusterPlus认为不同的变量类型应该遵循不同的线性概率的关系。然后,它构建一个联合稀疏模型完成的任务示例集群和特征选择。(iv)PFA使用本地信息提取方法项目每个基因组数据在低维空间中,构建一个动态准直方法基于流形学习的想法。然后,它将低维空间信息集成到包含信息从不同的基因组数据的特征空间。最后,K——方法用于集群的样品。(v)曾帮工首先构造一个病人从每个组学数据关联网络,然后融合所有单个网络来获得一个更健壮。为了使病人亲和力网络健壮的噪音,曾帮工主要采用两个非线性k基于最近邻(资讯)的转换:然而,高斯内核和资讯图表。(vi)MCSF建立一个二进制优化模型同时聚类问题。然后,是解决优化问题的线性搜索算法的基础上施蒂费尔多方面的。最后,它综合聚类结果从multiomics数据使用k最近邻居法。(七)RSNF获得每个样本的概率从一个样本,到达另一个通过随机游走,计算相似度矩阵根据两者之间的随机游走概率样本,最后根据SNF执行相似网络融合。

自R2SNF SNF的改进版本,为了更直观的比较和分析,我们使用集群中建议SNF的数量,也就是说,“绿带运动”是集群分为3类,BIC集群分为5类,KRCCC集群分为3类,LSCC集群分为4类,COAD集群分为3类。乳腺癌和肺癌的数据集,我们也使用癌症亚型测定方法在SNF的数量来确定他们的癌症亚型3和2,分别。

具体的实验结果2SNF七个癌症multigenomic数据集和其他方法如表所示2。与RSNF相比,R2SNF最好结果除了KRCCC其他六个数据集的数据。这表明使用样本相对熵计算概率分布差异有利于建设的相似性矩阵。与SNF相比,R2SNF已经小 除了COAD值在所有的数据集。RSNF在“绿带运动”的结果,BIC KRCCC, LSCC比SNF,尤其是KRCCC和LSCC数据,但略逊于SNF其他数据,这表明只使用获得的概率随机漫步样本构造相似矩阵之间对癌症亚型也有一定的影响。与其他算法相比,R2SNF有最好的结果。只有在BIC数据,MCSM算法比R2SNF。

1显示癌症亚型的kaplan meier存活曲线由R2SNF七癌症基因组数据集。可以看出,在“绿带运动”,KRCCC, LSCC, COAD,乳房,和肺,有很大区别识别的癌症亚型R2SNF,表明R2SNF癌症亚型识别是一种有效的方法。BIC数据,SNF建议分成5癌症亚型。如图1 (b),R2SNF分为5个亚型,时不是很有效,但可以清楚地把它分成3个亚型。此外, SNF BIC数据的价值低于 SNF的价值。因此,我们建议BIC应该分为三个亚型。在乳房的群集的数量数据集(263,可以在图中找到1 (f)。这进一步验证我们的结论。

3.3。分析数据集“绿带运动”

多形性胶质母细胞瘤(GBM)是最常见的恶性原发性脑瘤和致命的成年人,是一群被称为神经胶质瘤肿瘤。许多研究已经进行了研究在分子水平上“绿带运动”。和临床,一些研究已经明确的癌症亚型和相应的治疗方案。例如,基于mRNA表达数据,Verhaak et al。34]“绿带运动”分为四个癌症亚型:间充质,古典、神经和颈板。在[35),根据不同的CpG岛methylator表型(CLMP),“绿带运动”被分成两个癌症亚型:G-CLMP non-G-CLMP。

“绿带运动”的数据,我们计算R聚类结果的分布2SNF的癌症亚型决定在上面的两个研究和总结在表的结果3。表3显示,患者在亚型1比3亚型。大多数病人在亚型1分为non-G-CLMP(占99.3%);同时,他们分布在四个亚型34]。亚型2和1有相似的分布。值得注意的是,大部分的19个亚型患者3 G-CLMP亚型(占73.7%),和所有颈板亚型。

进一步分析得到癌症亚型,R2SNF,所有患者的临床数据GBM从cBio癌症基因组学门户数据库下载。我们画了一个箱线图的患者的年龄分布在三个癌症亚型(图2)。图2证明了R发现的癌症亚型2SNF有明确的年龄分布的差异。结合数据12,我们可以发现患者在亚型3岁的图最好的生存优势1也低于病人亚型1和2。

此外,我们画kaplan meier GBM患者的生存曲线反应药物temozolomide (TMZ)在图3。三个癌症亚型内的病人被分为两个部分:患者药物TMZ和那些没有接受药物TMZ。TMZ是一种药物,通常用于治疗“绿带运动”,但只有响应患者的一个子集。的 考克斯log-rank模型中的生存分析值的三个癌症亚型5.42×10−6,3.78×10−4和0.36,分别表明TMZ对病人没有影响癌症亚型3。

总之,亚型GBM的3 R2SNF具有以下特点。首先,大部分的亚型患者3 G-CLMP亚型,它们颈板亚型。第二,患者在亚型3岁最好的生存优势也低于病人亚型1和2。第三,TMZ对病人没有影响癌症亚型3。因此,我们相信亚型确认的3 R2SNF是一个生物学上重要的癌症亚型。此外,它可以推断出,我们得到了一个潜在的癌症亚型,其中包含病人属于G-CLAMP和颈板。这验证了研究报告由布伦南等人颈板亚型授予G-CIMP表型有独特的属性(36]。

3.4。分析乳腺癌数据集

乳腺癌是指恶性肿瘤,癌细胞已经渗入到乳腺管或小叶肺泡基底膜和入侵的间质。许多学者进行了一系列的研究和分析在基因水平和特定亚型和治疗项目。基于微阵列的预测分析模型,帕克等人提出了一个50-gene分类器(称为PAM50)分类BIC分为5个亚型:官腔,鲁米那,腔的B, HER2-enriched,常规37]。乳房上的数据,我们计算的分布由R聚类结果2SNF的癌症亚型官腔,腔的腔的B, HER2-enriched表4。从表可以看出4亚型1主要分布在腔的A和B(占80.6%),亚型2主要分布在官腔(占74.6%),和亚型3主要分布在腔的腔的B(占70.8%)。此外,我们还可以发现HER2-enriched主要分布在子类型1和2(占89.1%),而在常规主要分布在亚型1(占78.3%)。

我们还选择了两个临床标签,我们测试了浓缩:病理M M N .病理、病理及病理N区域淋巴结的远处转移阶段(M)和临床阶段(N)的乳腺癌,分别。病理M包括三个阶段:M0、M1和MX。病理N大致包括五个阶段:N0, N1、N2, N3, NX。一般来说,数字或字母N和M后提供关于这些因素,更多的细节和数量越高,越严重的癌症。

我们使用卡方检验来验证是否存在显著差异在我们的分析在这些临床标签。的 值M和病理病理N 6×10−3和9×10−3,分别。子类型的详细分布得到R2SNF在病理M和N病理表所示56,分别。在表5亚型1亚型2和3亚型有相似的分布:主要分布在M0。我们计算的比例样本属于M0阶段三个亚型74.9%。在表6亚型1亚型2和3亚型有相似的分布:主要分布在N0和N1。样本的比例属于N0和N1阶段三个阶段亚型是46.3%和33.8%,分别。

从上面的分析,我们可以得出以下结论。首先,亚型1和3主要分布在腔的A和B,这是最好的乳腺癌亚型的预后。第二,亚型2主要分布在官腔,临床预后很差。第三,患者乳房数据主要在乳腺癌的早期阶段和有较高的存活率。这些结论也可以验证图1 (f)

4所示。结论

如何构建一个健壮的密度在SNF相似矩阵是一个关键问题。在本文中,我们分析了建设中存在的问题的密集SNF相似矩阵,提出了相似性网络融合基于随机游走和相对熵(R2SNF)方法对癌症亚型的预测。我们建议使用重启的随机漫步算法描述基因组数据样本之间的复杂关系,获得了稳定状态转换每个样本的概率分布。我们进一步用相对熵计算样本之间的转移概率分布的差异构建一个更好的密度相似矩阵包含结构样本之间相似度信息。然后,构造密度相似矩阵和资讯相似性矩阵迭代非线性融合。最后,谱聚类用于集群融合相似性矩阵。七个癌症基因组数据集(GBM、BIC KRCCC, LSCC, COAD,乳房,和肺)包含三个数据类型(mRNA表达数据,microrna的表达数据,和DNA甲基化数据),R2SNF与各种古典癌症亚型预测算法。实验结果表明,R2SNF有更好的性能比对比算法在识别癌症亚型。并通过“绿带运动”和乳房实验的结果分析,可以证明R2SNF可以发现癌症亚型与生物学意义。除了相对熵外,还有其他方法来衡量两个概率分布之间的差异,如Jensen-Shannon分歧,瓦瑟斯坦距离和叉。在未来的工作中,我们将致力于找到一个更合适的方法来计算概率分布之间的差异,然后获得一个相似矩阵,有利于癌症亚型的预测。

数据可用性

使用的数据来支持本研究的发现可以从第一作者。

的利益冲突

作者宣称他们没有利益冲突在这个工作。

确认

这项工作得到了国家自然科学基金(批准号。61906198、61976215和61772532)和江苏省自然科学基金(批准号BK20190622)。