文摘
本文研究高通量测量技术的作用在癌症分子类型。基于Dendrix算法,本文提出的模型选择的基因复制时间作为一个固有的属性,影响基因突变的频率,并将其添加到模型中。设置基因的大小设置后,与Dendrix算法相比,该模型不需要删除已经发现的基因集搜索路径的过程中,也可以找到更多的驾驶通路基因集。基于高覆盖率和高驱动基因集的排他性通路和基因的影响,本文构造一个自适应多目标优化模型。为了克服基因突变异构性的问题,该模型引入了基因基因突变频率的重量,反是模型自适应每一个基因。研究结果的分析显示,高通量测序技术的可靠性。
1。介绍
高通量测序技术的迅速发展和推广,许多国际科研机构举办大规模癌症基因组测序项目。测序技术的成熟度对大规模样本,癌症研究人员将注意力转移到大数据挖掘基于癌症。大量的生物数据为癌症研究人员对重新奠定了坚实的基础。自21世纪以来,对数据挖掘的研究和识别基于癌症数据涌现。在癌症检查的一项研究中,温伯格教授简要描述最近的热点和肿瘤进展并提出一些专业概念在恶性肿瘤,包括肿瘤细胞特征,自噬,肿瘤微环境,肿瘤干细胞(1]。这些研究对揭示癌症的发病机理有深远的意义。
虽然癌症的高死亡率有关,人类癌症的知识严重不足。很少有人了解潜在的问题,导致恶性肿瘤,包括肿瘤病因的开始,是什么原因导致他们传播和扩散转移。这些问题和其他类似他们必须立即解决。除了一些疾病,40年的“抗癌战争”已经失败了。(2]。早期发现和治疗可能利用大大减少肿瘤死亡率或延长肿瘤患者的生命,由于现代医学技术的快速进步。然而,仅仅依靠早期预防是不够的,如果你想彻底赢得最终的胜利对恶性肿瘤的战争。通过将分子和基因功能信息纳入分类系统,可以获得更相关的预后信息,可以预测新药物的影响。(3]。目前,已尽最大努力探索新的分子标记,其中基因表达分析已经被证明是一种有效的方法,可用于组肿瘤和预测癌症患者的预后4]。许多新颖的分子标记最近被发现,他们已经被证明有助于加快诊断和改善妇女子宫内膜癌的治疗结果。基因表达谱数据或蛋白质芯片也被用来识别特定的分子标记,和预后模型开发(5]。这些已知的预后指标具有挑战性的使用在临床实践中,因为它们只适用于部分暂存和/或组织等级的子宫内膜癌。一个预测模型具有高分辨率的能力仍然需要在临床实践中帮助诊断预后的不同阶段和子宫内膜癌的亚型。本文研究高通量测量技术的作用在癌症分子类型,为后续相关研究提供了理论参考。
2。相关工作
提出了高通量基因组生物技术之后,许多学者提出了一些方法来预测抗癌药物的敏感性。NCI调整筛选方法,从小鼠体内筛选主题改变人类细胞系体外培养和NCI-60和其他一些项目使用细胞系基因组作为中间连接和药物敏感性。与药物相关的一些基因标记反应得到,他们成功地应用于临床治疗。文献[6]研究激酶抑制剂如verofenib BRAF和表皮生长因子受体突变的临床治疗效果。研究人员利用基因表达谱信息从文献[7]。在耐药白血病细胞中基因表达研究的文献[8),它显示一个疾病recurrence-associated基因的表达之间的联系。文献[9)建议co-expression外推法预测抗癌药物的敏感性,开展特定类型的癌症研究通过分析基因表达之间的敏感和耐药细胞的特异性。文献[10)观察药物对细胞的甲基化标记核苷酸序列。有大量的科学材料文献[11),包括基因突变,拷贝数变化,和频繁的癌症形式。它给了重要的数据支持评估抗癌药物反应在细胞系和大大艾滋病抗癌药物反应的预测。文献[12)建议一个弹性网络回归模型来预测药物的稳定性基于基因表达,基因突变,拷贝数变异研究抗癌药物敏感性和基因组之间的联系。文献[13)充分考虑药物的化学性质和基因组信息,建立了机器学习模型来预测癌症细胞系对药物治疗的反应。内核的贝叶斯矩阵分解模型方法使用药物敏感性和基因数据来估计缺失值(14]。使用外显子组和转录组测序数据预测癌症细胞系治疗反应,文献[15)建立了一个大规模的机械模型参数化计算框架。一个模型与推荐系统(CaDRReS)建议在文献[16)和基于学习的投影细胞系和药品来预测未知细胞系抗癌治疗的反应,因此访问可能的药物基因组空间。
这些驱动基因突变发生在癌症和肿瘤生产中发挥重要作用被称为驱动突变(17]。相应地,在肿瘤的过程中生产、突变不促进癌症的过程被称为旅客突变(18]。这进一步解释说,癌症的发生是由于基因突变的积累,而不是一个单一的基因突变。因为不同的癌症类型对应不同的司机突变,为每种类型的癌症找到相应的驱动突变有助于处方正确的医学治疗和推出有针对性的治疗。虽然旅客突变在癌症的发展也起到一定的作用,其诱导效应相比,癌症是最小的司机突变。因此,有效地挖掘驱动突变突变数据未来癌症的靶向治疗具有重要意义[19]。
3所示。高通量测序技术和驾驶基因筛选模型基于多目标优化
(我)矩阵是一个(mxn矩阵,如图1为了更好地理解该算法模型。行和列代表不同的患者样本的数量,而行代表了许多不同的基因。黑块对应于1,说明基因突变,和白色块对应于0,表明基因不发生改变,在矩阵。换句话说,如果我们知道多大推动基因集,我们可以搜索转化为寻找 - - - - - -列的子矩阵满足特定条件的变异矩阵使用Dendrix算法,研究目标是识别驾驶通路基因的体细胞突变数据集。该方法基于驱动路径的两个主要特点:(2)高覆盖率:基因在特定癌症驾驶途径,有必要覆盖尽可能多的患者样本。换句话说,在相同类型的癌症,大多数病人至少有一个突变基因,属于这个驱动程序设置,如图1,当 ,在这两个子矩阵和 ,很明显,这个子矩阵覆盖更多的患者样本子矩阵 。然而,最终筛选基因集矩阵 。这是因为在考虑高覆盖率,另一个必须考虑信道特性(3)高独特性:每个病人有一个突变基因集的疾病的原因。这就解释了为什么矩阵选择最后,尽管矩阵优越的报道。我们可以看到在图1,矩阵含有很多重叠的患者样本,而矩阵有一个像样的排他性尽管有些贫穷的报道。
由于实际的突变数据,很难有相同的结果矩阵如图1当 同时满足所有病人的报道没有一个病人样本与重叠覆盖。因此,最大重量Dendrix子矩阵模型的算法。该模型定义了一个加权函数来衡量覆盖率和排他性的关系,既保证特征在同一时间感到满意。权函数的具体形式如下。
其中,是列从突变获得最大重量的子矩阵的矩阵 , 当基因代表了所有患者的样本集是突变, 是衡量报道,表明患者样本对应的所有基因突变矩阵集, 是衡量排他性,表明重复覆盖所有样品的数量矩阵。
人们经常预测他们购买的便宜的价格和高质量的产品。然而,精品需要更昂贵的制造业,这推高了价格。多目标优化是找到一个好的平衡几个目标最大化总体目标函数。这是关键。帕累托最优的解决方案是发现,在这一点上的平衡。多目标优化问题的数学形式如下:
其中,是总目标函数包含吗单一目标,是决策向量,年代是一组约束条件用于限制每个目标函数的参数设置。
因为最大重量的子矩阵模型是基于路径的两个特征基因集,高覆盖率和排他性,搜索,提出了一套方法驱动基因。的最大重量的子矩阵我们看显然是一个多目标优化问题。覆盖率和排他性的两个目标是使用最大重量目标函数加权。因此,Dendrix算法的基础上,中国科学院的赵Junfei博士提出了使用线性整数规划的想法来解决这个问题解决的最大重量的子矩阵模型,和最大重量的子矩阵模型转变成下列线性规划模型的数学形式。在下面,他们都被称为BLP模型。
其中, 代表了测量范围的目标函数 代表测量排他性的目标函数。其中,代表了基因的数量矩阵, 代表的基因 - - - - - -患者样本落入矩阵有一个突变,突变是1,否则它是记录为0, 代表是否 - - - - - -th基因分为的矩阵。如果它下跌,它是1,否则它是记录为0。和是向量组成的和 ,分别。
BLP模型可以准确计算的最大重量的子矩阵的解集问题采用分支的概念和定义,这不仅解决NP问题,还解决了问题,Dendrix算法容易陷入局部最优。此外,该模型比Dendrix更快处理稀疏矩阵结构突变时,这是非常适合大规模突变的分析数据。
基因突变的异质性肿瘤的特点是肿瘤和异质性肿瘤之间的异质性。
这三个基因对基因突变的频率变量及其影响进行了研究使用数值试验报告。图2描述了最终结果。TCGA肿瘤基因组图谱数据库()提供了基因协变量数据,并提供数据的细节。有证据表明,协变量的数据可以用于其他癌症实验研究。
根据图2,我们可以分析协变量之间的相关性三个基因和基因突变频率,发现从三协变量之间的互关联图,每个基因协变量之间的关系。相关研究已经证明,不同地区的基因组的复制时间密切相关的基因表达水平和染色质的状态。基因高度螺旋染色体和基因表达更大程度的复制。基因复制时间长,另一方面,有一个松散的染色体基因表达状态,很少或根本没有。因此,基因复制时间选为最相关的协变量确定基因突变的频率和集成到本研究算法的复杂性降到最低的方法。
基因复制时间确定为内在协变量的影响在这个研究基因突变的频率。这也是定量检查,看看三个不同的协变量基因相互作用。
本文提出了一种新颖的搜索方法驱动基因集基于基因复制的影响。以下是创建模型中涉及到的各个阶段:(1)该算法构造变异矩阵 。 是一个独立的病人的样本数量,是基因的名字。如图3, 表明, - - - - - -th基因的 - - - - - -病人有一个突变(2)算法定义了最大重量的子矩阵函数基于协变量的影响基因:
上面的模型也可以转换成一个二进制线性规划问题解决方案:
其中,代表了基因的数量矩阵, 代表的基因 - - - - - -患者样本落入矩阵有一个突变。如果它有一个突然的变化,它是1,否则它是记录为0。 代表是否 - - - - - -th基因落入矩阵。如果它下跌,那么它是1,否则它是记录为0。和是向量组成的和 ,分别为,的协变量权重值吗 - - - - - -th基因。
本文认为使用启发式优化算法。多目标优化问题解决方法主要分为传统优化算法和智能优化算法。(1)传统的优化算法
经典的传统优化算法包括线性加权法、规范权重方法和演化方法。这种方法的本质是采用加权思想,通过将多目标优化问题转换为一个简略的优化问题,并利用单目标优化方法来解决它在同一时间。这种类型的算法也有一些缺点,具体如下:(我)单位量化各种目标函数可能不一致,很难比较一起力权重(2)不确定性选择加权系数(3)任何个人的进步目标在整个优化过程很难管理,因为它是众多单目标函数的加权和
这导致总数的一个极其复杂的拓扑优化目标函数,因为选择变量,即。,加权系数,限制对方。(2)智能优化算法
遗传算法、粒子群优化(PSO),蚁群优化(ACO),和其他进化算法是智能优化方法(EA)的例子。通过复制繁殖,竞争、变异和选择在生物进化的过程中,这种算法创建高度适用的全局优化概率搜索方法。进化算法使用三个阶段的选择,交叉,和变异,找到最好的解决优化问题,类似于生物进化是如何工作的。进化算法的基本原理是首先一组随机生成的数量和反复执行选择、交叉、变异操作,可以通过多次迭代,从而提高人口健康的个人和逐渐接近帕累托最优解集。
蚁群算法是一种概率搜索技术,通常用于解决组合优化问题。这种方法解决了旅行推销员困难,图着色问题,通信网络、集成电路设计、车辆调度的挑战。与其它优化算法相比,蚁群算法具有以下三个优点:(1)该算法采用信息正反馈机制,这使得搜索迭代过程的收敛速度继续加快,最后迅速接近最优解(2)信息素是时间敏感,其浓度会降低随着时间的推移,形成了一个负面的反馈机制。这可以有效地避免太多的特定路径上信息素的积累,导致算法过早,陷入局部最优
算法采用分布式操作策略的迭代过程,和所有蚂蚁的蚁群在同一时间执行并行操作,从而大大提高了算法的运行效率。
蚁群算法最典型的应用场景是解决旅行商问题(TSP)的问题。在本节中,蚁群算法的流程步骤将简要解释结合这个问题。
旅行商问题是城市,每个城市只能通过一次,应找到最短的路径,最终将回到起点。显然,TSP问题也是一个组合优化问题。这个问题也可以在以下数学形式描述。
其中,代表最优路径, 代表了城市之间的距离和城市 。
当使用蚁群算法解决TSP问题,城市和蚂蚁的蚁群。在迭代过程中,每只蚂蚁决定路径选择根据每条路径的概率。选择概率的计算公式如下:
的公式,表示路径上的信息素浓度的城市城市在时间 。在迭代的初始时间,它被设置为一个常数c。代表了启发式函数。计算方法是 ,它反映了程度的期望呢转移到城市 。 信息启发式因子,用于调节信息的重要性,β是预期的启发式因子,用于调节启发式函数的重要性。禁忌(k)是一个禁忌表,这意味着的城市列表 - - - - - -th蚂蚁在迭代旅行,避免所走过的路径。当所有的城市都包含在蚂蚁的禁忌表 ,这种迭代的蚂蚁已经结束了。当蚁群的每一个ant完成这个迭代。需要更新的密度信息在每个城市之间的路线。调整公式如下:
信息素挥发系数, , 代表了信息素强度在一定的时刻,代表发布的信息素 - - - - - -蚂蚁从城市道路上的城市在这个迭代。
整个蚁群算法的步骤也可以用下面的图来解释4。
默克尔和赫尔曼的0 - 1背包问题,提出了在1978年。问题的描述是:给定一个负重背包项目,每个项目的重量是和值是 。每个项目只有一个,不能被分割,和物品装进背包或不装进背包。在这种情况下,如何选择物品的总价值最大化的结合没有超重的背包也可以由下列数学公式描述:
比较与驱动基因集的搜索模型在这篇文章中,重量值是根据定义计算的重量为每个组合的基因集,当目标函数和,最后的基因选择更大的重量值设置为驾驶路径分析候选基因集。基因被选为候选基因组或不是基于突变频率时,他们表现出暴露在协变量。很明显,这个问题是一个经典的0 - 1背包问题。即选择项优化的整体价值,背包成为挑战当背包的承载能力是有限的。
在寻找细胞信号通路,每个基因只有一个,不能分裂。因此,我们使用背包的重量来控制基因的数量在基因集。因为我们关心的是基因的基因集的数量,质量每个基因设置为1,值每个基因与基因突变的数量对应的协变量的影响。与此同时,我们描述基因是否落入规模有限的基因设置为一个项目是否被加载到limited-weight背包。
当越来越多的信息素积累基因,这个基因的概率越大最终会落入结果基因集。每只蚂蚁的蚁群决定基因的选择根据基因的概率选择在一个迭代。以下公式代表的选择概率 - - - - - -th蚂蚁的基因 :
禁忌(k)是一个禁忌表,表的基因选择的一个历史记录 - - - - - -蚂蚁在一个迭代。基因的功能是为了避免重复选择已陷入基因集。是基因的信息素强度在时间 ,和是启发式函数。解决背包问题时,我们通常设置 。 “价值”的基因吗 , 是基因的“质量” ,和代表了“单位价值”的基因 。 是信息启发式因子,控制信息的重要性,然后呢β是预期的启发式因子,控制的启发式函数的重要性。
之后每只蚂蚁选择一个基因,它需要判断这个时候背包的质量超过承载值,也就是说,是否选择基因的数量超过了基因集合的大小 。当每只蚂蚁的蚁群已完成所有的选择在一个迭代中,每个基因上的信息素积累必须调整一次。调整公式是:
其中,信息素挥发系数, 代表的信息素强度基因在时间 ,和代表发布的信息素 - - - - - -th蚂蚁在基因在这个迭代。计算公式是:
的公式,表示信息的强度,它是一个常数,和表示选择的基因列表 - - - - - -th蚂蚁在这个迭代,是“总价”选择的基因 - - - - - -蚂蚁。本文通过实验调整参数,最后设置实验参数 , , , ,和蚁群大小 。
当所有的迭代过程完成后,计算每只蚂蚁的背包,背包的相应基因的最大价值是我们选定的基因集。表1是ACDP算法的伪代码,它可以在不同的编程语言实现。
4所示。癌症研究分子类型基于高通量测序技术
许多高通量测序数据集被广泛使用。然而,识别癌症司机需要使用优秀的基因数据库,满足实际应用需求。体细胞突变的数据集,网络和路由的数据集,和蛋白质相互作用网络数据集三种类型的数据集可能根据他们的用途分类(质子泵抑制剂)。
这个成本可以无限期地减少技术和应用开发进展。这种新技术可以突破当前的许多障碍研究癌症的疾病。这种高通量技术可以学习大量的恶性肿瘤在廉价的成本。这将打开门从很多角度更深入地观察癌症,包括基因组、转录组、蛋白质组等(图5)。
目前,更受欢迎的数据集是:答:体细胞突变数据收集(1)宇宙(体细胞突变在癌症的目录)是目前使用最多、规模最大的体细胞突变数据库。宇宙的体细胞突变信息数据库记录不同类型的人类恶性肿瘤。数据库具有以下特点:(1)它使突变位置的详细记录,包括具体的突变等信息内容,癌症种类与之相关,与之相关的文献,和样品名称,等等。因此,它包括完整的统计信息为特定癌症突变基因以及信息组织和癌症细胞系在不同阶段的癌症。此外,信息融合基因。因此,研究人员可以更好地了解体细胞突变在癌症的作用。(2)2006年,美国癌症研究所和美国国立卫生研究院的合作建立TCGA(癌症基因组图谱)。它的目标是发现所有的癌基因和肿瘤抑制基因突变在致癌过程和完美的50多个基因组测序的恶性肿瘤或癌症亚型。这个数据库是最大的癌症基因资源目前可用的信息,提供大量援助的研究癌症的分子通路。TCGA项目已完成超过36个癌症研究类型,及其数据库稳步发展成为癌症研究中最原始数据的重要来源。 (3) Cancer3D is a very user-friendly database. In the kinase research community, 3D structural information plays a critical role in discovering driver mutations. Cancer3D is a database that examines somatic missense mutations based on the 3D structure of proteins. With the use of this annotated database, scientists can figure out how protein 3D structure affects somatic mutations. b: Set of information on the pathways. Kyoto Encyclopedia of Genes and Genomes (KEGG) is an online resource for learning about biological systems’ intricate workings. In order to investigate pathogenic mutations and somatic mutations that have a functional effect in cancer, it intends to encompass all cell signalling pathways. A useful feature of the database is that it offers users with input genes for enrichment analysis, making it easier to discover novel cancer-related signal pathways. The database (2) The Reactome database is a tool for studying biological processes in general. It aims to gather articles related to various reactions and biological pathways in the human body, which are often written, reviewed and reviewed by experts. The database provides an effective data source and related e-books for channel research. (3) PID (Pathway Interaction Database) was founded by the National Cancer Institute (NCI) and Nature Publishing Group. Users can query specific information about cell signal pathways and cell signal regulation processes known to the human body by molecular names or metabolic process names. (C) Protein interaction network data set; (1) BioGRID (Biological General Repository for Interaction Datasets) was created in 2003 and is a database that stores data about interactions between proteins and genes. The data is mainly obtained by mining the literature on protein interactions. (3) IntAct is a free and open source molecular interaction database, derived from the European Institute of Bioinformatics. Most of the data comes from literature mining and other related molecular interaction databases. Moreover, a good search process and graphical search results are also the highlights of this database.
有五种类型的癌症现在司机突变的研究方法。基于突变频率的方法包括以下特征:当使用传统的频率方法,研究人员寻找基因的变异率显著大于样本的背景速度使用统计方法。这种技术有固有的局限性导致肿瘤异质性和其他变量的影响。一些更好的解决方案来克服这个问题。找到驱动突变基因,OncoddriveCLUST方法,例如,构造一个基于沉默突变背景模型和组突变型与特定的蛋白质的突变倾向的地区。在实际应用中,这种方法取得了积极成果。(2)一个方法基于功能的影响因素。研究人员必须立即建立一个有效的方法序列驱动突变基因由于高通量测序技术的大量突变数据。研究人员现在有工具迅速测量突变的功能影响,因为计算方法的出现。从理论上讲,这些方法可能帮助研究人员识别潜在未来科学研究的基因。 The SIFT (Sorting Intolerant from Tolerant) method, for example, is a common biological study tool that predicts missense mutations based on protein sequence homology. (3) Genome-structure-based approaches. Technology like nuclear magnetic resonance, X-rays, and high-quality 3D protein structure sequencing back up this approach. According to the research, mutations in key nodes in the signalling system have been linked to disease therapy and therapeutic targets. Considering the signal pathway topology, protein structure, and other information will definitely enhance the algorithmic efficiency while looking for potential driver mutations. According to these studies, the technique of enhancing signal channels via topological structure has shown promising outcomes in biological trials. (4) Pathway and network analysis method. Cells are a complex and dynamic network composed of a variety of molecular structures. Gene mutations may affect or remove a node in the network, and even affect the biological characteristics of the node, thereby further leading to changes in the network structure. Therefore, the method based on the path and the network has high applicability. (5) Data integration method. This is a method for researchers to systematically study the mechanism of driving mutations and cancer by including a variety of omics data. It is often necessary to establish a mathematical model to integrate a variety of omics data. The integrated model proposed in this paper has the characteristics of this method.
5。结论
病人的身体状况和临床反应症状通常用作筛选药物的基础从各种化合物基于经验达到公平的诊断的常规临床治疗技术。根据研究,有相当大的差异在癌症化疗治疗的敏感性,和肿瘤各器官和系统具有不同的特性。由于不同的疾病类型,即使它是相同的组织和部分,对药物的敏感性的程度将会十分不同。相同的形式的癌症可能以不同的方式应对同样的治疗。因此,应该利用各种药物即使治疗同样的癌症。过去使用的诊断和治疗方法不再是足够的对于今天的癌症治疗的需要。由于现代生物技术的迅速崛起和大数据分析技术,许多实验调查获得相当数量的生物医学数据,和生物医学信息不断升级。因此,现代人类必须解决生物问题的决定如何我生物数据的意义和法律。精密医学定义为医学基于病人的病理特征,如生物数据如细胞,基因和蛋白质,以及疾病的特点,建立适当的病人的治疗计划。精密医学鼓励个性化基因数据的研究和发展的重点医疗个人根据自己的生理数据。 This article investigates the function of high-throughput measurement technology in molecular cancer typing in order to encourage the growth of the medical sector better. It also serves as a theoretical reference for future related research.
数据可用性
使用的数据来支持本研究的结果包括在本文中。
的利益冲突
作者宣称没有利益冲突。