研究文章|开放获取
明曹,悦迷,Qinke彭, ”贝叶斯基因选择基于路径信息和Network-Constrained正规化”,计算和数学方法在医学, 卷。2021年, 文章的ID7471516, 9 页面, 2021年。 https://doi.org/10.1155/2021/7471516
贝叶斯基因选择基于路径信息和Network-Constrained正规化
文摘
高通量数据可以同时研究成千上万个基因的表达水平在一个特定的条件。然而,只有少数的基因是有区别地表达。如何识别这些生物标记精确意义重大疾病诊断、预后和治疗。许多研究利用途径的信息来识别生物标志物。然而,大多数这些研究只把组信息,而通路结构信息将被忽略。在本文中,我们提出了一个贝叶斯基因选择与network-constrained正则化方法,它可以将通道结构信息作为先验进行基因选择。所有的先知先觉共轭;因此,可以通过吉布斯抽样估计的有效参数。我们目前的应用方法6微阵列数据集,与贝叶斯套索相比,贝叶斯弹性网,和贝叶斯融合套索。结果表明,我们的方法执行比其他结构信息贝叶斯方法和途径可以改善结果。
1。介绍
识别疾病有关的基因,可作为诊断生物标记,可以带来显著的影响对疾病诊断、预后和治疗(1,2]。近年来随着高通量技术的发展,基因表达分析发现生物标志物提供了一个有用的方法。研究人员可以确定两组之间的差异表达的基因样本。这些基因被视为疾病有关的基因。然而,基因表达数据通常包含大量的基因和一个相对较小的样本大小(3,4]。和许多基因冗余或不相关的预测(5,6]。此外,还有噪音实验过程中会影响基因表达值。因此,从基因表达数据的标志物是具有挑战性的。
在过去的几十年里,许多基因选择方法被开发来解决这个问题。特征选择和特征提取两个主要方法(我们平等对待基因和功能摘要)。一方面,特征选择的目的是选择相关特性和不改变的形式特征。另一方面,特征提取将从原始数据中提取特征,并可能改变的形式特征。在这里,我们专注于特征选择方法,因为这样的结果可以很容易解释。特征选择方法一般可以分成三类:过滤器,包装,和嵌入方法。包装器和嵌入式方法classifier-dependent方法;因此,他们总是耗时和容易过度拟合。然而,过滤方法通常是基于统计的方法(7]如mRMR [5],PLSRFE [8],套索[9,弹性网(10),相对效率的计算,可以得出一个分数每个基因代表的基因的重要性。因此,我们关注过滤方法。
虽然这些方法成功在许多应用程序中,他们通常获得次优的解决方案。因此,预测精度不满意和疾病有关的基因选择从不同的方法几乎没有重叠11]。这在一定程度上是由于这一事实的许多生物标志物是相似的。此外,一些基因歧视低权力细胞功能中起着重要作用。他们的组合是非常歧视,他们通常忽略12,13]。
最近,积累了大量的生物信息,有一个增长的兴趣基因选择与整合的信息通路,可以部分弥补缺乏可靠的表达数据(14]。途径描述一系列的化学相互作用在活细胞;基因相互作用通常意味着他们一起功能一致。因此,这些基因应该是高度相关的依赖结构。然而,许多研究仅利用集群的信息通路基因自然组;通路结构信息是被忽视的。李和李已经克服了这个缺点,结合通路结构信息通过全球的拉普拉斯算子矩阵图(15,16),结合套索点球执行network-constrained点球可以选择网络中相关特性的子组。这个点球是基于假设基因属于同一个通路也有类似的功能,因此平滑回归系数。这个惩罚已经成功地应用于许多研究[17- - - - - -19]。
贝叶斯方法有三个主要的优势选择贝叶斯方法(20.]。首先,通过实现随机吸引hyperparameters可以自动估计;因此,10倍交叉验证估算惩罚参数不是必需的。其次,贝叶斯框架可以利用自然的路径信息集成模型作为先验知识。最后,后验分布的贝叶斯估计回归系数可以提供可靠的时间间隔,这是一个伟大的优势频率论的方法。
在本文中,我们使用一个贝叶斯框架进行基因选择通过network-constrained正规化。类似于贝叶斯套索(21弹性),贝叶斯网络(22),和贝叶斯融合套索23),我们使用收缩先验进行正规化。我们表明,该模型可用的条件后验和适当的封闭形式。因此,参数估计可以很容易通过吉布斯抽样。路径信息从基因和基因组的京都百科全书(KEGG) [24),这是最受欢迎的途径公共数据库,特别是通路与几种类型的癌症模型中可以获得。此外,举行后,福尔摩斯25),我们将回归模型扩展到二元回归可执行二进制分类通过一个辅助变量。该方法评估运用几个微阵列数据集。
2。方法
2.1。贝叶斯Network-Constrained基因选择的模型
考虑一个 矩阵 ,在哪里基因的数量和吗样品的数量,一个响应向量 ,我们正常的每个特性值变量选择的传统;因此,每个特性的平均值和标准偏差是0和1。我们假设连续反应的似然函数是高斯函数: 也可以表示为
后李,李的工作16),我们通过它的规范化的拉普拉斯算子矩阵包含路径信息。考虑一个无向图 。在这个图表,基因是由一组节点表示 ,和基因之间的相互作用是由一组边缘 ,和边的权重,在哪里 代表的重量优势 这表示顶点之间的边的不确定性和 。每个顶点定义为的程度 。然后,规范化的拉普拉斯算子矩阵对图与th和可以定义为th元素
在这里,我们让 如果存在一个相互作用的基因和 ,和 ,否则。
形成了network-constrained正规化,我们分配的先验分布如下: 在哪里采取的形式:
请注意,只包含hyperparameter 。
消除的先验分布 ,我们分配的先验分布如下: 在哪里正常化是常数。
中定义的先验分布(6)是正确的,由于以下分析:
让 ,和是一个对称半正定矩阵。
让 ,在哪里 的特征值和 。
自对称半正定,存在一个标准正交矩阵 。因此,矩阵的eigendecomposition可以写成 。
因为 ,所以 。
然后, 被积函数的内核的伽马密度表示积分是有限的。因此,适当的先验分布。
自
是半正定。
联合后验分布可以写成
集成了 ,我们有
应用上述方程的事实如下: 我们有
因此,最大化后验分布相当于最小化以下方程: 有相同的正则化项的方法19]。
我们分配的先验分布如下:
我们分配以下hyperparameters之前和 :
然后,分层贝叶斯模型
2.2。吉布斯抽样方法
可能是
根据上面的层次模型和可能性,联合后验分布数据
因为所有的共轭先验分布,充分的条件后验分布参数已经关闭表单。
让 ,我们有
这意味着遵循一个广义逆高斯分布:
吉布斯抽样方案迭代如下:(1)更新通过抽样(20.)(2)更新通过抽样形式(22)(3)更新通过抽样(24)(4)更新通过抽样(26)(5)更新通过抽样(28)
2.3。二进制响应情况
二进制数据如缺席或存在或不同类型的疾病往往是作为响应变量在基因选择问题。执行二进制分类,我们用概率单位回归使用辅助变量。然后,该模型可以表示如下: 在哪里是样品和 的概率是 。在这里,潜变量 被定义为
然后,完整的条件后验分布截断正常:
和遵循一个多元截断正态分布:
直接从这个分布采样是很困难的。我们使用的方法26品尝这道潜变量。
然后,分层贝叶斯模型
获得了吉布斯抽样方案,我们只需要更换与在吉布斯抽样方案中定义的部分2.2。和潜在的变量从(采样32)。
3所示。结果
3.1。数据集和预处理
证明我们的方法的有效性,5回归微阵列数据集和真实的二元分类摘要微阵列数据集进行测试,如下所述。从KEGG数据库获得信息的途径。
乳腺癌数据集被用来预测病人的存活时间(27]。我们使用了76名患者的基因表达谱。每个病人测量与24481年调查。3592个基因被发现在KEGG数据库从这个数据集。我们使用的患者生存时间的对数作为响应变量在这个数据集。
其他5二进制微阵列数据集分类如表所示1。不。基因是我们发现的基因微阵列数据集存在的和KEGG数据库路径。
最后,基因表达值归一化;因此,它的平均值和标准偏差是0和1。
3.2。参数设置
贝叶斯network-constrained正规化的过程,我们建议小值 在(16),我们设置这些值在我们的实验。吉布斯抽样进行了迭代6000次,我们选择第二个一半的样品估计回归参数。后估计的参数是通过的后平均链。分类问题的分类器是由支持向量机(SVM)。在本文中,我们使用径向基本函数作为核函数的支持向量机。和正则化参数和内核宽度参数优化的网格搜索方法。我们使用Libsvm [32)支持向量机模型。
3.3。结果和分析
在本节中,我们将描述结果微阵列基因表达数据集(表6日1)对该方法的性能进行评估。我们的方法是与其他三个贝叶斯正规化回归方法相比,包括贝叶斯套索、贝叶斯弹性网,和贝叶斯融合套索。这些方法的综合评估可以发现在23]。当 ,这意味着我们一无所知的通路结构、贝叶斯network-constrained正规化相当于弹性贝叶斯网络。当 ,我们的方法相当于贝叶斯套索。这三种方法还可以扩展到通过一个辅助变量执行二进制分类。我们也用吉布斯抽样进行参数估计。先前的评论(23)还表明,这三种贝叶斯方法的表现是相似的,在某些情况下比频率论的方法。预测均方误差是用来评估性能回归问题。与此同时,ACC和AUC是作为二元分类问题的评估标准。根据先前的研究,许多重要的基因可能是约50 (28];因此,我们选择了前50名基因根据回归系数的绝对值的二元分类问题。
图1显示了所有的四种方法的性能回归微阵列数据集。和五个二进制分类微阵列数据集上的分类性能进行了总结表2。在二进制分类数据集,前三个数据集通常被视为简单的分类数据集,而另外两个数据集是相对很难分类。从图1,我们可以看到PMSE方法是低于其他贝叶斯方法。表2还显示在四个简单的二元分类数据集,我们的方法实现ACC和AUC最高。在其他两个硬分类数据集,我们的方法实现ACC和AUC GSE412最高。虽然贝叶斯的AUC弹性净GSE4922高于我们的方法,我们的方法实现ACC最高。总的来说,贝叶斯network-constrained正规化显示更好的预测比其他三种贝叶斯方法和分类能力,这是类似于[结果暗示15]。因为我们的方法可以被转移到贝叶斯套索或贝叶斯弹性净当规范化拉普拉斯算子矩阵 或 ,结果还表明,路径信息确实有助于基因选择的准确性。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
与先前的研究一致(33,34),所有的贝叶斯正则化回归方法可以分类白血病,DLBCL,前列腺,GSE412准确数据集。然而,所有的方法都是贫穷的表演GSE 4922数据集。因此,我们证明了我们的方法的有效性通过选择顶部18基因使预测精度达到最高的价值和大部分的基因与乳腺癌(表相关联3)。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
基因是作为癌基因在以前的文献报道。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4所示。结论
在本文中,我们提出一个贝叶斯方法进行基因选择,可将路径信息之前生物知识通过network-constrained正则化来提高基因选择的准确性。所有我们提出严格共轭先验分布;因此,所有模型的条件后验都可以在封闭形式。还介绍了一个辅助变量扩展执行二进制分类回归模型。高效的吉布斯抽样方法用于估计回归系数和调优参数的同时,可为高维执行功能筛选可行的微阵列数据集。性能验证了该方法的应用到回归微阵列数据集和五个二进制分类微阵列数据集。结果表明,与贝叶斯套索相比,贝叶斯弹性网,和贝叶斯融合套索,我们的方法执行更好的预测和分类。和路径信息的确提高了基因选择的准确性。
数据可用性
乳腺癌数据集可以获得乳腺癌NKI R包。白血病,DLBCL,前列腺癌在网站上数据是可用的http://portals.broadinstitute.org/cgi-bin/cancer/。GSE412和GSE4922数据集在NCBI的GEO加入GSE412 GSE4922。
的利益冲突
作者宣称没有利益冲突有关的出版。
确认
这项工作是由美国国家科学基金会支持部分,格兰特在61173111。
引用
- r·戈文达拉扬j . Duraiyan k Kaliyappan, m . Palanisamy”芯片及其应用”,药房& Bioallied科学杂志》上补充2卷。4日,S310-S312, 2012页。视图:出版商的网站|谷歌学术搜索
- x h . Wang Jing,妞妞,“一个离散的细菌的特征选择算法的分类癌症微阵列基因表达数据,”以知识为基础的系统卷。126年,8-19,2017页。视图:出版商的网站|谷歌学术搜索
- n Dessi和b . Pes”相似的特征选择方法:一个实证研究在数据密集型分类任务,”专家系统与应用程序,42卷,不。10日,4632 - 4642年,2015页。视图:出版商的网站|谷歌学术搜索
- 和b . j . k . l . Lu Townsend Daigle Jr .)“GEOlimma:微分表达式使用预先存在的微阵列数据分析和特征选择,”BMC生物信息学,22卷,不。1,p。2021。视图:出版商的网站|谷歌学术搜索
- f·h·Peng长,c .丁”的基于互信息的特征选择标准max-dependency, max-relevance, min-redundancy,”IEEE模式分析与机器智能,27卷,不。8,1226 - 1238年,2005页。视图:出版商的网站|谷歌学术搜索
- 美国太阳、问:彭和x张“全球从微阵列数据特征选择使用拉格朗日乘数法,“以知识为基础的系统卷,110年,第274 - 267页,2016年。视图:出版商的网站|谷歌学术搜索
- k . Kanti Ghosh女王,a Sardar et al .,”理论和实证分析,筛选排名方法:试验研究基准DNA微阵列数据,”专家系统与应用程序,第169卷,第114485页,2021年。视图:出版商的网站|谷歌学术搜索
- 杨w .你,z, g .霁”为高维特征选择多媒体数据使用PLS-based局部递归特性消除,”专家系统与应用程序第41卷。。4、1463 - 1475年,2014页。视图:出版商的网站|谷歌学术搜索
- r . Tibshirani“回归通过套索收缩和选择,”皇家统计学会杂志》:系列B(方法论),卷。58岁的没有。1,第288 - 267页,1996。视图:出版商的网站|谷歌学术搜索
- z回族和t . Hastie正规化和变量选择通过弹性网”英国皇家统计学会杂志》上,卷67,不。5,768 - 768年,2005页。视图:谷歌学术搜索
- h . Frohlich“网络共识基因签名生物标志物发现乳腺癌,”《公共科学图书馆•综合》》第六卷,没有。10篇文章e25364 2011。视图:出版商的网站|谷歌学术搜索
- g . Michailidis“统计在生物网络的挑战,”计算和图形统计杂志》上,21卷,不。4、840 - 855年,2012页。视图:出版商的网站|谷歌学术搜索
- 张x f . m . y . Wu, d .问:戴l . Ou-Yang朱y,和h(音)“正规化逻辑回归和基于网络的两两交互作用对生物标志物识别在乳腺癌,”BMC生物信息学,17卷,不。1,p。108年,2016。视图:出版商的网站|谷歌学术搜索
- j·苏、b . j . Yoon和e·r·多尔蒂”准确和可靠的癌症分类基于概率推理的通路活动,“《公共科学图书馆•综合》,4卷,不。12篇文章e8161 2009。视图:出版商的网站|谷歌学术搜索
- l·h·李和h·李”Network-constrained正规化和变量选择对基因组数据的分析,“生物信息学,24卷,不。9日,第1182 - 1175页,2008年。视图:出版商的网站|谷歌学术搜索
- c·李和h·李”,变量选择和图结构的协变量的回归分析应用基因组学,”应用统计学的史册,4卷,不。3、1498 - 1516年,2010页。视图:出版商的网站|谷歌学术搜索
- 黄j . j . Liu, s .马”将在综合分析癌症预后的数据网络结构,”遗传流行病学,37卷,不。2、173 - 183年,2013页。视图:出版商的网站|谷歌学术搜索
- w·张,y . w .广域网,g·艾伦,k .彭日成m·l·安德森和z . Liu”分子通路识别使用生物network-regularized物流模型”,BMC基因组学补充卷14日,8日S7页,2013年。视图:出版商的网站|谷歌学术搜索
- 王h .江t, t . et al .,“基因表达分析的人类骨髓间充质干细胞成骨分化过程中,“细胞生理学杂志,卷234,不。5,7070 - 7077年,2019页。视图:出版商的网站|谷歌学术搜索
- x y粉丝,王,彭问:“使用贝叶斯推断基因调控网络的非参数回归和拓扑信息,“计算和数学方法在医学卷,2017篇文章ID 8307530、8页,2017。视图:出版商的网站|谷歌学术搜索
- z回族,贝叶斯套索,2008年。
- 问:李和n .林,”贝叶斯弹性网”,贝叶斯分析,5卷,不。1,第170 - 151页,2010。视图:出版商的网站|谷歌学术搜索
- g·卡塞拉,m . Ghosh、j·吉尔和m . Kyung”处罚回归,标准错误,和贝叶斯套索,”贝叶斯分析,5卷,不。2、369 - 412年,2010页。视图:出版商的网站|谷歌学术搜索
- m . Kanehisa m .荒木s Goto et al .,“KEGG基因组与生活和环境,”核酸的研究36卷,数据库问题,D480-D484, 2008页。视图:出版商的网站|谷歌学术搜索
- l和c·c·霍姆斯举行,“贝叶斯辅助二进制变量模型和多项式回归,”贝叶斯分析,1卷,不。1,第168 - 145页,2006。视图:出版商的网站|谷歌学术搜索
- a . v . Ivshina j . George o . Senko et al .,“组织学的基因重新分类等级划定新的临床亚型乳腺癌,”癌症研究,卷66,不。21日,第10301 - 10292页,2006年。视图:出版商的网站|谷歌学术搜索
- l . j . van’t转向,h·戴·m·j . van de Vijver et al .,“基因表达分析预测乳腺癌的临床结果,“自然,卷415,不。6871年,第536 - 530页,2002年。视图:出版商的网站|谷歌学术搜索
- t·r·Golub d·k·尼姆,p . Tamayo et al .,“发现癌症的分子分类:类和类基因表达监测预测,“科学,卷286,不。5439年,第537 - 531页,1999年。视图:出版商的网站|谷歌学术搜索
- 罗斯·m·a·西普k . n, p . Tamayo et al .,“弥漫型大b细胞淋巴瘤的结果预测基因表达分析和监督机器学习”自然医学,8卷,不。1,第74 - 68页,2002。视图:出版商的网站|谷歌学术搜索
- d·辛格·g·Febbo k .罗斯et al .,“临床前列腺癌基因表达相关的行为”,癌症细胞,1卷,不。2、203 - 209年,2002页。视图:出版商的网站|谷歌学术搜索
- m·h·Cheok w·杨,c . h . et al。”治疗基因表达的变化区分_in vivo_药物反应在人类白血病细胞,”自然遗传学,34卷,不。1,第90 - 85页,2003。视图:出版商的网站|谷歌学术搜索
- 诉法拉利,Libsvm:支持向量机的库,2008年。
- m . Momenzadeh m . Sehhati h·拉巴尼,“一种新颖的微阵列数据分类特征选择方法基于隐马尔可夫模型,”生物医学信息学杂志,第95卷,第103213页,2019年。视图:出版商的网站|谷歌学术搜索
- a . Dabba塔里,s . Meftali r . Mokhtari称,“基因微阵列数据的选择和分类方法基于互信息和蛾火焰算法。,”专家系统与应用程序,第166卷,第114012页,2021年。视图:出版商的网站|谷歌学术搜索
- m . b . Mobasheri r . Shirkoohi, m . h . Modarressi”Synaptonemal复杂蛋白质3记录分析乳腺癌,”伊朗公共卫生杂志》上,45卷,不。12日,第1624 - 1618页,2016年。视图:谷歌学术搜索
- j . Lubiński b Gorski, t . Huzarski et al .,“在年轻女性从波兰BRCA1-positive乳腺癌,”乳腺癌研究和治疗,卷99,不。1,第76 - 71页,2006。视图:出版商的网站|谷歌学术搜索
- 答:建筑师,k . Oikawa k Fujita et al .,“PLK1抑制三阴性乳腺癌的治疗潜力,”实验室调查,卷99,不。9日,第1286 - 1275页,2019年。视图:出版商的网站|谷歌学术搜索
- n .慕克吉h . Dasgupta r·巴塔查里亚et al .,“经常失活MCC / CTNNBIP1和超表达phospho-beta -连环蛋白Y654与乳腺癌相关:临床和预后意义。”Biochimica et Biophysica学报(BBA)疾病的分子基础,卷1862,不。9日,第1484 - 1472页,2016年。视图:出版商的网站|谷歌学术搜索
- a . h .桦木、m·c·j·奎因a . Filali-Mouhim d . m . Provencher a . m . Mes-Masson和p . n . Tonin“转录组分析浆液性卵巢癌识别差异表达3号染色体的基因,”分子致癌作用卷,47号1,56 - 65,2008页。视图:出版商的网站|谷歌学术搜索
- a . Kwon h·l·李,k . m .哇,h . m . Ryoo和j·h·门敏”SMURF1扮演了一个角色在EGF-induced乳腺癌细胞迁移和入侵,”分子和细胞,36卷,不。6,548 - 555年,2013页。视图:出版商的网站|谷歌学术搜索
- 工程学系。郭、杨郑胜耀s . l . et al。”ESR1的多态性,UGT1A1、HCN1 MAP3K1和CYP2B6与激素受体阳性的早期乳腺癌的预后,”Oncotarget,8卷,不。13日,20925 - 20938年,2017页。视图:出版商的网站|谷歌学术搜索
- h·l·k·h·张晓卿b . s . Tan Choo et al .,“纤维母细胞生长因子受体4 (FGFR4)和纤维母细胞生长因子19 (FGF19)自分泌提高乳腺癌细胞生存,”Oncotarget,7卷,不。36岁,57633 - 57650年,2016页。视图:出版商的网站|谷歌学术搜索
- 李赵c, h, j . et al .,“识别特定的甲基化模式在不同的癌症,”《公共科学图书馆•综合》,10卷,不。第三条e0120361, 2015年。视图:出版商的网站|谷歌学术搜索
- j .谢y,刘f . et al .,“击倒Rab7a抑制增殖、迁移,乳腺癌细胞异种移植肿瘤的生长,”生物科学报告,39卷,不。2、2019。视图:出版商的网站|谷歌学术搜索
- w . Yu, x, y, j . Ngeow和c . Eng”Cowden syndrome-associated生殖系SDHD变异改变PTEN核易位SRC-induced PTEN氧化、”人类分子遗传学,24卷,不。1,第153 - 142页,2015。视图:出版商的网站|谷歌学术搜索
- j .畠山直哉j·h·瓦尔德Printsev, h . y . h . Ho和k·l·卡拉韦”Vangl1 Vangl2:平面细胞极性组件在癌症发展中作用,”Endocrine-Related癌症,21卷,不。5,R345-R356, 2014页。视图:出版商的网站|谷歌学术搜索
- x Pu、y . Zhang et al ., s·j·斯托尔”Caspase-3和caspase-8表达在乳腺癌:Caspase-3与生存有关,”细胞凋亡,22卷,不。3、357 - 368年,2017页。视图:出版商的网站|谷歌学术搜索
- a . f . Alimirah x Peng Gupta et al .,“维生素D受体(VDR)之间的串扰和mir - 214规范SuFu,刺猬通路抑制剂在乳腺癌细胞中,“实验细胞研究,卷349,不。1,第15 - 22页,2016。视图:出版商的网站|谷歌学术搜索
版权
版权©2021明曹等。这是一个开放分布式下文章知识共享归属许可,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。