文摘
circRNA是小说类的非编码RNA闭环结构。提高生物实验表明,circRNAs发挥重要作用在许多疾病作为microrna的海绵来间接调节microrna的目标基因的表达。因此,预测circRNAs之间的关联和microrna能促进疾病的发病机制的理解。在本文中,我们提出一种新的计算方法,NECMA、基于网络嵌入预测潜在circRNAs之间的关联和microrna。在我们的方法中,高斯交互分布图(GIP)内核相似circRNA和microrna的计算基于已知circRNA-miRNA协会,分别。circRNA-miRNA协会网络,circRNA GIP内核相似网络,microrna GIP内核相似网络利用构造异构网络。此外,网络嵌入算法提取的潜在特性circRNA和microrna的异构网络,分别。最后,circRNAs之间的关联和microrna预计利用邻域正则化逻辑矩阵分解和内积。NECMA的性能通过使用10倍交叉验证评估。结果表明,该方法具有更好的预测精度比其他先进的方法。
1。介绍
circRNA是一组新的内生非编码RNA是高度代表在哺乳动物的转录组1]。相对于其他非编码rna(如lncRNAs和microrna) circRNAs在早期没有收到广泛的关注。随着高通量生物测序技术的发展,越来越多的circRNA分子被发现。研究表明,增加circRNA没有5′末端帽和3′末端聚一个)的尾巴和共价键形成一个封闭的环形结构(2]。像其他非编码rna, circRNAs也普遍存在于真核生物的大脑(3,胃4),和乳腺5]。同时,circRNAs比其他更稳定的线性非编码rna由于其独特的圆形结构(6]。此外,circRNA独特的结构使它能够调节基因的转录和表达(7]。例如,ciRs7绑定相关的microrna和可以作为miR-7海绵影响miR-7绑定到目标基因(8]。此外,它已经发现,circHIPK3海绵mir - 124和抑制恶性肿瘤中的mir - 124的活动来达到调节细胞生长的目的(9]。大量的证据表明,microrna是密切相关的各种疾病(10]。例如,mir - 145抑制结肠癌细胞生长,针对胰岛素受体底物(11]。因此,预测潜在circRNAs之间的关联和microrna可以帮助生物学家理解复杂疾病发病机理,进一步导致疾病的诊断。
高通量测序技术的不断发展,大量circRNAs已经被发现了。同时,大量的数据库开发存储circRNA-related信息如circBase [12],circR2Disease [13],circRNADisease [14],circ2Disease [15]。circBase是一个在线数据库,为用户提供各种基本circRNA信息如circRNA ID、序列、基因描述和位置(12]。circR2Disease是一个公共数据库存储实验验证circRNA-related疾病信息。数据库包含793 circRNA-disease协会包括661 circRNAs和100疾病(13]。circRNADisease数据库包含354 circRNA-disease交互,330 circRNAs, 48疾病(14]。类似于circR2Disease circRNADisease, circ2Disease数据库用于存储vitro-proved circRNA-disease协会数据库,通过它,用户可以获得circRNA-disease协会和microrna及其目标之间的关联(15]。这些数据库允许用户识别潜在circRNA之间的关联和microrna的使用计算方法。
circRNA-miRNA协会与传统的生物实验方法相比,基于计算方法预测能维持高准确性和更耗时。因此,越来越多的受到关注circRNA-miRNA协会预测基于计算方法。目前,大量的计算预测模型已经应用于许多领域的生物,例如,预测疾病和基因之间的关联,miRNA-disease协会(16,17],circRNA-disease协会[18,19],lncRNA-disease协会[20.,21),蛋白质功能(22,23],药物相互作用[24,25),和lncRNA-miRNA协会(26,27]。与其他领域相比,很少有预测模型基于circRNA-miRNA协会预测的计算方法。因此,迫切需要开发一种有效的计算方法来推断circRNA-miRNA关联。
为上述目的,在本研究中,我们提出一种新的基于网络的计算算法嵌入,NECMA预测circRNA-miRNA协会。在我们的方法中,circRNA-miRNA网络是构建基于实验验证circRNA-miRNA关联。然后,基于circRNA-miRNA协会、circRNA GIP内核相似之处和microrna的计算通过使用高斯交互配置内核相似,分别。此外,circRNA GIP内核相似网络,microrna GIP内核相似网络,circRNA-miRNA协会网络集成构建circRNA-miRNA异构网络。此外,网络嵌入模型是用来学习circRNA的特点和基于circRNA-miRNA microrna的异构网络,分别。最后,加权社区正规化物流矩阵分解和内积相结合来预测潜在circRNA-miRNA关联。十倍交叉验证是用来评估我们的方法的性能。实验结果表明,NECMA达到更好的性能比其他先进的方法。此外,案例研究表明,NECMA能有效地推断潜在circRNA-miRNA协会确认的最新的文献。
2。相关工作
大量实验表明,circRNA和microrna与疾病有着密切的联系。当前circRNA-disease协会预测算法分为以下几类。(1)基于网络circRNA-disease协会预测方法:风扇等。28)使用已知circRNA-disease协会、circRNA表达谱相似之处,与疾病表型相似性构建circRNA-disease异构网络,然后使用KATZ预测潜在circRNAs和疾病之间的联系。李等人。29日)综合已知circRNA-disease协会、circRNA功能相似,和疾病的语义相似性和利用network-consistent预测识别潜在circRNA-disease关联。赵et al。30.)开发出一种集成学习算法来预测潜在circRNA和疾病之间的联系。在这种方法中,circRNA-disease异构网络是由已知circRNA-disease协会网络,circRNA相似性网络,和疾病相似网络和circRNA-disease协会预计通过KATZ和双方的网络预测。Lei,扁31日)使用随机游走和重启资讯算法来识别潜在的基于已知circRNA-disease circRNAs和疾病之间的关联关联,circRNA相似之处,和疾病相似之处。李等人。32基于已知circRNA-disease]预测潜在circRNA-disease协会协会网络,circRNA相似,利用电感矩阵完成疾病相似。魏和刘18]重建circRNA-disease协会网络使用circRNA相似性和疾病相似之处,然后使用非负矩阵分解预测潜在的关联。(2)基于机器学习circRNA-disease协会预测方法:Lei和方33]融合circRNA表达谱相似性网络,circRNA序列相似性网络,circRNA功能注释相似性网络构建circRNA相似性网络。疾病相似网络是由集成功能相似性网络和疾病的语义相似性网络。最后,基于已知circRNA-disease协会网络,circRNA相似性网络,和疾病相似网络,circRNA和疾病的潜在特征提取,分别,然后梯度提高决策树算法被用来预测潜在circRNA-disease关联。
同样,miRNA-disease协会预测算法还可以分为相似的类别。彭et al。34)开发了一种miRNA-disease协会预测模型(ThrWRDE)执行重启随机漫步算法在各种miRNA-related生物数据,然后将结果从多个重启随机游走模型。你等。35)综合miRNA-disease协会,microrna的相似性,和疾病相似构造一个miRNA-disease异构网络,然后利用深度优先搜索算法计算microrna的和疾病之间的路径。最后,microrna的之间的不同途径和疾病综合预测协会获得分数microrna和疾病之间的关系。陈等人。36]构造microrna的相似性和疾病相似通过整合microrna的功能相似性和microrna的高斯交互配置内核相似和疾病高斯交互配置内核相似和疾病的语义相似度,分别。最后,归纳矩阵完成用于获得最终的预测miRNA-disease协会。陈等人。37提取潜在的microrna的表达和疾病,分别使用堆叠autoencoder然后获得miRNA-disease协会预测分数,利用支持向量机(SVM)。
3所示。材料和方法
3.1。材料
circRNA-miRNA协会从circR2Cancer数据库下载(http://www.biobdlab.cn: 8000 /)。circR2Cancer数据库(38)是一个手动策划数据库包含不仅circRNA-cancer协会数据,而且circRNA-miRNA协会数据和miRNA-cancer协会数据。消除冗余数据,130年circRNAs之后,412 microrna和477协会在决赛中提取。此外,相邻矩阵构造代表circRNA-miRNA协会,在哪里米代表circRNAs和n代表microrna的数量。元素的价值 当circRNA = 1microrna的有关 ,否则0。
3.2。circRNA和microrna的相似度计算
在这项研究中,高斯交互配置文件(GIP)内核相似是用来计算相似性circRNA和microrna。基于假设circRNAs具有类似功能通常与类似的microrna circRNA GIP内核相似和microrna GIP内核相似计算基于circRNA-miRNA交互网络,分别。对于成对circRNAs和 ,GIP内核相似 circRNAs之间和定义如下: 在哪里代表了矩阵中的行和表示内核的带宽,它定义如下: 在哪里代表了在矩阵的行数厘米。
同样,microrna GIP内核相似 microrna的之间和microrna的定义如下: 在哪里代表列的矩阵和表示内核的带宽,它定义如下: 在哪里表示交互矩阵的列数厘米。
3.3。异构网络的建设
异构网络用于circRNA-miRNA协会预测由三个子网包括circRNA-miRNA交互网络,circRNA GIP内核相似网络,microrna GIP内核相似网络。基于上述三个子网,异构网络构造如下: 在哪里代表了circRNA-miRNA交互网络,代表的转置circRNA-miRNA交互网络,代表circRNA GIP内核相似网络,代表microrna GIP内核相似网络。
3.4。基于NetMF特征提取
在获得异构网络H,网络嵌入矩阵分解(NetMF)算法(39)用于提取circRNA的潜在特性和microrna的异构网络,分别。NetMF是一个矩阵分解框架基于原始DeepWalk算法。具体而言,NetMF模型矩阵的分解形式DeepWalk算法来源于skip-gram negative-sampling模型的隐式分解模型(胡志明市)[40,41]。它可以减少噪声信息矩阵H和提高预测模型的性能。NetMF模型定义为截断的概率分布随机游走,这是计算 在哪里代表一个对角矩阵的元素代表了广义节点度矩阵 。
然后,我们进行了次随机漫步在异构网络根据概率分布计算。它用于样本异构网络中的节点获得传递矩阵这是定义如下:
在获得的过渡矩阵 ,DeepWalk矩阵得到 在哪里代表了异构网络的维度H和代表负样本的数量。
自的密度增加了后续的时间复杂度的计算,近似矩阵定义如下:
在获得矩阵circRNA-miRNA异构网络H,circRNA的低维空间的特征向量和microrna是通过使用奇异值分解(圣)模型(42- - - - - -44),定义如下: 在哪里d代表一个低维空间的维数。
最后,特征矩阵计算:
的维数是 和 。这个矩阵是由circRNA特征向量u和microrna的特征向量 ,维度米和n,分别。
3.5。circRNA-miRNA协会预测
circRNA和microrna的潜在特征向量得到NetMF异构网络 。然后,加权社区正规化物流矩阵分解(45),利用内积重建circRNA-miRNA关联矩阵。
加权社区正规化物流矩阵分解的定义如下:
内积定义如下: 在哪里代表circRNA的特征向量和代表microrna的特征向量 。 代表了平衡两个特征向量的影响权重系数的重构矩阵。
最后,分数circRNA-miRNA关联矩阵的定义如下: 在哪里 表示circRNA之间的预测评分和microrna的 。
NECMA如图的流程图1。主要包含以下步骤:首先,利用高斯交互配置内核相似性计算circRNA相似度和基于已知的microrna的相似性circRNA-miRNA协会,分别。然后,异构网络H构建基于circRNA-miRNA协会网络,microrna的相似性网络,circRNA相似性网络。此外,NetMF用于提取circRNA的低维特征和microrna在异构网络H,分别。最后,加权社区正规化物流矩阵分解和利用内积重建基于circRNA circRNA-miRNA关联矩阵特征向量和microrna的特征向量(算法1)。
|
4所示。结果
4.1。十倍交叉验证
为了评估NECMA的性能,我们进行十倍交叉验证的实验。在十倍交叉验证、已知circRNA-miRNA协会随机分为10个子集。然后,在每一轮的交叉验证实验中,一组选定的测试样品和另外九名集作为训练样本用于模型的训练。circRNA-miRNA协会的最后得分是通过使用模型预测。协会的得分越高,越高的概率circRNA-miRNA交互。然后,我们重新安排circRNA-miRNA协会的分数降序排序。此外,真正的积极率(TPR)和假阳性(玻璃钢)是通过改变阈值计算。TPR和玻璃钢定义如下: TP和FP代表真阳性和假阳性,分别和TN和FN代表真阴性和假阴性,分别。最后,接受者操作特征(ROC)曲线绘制基于TPR和玻璃钢,和ROC曲线下的面积(AUROC)计算评价模型的预测能力。AUROC价值越高,模型的性能越好。
同样地,面积precision-recall (AUPR)曲线基于精度和召回用于评估预测模型的性能。精度和召回的定义如下: 精密代表正面例子的比例在预测结果与实际的正面例子和回忆代表所有真阳性病例的比例分成积极的情况下,衡量分类器的识别能力阳性病例。
此外,为了证明NECMA的优越性在预测潜在的circRNA-miRNA协会。我们比较NECMA和三个最先进的算法包括RWRLncD [46],NCPLDA [47],LRLSLDA [48]。数据2和3显示AUROC和AUPR值不同的预测模型获得的十倍交叉验证,分别。十倍交叉验证的结果表明,AUROC和AUPR NECMA比其他三个预测算法。这可以从图中找到2AUROC NECMA的值是0.8264,高于RWRLncD (0.5243), NCPLDA(0.6985),和LRLSLDA (0.7661)。同时,它可以观察到从图3AUPR NECMA的值是0.0048,高于RWRLncD (0.0016), NCPLDA(0.0011),和LRLSLDA (0.0026)。十倍交叉验证的总体结果如表所示1。可以得出结论,NECMA是一种有效的方法在识别circRNA和microrna的之间的联系。
4.2。参数的影响
NetMF模型中包含有三个参数(上下文窗口 ,消极的抽样数量b,和嵌入维d)。根据前面的研究(39),上下文窗口和消极的抽样数量b设置为1。测试嵌入维数的影响d,我们设置嵌入维度d从8到128。结果如图4。它可以发现AUROC NECMA是最高的价值,当嵌入维度dNetMF设置为8。此外,我们还测试参数权重系数的影响α附近的正则化物流矩阵分解用于平衡的影响两个特征向量矩阵的过程中重建。的参数α范围从0.1到0.9,0.1增加在每一个时间。参数的影响α在预测性能如图5。它可以观察到,AUROC价值最高时获得的α= 0.6。
4.3。案例研究
进一步说明NECMA预测潜在的能力circRNA-miRNA协会,我们进行案例研究mir - 130 - a - 3 - p。我们选择预测的前十名circRNAs NECMA和证明这些协会通过手工检索相关数据库和文献。
大量的实验表明,mir - 130 - a - 3 - p与许多癌细胞的增殖和迁移(49]。例如,mir - 130 - 3 - p可以调节其目标Smad4抑制迁移和入侵gemcitabine-resistant (GR)肝细胞癌(HCC)细胞(50]。因此,正确预测的circRNAs mir - 130 - a - 3 - p是有用的对于理解复杂的疾病机制。十大预测circRNAs mir - 130 - a - 3 - p表所示2。结果表明,9个circRNAs (hsa_circ_0068942、hsa_circ_0089378 hsa_circ_0083357, hsa_circ_0006323, hsa_circ_0032970, hsa_circ_0051172, hsa_circ_0054537, hsa_circ_0057576,和hsa_circ_0082824)已在文献中。已经证实,适度调节hsa_circ_0068942排名前1可以作为mir - 130 - 3 - p的海绵和冠状动脉疾病(CAD)的疾病标记(51]。已经证明hsa_circ_0089378排名在前2可以作为海绵mir - 130 a - 3 - p影响其目标mRNA表达在冠状动脉疾病(52]。已经证明hsa_circ_0083357排名在前三可以发挥重要作用在冠状动脉疾病mir - 130 - a - 3 - p -介导circRNA-mRNA-competitive内源性RNA(龙头)网络53]。人们已经发现,hsa_circ_0006323排名在前4的表达可以抑制mir - 130 a - 3 - p在冠状动脉疾病细胞(54]。已经证明hsa_circ_0032970排名在前五名可以绑定到mir - 130 - a - 3 - p结合位点在冠状动脉疾病细胞(55]。已经证明hsa_circ_0051172排名在前6可以调节的表达TRPM3通过瞄准mir - 130 - a - 3 - p在冠状动脉疾病(56]。此外,它已被证实的微分表达式hsa_circ_0054537排名在前7和hsa_circ_0057576排名前8不仅可以抑制mir - 130 - a - 3 - p也导致upregulation TRPM3 [55]。它已经发现hsa_circ_0082824排名在前9可以促进TRPM3的表达在冠状动脉疾病的靶细胞通过抑制mir - 130 - a - 3 - p (54]。
5。结论
积累实验表明,预测circRNAs之间的关联和microrna不仅有助于理解复杂疾病机制也有利于预防和诊断疾病(57]。在这项研究中,我们提出了一个计算方法,NECMA,来推断circRNA-miRNA关联。在这个模型中,我们首先构建基于已知circRNA-miRNA协会circRNA-miRNA关联矩阵。高斯交互配置内核相似是用来计算circRNA相似度和基于已知的microrna的相似性circRNA-miRNA协会,分别。此外,异构网络构建是基于三个子网(circRNA-miRNA协会网络,circRNA相似性网络,microrna的相似性网络)。此外,采用NetMF circRNA的子空间特征提取和microrna的异构网络,分别。最后,分数circRNA-miRNA协会预计通过使用加权社区正规化物流矩阵分解和内积。为了显示NECMA的性能,我们与三个最先进的方法比较NECMA (RWRLncD、NCPLDA LRLSLDA)的10倍交叉验证。实验结果表明,NECMA达到AUROC值(0.8264)高于其他三种预测模型。此外,它表明NECMA可以正确识别潜在的circRNA之间的关联和microrna通过构造一个案例研究在mir - 130 - a - 3 - p。
虽然NECMA模型可以有效地预测潜在circRNA-miRNA协会仍有许多限制。首先,NECMA模式主要依赖于已知circRNA-miRNA协会数据,正面和负面的不平衡样本将大大影响模型的预测精度。第二,设置的参数也会影响模型的预测结果。此外,集成各种circRNA和microrna的信息可以进一步提高模型的预测能力58- - - - - -60]。此外,NECMA模型不能预测新circRNA-miRNA没有任何已知的协会。因此,我们将集成更多的生物数据circRNA和microrna在未来,这将使它更可靠61年- - - - - -63年]。
数据可用性
底层数据支持我们的研究结果可以发现http://www.biobdlab.cn: 8000 /。
的利益冲突
作者宣称没有利益冲突有关这项研究的出版物。
确认
这部分工作是由中国国家自然科学基金(号。62072124,61963004,61972185),广西自然科学基金(2021 gxnsfaa075041和2018 gxnsfba281193号),科学和技术基础和人才广西(没有的特殊项目。AD20159044),中国云南省自然科学基金(2019号fa024),湖南省科技计划(2018号wk4001)和湖南省级教育部门的科学研究基金会(18 b469)。