文摘

体细胞突变的检测和表征已经成为重要手段来分析癌症的发生和发展,最终将有助于选择有效、精确治疗特定的癌症患者。很难准确地从大规模测序数据检测的体细胞突变。摘要forest-graph-embedded深前馈网络(forgeNet)是利用从测序数据检测的体细胞突变。在forgeNet,随机森林(RF)或梯度增加机器(GBM)和graph-embedded深前馈网络(GEDFN)是利用提取特征,实现分类,分别。三个真正的体细胞突变数据集收集从48三阴性乳腺癌是用来测试forgeNet的体细胞突变检测性能。检测结果表明,forgeNet可以使0.05% - -0.424%的改进的曲线下面积(AUC)与支持向量机相比,随机森林。

1。介绍

新的测序技术的快速发展,大量的测序已经生成,处理组学数据和分析为了解决生物学问题[1- - - - - -5]。又没有参考序列测序的物种在基因层面上,和参考序列的物种,这将为后续研究和分子育种奠定基础(6- - - - - -8]。与参考序列,该物种全基因组测序可以检测到突变网站相关的有机体的重要人物,其中包括单核苷酸多态性(SNP)和insertion-deletion (InDel),个体差异的分子基础和研究和行业发挥着重要的作用9- - - - - -12]。

体细胞突变发生在正常的身体细胞包括单核苷酸多态性和InDels。这样的突变不会传递给后代。从遗传突变体细胞突变是不同的,这发生在细胞成为配子(精子和卵子)[13]。可以传递给后代的种系突变(14,15]。体细胞突变不让后代基因变化,但这些可能导致一些细胞的基因结构的改变。许多研究人员研究关于癌症的原因16- - - - - -20.]。细胞遗传物质的结构或功能异常可能是由于致癌因素。大多数这些异常不是继承了生殖细胞,但由于新的基因突变体细胞。突变的癌前细胞发展成肿瘤肿瘤促进因素的作用下(21- - - - - -23]。因此,大多数的肿瘤可以被视为一种体细胞基因疾病(24]。癌症相关的体细胞变异的研究癌症的治疗和预防的一个重要的角色。

如今,很多已经利用机器学习方法来解决生物医学问题[25- - - - - -29日]。然而,很难准确地从大规模测序数据检测的体细胞突变。近年来,许多研究人员一直在努力解决这个问题。丁等人研究的四种经典分类方法以检测体单核苷酸变异(SNV) [30.]。受伤等人提出了一个新颖的体细胞突变检测算法,即贝叶斯突变的召唤,whole-exome测序数据。同时,提出了一个经验贝叶斯方法检测体细胞突变和测序错误(31日]。Koboldt等人提出了一个变种调用工具,即VarScan 2,歧视从体细胞突变种系突变下一代测序(门店)的数据(32]。Sahraeian提出了一种新的躯体基于卷积神经网络识别方法,这可能比先前的方法(33]。杨和陈提议ensemble-method-based灵活神经树模型(FNT)和径向基函数(RBF)提高体细胞突变鉴定的准确性(34]。Dorri等人提出了MuClone体细胞突变信号检测方法与多个肿瘤样本,可以分类突变分为生理上有意义的组(35]。

最近,香港和Yu提出了一种新颖的基于特征图和深层神经网络分类器,即forgeNet。forgeNet是用来处理RNA-seq数据从公共数据库,结果证明这种方法是有价值的生物学数据的分类和特征选择(36]。因此,本文利用forgeNet检测体细胞突变的测序数据。在forgeNet,随机森林和graph-embedded深前馈网络利用。三个真正的体细胞突变数据集收集从48三阴性乳腺癌是用来测试forgeNet的体细胞突变检测性能。

剩下的纸是组织如下。第二部分详细介绍了forgeNet算法。体细胞突变的详细识别过程。第三部分提出了三个实验forgeNet方法。最后一节提供了许多结论和未来可能的研究。

2。方法

2.1。forgeNet

forest-graph-embedded深前馈网络(forgeNet)在2020年提出的香港,这是一种新颖的基于特征提取算法的分类方法和深层神经网络(款)。该方法已成功应用于生物学数据,所以forgeNet是利用检测体细胞突变。forgeNet方法包含以下两个步骤(37]。

2.1.1。特征提取器部分

在本部分中,随机森林和梯度提升机(GBM)是用来选择合适的特征根据训练数据集。假设一个森林 决策树。根据训练数据集,可以获得合适的森林 ,在哪里 表示参数的树木。一棵二叉树可能被视为一种特殊情况的同时图,和一组图表可以获得如下: 在哪里 的顶点和边集吗

最终功能图 可以通过合并获得所有图表图准备好了吗 ,这是准备forgeNet的第二步。

2.1.2。神经网络部分

在本部分中,graph-embedded深前馈网络(GEDFNs)是用来解决分类问题(37]。的结构GEDFN给出如下: 在哪里 是数据矩阵与适当的特性选择从forgeNet的第一步, 表示阿达玛的产品, 的重量和偏见吗 分别为隐层。

2.2。体细胞突变的识别

为了测试forgeNet和识别体细胞突变的检测性能,利用交叉验证方法,解决过度拟合问题[38,39]。由 - - - - - -折交叉验证方法,体细胞突变的检测过程forgeNet如下(图给出1):(1)体细胞突变的特性数据分为 组( ),样品的数量 组织通常是相等的。 通常是大于或等于2。(2)每个子集被设置为一组测试一次,剩下的 - - - - - -1子集组作为训练集,划分训练集和测试集,forgeNet方法安装。通过 运行时, 模型将获得( )。曲线下的面积(AUC)的测试集 模型作为分类器的性能指标。

3所示。实验

为了研究forgeNet的体细胞突变的识别性能,利用三个真正的体细胞突变的数据集,从48收集三阴性乳腺癌通过捕获肿瘤/正常对与Illumina公司基因组测序分析仪(30.]。积极和消极的样本数据集描述表1

接受者操作特征(ROC)是用来测量性能的体细胞突变与任何数据集分类模型,和曲线下面积(AUC)是用来量化ROC曲线。ROC曲线越陡峭,分类性能就越好。AUC是0.5和1之间的值。为了测试forgeNet的检测性能, 利用定义在方程(4)。支持向量机(SVM) [40,41)和随机森林(RF) (42,43)也利用体细胞突变认同三个真实的数据集以比较forgeNet的表演。

SVM的体细胞突变的检测结果,射频,forgeNet表中列出2有三个数据集。数据集1,forgeNet最高 性能,表明forgeNet可以识别更多的真正的体细胞突变。射频具有较高 比forgeNet和支持向量机,这表明,射频识别更真实nonsomatic突变。总的来说, 表演显示射频执行比forgeNet和支持向量机,但射频和forgeNet极其密切的结果。对于数据集2,forgeNet和SVM具有相同 性能,是0.933。而言, ,射频最佳性能,是0.997。的 结果表明,forgeNet和射频检测同样数量的体细胞,nonsomatic突变。但是,在 ,forgeNet表现最好。数据集3, ,forgeNet具有更好的性能,而射频越好 的性能。总的来说,forgeNet具有更高 比射频性能。

AUC的识别性能的三种方法(forgeNet、支持向量机和RF) 10倍交叉验证与数据集,数据集的数据集2,3是数据中描述2,3,4,分别。从图2ROC曲线的射频和forgeNet非常接近,优于支持向量机。射频可以获得最好的AUC值,这是0.99499。forgeNet第二个更好的AUC值,低于0.16%的射频和0.32%高于SVM。从图3它可以看到,forgeNet ROC曲线比射频数据集和支持向量机2。forgeNet可以获得最高的AUC值,这是接近1,0.424%高于SVM和射频的高出0.05%。对图4数据集3,forgeNet和射频ROC曲线越接近,优于支持向量机。AUC值而言,forgeNet比SVM高出0.24%和0.105%高于SVM。通过三个数据集的识别结果,我们可以看到,forgeNet可以获得更好的性能比支持向量机和射频当体细胞突变的比例很低。

为了进一步调查forgeNet的性能,forgeNet,支持向量机,并利用射频识别体细胞突变与数据集由三倍交叉验证数据集2和3,5倍交叉验证,分别和8倍交叉验证。三倍交叉验证,ROC曲线的识别和AUC值描绘了三种方法的数据56分别用数据集数据集2和3。从图5,它可以看到,AUC, forgeNet比SVM高出0.278%,比射频高出0.425%。图6显示,AUC, forgeNet比SVM高出0.328%,比射频高出0.028%。

通过5倍交叉验证,ROC曲线的识别和AUC值描绘了三种方法的数据78分别用数据集数据集2和3。从图7,它可以看到,AUC, forgeNet比SVM高出0.167%,比射频高出0.388%。图8表明,AUC, forgeNet比SVM高出0.27%,比射频高出0.05%。交叉验证的8倍,ROC曲线的识别和AUC值描绘了三种方法的数据910分别用数据集数据集2和3。从图9,它可以看到,AUC, forgeNet比SVM高出0.34%,比射频低了0.11%。图10证明,AUC, forgeNet比支持向量机和小高于射频高出0.064%。从三倍交叉验证的结果,5倍交叉验证和8倍交叉验证,forgeNet具有更好的ROC曲线和AUC值高于射频和SVM,表明forgeNet可以更准确地识别体细胞突变。

4所示。结论

在本文中,一种新的分类器,即forgeNet利用提高体细胞突变鉴定的准确性。forgeNet包含两个部分:特征提取器部分和神经网络部分,利用提取的特征和实施分类,分别。三个真正的体细胞突变的数据集是用来测试forgeNet的体细胞突变检测性能。三倍交叉验证,5倍交叉验证,8倍交叉验证,并利用10倍交叉验证。而言, ,forgNet可以识别更多的真正的体细胞突变,而随机森林可以识别更多真正nonsomatic突变。分类结果表明,forgeNet可以0.05% - -0.424% AUC改进与支持向量机相比,随机森林。

在未来,我们将分析体细胞变异的生物学意义分类的过程。此外,体细胞突变不同癌症的分类和分析。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者宣称没有利益冲突。

作者的贡献

f . w .构思方法。h .问设计方法和主要写的手稿文本。c . w .进行了实验。所有作者回顾了手稿。

确认

作者承认收到的资金的主要研究项目山东省科学基金会(ZR2020KE001)。