文摘

一个至关重要的生物过程被称为血管生成在迁移起着至关重要的作用,内皮细胞的增长,伤口愈合和其他过程控制的化学信号。血管生成过程内控制血管的生长组织血管生成蛋白质扮演了一个重要的角色在这个过程的适当的工作。这些信号的平衡是必要的适当的血管生成的工作。这些信号增加血管形成的贡献,导致异常生长或几种疾病包括癌症。拟议的工作重点是开发一个两层预测模型使用不同的随机森林(RF)等特点,神经网络和支持向量机。第一级执行在计算机识别基于主要的血管生成蛋白质结构。蛋白质是一种血管生成的,那么二级预测蛋白质是否与肿瘤血管生成。通过各种验证模型的性能评价技术。该模型评估使用 - - - - - -折交叉验证、独立、自洽性和重叠测试。总体精度使用射频分类器对血管生成的第一级为97.8%,肿瘤血管生成第二层次是99.5%,安显示94.1%的准确率为79.9%,肿瘤血管生成,血管生成和血管生成的SVM的准确性为78.8%,对肿瘤血管生成是65.19%。

1。介绍

新血管的生物过程开发从先前存在的血管称为血管生成1]。这是一个正常过程,迁移起着至关重要的作用,内皮细胞的增长,愈合。血管生成本身是由化学信号控制。通常,这些化学信号保持平衡的后果这意味着新血管只在需要的基础上发展。但有时这些信号可以不平衡,可能会增加血管形成,这反过来导致异常生长或疾病(2,3]。血管生成起着至关重要的作用在肿瘤细胞的发展和增长4,5]。就像正常细胞生长,肿瘤细胞也需要氧气和其他营养生长和扩张。这些元素存在于血液。肿瘤细胞发送化学信号刺激新血管的生长。没有血管生成过程中,异常或肿瘤细胞不能超出1 - 2毫米大小(6,7]。但这异常的血管生成过程不仅导致癌症,而且是一些疾病如白血病的前兆,血液疾病,肌肉变性,和眼疾(8- - - - - -10]。

癌症是列为21世纪的主要死亡原因。2015年公布的一项调查报告称由世界卫生组织(世卫组织),癌症是第一和第二主要原因死亡在70岁之前在全球91个国家7]。此外,根据2018年癌症统计报告由国际癌症研究机构和英国癌症研究,全球有960万人因为癌症而坏死(7,11]。这个比例预计将增加在未来几年。

世界各地的研究人员、科学家和生物学家正在寻找不同的技术发展中不同的药物和系统对抗这种致命的疾病12]。直到现在,很多研究人员的贡献他们的知识开发肿瘤预测不同系统在其生命周期的不同阶段。提出了不同的策略来控制这种疾病像化疗13,14),放射治疗(15,16)、手术和骨髓移植也称为脐带血和疫苗(17]。癌症可以攻击大脑是人体最重要的部分。它有最微妙和复杂的结构,因此很难注入药物来治愈它。但不同的方法可以实现药物大剂量化疗,血脑屏障,和中断18]。许多治疗肿瘤围绕着试图抑制肿瘤血管生成的过程。科学家已经发现许多配体,可以绑定到这样的,其功能是抑制肿瘤血管生成蛋白质。因此,血管生成和肿瘤血管生成蛋白质的识别是至关重要的在寻找新颖有效的肿瘤治疗方法。

以前,一些数学(3)和计算模型已经开发的分类或识别各种蛋白质组和基因组的属性(19]。拟议的工作建立了一个基于位置的计算模型和组合信息的主要序列试图准确地识别血管生成和肿瘤血管生成的蛋白质。由于肿瘤血管生成的蛋白质也认为血管生成蛋白质,模糊的相似特性会导致一个模棱两可的结果。模棱两可之间看似相似的血管生成和肿瘤血管生成蛋白质是通过一个两层的分类模型来解决。初始层区分血管生成和nonangiogenesis蛋白质而第二个层理解如果蛋白质识别作为血管生成是肿瘤引起。两层模型可以帮助缓解模棱两可和产生更精确和刻苦的结果。

剩下的纸是组织如下。部分2照亮血管生成在先前的研究发现的重要性,还讨论了计算机识别的最先进的模型用于蛋白质组属性。部分3讨论了采用该方法在计算机识别模型。部分4说明了模型的准确性通过定义良好的严格的测试方法。部分5提供了一个通用的讨论该模型的性能。

1.1。当前状态的艺术

血管生成在肿瘤进展的关键作用在1971年首次被发现Judah Folkman [20.]。血管生成是一个至关重要的血管系统的过程通过发芽生长和分裂的血管21]。肿瘤细胞还需要恒流的血为他们的成长,他们模拟血管的生长通过各种肿瘤血管生成蛋白质或生长因子的分泌。癌症治疗疗法旨在发现这种生长因子抑制剂。识别血管生成和肿瘤血管生成蛋白质具有巨大的意义在癌症研究目标的抑制剂(22]。大多数的癌症研究围绕发现配体和物质,将与肿瘤血管生成的蛋白质结合,抑制其作用[23]。科学家们使用各种方法来识别蛋白质的属性(24- - - - - -28]。在计算机识别技术已经进化和收到好评过去几年因为它们提供健壮和快速结果和具有成本效益的29日,30.]。科学家们利用各种数学和计算模型来识别属性的蛋白质成分和定位的基础上氨基酸残基(31日]。一个定位的数学模型,即position-specific得分矩阵(PSSM), 1982年(32]。许多预测模型设计,结合使用PSSM识别蛋白质组的属性。然而,由于PSSM不构成相关的信息合并到模型中,因此它没有一个主要方面,它决定了蛋白质组的属性。2001年,周介绍了伪氨基酸组成模式,包含位置以及组成信息到模型中,从而提供更好的结果(33]。许多概括和变体已经提议提供更好的结果(31日]。选择最合适的分类器等的设计方法中起着举足轻重的作用。众多的分类器的预测一直转译后的修改网站包括随机森林,支持向量机,神经网络,深度学习。在[34正态分布),作者结合适应biprofile,贝叶斯,PseAAC制定预测模型。精度进一步提高使用内核稀疏表示分类和最小冗余和最大相关性算法(35]。随后,一种改进的描述使用一个深入学习算法由[制定36]。深度学习已成为一个令人鼓舞的模型来解决大量的问题(37- - - - - -39]。提出的基于位置的工作提出了一个两层模型和组成相对特性和统计时刻(31日)血管生成和肿瘤血管生成蛋白质的识别是对各种分类器获得最好的结果。

2。材料和方法

血管生成已被确定为一个关键过程,需要征服扰乱癌症的恶化。血管生成蛋白质特别是那些导致肿瘤血管生成在这个过程中有一个至关重要的意义。因为他们促进新血管的发展在癌组织中,因此他们被认为是一个重要的生物标志物对于早期发现癌症。

肿瘤也使用相同的过程来他们的增长;然而,可以唯一地标识负责其增长的生长因子。蛋白质组学方面的功能,血管生成和肿瘤血管生成具有共同属性。因此,履行艰巨的挑战明显识别肿瘤血管生成蛋白质,两层的方法是采用如图1

第一层模型的检测蛋白质是一种血管生成,是否使用蛋白质的一级结构。而言这是一种血管生成蛋白质,然后调用模型的第二层,以决定是否血管生成蛋白可能导致癌症。

该工作流如图2,由以下五步方法;最初,我们将收集美观而血管生成蛋白质组成的实验测试数据集预处理去除冗余。此外,特征抽取,执行将生物数据转换为它的等效数学矩阵。在第三步中,获得特征矩阵用于训练模型为进一步预测。在第四步中,评估模型的正确性,敏感性,特异性,MCC。在第五个步骤中,我们开发了网络服务器。

2.1。数据集集合

数据收集从UniProt数据库使用精心设计的搜索参数。UniProt是一个通用的蛋白质资源,包含巨大的蛋白质的序列信息和他们的生物功能22]。包含积极的数据集样本由血管生成和肿瘤血管生成使用UniProt关键字“血管生成。“同样,负样本也收集。UniProt没有关键字“肿瘤血管生成”的蛋白质。尽管如此,它们在血管生成蛋白质的组成;因此,肿瘤血管生成蛋白质从获得的数据集手动策划。中的每个样本数据集是手动为带注释的蛋白质组学分析数据库中的属性和发表的证据形成一组肿瘤血管生成的蛋白质。然而,模糊样本排除在外。从UniProt收集数据后,CD套件(http://weizhong-lab.ucsd.edu/cdhit_suite/cgi-bin/index.cgi)被用来降低数据样本的同源性。血管生成和肿瘤血管生成的聚类数据集是由序列标识参数设定在60%。最终,761积极和2776 -集群形成血管生成的数据集。类似的,256年积极和448年负集群形成的肿瘤血管生成的数据集。序列被选中代表每个集群形成最终的数据集。

上面的方程给出了基准数据集用于这项工作, 代表血管生成蛋白质和积极的数据样本 显示了负面数据。同时,积极的肿瘤血管生成被表示为样本 ,和消极的肿瘤血管生成蛋白质被表示为 如下所示的方程:

2.2。特征提取

一个健壮的和有效的方法生物序列的转换成数值符号纳入一个机器学习算法是最关键的概念在这种预测模型的设计31日,40]。这种转换必须保持完好的原始信息或特征序列进行分析在某些数值形式。为此,每个主要序列中收集到的数据转化为一个固定大小的向量。静态的特征向量长度代表主要形成序列,基本上维持不变的规模序列(41]。公司这样的转换模型是理想的最先进的分类器与向量(22,42,43]。描述的一个向量模型也可能失去完整的信息模式的序列(44]。提出了这个问题,周PseAAC建设的许多科学家使用的基因组和蛋白质组预测模型及其应用45,46]。以后,这个模型改进提供更好的残留物中相关性的角度,反映到特性系数。

蛋白质序列的长度 ,这是表示为 在哪里 是一个任意的残渣多肽链的长度吗

特征提取收益率向量与众多数值系数。这种转变从一个变长多肽链成一个固定长度的特征向量中说明了以下方程: 在哪里 是转换函数, 是一个任意的系数,然后呢 是恒定的特征向量的长度(22,31日]。

2.3。统计的时刻

使用统计的时刻提出的方法论的发展形成一个数值表示的模糊信息在蛋白质的一级结构保持完好无损。这些时刻形式简洁的数值形式,这样可以重建原始数据没有任何重大损失的信息。时刻可以获得一些订单;每一个提供了一个更深层次的角度数据的特定方面定位,怪癖,偏态和特点31日]。数学家和统计学家设计了许多时刻生成系数体现基于定义良好的分布函数和多项式(35,44]。

在拟议的工作,哈恩的时刻,生的时刻,和中央的时刻被组织特性集。哈恩时刻熊位置,计算的方差和基于哈恩多项式。中央时刻遵守信息不对称,和方差。中央时刻派生为重心的集体数据在这些时刻规模变量和位置不变。随后,原始的时刻是规模和位置变异和代表属性如不对称,方差和均值。

一个矩阵 尺寸是,制定一个二维剩余蛋白表示

向量 很容易转换成矩阵 通过使用一个简单的映射函数解释(47]。主序列安装到一个二维矩阵,以便它可以被制定成哈恩正交多项式。相同的二维符号用于推导生和中央的时刻。哈恩的时刻使用哈恩多项式计算如下考虑。

中央时刻使用下面给出的方程计算。

下面的方程是用于计算原始的时刻。

在方程(7)和(8), 代表原始的顺序的时刻。正交性的这些时刻呈现其使用的作为其逆函数可以用来重建数据。详细的解释和使用这些符号可以在找到48]。

2.4。频率向量的决心

的累积频率发生的每个特定氨基酸残基装饰成频率向量。信息分布主内的氨基酸残基序列总结成这个频率表示为向量 在哪里 指的是任意的出现频率不同的氨基酸残基。

2.5。位置相对关联矩阵计算(的)

主要的蛋白质序列的基础配方的主要结构特征向量的模糊。与位置有关的信息的相对发病率任意蛋白质残留制定作为一个矩阵的大小 相对位置关联矩阵(的)说明

的相对位置的总和 th蛋白质残渣对应于第一次出现的 th计算残留在上面的矩阵给出 矩阵包含了所有可能的排列等事件中解释(48]。

2.6。确定反转位置相对关联矩阵(RPRIM)

更多的模糊特性的主要序列的帮助下发现了相反的位置相对关联矩阵(RPRIM)。RPRIM是通过形成的呆板的逆转主要序列。 是说明 在哪里 是一个任意的元素

2.7。累计发病率绝对位置向量(AAPIV)计算

AAPIV矩阵是用来计算总和每个本地氨基酸的位置发生在主序列;因此,它有20,并表示的长度

任何 th元素在上面的矩阵计算 在哪里 是一个本地的位置发生氨基酸 是其发生的频率。

所有的上述定义特性进行聚合,以形成特征向量。的维数 , , 减少了计算他们的哈恩、中央和原始的时刻。最终,形成一个固定大小的特征向量来表示不同长度的主要结构。

3所示。预测算法

提取后的特征向量从正面以及负面的序列,数据用于训练分类器。目前不同的一组广泛的分类器是用于目的包括随机森林,神经网络和支持向量机。比较的结果产生了从每个分类器工作使最合适的分类器的识别精度最高。

3.1。随机森林

随机森林(RF)训练分类器在两个水平的预测血管生成和肿瘤血管生成的蛋白质。在第一个层面上,分类器是用来识别血管生成和nonangiogenesis蛋白在血管生成蛋白质的二级通过另一个分类器识别是否蛋白质肿瘤引起。随机森林是一个非常强大的分级机用于分类和回归问题(49,50]。最初,它将整个数据转化为决策树23,51]。此外,一个随机森林分类器应用于每棵树来预测一个类。最高的阶级投票成为模型的预测结果(41)如图3

3.2。人工神经网络(ANN)

随后,人工神经网络(ANN)也同样在两个级别。安有互连层的神经元(52]。反向传播网络的联结主义架构如图4。安机制是基于使用前馈网络和使用反向传播算法来减少误差。一个输入层夹输入特征向量。它也有一个隐藏层接收选择从输入层神经元的数量和形式的主要处理单元的整个网络。安和所有之前的加权输入的激活单位除了偏差值(23,31日]。3 - layer前馈网络的输出误差反向传播是由 输入层有在哪里 神经元和隐藏层 神经元。部分输出计算的 网络中神经元用 假设任意节点接收输入 ,然后 表示连接节点的边的权值 到节点 同样的, 代表的重量 节点连接到任意一个输出层神经元 经典的σ决定神经元的激活函数表示

实际激活水平与目标相比,输出单元输出为每个训练迭代。错误率因此观察用 和计算预期的输出之间的差异和实际激活输出给出 在哪里 是目标输出, 是实际计算输出的网络, 是在输出层神经元的数目。梯度下降法是用来减少错误率。在输出层生成的错误发送回输入层。集的权重是由一个向量表示 反向传播过程选择一个微分 ,使其减少错误。这是继续迭代,直到达到收敛如下所示: 在哪里

这个方程显示重量的变化 ,和积极的常数 说明了学习速率通常设置在0和1之间。权重的变化表示为

在这里, 显示了最小的 重量在 th th神经元的 th迭代。这个过程是在两个向后和向前传递的输入信号。它是一个轻量级的过程,消耗更少的内存空间,并广泛用于安的训练。模式是重复提供网络训练它,让它能够最小化均方误差(MSE)所示

在收到的实际产出 th输出层的神经元是表示为 , 代表了期望值的总数输入样本在哪里 还有 输出神经元。

3.3。支持向量机(SVM)

支持向量机(SVM)是一个机器学习分类器,用于regression-related问题。支持向量机的工作原理是试图融入一个超平面 - - - - - -维空间的地方 代表特征元素的数量代表样品明显。超平面是简单的决策边界分类的数据点,这些数据点存在两岸的超平面,理想情况下分区不同的类。超平面是大多数优化调整通过支持向量。图5说明了分属于不同的类的超平面的两边,也就是说,A类和B类。

4所示。结果与讨论

4.1。模型的评价

在最近的研究中,数据集是基于两个层次。第一级积极使用785和2776负样本关于血管生成蛋白质而第二层次包括256积极和448负样本的肿瘤血管生成的蛋白质。一个特征向量输入矩阵(鳍)成立单独对血管生成和肿瘤血管生成的数据集。每一行的鳍是一个特征向量代表一个数据样本。同样,一个预期的输出矩阵(加工)成立相应的鳍。所有分类器训练使用鱼翅和加工。鱼翅被作为输入培训加工的模型用于计算错误和再培训,直到达到收敛(23,31日,43,45]。

所有的分类都是使用Python 3.6版本使用SciKit学习API实现的。随后,结果收集使用这个框架是严格的性能参数进行了分析。

一个主要设计问题的设计一个新的预测模型是建立一些参数来衡量其准确性。研究人员主要使用四个描述性指标性能分析。这些指标如下:(1)Sp的特异性措施量化模型的识别能力积极样品准确(46](2)Sn措施的敏感性,代表了在预测准确性负样本数据(3)Acc是用来衡量总体模型的准确性(4)MCC是测量模型的稳定性(5)下面的公式是用来量化这些指标。 ,真正的底片由TN,真阳性为TP,由FP假阳性,假阴性为FN (43,53,54]。

但不幸的是,方程的形成(21),(22),(23)和(24)有些神秘的生物学家(55]。另一个更直观的格式已经被科学家建议(56,57在[],及其修饰符47]。符号用来代表这些方程 , , , 解释这些表示在表1

因此,这些指标也计算

4.2。验证方法

测试是另一个重要因素预测模型的验证22,31日,42,45]。验证阶段包括四种最常用的测试下面讨论。

4.2.1。准备自洽性

自洽性测试是最简单和直观的测试。训练模型仅仅是测试的数据集被用来训练它。能力模型的学习强调从给定的数据集,这个基本的但有用的评价基准。好的结果仅仅表明,该分类器的训练数据中发现模糊模式的能力。自洽性测试进行血管生成和肿瘤血管生成该模型的数据集训练。从自洽性测试结果见表2显示该模型的整体性能使用随机森林(RF),人工神经网络(ANN)和支持向量机(SVM)分类器。

结果表明,随机森林分类器有最好的学习和理解能力特别描述每个样本的模糊模式。

4.2.2。交叉验证

交叉验证技术在未知数据用于测试是没有现成的45,58]。数据集随机分为多个分区或折叠横跨在一个全面的样本空间因此呈现交叉验证作为严格的测试。分区设计的方式,它们相互脱节,具有可比性。一个分区排除而对其余的数据模型训练。一旦模型训练有素,忽略时分区用作未知的数据来测试模型。为每一个褶皱又一次重复这些步骤。的整体精度模型的交叉验证测试报告通过的准确性产生了对每一个褶皱。

交叉验证测试执行的基准数据集分割成5倍和10倍。表3描述了测试的结果。

随机森林展示最好的结果在这两个层次的血管生成蛋白质的识别的准确性为99.7%和99.5%的精度识别肿瘤的血管生成蛋白质。

4.2.3。重叠测试

重叠测试是最严格的测试方法。在每个迭代中,它遗漏了一个样品在模型训练的休息。经过足够的训练,忽略时的模型是测试样品。这个过程详尽所得数据样本。因此,这个测试是重复 次, 代表整个数据集的大小。在每次迭代过程中,样品的测试数据是不同的,所以所有的样品测试了一次。这种技术是最严格的,也让它慢59- - - - - -63年]。成功的培训和测试后,真阳性,假阳性,真阴性和假阴性(获得了55]。

由于样品是完全测试一次,因此总体精度获得这个测试仍然是独一无二的(31日,40,45,46]。

射频结果见表4血管生成和肿瘤血管生成蛋白质更高的精度和报告描述为99.3%和99.7%,分别与其他分类器相比。

4.2.4。独立集测试

独立测试评估模型对未知数据执行。最初,数据分区,这样更大的分区用于培训和忽略时分区用作未知数据进行测试。一旦完全训练模型,然后使用忽略时执行独立集的测试数据。需要制定一套独立的简单的训练数据,包括全面彻底模糊模式和测试数据查询的能力模型来破译这些模式。否则,测试结果可能是模棱两可的。从独立测试结果说明射频的整体精度,安,和支持向量机分类器在独立测试如表所示5

随机森林显示最好的结果比安和支持向量机分类器识别在这两个层次的血管生成和肿瘤血管生成蛋白质而安分类器的性能优于SVM分类器。

使用分类模型渲染性能测量作为基本任务量化使用分类的分数。但这种类型的性能是不适合在处理有缺陷的数据集与重类不平衡。在这种情况下,中华民国(接受者操作特征)曲线提供了一个图形视图和整个场景的定量分析。中华民国是一个普遍地使用评估任何分类模型的性能评价方法。ROC曲线绘制通过映射真正积极率对假阳性(TPR)率(玻璃钢)。它描述的精度模型类间区分的能力。TPR绘制沿 - - - - - -轴而玻璃钢是绘制的 - - - - - -轴。估计曲线下的面积的测量模型的性能。最好的精度是1,最严重的是0.5。良好的可分性测度意味着模型精度接近1,同样的,精度接近0表明模型具有可分性最糟糕的措施。因此,小于0.5表明,模型的准确性将执行完全相反的模式建议。

各种测试技术应用于衡量分类器的有效性(如前所述)。优先考虑分类器基于效率,比较是通过ROC曲线描述。图6代表了比较基于前面章节中测试。数据6- - - - - -10描述射频显示最好的结果相比,安和支持向量机。RF曲线包括面积接近1暗示模型的最佳衡量标准可分性。图形化表示强调,射频和安表现出更好的结果比支持向量机。然而,在重叠的情况下测试,支持向量机分类器精度高相比,安如图10

执行一个类似的比较在二级分类器预测肿瘤血管生成的蛋白质。数据11- - - - - -15结果说明在肿瘤血管生成的数据集上执行各种测试技术。这些数据意味着,RF分类器展品更好的结果相比,这一事实支持的安和SVM分类器射频曲线下的面积大约是接近1。

5。网络服务器

制定强有力的数据集和特征提取方法形式计算智能模型的基础未分类的蛋白质组序列的有效预测。然而,这种工具的可用性也是极端重要性,研究社区可以从中受益45]。使小说预测的忍耐所有用户和世界各地的生物学家,需要一个用户友好的和公开的网络服务器访问。在周5步的统治的最后一步,为此设计了一个网络服务器(48]。网络服务器使科学家和生物学家轻松地访问并利用这些预测的应用程序中,而不必进入复杂的数学细节。提出的网络服务器工作很快就会提供。与此同时,它的代码已经在readme文件可用https://github.com/RabiaKhan-94/Thesis_WebServer.git这可以很容易地建立的一个中级的Python开发人员。

6。讨论和结论

本研究提出了一种预测模型对血管生成和肿瘤血管生成的分类。一个健壮的良好定义的方法是采用数据集收集。重复和冗余数据删除,同源序列60%被排除在外。变长蛋白质组序列转换成固定长度的使用位置和composition-based技术特征向量。相对位置信息被进一步转化为简洁的形式使用统计的时刻。三个随机森林分类器(RF)、人工神经网络(ANN)和支持向量机(SVM)被用来找到最好的结果。这些算法都是强大的、健壮的和容易理解。随机森林(RF)和人工神经网络(ANN)可以处理线性以及复杂的非线性问题。目前的研究表明,射频显示最好的结果在这些分类方法。交叉验证的结果,射频展出一个血管生成蛋白质的准确性为97.8%,肿瘤血管生成的准确性为99.5%,在安显示的准确性99.1%,血管生成为79.9%,肿瘤血管生成。 Additionally, the accuracy of SVM for angiogenesis was 78.8%, and for tumor angiogenesis, it was 65.19%. The current study has shown different performances for all approaches. Consequently, it concludes that the results exhibited by RF are better than ANN and SVM. On the other hand, the random forest takes less time for training as compared to the neural network. Another important strength of RF is that it is less susceptible to overfitting which is not the case with a neural network. The robustness of the feature extraction technique plays a significant role in the overall accuracy of the model. Feature extraction uncovers obscure features more pertinent to the composition and sequence of the primary structures. The meticulously collected data helps the model to produce better results. The in silico nature of the model makes it an alluring opportunity as it is timely and cost-effective. Biologists and scientists can greatly benefit from the proposed tool for the characterization of proteins and understand their role in angiogenesis and tumor angiogenesis processes. Furthermore, the model can prove to be effective in identifying the biomarkers that cause a tumor. Additionally, it augments the work of biologists and scientists in research aimed at finding new treatments and discovering new drugs.

Tumor-causing血管生成蛋白质是癌症的发病的重要生物标志物。及时识别这些蛋白质可以帮助治疗和可能的疾病的治疗。本研究提出了一种健壮的硅技术识别使用二级预测肿瘤血管生成。第一级显示是否一个蛋白质是一种血管生成而第二个级别标识给定的蛋白质是否负责肿瘤血管生成。一个成熟的特征提取技术为基准数据集被用来收集特性。射频等特点,支持向量机,安被训练使用生成的特征向量。一旦模型是彻底的训练,他们是严格测试使用的测试方法 - - - - - -折交叉验证、自洽性、独立设置测试和重叠测试。随机森林分类器显示99.3%的准确率为99.7%,肿瘤血管生成,血管生成和安显示血管生成总体96.23%的准确率为95%,肿瘤血管生成。另一方面,支持向量机对血管生成显示78.65%的准确率为65.19%,肿瘤血管生成。

7所示。未来的工作

先进的药物疗法和治疗结合配体的使用这一目标肿瘤血管生成抑制蛋白质。抑制这些肿瘤的生长因素扰乱了经济增长,并在某些情况下,肿瘤甚至死亡。工具,可以帮助肿瘤血管生成蛋白质的发现和识别大大帮助癌症研究人员识别这些生长因子在及时和有效的方式。一个这样的肿瘤生长因子被发现;有一个不断的需要确定配体可以抑制它们。在计算机模型模拟与肿瘤生长因子配体绑定也可以大大提高肿瘤的研究。进一步说,在未来,该模型可以通过将更加适应更新数据并使用深度学习特性。

数据可用性

数据存在于https://github.com/RabiaKhan-94/Angio_Webserver

的利益冲突

作者宣称他们没有利益冲突的报告对于本研究。

确认

这个项目是由院长以来科研(域),阿卜杜拉国王大学(https://www.kau.edu.sa/下),吉达(批准号G: 160-611-1441)。因此,作者承认,由于安全域的技术和财政支持。