文摘

Beta-lactamase (β内酰胺酶)所产生的不同的细菌产生了耐药性β-lactam-containing药物。该基因编码β内酰胺酶plasmid-borne,可以很容易地从一个细菌转移到另一个在接合。这种转换,收件人也获得抵抗的药物β内酰胺的家庭。β内酰胺抗生素在临床治疗中发挥重要意义的灾难性的疾病如软组织感染、淋病、皮肤感染、尿路感染、支气管炎。在此,我们报告一个预测分类器命名为βLact-Pred识别β内酰胺酶蛋白质。计算模型使用的主要氨基酸序列结构作为输入。各种指标都是从主结构形成一个特征向量。通过实验确定的数据正负beta-lactamases是收集和转化为特征向量。操作算法使用基于人工神经网络的集成位置和序列统计特征相对时刻PseAAC训练神经网络。结果验证了所提出的计算模型采用各种各样的方法,即。、自洽性测试、重叠测试,交叉验证,和独立的测试。自洽性的整体精度预测,重叠测试,交叉验证,和独立的测试提供了99.76%,96.07%,94.20%,和91.65%,分别为该模型。惊人的实验结果表明,该预测”βLact-Pred”已经超越了现有方法的结果。

1。介绍

青霉素的出现是一个伟大的革命上世纪人类的病史。这是一个非常有效的治疗许多无法治愈的疾病的时间,导致的发现为其他致命的疾病更有效的补救措施。这个重大的发现后,大量的抗生素被发现杀死致病细菌。先进的药物等的应用增加,这些抗生素耐药细菌还通过生产酶分解这些抗生素的能力1]。这种耐药酶的一个例子是beta-lactamase水解beta-lactam环中发现抗生素,从而破坏其结构。因此,有效的抗生素药物是由管理β内酰胺抗生素药物以及beta-lactamase抑制剂治疗细菌感染(2]。在这个角度看,β内酰胺抗生素和β-lactamases巨大的考虑在临床设置治疗皮肤感染、呼吸道感染、眼部感染,淋病、软组织感染、支气管炎、脑膜炎、尿路感染、肺炎等。做了大量的工作来理解这些酶的结构和作用机理,以阐明微生物对不同药物的后天免疫(3]。β内酰胺酶酶是细菌产生的如cephamycins、青霉素、头孢菌素、碳青霉烯(4,5]。其作用机理是通过分解beta-lactam环出现在所有广谱抗生素通过水解,因此药物的抗菌性质才会安静下来。这些抗生素用于治疗一个巨大范围的革兰氏阴性和革兰氏阳性细菌感染β-lactamases生产只从革兰氏阴性和厌氧细菌5]。

1描述了不同的化学结构β内酰胺抗生素。的环β内酰胺是可以被视为一个quad-edge形状为每个抗生素(6]。这些酶三类,即。,A, C, and D hydrolyze the substrate by making an acyl-enzyme with the active involvement of serine residue. While class B enzyme uses Zn+ for carrying out its normal function [6]。

Yildirim等人研究了配体的初始工作集群基于网络模型的蛋白质。创建一个网络,目标蛋白质网络连接到他们的节点是否有至少一个配体共同然而,研究表明结果只用于修饰或说明常见的网络,而不是不同的化合物7]。Keiser等人使用ligand-based化学相似性和制定持续的子集类(8]。程等人使用一种由两部分构成的网络来表示目标节点和蛋白质化合物相似的基础上分享蛋白质和配体(9,10]。2009年,贝利等人在使用MEME-MAST提取图案的氨基酸序列β内酰胺酶(11]。工作不关心化学应用。但由于模糊技术”数据独立,“他们也可以利用以下问题研究的作者(12,13]。最近,一个名叫Blapred预测提出了分类和识别β-lactamases与其各自的类,即。,A, B, C, or D by using a three-tier identification computation model via Chou’s PseAAC [14]。

过去,化学家和生物学家使用传统的方法来识别和区分的一种蛋白质在实验室利用率的昂贵的设备,很耗时间,operator-dependent,昂贵的和艰苦的。除此之外,之前预测可用的分类和识别β内酰胺酶没有精度高(14]。有必要建立一个计算模型的分化和分类β从非内酰胺酶酶β内酰胺酶的酶。研究的目的是开发一个计算模型βLact-Pred通过收集基准数据集,提取特征,然后通过周PseAAC[训练模型15]。为了识别和分化模型,周的五个步骤是工作需要16,17)(我)建设或选择一个有效的基准数据集训练和测试序列统计预测,(2)用数学表达式,找到一个相关的数据集,即特征提取;(3)实现一个算法的学习和预测;(iv)执行大量有说服力的验证和确认测试的真实评估预测的预测精度。这告诉我们的方法是有效的和多少值得信赖;(v)发展的理解,简单将用户友好的网络服务器,以确保其向公众感受性和可访问性。

2。方法和材料

连续开发有力的计算模型,它承认的前提是准确和明确的规模数据集的训练和测试模型。一个不起作用的数据集可能导致计算模型产生反复无常的结果不可靠的验证和不屈的验证测试。最大限度的暗示,收集的数据集是一个准确的,相关的,nonredundant相关的,全面的。蛋白质的序列数据集收集来构建βLact-Pred计算模型。重要的和相关的统计特征向量提取以数值的形式从必要的蛋白质结构/主要序列。计算模型训练这些提取特性使用收敛的神经网络来完成。在这里,周的第一个3步仍倾向,如图2

2.1。基准数据集的集合

数据库是公开的和著名的名叫Uniport beta-lactamase的主要源泉收集蛋白质序列和non-beta-lactamase。获取关于积极序列“beta-lactamase”命名使用关键字。一个准确和细致的过程是用于收集数据集模糊,可疑的,和不确定的序列被排除在外,概率或相似。此外,为了准确和有效的结果,完整序列与fragment-like不应该带注释的词选择。这些序列注释有不同的类名称,例如,A, B, C, d .排除冗余和homology-biased序列,CD-HIT [17是使用 相似之处。结果是,一个伟大的质量和一个优秀的数据集收集包括最新的beta-lactamase蛋白质序列。

在2172年应用CD-HIT beta-lactamase序列是派生的。遵循同样的步骤,3463 non-beta-lactamase来自名为UniProt相同的数据库。考虑到周的规则(18),任何蛋白质序列可以说明

考虑,最小化数据集是通过以下方程:

在这里,T+包含2172个积极beta-lactamase序列, 包含3463 - beta-lactamase序列, 显示了两个组的“联盟”。总共有5635(2172 + 3463 = 5635)序列组成的数据集。

2.2。样品配方

一个特定的序列是由使用氨基酸多肽链。这些序列包含蛋白质的生物物理特征。次要缺失或氨基酸的存在不能控制蛋白质的特征。蛋白质是由许多选民的行为,例如,氨基酸残基的定位及其组成。通过观察数据和不同的行为模式,它是指出,小的变化比较成分或氨基酸残基的顺序由很大程度上改变蛋白质的特征。由于所有这些事实,特征向量是将从初级或核心建筑/块的蛋白质通过计算模型,该模型包含两个氨基酸的相对位置和蛋白质成分。一个扩展技术的技术(18,19)是用于提取功能βLact-Pred。

2.2.1。统计矩计算

定量措施来描述数据的集合被称为统计时刻。不同的统计时刻顺序呈现不恒等的数据属性。一些统计时刻有助于评估数据的大小,一些演示数据古怪,和一些相关蛋白质的对齐。这些时刻由一些数学家和统计学家包含某些多项式和分布函数。βLact-Pred解释使用时刻包括中央、原始,哈恩的时刻。生的时刻,最基本的时刻,含有不同的属性的一个分布,举例来说,意思是,方差和不对称。不代表原始时刻位置、旋转和尺度不变性。计算位置、旋转和尺度不变性,中央时刻计算故意。中央的时刻又没有计算的规模和位置变异。计算规模和位置变量属性,另一个叫哈恩时刻计算适销对路的时刻。哈恩的时刻获得通过使用哈恩多项式展览规模和位置变异。主要键来选择这些时刻检查残留的成分和组成按最初的讨论是重要的因素。值计算了以上技术描述的数据以他们独特的方式。此外,方差描述的时刻利用数值为反复无常的数据集(20.]。

蛋白质合成,仅仅20种氨基酸都是可用的。计算时刻,独特的整数索引分配给每一个氨基酸残基。如果分配指数是独一无二的、一致的和积分,那么它几乎没有任何区别,什么特定的自尊被替换。最初,发现映射转换工具将一维(一维)基本结构转化为一个二维(二维)说明方程。

年代是一个序列的蛋白质。的格式年代给出如下:

在上面,顺差主要蛋白质吗 在哪里Z代表的特点 矩阵在以下方程。

所有氨基酸年代给出的计算

二维矩阵 指的是矩阵年代。它可以通过使用映射函数作为转换 在哪里p意味着指数

时刻可以通过使用二维计算到3 ,和顺向方程是用于计算原始的时刻。 在哪里 表示时刻的顺序,l矩阵的描述方面,应该是一样的,也就是说, 时刻直到3计算 ,

数据中心就像重心。分布的数据是公平以及数据的中心点w.r。t的平均体重数据。计算下列原始时刻和已知作为参数 ,在哪里

中央时刻计算点的重心在哪里表演。下面的方程是用来计算中央时刻等

哈恩时刻计算一维分析年代被转移到一个方阵分析 哈恩多项式的 订单可以使用

上述多项式使用Pochhammer马克作为

上面的简单的形式可以通过使用一个三角洲接线员:

哈恩时刻计算了重功能和规则等

2-dimentional离散数据的逻辑数据计算通过使用以下方程:

,汉族和中央时刻可以计算到3。

2.2.2。代的位置相对指数矩阵

信息成分/安排任何计算的基础模型,用于预测蛋白质的功能。物理性质的蛋白质可以被假设的关键函数确定氨基酸的面积。多肽链中氨基酸的相对定位非常重要位置相对指数矩阵(的)泄露信息的多肽链中的氨基酸的相对位置。位置相对指数矩阵(的)摘录多肽链中的氨基酸的位置信息(20.]。20×20相关维度的矩阵的矩阵给出如下:

一个元素的矩阵等 包含的总bth残留在矛盾的第一个索引dth残渣。它使400系数显示大量。维度的矩阵缩减了计算这三个时刻,即。生,中央,哈恩。

2.2.3。代的反转位置相对指数矩阵(RPRIM)

反转位置相对指数矩阵(RPRIM)用于从蛋白质序列中提取隐藏的特性有模棱两可的同源序列。RPRIM 20×20维矩阵包含400系数一样拘谨的,但它是用于倒序的呆板的20.]。

喜欢整洁的,RPRIM矩阵的维数也减少了计算的三个时刻,即。生,中央,哈恩。

2.2.4。频率矩阵

频率矩阵技术用于确定结构和蛋白质发生的频率。这在测序中起着重要作用的蛋白质。整洁的氨基酸的系列信息,而频率矩阵不认为系列信息(20.]。以下表达式是用来计算矩阵的频率

在这里, 表示的频率th必需氨基酸。

2.2.5。代的累积指数绝对位置向量

频率矩阵包含信息和相关的蛋白质形成的总发生蛋白质的信息。频率矩阵不包含相关的信息出现在多肽链的氨基酸残基。累计发病率绝对位置向量(AAPIV)用于计算相关信息的位置多肽链的氨基酸残基。一个向量形式AAPIV包含位置相关的信息。向量与20个元素,每个组件包含一个数值命令值代表氨基酸位置相关信息的残渣(20.]。本地序列显示了提供特定的残留物发生在蛋白质结构如下:

它代表了 残留放置的位置

让累积指数绝对位置向量表示为

因此,th元素的累积绝对位置索引向量计算

2.2.6款。代的反向累积指数绝对位置向量

根据前面的讨论中,检测模糊模式使用特征提取是一种有效的技术。RAAPIV AAPIV执行相同的任务,但它发现的模式在相反的顺序(20.]。它还包含20个元素可以表示如下:

在RAAPIV显示为逆转序列

的氨基酸残基 按照相反的顺序发生的顺序和术语 代表他们的命令的位置。任何残留计算的重要性

所有这些上述功能有特定的生物学意义。这些方法帮助提取位置和组合相对特性的氨基酸序列是一个非常关键的方面在处理蛋白质。每个氨基酸,在其周围,扮演一个角色在描述分子的生化的特性;因此,这些特性有助于提取这些信息。例如,频率的氨基酸分子,相对位置发生氨基酸,组成一个特定的肽,和绝对定位的残留物。

3所示。操作通过神经网络算法

人工神经网络是解决这个问题最重要的工具之一了,它模仿准备数据如图3。神经网络澄清每内残留蛋白的基本形状。训练模型,构成正面和负面特征向量提取的上面部分。这些特征向量描述蛋白质的二维结构通过使用中央,原始,哈恩的时刻。在这里,在这项研究中,神经网络被认为是神经网络由有向图表示类似于生物神经系统的大脑。反向传播人工神经网络是用来代替SVM由于许多原因,安比SVM性能更好。首先,安是一个参数模型,而支持向量机。在安,可以有许多隐藏层根据功能和参数(20.]。在支持向量机中,我们所获得的支持向量训练数据。在某些情况下,支持向量可以有多个支持向量权重的向量。安也可以有一个或多个输出,而支持向量机可以只有一个输出。在的情况下n必要分类器,可以训练安在一个步骤,而支持向量机需要训练n支持向量一个接一个,是耗时的20.]。

安是快速和灵活。安可以达到全局最优,我们不会面临任何问题关于选择参数的数量,但在支持向量机的情况下,我们需要选择hyperparameters。需要更少的内存来存储安,但支持向量机需要多少内存,因为它需要存储支持向量。结果在安更可读和可翻译的21,22]。

4所示。制定和讨论的结果

4.1。估计精度指标

新建的无偏评估计算模型是最关键方面,艾滋病估计,计算模型的成就22,23]。相反,对于这样一种公正的评估,必须记住,两个重要的方面(i)的选择指标的准确性和(2)部署的测试方法的验证计算模型。这里,第一个分类无偏的测量评估,然后使用大量的确认和验证技术。

4.2。数学公式的指标

很明显,对于任何机器学习问题,集体和一些重要指标用于制定指标,即(1)Acc(精度)的比例是正确分类样本总输入数据集;马修斯(2)MCC(相关系数)是用于二进制分类的情况下,它也被认为是作为平衡措施即使在多个不同大小的类;(3)年代n(灵敏度)的百分比是正确的积极的还是那些正确的样本划分为积极的,它也被称为真正积极的识别率。(4)年代p(特异性)的比例是真正的负面或那些正确的样本分类为负数,它也被称为真正的负面的识别率。

为主,介绍了这四个指标,2001年获得了一组精确的四个措施(24所有这些措施。

在这里 表示非β作为非-lactamases数据,预测β-lactamases正确的βLact-Pred。 标志着非β-lactamases总数量也预计不准确β-lactamases由βLact-Pred。此外, β-lactamases总数量的预测正确β-lactamases由βLact-Pred, β-lactamases总数量的非确定不准确β内酰胺酶的βLact-Pred。因此,方程(25)提供的信息关于Sn, Sp, Acc,和一致性更轻松识别和天生的,特别是当我们话语MCC (25,26]。

这些精度指标/被许多研究人员已使用(27,28),而仅仅是为二进制类数据标签。多级数据标签识别是一个完全不同的问题,在计算生物学(已补充突出29日和生物医学30.]。因此,它需要一种不同的精度指标的制定(29日]。

4.3。自洽性测试

自洽性测试是一个术语称为最终测试的效率和有效性的验证预测模型使用训练数据集的测试用例。自洽性的实现是背后的原因,结果是个人和实际的真阳性的基准数据集也知道。自洽性结果显示在表中1;它可以观察到βSp Lact-Pred Acc的99.76%,99.76%,99.76%的锡、AUC MCC, 0.99和0.99。

4.4。通过分析验证模型

验证是一个意义重大的一步,这是最后的过程。它的动机是发现多少模型是精通。几个验证技术是用来验证模型。验证模型中,数据被切成两部分;训练集(1)和(2)测试集。该模型在训练数据训练,然后测量其性能测试数据。随着验证技术选择预测模型的数据随意,没有明确的技术表达如何分区从给定的数据集的数据。通常,预测模型可以使用各种各样的测试,测试。k-folds(二次抽样),独立测试和分析(重叠)27,30.]。重叠测试中最常用的验证技术。重叠原理是俯瞰每个观测的数据,建立模型对剩余数据。最后,计算平均的计算和输出是独一无二的。诸如抽样或业者进行缓解。

重叠是用来量化预测的质量,和同样是通常用于这些类型的问题。迭代技术,计算模型的准确性对所有的样本大小的变化 折裂技术训练预测忽略时数据和估计总体精度通过精心留下每一个观测数据集。这是更有效,因为它颠覆了引发的问题数据独立性和二次抽样31日]。重叠的结果验证测试是96.07%高于BlaPred [12),是显示在表2

4.5。K-Fold交叉验证测试

交叉验证方法发展的期望模型作为一个典型方法在缺乏验证集。交叉验证测试模型给定的训练数据集和防止underfitting和过度拟合。在k倍交叉验证,数据集的遗产k集和k在开始采摘,然后,它是保持不变的。一般来说,k保持5或10;然而,在该方法,k设置为10。测试模型k次,在每个迭代中,9套(k1)用于训练集和一组(k集)作为测试集。随后的执行k迭代,计算模型的准确性,然后除以每个迭代的总和k。这个平均精度是交叉验证的结果。整个10倍验证重复20次,结果的可信度增加,如表中所示3

4.6。独立数据集测试

评估的精度βLact-Pred、独立执行测试,培训/测试分割方法用于验证模型。2172积极和3463的负样本,使用三个不同的培训/测试分割比率是90/10,80/20,70/30。经过足够的训练,忽略时样本用于测试,后续评估的准确性提出了预测技术。基于模型的能力和能力测试样品准确地认识到,所有的描述指标方程(25)计算,提到了在表4

4.7。比较分析

βLact-Pred使用组合和位置变异除了神经网络分类的特征提取方法。文本中讨论的其他现有预测模型使用1型PseAAC, 2型PseAAC,经典PseAAC特征提取结合SVM(支持向量机)。的技术(I型和II型)和经典的基于PseAAC模型,提出了在32]。特征提取的方法,对于这样的问题具有极端的意义。能力发现深深模糊模式在指定的一组数据是高度期待的特征提取算法。模型的能力深深掩盖主要结构模式转化为系数依赖于一个变量λ。的价值λ不仅决定了特征向量的大小,而且也发挥了重要作用,筛选了残留在肽链之间的相关性。产生的因素βLact-Pred并不依赖于这样一个变量。向量的大小功能调整和仔细计算所有可能的所有可能残留在肽链之间的相互作用的形式简洁。βLact-Pred用于各种序列β内酰胺酶和非β内酰胺酶随后被用作数据集的训练和测试的目的。如表中所示1,βLact-Pred揭示了一个更大的敏感性、特异性、准确性、MCC的预测β-lactamases和非β-内酰胺酶比其他先前的预测。实验证明这是一个高效的技术与以往相比。严格验证在不同场景入手,该方法少beta-lactamases嘈杂的和更有效的预测。随后,这也证实了方法提供了更高的吞吐量和准确性比之前的预测。定量评估和比较βLact-Pred, 75年的一个独立的数据集β-lactamases,之前报道的12),在(表5)。

此外,的结果βLact-Pred也与CNN-BLPred [33],它执行的功能和分子分类β-lactamases采用深学习方法/技术称为卷积神经网络(CNN)。这项研究进行分类β-lactamases在分子和功能水平;然而,对于比较βLact-Pred,只有分子分类(一级)被认为是结果。比较分析表提供6

此外,βLact-Pred运用各种各样的方法,并使用组合和定位功能的序列的蛋白质来完成识别β-lactamases。第一,它使用PseAAC,然后计算统计时刻,AAPIV, RAAPIV,拘谨的,和RPIRM使用相对定位功能的蛋白质;因此,βLact-Pred优于同行。

5。Web服务器

周的最后一步是扩大用户友好的和舒适的公共可访问网络服务器作为一个开明的化学家和生物学家在34,35]。公共可访问和用户友好的网络服务器开发和建立意味着未来的方向为了发展预测方法(34,35]。为此,各种计算分析和研究结果的报告。因此,有用的和实际的网络服务器大大提高了整体的影响计算生物学在医学科学指导药物化学成为一个无与伦比的革命(12]。在这个视图中,建立网络服务器βLact-Pred如本文所述。

6。结论

耐多药菌株的细菌对人类健康构成巨大威胁。巧妙地和迅速获得性耐药细菌对抗生素的大部分时间和正在创造障碍在一个有效的治疗疾病。相信,几年之内,所有的抗生素对这些耐多药错误将会失去功效。β内酰胺酶是细菌产生的安全措施保护的不良作用β内酰胺抗生素。各种数据预处理技术用于计算特征向量包括生,哈恩,和中央的时刻和位置和组合变异特性。为了这个目的,一个人工神经网络用于训练和预测序列。提出了计算模型的结果验证了采用各种各样的方法,即。、自洽性测试、重叠测试,交叉验证,和独立的测试。总体精度预测的自洽性测试、重叠测试,交叉验证,和独立测试通过使用模式指标提出了99.76%,96.07%,94.20%,和91.65%,分别为该模型。惊人的实验结果表明,该预测”βLact-Pred”已经超越了现有方法的结果。

数据可用性

本文使用的数据可从相应的作者。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作得到了GRRC京畿道计划(GRRC-Gachon2020(当),开发基于ai的医疗设备)。