预测蛋白质相互作用使用深度学习Method-Stacked稀疏Autoencoder结合概率向量机分类

文摘

蛋白质-蛋白质之间的关系(质子泵抑制剂),作为一种重要的细胞内分子过程,是关键的重要的生化功能的细胞。尽管高通量实验技术的成熟,使研究人员能够发现大量的质子泵抑制剂,它有不可避免的缺点,如成本高,耗时。最近的研究表明,质子泵抑制剂可以有效地检测到计算方法。因此,在这项研究中,我们提出一种新的计算方法来预测质子泵抑制剂只使用蛋白质序列信息。这种方法是基于开发的深度学习algorithm-stacked稀疏autoencoder (SSAE)结合勒让德时刻(LM)特征提取技术。最后,概率向量机分类(PCVM)分类器是用于实现PPI的预测。该方法进行人力、unbalanced-human幽门螺旋杆菌,酿酒酵母数据集和5倍交叉验证,取得了很高的预测精度为98.58%,97.71%,93.76%,和96.55%,分别。进一步评估我们的方法的性能,我们比较为基础的支持向量机(SVM)方法。实验结果表明,PCVM-based方法明显优于基于svm的方法。我们的结果证明,该方法是可行的,有效的,和鲁棒性。

1。介绍

最重要的细胞内分子的过程是由不同类型的蛋白质相互作用。因此,功能蛋白质组学的主要目标之一是确定生物体的蛋白质相互作用。不断研究和技术的发展,现在可以检测大规模蛋白质相互作用通过使用高通量实验技术。这样的研究显然是非常重要的,因为质子泵抑制剂的研究密切相关,复杂的生命系统的许多功能,这些功能并不是由单个组件的特点决定的。例如,分子细胞信号是通过蛋白质相互作用进行的。这个过程不仅是许多生命的基础功能,但它也与许多疾病有关。此外,蛋白质相互作用的研究已经发展的很有价值的新药物和疾病的预防和诊断。

像一些高通量实验技术已经成功地应用于基因组时代PPI研究任务,大量的不同种类的PPI数据收集,和一些数据库创建了系统地收集并存储实验确定质子泵抑制剂(1- - - - - -3]。尽管实验验证PPI数据驱动蛋白质组学的研究和发展,他们通常有很高的假阳性和假阴性4- - - - - -7]。此外,由于实验方法有一些不可避免的缺陷,如高成本和耗时,研究者只验证整个PPI网络的一小部分甚至经过一段长时间的努力。随着数学和计算方法的进步8- - - - - -12),计算机技术已经在越来越多的领域的应用。Vlachakis等人提出的计算方法来模拟催化机制,完整的药物设计,和蛋白质三维结构模型13- - - - - -17]。Vlamos等人开发了几个智能疾病诊断应用程序漏洞检测和混合模型(18- - - - - -25]。一些研究者还介绍了计算方法在医学领域和发展几个自动化诊断模型(26,27]。因此,使用机器学习算法开发一个高效、准确的自动区别的系统来预测新的蛋白质相互作用具有重要的现实意义。

到目前为止,各种蛋白质的信息被用来构建PPI基于机器学习算法的预测模型。蛋白质信息可以包括,但不限于,物理化学信息、结构信息,进化信息,和蛋白质域。然而,当他们使用这些方法有一定的局限性。例如,一些计算方法利用基因组信息预测蛋白质相互作用通过计算一组基因的存在与否的模式。限制了这些方法的主要因素是,他们可以只适用于完全测序的基因组数据(28,29日]。最近,直接从蛋白质一级序列中提取信息的方法吸引了太多的关注。方法只使用蛋白质序列信息更一般的方法依赖于蛋白质的一些额外的信息。许多研究人员正致力于开发基于计算模型来预测新的质子泵抑制剂。质子泵抑制剂Hamp和罗斯特发达有计算方法预测基于profile-kernel支持向量机结合进化概要文件(30.]。等人提出了一个PPI预测方法,结合了当地的相位量化和相关向量机(31日]。杨等人使用了一种新的局部描述符来描述连续的和不连续区域之间的相互作用的蛋白质序列,这是能够获得更多的蛋白质相互作用信息序列(32]。张等人介绍了两套方法预测质子泵抑制剂。这些集合的方法是基于欠采样技术和融合分类器(33]。你等人提出了一个预测框架,用于探测质子泵抑制剂使用煤approximation-kernel极端学习机(34]。其他几个序列计算方法已报告在以前的工作35- - - - - -38]。这些序列方法表明,氨基酸序列的个人信息就足以确定蛋白质的相互作用。然而,这些方法通常使用物理、化学或者结构信息,甚至融合所有这些类型的蛋白质序列的信息特征。因此,这些方法的特征提取步骤并不高效。此外,上述资料只能代表每个特定蛋白质序列相关但不包含知识交互。因此,即使这些方法结合先进的分类算法有一个很难生产足够的精度。

与物理化学信息相比,蛋白质的进化信息能反映潜在的蛋白质之间的相互作用。因此,我们认为蛋白质的进化信息作为一个功能的蛋白质序列。提取蛋白质的进化信息是目前还没有挑战的策略,可以有效地获得蛋白质的进化信息。我们假设有一个潜在的保护氨基酸残基之间的关系在进化和蛋白质之间的相互作用。基于这个假设,我们提出一种有效的蛋白质进化特征提取方案,使用深度学习算法结合勒让德时刻(LMs)和位置权重矩阵(PWM)。具体地说,我们首先把蛋白质序列转换成包含保守氨基酸残基的PWM得分。然后,我们使用LMs从PWM提取重要的进化信息,生成特征向量。最后但并非最不重要,这个特性进一步优化了使用SSAE深层神经网络来消除噪声,获取主要信息,减少特征维度。此外,在应对大数据带来的挑战和不平衡数据集,一个稀疏的模型,PCVM,用于执行分类。我们的贡献可以概括如下:(1)我们提出一个方法来预测快速质子泵抑制剂,有效和准确的。(2)我们已经放弃了传统的物化信息和结构信息,认为进化信息与质子泵抑制剂作为一个功能的蛋白质序列,提出了一种特征提取策略快速高效地提取蛋白质的进化信息,提高预测的性能。(3)我们确认稀疏分类算法可以大大受益质子泵抑制剂和现在的预测结果表明,他们可以提供一个利益在处理大规模数据和不平衡数据(如与PCVM)。

剩下的纸是组织如下。部分2评审相关工作。部分3描述了本文中使用的数据集和方法。部分4展示了实验结果。部分5总结了纸。

PPI预测模型的研究主要分为两个部分。一个是蛋白质序列特征提取策略的发展,,另一个是分类算法的应用。本节简要回顾相关研究。

2.1。基于特征提取算法

以前的序列特征的提取方法主要是物理化学信息的直接使用或氨基酸序列结构信息或蛋白质的进化信息。氨基酸组成模型已经提出以来,许多后续工作已经进行了组合模型。周(39)提出了一种特征提取方法称为pseudoamino酸组成。这个特征提取方法极大地提高了信息内容的氨基酸序列中包含的特性。它不仅考虑氨基酸的组成,而且流程氨基酸的位置信息。另一个优秀的研究是由沈et al。40]。在这个研究中,20种氨基酸被聚集到7类基于偶极子和侧链卷,然后提取蛋白质的特点对基于氨基酸类。结合支持向量机分类器,该方法的预测精度83.9%人类的质子泵抑制剂。在一项由郭et al。41),一个autocovariance-based方法是提取不连续的交互信息开发的氨基酸序列片段。方法取代了蛋白质序列与一个数字序列基于物理化学性质,并取代数字序列被视为一组信息进行分析。

不同于之前的经典计算方法,我们没有使用传统的sequence-coding方案并没有考虑物理化学信息的蛋白质序列。我们的方法使用蛋白质序列的进化信息间接(使用勒让德时刻在PSSM提取特征向量矩阵包含进化信息),试图运用图像处理的想法PPI预测的完成任务;这是一个只有少数人正在探索的方向。介绍我们的方法和满意的结果在几个黄金标准数据集大大鼓励学者探索在这个方向。这种方法的优点是特征提取策略简单、高效,不需要复杂的编码序列,不需要考虑蛋白质的物理化学信息。与传统的特征提取方法相比,该方法极大地提高了PPI预测和节省时间的准确性和计算开销。

此外,深度学习算法表现出了非凡的性能在许多领域,但是它的能力没有得到有效验证的PPI预测任务。深度学习algorithm-stacked稀疏autoencoder用来重建一个蛋白质的特征向量在我们的工作。该算法使用稀疏网络结构和增加稀疏限制神经元。这不仅可以让我们获得低维,低噪声蛋白质特征向量,而且可以提高网络的效率。我们的方法应用于测试集的结果再一次表明,深度学习算法可以用来协助解决生物信息学问题。

2.2。分类器

支持向量机(SVM)是一种最常用的分类算法在PPI预测模型(42- - - - - -44]。然而,支持向量机方法有一些明显的缺点:(1)随着数据集变得更大,支持向量增加迅速。(2)Cross-validation-based内核参数优化策略会消耗大量的计算资源。另一个广泛使用的分类器是相关向量机(RVM) [45- - - - - -47),有效地避免了支持向量机的缺点。是开发利用贝叶斯推理和之前的重量为高斯分布。然而,RVM有可能产生一些不可靠的向量,导致系统错误的决定。因为消极类和积极类的权重给出了零均值高斯之前,部分训练样本不可能自信的权重分配交互,反之亦然。

为了避免上面的分类器的问题,我们使用了概率向量机分类(PCVM)方法执行PPI分类,为不同类型的提供不同的先验样本。积极与right-truncated高斯相关类和负类与left-truncated高斯。PCVM方法具有以下优点:(1)PCVM产生稀疏的预测模型在测试阶段,有更好的效率。(2)PCVM提供了每个输出概率结果。(3)PCVM使用EM算法自动寻找最优初始点,可以节省时间和提高系统的性能。

3所示。材料和方法

3.1。数据集

评价该方法的性能,总共有4种不同的PPI数据集用于我们的实验,其中两个是人类,一个是酿酒酵母,一个是幽门螺旋杆菌。

第一个人类PPI数据集我们使用从锅等。48),从人类蛋白质参考数据库下载(HPRD)。self-interaction后并删除重复的相互作用,其余36630 PPI对形成最后的黄金标准积极(GSP)数据集。黄金标准的选择负(GSN)的数据集,我们跟着以前的工作48生成)和内脏大神经从Swiss-Prot 57.3版本数据库数据集按照下列标准:(1)蛋白质序列注释由不确定的条款删除。(2)多个unlocalized蛋白质序列是删除。(3)蛋白质序列,可能只是“碎片”或含有“碎片”删除。

严格遵循以上步骤后,1773年人类蛋白质筛选出来。不互相作用的蛋白质对然后由随机配对不同亚细胞蛋白质隔间。此外,另一个黄金负面数据集下载,研究中使用的Smialowski et al。49]。最后的内脏大神经数据集是由结合上述两个消极的数据集,包括36480对不互相作用的蛋白质。因此,整个黄金标准数据集(德牧)包括73110个蛋白质对,其中近一半来自积极的数据集,一半是消极的数据集。

由于存在严重的失衡数据集在实际任务中,这可能导致失败的PPI预测模型。考虑到这个问题,我们构建了人类的另一组数据集的数量不平衡正负样本评价了该方法的稳定性和鲁棒性。这种不平衡人类PPI数据集由3899名正样本和13000年负样本。

第三我们使用PPI黄金标准数据集是下载的数据集酿酒酵母蛋白质相互作用数据库的核心子集(下降)。我们严格遵守工作的郭et al。41)建设酿酒酵母数据集。最后,我们获得了包含11188个蛋白质对黄金标准数据集,其中5594阳性蛋白对形成一个GSP数据集和5594 -蛋白质对内脏大神经数据集。

最后的PPI数据集使用的一对幽门螺旋杆菌蛋白质被马丁et al。50),其中包括1458对正样本和负样本1458对。

3.2。位置权重矩阵

在本文中,我们使用位置权重矩阵(PWM)获得从蛋白质序列进化信息。查询蛋白质的PWM 矩阵 ,在哪里代表了蛋白质序列的大小和列的数量矩阵表示20种氨基酸。为了构建PWM,位置频率矩阵是首先由计算每个核苷酸在每个位置的存在。这个频率矩阵可以表示为 ,在哪里意味着位置和是核苷酸。PWM可以表示为 ,在哪里是一个矩阵,其元素之间的突变值代表两种不同的氨基酸。因此,高分表示高度保守的立场,和较低的点代表一个疲软的保守立场。这是一个非常有用的工具,预测蛋白质二硫连接,蛋白质结构类、亚核的本地化和DNA或RNA结合位点。在这里,我们也采用pwm检测质子泵抑制剂。在本文中,每个蛋白质是解释为pwm使用position-specific迭代爆炸(PSI-BLAST)。PSI-BLAST有两个重要的参数,值和迭代数,分别设置在0.001和3 (51- - - - - -53]。

3.3。勒让德时刻

勒让德时刻(LMs)是典型的正交的时刻,核函数的勒让德多项式。广泛参与很多的应用,如图像分析、计算机视觉、遥感(54- - - - - -58]。在这里,我们用勒让德时刻提取蛋白质的进化信息间接地从PWM和生成一个961维的特征向量。二维离散形式的LM表示为在哪里被定义为一组离散点吗 , , 。代表PWM矩阵的列数,代表PWM矩阵的每一列的总和。

积分项(2)经常通过零阶近似估计;换句话说,勒让德多项式都假定为常数的值的时间间隔和。在这种情况下,近似LMs的集合的定义是:

3.4。堆叠稀疏Autoencoder

深入学习是机器学习研究的新领域。它的动机在于构建和模拟人类大脑的神经网络分析学习。它模仿人类大脑的机制来解释数据。摘要深层结构堆叠稀疏autoencoder (SSAE)是采用功能降低和重建59- - - - - -62年]。SSAE特性相结合形成一个更抽象的高层表示低级特征发现蛋白质功能的分布式特性表示的数据。

SSAE是一种无监督网络,是一个大规模非线性系统由多层神经元细胞电流的输出层神经元的连接层神经元。在这工作,SSAE的目的是学习一门独特表示勒让德时刻(LM)特性。根本目的是噪声消除和降维。重建的过程特性是一层一层地SSAE。第一层是负责粗糙原始输入集成。第二层是负责提取和整合功能之前学过的东西。更高的连续层将倾向于产生低维,低噪声,高内聚特性。摘要SSAE被用来减少LM 200维特性。

SSAE或稀疏autoencoder网络主要是由两部分组成,编码和解码(63年),将网络编码压缩高维成低维属性。解码网络负责恢复原始输入一层一层地,和网络结构与编码的结构是对称的网络。在编码阶段,主数据映射到一个隐藏层。这个过程可以表示为

在这里,是一个非线性函数,编码部分的重量吗是偏见。之后,原始数据是由解码重建网络: 在哪里解码网络和的重量吗是偏见。SAE的目的是使输出尽可能输入通过最小化损失函数: 在哪里隐层节点的数量,稀疏惩罚项的重量,代表平均激活隐藏层元素的值,和是稀疏的参数。

图1显示了SSAE网络有两个隐藏层,其中解码部分尚未被证实,为了突出网络的特性减少功能。类似于稀疏autoencoder (SAE),培训模式是学习的关键参数 ,它允许模型输入和输出偏差最小。一次最优参数获得,SSAE屈服函数将原始数据转换成一个低维空间。

3.5。概率向量机分类

特征提取的设计策略和分类器的选择是两个至关重要的部分在发展中一个优秀的PPI预测模型。在前面的描述,我们开发了一个新的深度上优于氨基酸序列特征提取方法。在这里,我们使用PCVM越强分类器来取代将Softmax层堆叠稀疏autoencoder实现我们的模型的输出。像大多数分类模型,PCVM[的目标64年- - - - - -66年)是生成一个模型通过学习一套带安全标签的数据。该模型由参数决定学习和表达为在哪里表示模型的参数,是一组主要功能,代表了偏见。高斯累积分布函数用于获取二进制输出。函数被定义为

合并后(7)和(8),模型

每一个重量之前被赋予一个截断高斯分布,如下: 的偏见被赋予一个零均值高斯之前,如下所示: 在哪里是一个截断高斯,表示方差的倒数。EM算法用于获取PCVM模型的所有参数(67年]。

4所示。结果

4.1。评估标准

在这个工作中,以下条件,如精度(所以),精密(Prec),灵敏度(Sens),马修斯的相关系数(Mcc),用于评估该方法。准确性是用来描述整个系统错误。由于PPI预测的关键任务是正确预测蛋白质相互作用对灵敏度和精度指标用来评估模型的预测能力积极的数据。此外,数据不平衡存在于真实的PPI预测任务。针对这种情况,我们使用了一个不平衡的PPI数据集。因此,Mcc是用来评估的可靠性和稳定性模型在处理不平衡数据。当模型出现(即“偏好预测”。,the dataset is very unbalanced, the model can only correctly predict negative data), the Mcc score is lower. When the model is strong and robust, the indicator score is high. These indicators are defined as 在哪里意味着这些样本,真正的相互作用,正确预测。代表这些样本,真正的彼此不相互影响的,是被认为是相互作用的。代表这些样本,真正的彼此不相互影响的,正确预测。代表这些样本,真正的相互作用,判断是不相互影响的。此外,中华民国(接受者操作特征)是描述评价的分类结果的性能(68年]和AUC(面积ROC)计算作为一个重要的评价指标。

4.2。评估预测

本文提出了基于PPI预测是使用MATLAB实现的平台。所有的模拟在计算机上进行3.1 GHz 8核的CPU, 16 GB的内存和Windows操作系统。为了使预测系统独立于训练数据,每个PPI数据集划分为五个部分的5倍交叉验证方法。的性能PCVM-based方法对人类,unbalanced-human,幽门螺旋杆菌,酿酒酵母数据表中的暴露1- - - - - -4。相应的ROC曲线描述的数据2- - - - - -6,分别。


测试组	所以他们(%)	Sens (%)	Prec (%)	Mcc (%)

1	98.50	98.87	98.13	97.04
2	98.69	98.53	98.89	97.41
3	98.31	98.35	98.22	96.68
4	98.69	98.51	98.88	97.41
5	98.69	98.11	99.23	97.41
平均	98.58±0.2	98.47±0.3	98.67±0.5	97.19±0.3


测试组	所以他们(%)	Sens (%)	Prec (%)	Mcc (%)

1	97.57	91.71	97.67	93.23
2	97.78	92.44	98.00	93.86
3	97.72	92.20	97.12	93.32
4	97.75	91.26	99.19	93.78
5	97.75	91.76	98.50	93.74
平均	97.71±0.1	91.87±0.5	98.10±0.8	93.59±0.3


测试组	所以他们(%)	Sens (%)	Prec (%)	Mcc (%)

1	94.00	96.76	92.28	88.62
2	93.65	95.73	91.50	88.10
3	93.65	92.52	94.77	88.11
4	93.83	95.67	92.58	88.38
5	93.66	98.18	89.37	88.10
平均	93.76±0.1	95.77±2.0	92.10±1.9	88.26±0.2


模型	测试组	所以他们(%)	Sens (%)	Prec (%)	MCC (%)

PCVM	1	96.83	97.37	96.44	93.85
	2	96.33	97.33	95.22	92.93
	3	96.33	96.86	96.02	92.93
	4	96.60	96.85	96.33	93.44
	5	96.64	97.75	95.19	93.11
	平均	96.55±0.2	97.23±0.3	95.84±0.5	93.25±0.3

支持向量机	1	94.46	93.68	95.36	89.53
	2	93.70	90.32	96.46	88.13
	3	93.92	92.49	95.49	88.58
	4	92.76	91.99	93.33	86.56
	5	93.53	92.99	93.92	87.89
	平均	93.67±0.6	92.29±1.2	94.91±1.2	88.13±1.0

分析表1允许画的结论PCVM-based方法产生一个满意的结果在人工数据集,每个折98%以上的准确性和五个实验的准确性标准偏差仅为0.2%。相应的平均灵敏度、精度和Mcc是98.47%,98.67%,和97.19%,分别。标准差是0.3%、0.5%和0.3%,分别。平均AUC(图2)的五个实验达到了0.9984。精度高、AUC表明,质子泵抑制剂PCVM-based方法有很强的分类识别能力。标准差较低说明该模型是健壮和稳定。

当质子泵抑制剂预测unbalanced-human数据集(表2),该方法产生的平均准确率为97.71%,敏感性为91.87%,精度为98.10%,分别和AUC的0.9971。

当应用于幽门螺旋杆菌数据集和最小的训练集,PCVM-based方法也取得了93.76%的平均预测精度高,92.10%的高精度,高灵敏度为95.77%,分别和高Mcc的88.26%(表3)。所以他们的标准差,Sens、Prec和Mcc在五个实验是0.1%,2.0%,1.9%,和0.2%,分别。此外,平均AUC幽门螺旋杆菌数据集达到0.9860。

4.3。与基于svm的方法

为了突出我们的分类器的可行性,最先进的SVM分类器与PCVM用来比较。公平,相同的特征提取方案和相同的酿酒酵母数据集被用于这一经验。LIBSVM工具(69年)是用于支持向量机的分类,采用网格搜索方法优化支持向量机模型参数和。

PCVM和支持向量机分类器的分类结果酿酒酵母数据集表中列出4和支持向量机的ROC曲线显示在数字5和6。正如我们所见,PCVM方法实现了96.55%的平均结果所以,Sens 97.23%, Mcc前的95.84%,和93.25%。这些指标在五个实验的标准偏差为0.2%,0.3%,0.5%,和0.3%,分别。支持向量机方法的平均结果所以他们的收益率为93.67%,较92.29% Sens、Mcc前的94.91%,和88.13%。标准偏差是0.6%,1.2%,1.2%,和1.0%,分别。与支持向量机相比,PCVM分类器达到更好的结果在这个黄金标准数据集。从数据5和6,平均AUC的SVM分类器是0.9856,远低于PCVM 0.9963。更高的AUC值显然说明PCVM质子泵抑制剂方法更准确、更可靠的检测。改进PCVM分类器的分类性能比支持向量机分类器可以解释为两个原因:(1)PCVM基函数的数量小于训练点的数量,从而减少计算工作量。(2)PCVM使用截断高斯先验灵活分配先验权重信息,从而确保可靠的支持向量的一代。

4.4。与先前的研究相比

其他计算方法预测PPI在先前的研究已报告。这些突出的优点提出方法与现有方法相比,吸引广泛关注在相同的PPI数据集,分别。我们可以看到从表5我们的方法比其他现有方法也会产生更好的结果。上的几种不同方法的性能幽门螺旋杆菌数据集提出了表6。从表中看到6,我们建议的方法产生更好的性能比其他四个主要方法。93.76%的预测精度远远高于任何其他方法。表7显示的结果与其他几个不同的方法,实现了不到93.92%的平均预测精度酿酒酵母数据集,而我们的PCVM-based方法获得最低的平均预测精度为96.55%标准偏差为0.2%。与此同时,97.23%的敏感性也远远优于其他方法。大量实验表明,我们使用的方法可以充分满足大规模蛋白质检测的需求,可以作为蛋白质组学的应用程序有意义的兼职调查。


模型	所以他们(%)	Sens (%)	Prec (%)	MCC (%)

LDA +射频(70年]	96.40	94.20	N /一个	92.80
LDA +学院(70年]	95.70	97.60	N /一个	91.80
LDA +支持向量机(70年]	90.70	89.70	N /一个	81.30
AC +射频(70年]	95.50	94.00	N /一个	91.40
AC +学院(70年]	95.10	93.30	N /一个	91.10
AC +支持向量机(70年]	89.30	94.00	N /一个	79.20
该方法	97.71	91.87	98.10	93.59


模型	所以他们(%)	Sens (%)	Prec (%)	MCC (%)

系统引导程序(71年]	75.80	69.80	80.20	N /一个
提高(71年]	79.52	80.30	81.69	70.64
签名的产品(72年]	83.40	79.90	85.70	N /一个
HKNN [73年]	84.00	86.00	84.00	N /一个
该方法	93.76	95.77	92.10	88.26


模型	测试组	所以他们(%)	Sens (%)	Prec (%)	MCC (%)

郭(41]	ACC	89.33±2.67	89.93±3.68	88.87±6.16	N /一个
郭(41]	交流	87.36±1.38	87.30±4.68	87.82±4.33	N /一个

杨(32]	Code1	75.08±1.13	75.81±1.20	74.75±1.23	N /一个
	Code2	80.04±1.06	76.77±0.69	82.17±1.35	N /一个
	Code3	80.41±0.47	78.14±0.90	81.66±0.99	N /一个
	Code4	86.15±1.17	81.03±1.74	90.24±1.34	N /一个

你(74年]	PCA-EELM	87.00±0.29	86.15±0.43	87.59±0.32	77.36±0.44

黄(75年]	PR-LPQ +射频	93.92±0.36	91.10±0.31	96.45±0.45	88.56±0.63

该方法	PCVM	96.55±0.2	97.23±0.3	95.84±0.5	93.25±0.3

5。结论

蛋白质的功能和活动通常是由其他蛋白质相互作用。为了了解生物过程,我们需要开发一个工具,它给了我们一个了解蛋白质相互作用的知识。虽然已经采取了许多努力来发展质子泵抑制剂的检测方法,大多数现有的方法的准确性和鲁棒性仍有潜在的改善的空间。因此,我们探索一个新的基于蛋白质序列和高效的计算系统使用PCVM分类器结合勒让德时刻和稀疏autoencoder不利。四个严格筛选PPI数据集被用来评估我们的设计方法的预测能力和预测结果显示,PPI的方法提供了实用的预测能力检测。在随后的比较实验,通过我们的方法预测性能明显优于基于svm方法和之前的方法。我们还发现,预测质量继续提高随着数据集的大小。这一发现强调了这个模型的训练和应用价值非常大的数据集,并建议进一步性能收益可能通过增加数据大小。因此,该方法是一种可靠、高效和强大的PPI预测模型。它可以用来指导相关的验证实验,是蛋白质组学研究的一个辅助工具。

数据可用性

使用的数据来支持本研究的发现可以从相应的作者。

的利益冲突

作者状态无利益冲突。

作者的贡献

李Yanbin Wang朱红,力平,李诚认为算法,安排数据集,进行了分析。习,荔波,小李,Tonghai江写的手稿。所有作者阅读和批准最终的手稿。

确认

这项工作是由美国国家科学基金会支持部分中国(批准号61722212和61722212)和部分先锋几百人才计划的中国科学院。作者要感谢编辑和匿名评论者的建设性建议。

引用

l·利卡塔l . Briganti d Peluso et al .,“薄荷,分子间相互作用数据库:2012更新”核酸的研究,40卷,不。D1, D857-D861, 2012页。视图:出版商的网站|谷歌学术搜索
g·d·巴德。唐纳森,c . Wolting b·f·f·Ouellette) t . Pawson和c·w·v·霍格,“绑定生物分子交互网络数据库,”核酸的研究卷,29号1,第245 - 242页,2001。视图:出版商的网站|谷歌学术搜索
Xenarios, e·费尔南德斯l . Salwinski et al .,“下降:蛋白质交互的数据库:2001更新”核酸的研究卷,29号1,第241 - 239页,2001。视图:出版商的网站|谷歌学术搜索
o . Puig f . Caspary g . Rigaut et al .,“串联亲和纯化(TAP)方法:蛋白质的一般程序复杂的净化,”方法,24卷,不。3、218 - 229年,2001页。视图:出版商的网站|谷歌学术搜索
m . Koegl p .会继续光顾,“提高酵母二者混合筛选系统,”简报在功能基因组学和蛋白质组学》第六卷,没有。4、302 - 312年,2008页。视图:出版商的网站|谷歌学术搜索
Karlsson Ruetschi, a . Rosen g . et al .,“蛋白质组学分析使用蛋白质芯片检测生物标记物在宫颈癌和羊水intra-amniotic炎症,女性”蛋白质组研究期刊》的研究,4卷,不。6,2236 - 2242年,2005页。视图:出版商的网站|谷歌学术搜索
j .太阳,j .徐z刘et al .,“精炼系统配置文件的方法预测蛋白质-蛋白质之间的关系,“生物信息学,21卷,不。16,3409 - 3415年,2005页。视图:出版商的网站|谷歌学术搜索
Kotsireas, r . Melnik, b .西方“先进的数学和计算方法:解决现代挑战的科学,技术和社会”航会议论文集美国纽约,1页,梅尔维尔,2011。视图:谷歌学术搜索
Kotsireas, e·刘,r . Voino”的确切implicitization多项式曲线和表面,”ACM SIGSAM公告,37卷,不。3,p。78年,2003年。视图:出版商的网站|谷歌学术搜索
我到达Zima Kotsireas和大肠大门,“抽象WWCA 2011年纪念草左前卫的80岁生日,“ACM通讯计算机代数,45卷,不。1/2,92 - 99年,2011页。视图:出版商的网站|谷歌学术搜索
即Kotsireas和大肠Volcheck,“蚂蚁VI:算法数论研讨会海报摘要”ACM SIGSAM公告,38卷,不。3、93 - 107年,2004页。视图:出版商的网站|谷歌学术搜索
即Kotsireas”,《2011年国际研讨会Symbolic-Numeric计算,”伊萨克的11个象征性的国际研讨会和代数计算(共存FCRC 2011)圣何塞,p。18日,CA,美国,2011年。视图:谷歌学术搜索
d . Vlachakis A . Pavlopoulou g . Tsiliki et al .,”一个集成在硅的方法来设计特定抑制剂针对人类聚(A)特殊核糖核酸酶,”《公共科学图书馆•综合》,7卷,不。12篇文章e51113 2012。视图:出版商的网站|谷歌学术搜索
d . Vlachakis g . Tsiliki a . Pavlopoulou m·g . Roubelakis s . c . Tsaniras和s . Kossida“抗病毒策略对hiv - 1 RNA干扰(RNAi)技术使用,“进化的生物信息学卷。9日,文章公祭活动。S11412, 2013年。视图:出版商的网站|谷歌学术搜索
d . Vlachakis d . Tsagrasoulis诉Megalooikonomou, s . Kossida”引入吸毒者:全面和完全集成的药物设计、铅和结构优化工具包,”生物信息学卷,29号1,第128 - 126页,2013。视图:出版商的网站|谷歌学术搜索
d . Vlachakis v . l . Koumandou和美国Kossida整体进化和结构的研究黄提供了洞察丙肝病毒解旋酶的功能和抑制,”PeerJe74条,卷。1日,2013年。视图:出版商的网站|谷歌学术搜索
d . Vlachakis d . g . Kontopoulos, s . Kossida”空间受限的同源性建模:依赖RNA的RNA聚合酶的范式的登革热病毒(II型),“计算和数学方法在医学ID 108910条,卷。2013年,9页,2013。视图:出版商的网站|谷歌学术搜索
p . Vlamos k . Lefkimmiatis c . Cocianu l .状态和z罗,“人工智能应用于生物医药、”人工智能的发展219137卷,2013篇文章ID, 2页,2013。视图:出版商的网站|谷歌学术搜索
p . Vlamos诉Chrissikopoulos, m . Psiha“构建脆弱性:一个跨学科的概念,”主要工程材料卷,628年,第197 - 193页,2014年。视图:出版商的网站|谷歌学术搜索
p . Vlamos a Pateli, m . Psiha“混合模型构建脆弱性的测量,主要工程材料卷,628年,第242 - 237页,2014年。视图:出版商的网站|谷歌学术搜索
p . Vlamos“某些序列的单调。”o ctogon数学杂志,10卷,第371 - 370页,2002年。视图:谷歌学术搜索
p . Vlamos和美国Tefarikis偏微分方程的数值解数学公报,50卷,第449 - 179页,2005年。视图:谷歌学术搜索
a . Alexiou m . Psiha, p . Vlamos”一个集成的基于本体的模型对帕金森病的早期诊断,”联合会信息和通信技术的进步施普林格,页442 - 450年,柏林,海德堡,2012年。视图:出版商的网站|谷歌学术搜索
a . Alexiou m . Psiha, p . Vlamos对专家系统对准确诊断和监测帕金森病的进展,激飞国际出版,2015年。
A . t . Alexiou p玛丽亚,j . Rekkas和p . Vlamos“线粒体动态的随机的方法,”世界科学院、工程和技术,55卷,第80 - 77页,2011年。视图:谷歌学术搜索
a . Athanasios p玛丽亚,t .乔治亚州、科诉帕诺什·“自动预测疾病,腓骨肌萎缩过程”13日IEEE国际生物信息学与生物工程会议2013年,页1 - 4,有关希腊,。视图:出版商的网站|谷歌学术搜索
m . Psiha和p . Vlamos“建模在帕金森病的神经回路,”实验医学和生物学的发展卷,822年,第147 - 139页,2015年。视图:出版商的网站|谷歌学术搜索
d·r·詹森h . Yu Greenbaum et al .,”贝叶斯网络方法预测蛋白质相互作用的基因组数据,”科学,卷302,不。5644年,第453 - 449页,2003年。视图:出版商的网站|谷歌学术搜索
t . n . Tran k Satou, b . h .涂”使用归纳逻辑编程从多个基因组数据,预测蛋白质相互作用”在数据库知识发现:PKDD 2005卷,3721在计算机科学的课堂讲稿施普林格,页321 - 330年,柏林,海德堡,2005年。视图:出版商的网站|谷歌学术搜索
Hamp方案实施t·b·罗斯特,“从序列进化资料提高预测蛋白质间交互作用,”生物信息学没有,卷。31日。12日,第1950 - 1945页,2015年。视图:出版商的网站|谷歌学术搜索
h . c .咦,z h .你,d . s .黄x, t·h·江和l·p·李,“深度学习框架,健壮和准确预测ncrna-protein交互使用进化信息,“——核酸分子治疗11卷,第344 - 337页,2018年。视图:出版商的网站|谷歌学术搜索
l·杨,j·f·夏和j . Gui“蛋白质-蛋白质之间的关系从蛋白质序列预测使用局部描述符,“蛋白质和多肽的信件,17卷,不。9日,第1090 - 1085页,2010年。视图:出版商的网站|谷歌学术搜索
d . y . Zhang, g . Mi et al .,“使用整体方法处理不平衡数据在预测蛋白质相互作用,“计算生物学和化学卷,36 36-41,2012页。视图:出版商的网站|谷歌学术搜索
Z.-H。你,m . c .周x罗和李,“高效预测蛋白质之间的相互作用,框架”IEEE控制论卷,47号3、731 - 743年,2017页。视图:出版商的网站|谷歌学术搜索
k·t·西蒙斯c . Kooperberg e·黄和d·贝克,“组装的蛋白质三级结构片段与当地类似序列使用模拟退火和贝叶斯评分功能,“分子生物学杂志,卷268,不。1,第225 - 209页,1997。视图:出版商的网站|谷歌学术搜索
李x, y, z你,x, t .江和j .张“PCVMZM:使用概率向量机分类模型结合泽尼克时刻描述符从蛋白质序列预测蛋白质-蛋白质之间的关系,“国际分子科学杂志》上,18卷,不。5,2017。视图:出版商的网站|谷歌学术搜索
c·冯·仅仅r·克劳斯b Snel et al .,“大规模数据集的比较评估蛋白质-蛋白质之间的关系,“自然,卷417,不。6887年,第403 - 399页,2002年。视图:出版商的网站|谷歌学术搜索
t . Berggard s林斯,p .詹姆斯,“检测和分析蛋白质相互作用的方法,”蛋白质组学,7卷,不。16,2833 - 2842年,2007页。视图:出版商的网站|谷歌学术搜索
k.c.周,“伪氨基酸组成及其在生物信息学中的应用,蛋白质组学和系统生物学,”目前蛋白质组学》第六卷,没有。4、262 - 274年,2009页。视图:出版商的网站|谷歌学术搜索
j .沈j .张x罗et al .,“预测蛋白质相互作用仅基于序列信息,“美国国家科学院院刊》上的美利坚合众国,卷104,不。11日,第4341 - 4337页,2007年。视图:出版商的网站|谷歌学术搜索
郭y l . Yu z,温,m·李”使用支持向量机结合汽车协方差从蛋白质序列预测蛋白质-蛋白质之间的关系,“核酸的研究,36卷,不。9日,第3030 - 3025页,2008年。视图:出版商的网站|谷歌学术搜索
w·h·严,x粉丝,问:,“预测基于分子的蛋白质相互作用界面特征和支持向量机,”目前的生物信息学,8卷,不。1,3 - 8,2013页。视图:出版商的网站|谷歌学术搜索
l .华和p .周”,与支持向量机结合蛋白质相互作用信息识别慢性阻塞性肺疾病相关的基因,”分子生物学,48卷,不。2、287 - 296年,2014页。视图:出版商的网站|谷歌学术搜索
s . Dohkan a小池百合子,t .高木涉“使用支持向量机预测蛋白质的相互作用,”程序。第四IEEE生物信息学和生物工程研讨会,页165 - 173,台中,台湾,2004。视图:出版商的网站|谷歌学术搜索
L.-P。李,Y.-B。王,Z.-H。李你,y, J.-Y。一个“PCLPred:生物信息学方法预测蛋白质相互作用通过结合相关向量机模型与低秩矩阵近似,”国际分子科学杂志》上,19卷,不。4、2018。视图:出版商的网站|谷歌学术搜索
J.-Y。一个,F.-R。孟,Z.-H。你,中州。方,Y.-J。赵,m .张“使用相关向量机模型结合当地阶段量化从蛋白质序列预测蛋白质-蛋白质之间的关系,“生物医学研究的国际卷,2016篇文章ID 4783801、9页,2016。视图:出版商的网站|谷歌学术搜索
j . y .一个f·r·孟z h .你,陈x, g . y .燕和j.p.胡锦涛,“改善蛋白质相互作用预测精度使用蛋白质进化信息和相关向量机模型中,“蛋白质科学,25卷,不。10日,1825 - 1833年,2016页。视图:出版商的网站|谷歌学术搜索
张x y, y . n、h·b·沈”大规模的人类蛋白质相互作用预测从氨基酸序列基于潜在的主题特征,“蛋白质组研究期刊》的研究,9卷,不。10日,4992 - 5001年,2010页。视图:出版商的网站|谷歌学术搜索
p . Smialowski,佩奇p, p . Wong et al .,“Negatome数据库:毫无关系的蛋白质对一组引用的,”核酸的研究,38卷,补充1,D540-D544, 2010页。视图:出版商的网站|谷歌学术搜索
美国马丁·d·罗伊,j·l·Faulon“使用签名产品预测蛋白质相互作用,生物信息学,21卷,不。2、218 - 226年,2004页。视图:出版商的网站|谷歌学术搜索
y l . Li梁,r·l·巴斯”GAPWM:遗传算法优化位置权重矩阵的方法,”生物信息学,23卷,不。10日,1188 - 1194年,2007页。视图:出版商的网站|谷歌学术搜索
j . Korhonen p . Martinmaki c . Pizzi·拉斯塔和e . Ukkonen”情绪:快速搜索位置权重矩阵匹配的DNA序列,”生物信息学,25卷,不。23日,第3182 - 3181页,2009年。视图:出版商的网站|谷歌学术搜索
j·杨和s . A .拉姆齐”DNA shape-based监管分数提高position-weight依赖于转录因子结合位点的识别,”生物信息学没有,卷。31日。21日,第3450 - 3445页,2015年。视图:出版商的网站|谷歌学术搜索
P.-T。Yap和r . Paramesran”,一个有效的方法计算勒让德的时刻,”IEEE模式分析与机器智能,27卷,不。12日,第2002 - 1996页,2005年。视图:出版商的网站|谷歌学术搜索
k . m . Hosny”计算灰度图像精确勒让德的时刻,”模式识别,40卷,不。12日,第3605 - 3597页,2007年。视图:出版商的网站|谷歌学术搜索
周j·d·h·z, l·m·罗和w x Yu”两个新算法有效地计算勒让德的时刻,”模式识别,35卷,不。5,1143 - 1152年,2002页。视图:出版商的网站|谷歌学术搜索
李y, b .傅j .周,g . Zhang和c .王”形象分析修改的勒让德的时刻,”模式识别,40卷,不。2、691 - 704年,2007页。视图:出版商的网站|谷歌学术搜索
g . a . Papakostas e . g . Karakasis d . e . Koulouriotis,“准确、快速计算图像的勒让德时刻对于计算机视觉应用程序,”图像和视觉计算,28卷,不。3、414 - 423年,2010页。视图:出版商的网站|谷歌学术搜索
l . j .许,刘问:et al .,“堆叠稀疏autoencoder (SSAE)核检测乳腺癌组织病理学图像,”IEEE医学成像,35卷,不。1,第130 - 119页,2016。视图:出版商的网站|谷歌学术搜索
·文森特·h·Larochelle Lajoie, y Bengio,和p . a . Manzagol“堆叠去噪autoencoders:学习有用的表征在深层网络进行局部去噪标准,“机器学习研究杂志》上11卷,第3408 - 3371页,2010年。视图:谷歌学术搜索
a . Sankaran p Pandey, m . Vatsa和r·辛格“潜指纹细节提取使用堆叠去噪稀疏autoencoders,”IEEE国际生物识别技术联合会议美国佛罗里达州克利尔沃特,页1 - 7,,2014。视图:出版商的网站|谷歌学术搜索
c . t·h·潘,y,和z .邹,“无监督学习spectral-spatial特性叠加稀疏autoencoder高光谱图像分类,“IEEE地球科学和遥感信,12卷,不。12日,第2442 - 2438页,2015年。视图:出版商的网站|谷歌学术搜索
李x z h . y . b . Wang, et al .,“从蛋白质序列预测蛋白质相互作用的叠加稀疏autoencoder深层神经网络,”分子生物系统,13卷,不。7,1336 - 1344年,2017页。视图:出版商的网站|谷歌学术搜索
x p h . Chen天奴,姚明,“概率向量机分类,”IEEE神经网络,20卷,不。6,901 - 914年,2009页。视图:出版商的网站|谷歌学术搜索
柳明桓x, z雪问:傅,x,和b·刘,“高光谱图像分类基于概率向量机分类,”第八届国际会议上数字图像处理(ICDIP 2016)江、C m法和x, Eds。,Chengu,中国,2016。视图:出版商的网站|谷歌学术搜索
x p h . Chen天奴,姚明,“有效概率向量机分类与增量基函数的选择,”IEEE神经网络和学习系统,25卷,不。2、356 - 369年,2014页。视图:出版商的网站|谷歌学术搜索
t·l·贝利和c·埃尔坎”,拟合混合模型在生物聚合物通过期望最大化发现图案,“程序。国际分子生物学智能会议系统,卷2,几个,1994页。视图:谷歌学术搜索
j·黄和c x凌,“使用AUC和准确性评估学习算法,”IEEE工程知识和数据,17卷,不。3、299 - 310年,2005页。视图:出版商的网站|谷歌学术搜索
c . c . Chang和c·j·林,”LIBSVM:支持向量机的库,”ACM智能交易系统和技术,卷2,不。3,1-27,2011页。视图:出版商的网站|谷歌学术搜索
l . f . b . Liu Liu方,x,和k . c .周”repDNA: Python包为DNA序列生成各种模式的特征向量,通过融合用户定义的物理化学性质和序列号的影响,“生物信息学没有,卷。31日。8,1307 - 1309年,2015页。视图:出版商的网站|谷歌学术搜索
j . r .烈性黑啤酒和d·a·高夫“Whole-proteome交互挖掘,”生物信息学,19卷,不。1,第134 - 125页,2003。视图:出版商的网站|谷歌学术搜索
美国马丁·d·罗伊,J.-L。Faulon,“使用签名产品预测蛋白质相互作用,“生物信息学,21卷,不。2、218 - 226年,2005页。视图:出版商的网站|谷歌学术搜索
l . Nanni和a . Lumini K-local超平面预测蛋白质相互作用的整体,“生物信息学,22卷,不。10日,1207 - 1210年,2006页。视图:出版商的网站|谷歌学术搜索
z h .你y . k . Lei l .朱j .夏和b . Wang”从氨基酸序列预测蛋白质相互作用的整体极端的学习机器和主成分分析,“BMC生物信息学补充卷14日,8条S10, 2013。视图:出版商的网站|谷歌学术搜索
z h·l . Wong, s . Li y . a .黄g·刘,“检测蛋白质相互作用的氨基酸序列与小说PR-LPQ使用旋转森林模型描述符,”先进的智能计算理论和应用施普林格,页713 - 720年,可汗,瑞士,2015。视图:谷歌学术搜索

复杂性

复杂的医学信息