文摘
近年来,高尔基分类研究了集中的主题。科学证明,高尔基体可以合成许多物质,如多糖、它还可以将蛋白质与糖或与糖蛋白、脂蛋白脂质。在一些细胞(如肝细胞),高尔基体也参与脂蛋白的合成和分泌。因此,高尔基蛋白质功能的丧失可能对人体有严重的影响。例如,阿尔茨海默氏症和糖尿病相关高尔基蛋白质功能的丧失。因为高尔基体蛋白的分类对这些疾病的治疗有一个特定的影响,许多学者研究了高尔基体蛋白的分类,但是他们使用的数据集完成高尔基序列。本文的重点是,是否存在冗余的高尔基体蛋白分类,或者换句话说,整个高尔基蛋白序列的一部分是否可以用来完成高尔基蛋白分类。此外,我们采用了一种新的方法来处理样本不平衡的问题。实验后,我们的模型有一定的可观测性。
1。介绍
真核细胞中高尔基体是一种细胞器(1]。Camilo-Golgi定义的高尔基体最初是在1897年和1898年高尔基命名(2- - - - - -4]。考虑其庞大的规模和独特的结构,高尔基体可视为第一细胞器发现和观察到的细节(5- - - - - -7]。内膜系统的一部分,高尔基体蛋白质封装在膜囊泡(8),发送到目的地。高尔基体分泌通路之间的坐落,溶酶体和内吞作用通路(9]。高尔基体的蛋白质分泌中扮演着重要的角色。与此同时,这样的一个问题包含一系列相关糖基化酶(10]。高尔基体的亚细胞位置不同于各种真核细胞。在大多数真核细胞,高尔基体包括cis-Golgi和trans-Golgi [11,12]。Cis-Golgi主要由小泡和多个囊泡形成高尔基堆。Trans-Golgi是最后的囊泡结构,蛋白质是封装在运输囊泡和发送到溶酶体,分泌通路,或细胞表面。高尔基体是密切相关的领域的结构和功能(13,14]。每个独立的高尔基堆栈可以包含几种类型的酶。这些上述酶可以处理一些生物学问题[15]。
蛋白质代谢的紊乱是核心的链接导致许多神经退行性疾病的发展(16]。高尔基体,是一个重要的细胞器在物质代谢途径,必须密切相关。帕金森病(17和阿尔茨海默病18典型的神经退行性疾病。实验表明,β淀粉样蛋白过程中扮演着重要的角色在阿尔茨海默病的病理变化19),其代谢紊乱密切相关的损失一定的高尔基体的功能。然而,为了理解高尔基函数的机制,一个重要的步骤是找到一个Golgi-resident [20.)和使用的类型和功能Golgi-resident蛋白以确定疾病的原则。例如,疾病的原因可能是缺乏Golgi-resident蛋白(21,22),导致高尔基体功能的丧失。因此,重要的是要正确地判断高尔基体的类型(23,24]。
经过几年的努力,高尔基体类型的预测已成为一个最重要的热点话题(25计算生物学和生物信息学领域的。目前,仅仅知道蛋白质是Golgi-resident不足以完全解释高尔基体的功能(26- - - - - -28]。进一步分析Golgi-resident特定类型的蛋白质是必要的。目前,一些方法应用于这个主题。丁等人提出了改进Mahalanobis判别(MD)算法来预测2011年Golgi-resident蛋白质类型(29日]。狄克提出了预测Golgi-resident蛋白类型II型膜蛋白的利用结构信息和跨膜域信息(2008年30.]。杜娇和建议周pseudoamino酸的一般形式预测2016年Golgi-resident蛋白质类型(31日]。丁和焦150高尔基体蛋白的相对较小的数据集。杨等人创造了一个新的数据集有304 sub-Golgi蛋白质培训和64 sub-Golgi蛋白质用于测试分类模型(21]。艾哈迈德和是32)提出了一个使用multivoting高尔基蛋白分类模型特征选择。周(33]提出XGBoost条件协方差最小化基于multifeature融合预测高尔基蛋白类型。是否它是基于一种氨基酸特征提取方法或拔多个氨基酸功能后,投票或multifeature融合,它们都使用完整的氨基酸序列中提取特征,并因为他们使用完整的氨基酸序列中提取特征,他们的模型获得相当的精度。然而,我们都知道高尔基的氨基酸序列很长,还需要很多的努力来提取特征信息在整个氨基酸序列。
在本文中,我们提出一种新的模型,称为subRF_seq。在细节,如果我们不使用一个完整的蛋白质序列的特征提取,其中一些也可以相当的精度。在本文中,我们的工作总结如下:首先,我们建议529种切割序列。训练集和测试集是根据这些529年削减削减类型。然后,529年的训练集进行编码。我们使用EAAC技术来提取特征,并将它们放入到RF分类器训练模型。最后,我们使用分割等于平衡数据集的验证和测试高尔基体的分类效果。我们使用随机森林分类器的五大切割序列方法,然后把这五个切割方法的特性到其他分类器构造和比较分类器是最好的分类器的部分高尔基蛋白序列。
我们的工作流程如下。
2。方法和材料
2.1。数据
本实验使用一个新的数据集由艾哈迈德(12]。有87 cis-Golgi蛋白质序列和217 trans-Golgi训练集,没有蛋白质的蛋白质序列配对与其他蛋白质40%以上的独立数据集。64 sub-Golgi蛋白质序列是用于测试的影响分类器,其中13例cis-Golgi蛋白质序列和51 trans-Golgi蛋白质序列。应该注意的是,没有训练集和测试集之间的联系。
我们的工作流程图如图1。具体来说,我们需要处理的完整sub-Golgi蛋白质序列。在这一步中,训练集的304 sub-Golgi蛋白质序列。切割的方法是减少三个位置在前面和三个位置从后面形成一个新的蛋白质序列。这是第一个部分高尔基序列。前三位数不变,乳沟数字增加一个,并将其添加到乳沟25形成23新的蛋白质序列和形式23部分高尔基的训练集。然后,前端削减的数量增加,并从3-25追尾削减的数量,直到最后前端将降息25个数字和后端是25个数字。有23个×23个不同的切割方法。23日×23不完整的高尔基体形成的蛋白质序列。测试设置适应相同的切割方法。 Then, use EAAC to extract protein sequence features, input to the classification model to train the model, and then test the effect on an independent test set.
2.2。特征提取
2.2.1。氨基酸组成编码
高尔基体的序列信息包含20种氨基酸的类型和排列顺序(34,35]。因此,基于氨基酸组成的特征提取算法是最简单、最直观的方法。氨基酸组成简单代表20种氨基酸的概率出现在序列(36,37]。这是一个基本的高尔基体序列特征提取算法。氨基酸组成高尔基序列映射到欧洲20维空间中的一个点。向量表示如下:
在这里,的次数我氨基酸序列中出现 。氨基酸成分是容易计算,它是最常用的序列特征提取算法在高尔基体的分类研究。
2.2.2。增强内容编码氨基酸(EAAC)
陈等人。38)基于AAC编码,提出了一种新的编码方法称为EAAC。EAAC编码直接反映了20个氨基酸残基的分布频率。EAAC编码与AAC编码的不同之处在于,EAAC编码定义了一个滑动窗口长度8和计算出20个氨基酸残基的频率出现在每个八维子序列段(39]。20个氨基酸残基的频率不断滑动窗口从每个高尔基体的糖基的n端序列数据集。因此,高尔基的序列相对应的向量维数残留是
在这里,是我们定义的滑动窗口的大小。EAAC编码的值是8,高尔基体序列的长度,特征向量的维数。
2.3。建筑的分类
本实验主要使用一个随机森林分类器。随机森林被称为“代表对集成学习的方法”(40),这很容易实现,相对较低的开销。随机森林是一个扩展的装袋的想法41),基于决策树学习,该算法进一步在训练过程中引入了随机属性选择的决策树42- - - - - -44]。随机森林的基本思想与数据训练模型,得到多个决策树,然后合并决策树得到更稳定的预测。在随机森林,树木的性能变得更好的数量增加,和错误变得越来越小。在这个实验中,我们选择1000决策树建立随机森林模型。此外,我们还建立资讯(K最近邻分类算法),SVM(支持向量机算法)、美国有线电视新闻网(卷积神经网络),和ANN(人工神经网络)分类器比较是最好的分类器与高尔基体蛋白序列的一部分。
2.4。评价方法
积极的和消极的样本训练集的实验是不平衡的,和正负样本的比例是1:2。不平衡的二元分类问题,积极的和消极的样本对分类的效果有一定的影响。它将导致预测与许多样本类别的类别。因此,评价方法,我们选择一个SE太阳等提出的验证方法。45]。这种验证方法的优点是数据处理和交叉验证可以同时实现。
性能测量是测量的评价标准模型的泛化能力,它反映了需求的任务。使用不同的性能指标往往会导致不同的评价结果。因此,有必要选择一套好的性能指标预测模型的性能。在这个实验中,ACC和AUC被选作评估。ACC和AUC性能指标已经进化的混淆矩阵(46- - - - - -51]。在二元分类问题,分类数据的实际情况在测试集是一个积极的例子中,该模型预测的结果是一个积极的例子,也就是真正的例子(TP)。预测的结果是一个反例,这是一个错误的反例(FN)。同样的,当数据的真实情况分类的测试集是一个反例,假阳性有例子(FP)和真正的反例(TN)。准确率的公式
召回公式是
准确率的公式(ACC)
价值的AUC的面积是ROC曲线。我们经常使用AUC的价值判断的标准模型的质量,因为中华民国曲线不能直观的看到的质量模型(52,53]。ROC曲线绘制和敏感性纵轴和1 -特异性水平轴。
灵敏度的公式
3所示。结果与讨论
在本节中,我们主要描述529个不完整的高尔基体序列的影响我们定义了培训模型。此外,我们选择了前5 sub_RF_seq模型中的切削方法分类效果进行比较实验。
3.1。结果
在这个实验中,我们记录的AUC值529不同的切割方法。为了直观地理解这些529切割方法的分类效果,我们做了一个三维直方图基于AUC值。的X设在代表有多少位减少前端的蛋白质序列,和Y设在代表的比特数减少尾部的蛋白质。的X设在代表有多少位减少前端的蛋白质序列,和Y设在代表的比特数减少蛋白质的从后端。这样,这个三维柱状图显示了使用不完整的高尔基体蛋白序列分类的效果。图2表明,在这些529年高尔基序列切割方法,202的切割方法AUC值大于或等于0.6,和426的切割方法有一个值大于或等于0.5。
此外,我们使用了随机森林分类器选择前5切割高尔基体分类的方法。AUC值和ACC对这五个切割方法如表所示1。
3.2。讨论
3.2.1之上。比较在不同分类器模型的影响
我们把切割序列的五大分类支持向量机模型中,影响资讯,CNN, ANN分类和分类器使用部分高尔基相比序列达到最好的高尔基体分类。从表2,我们发现射频比其他几个分类器分类器性能更好。例如,某个切割序列方法的前提下,选择EAAC编码的特征编码方法。20 + 3高尔基体序列,ACC在射频标识符的值高达82.81%,和AUC值高达0.854。的值比其他几个分类器。然而,部分高尔基序列在其他分类的分类效果还是相当大的。在表2,大多数分类器的AUC和Acc值高于70%,这进一步证实在高尔基体有一定的冗余序列时用来确定高尔基体类型。
3.2.2。分类效果在不同的编码方法
在这个实验中,我们选择两种编码方法,EAAC和AAC,看到的效果不同的氨基酸序列编码方法的分类效果。为了探索不同的编码方法下的分类效果,我们控制变量分类器。只选择射频标识符。从表3,我们可以看到五个切割方法的AUC和ACC值下EAAC和AAC。表3表明,在EAAC编码模式中,Acc和AUC值高于AAC编码方法,直接证明了我们的猜测,不同编码方法会影响模型的分类效果。
3.2.3。性能的不平衡正负样本数据集的分类效果
由于不平衡的积极的和消极的样品我们使用的数据集,我们使用的验证方法和签订10倍交叉验证方法验证模型的分类效果。塞验证方法可以处理不平衡的正负样本数据集,和10倍交叉验证没有数据预处理的效果。表4证明处理不平衡的数据集将改进模型的有效性。使用近18%高于签订一个简单的10倍交叉验证。
4所示。结论
在过去,当确定高尔基体的类型,许多人使用整个高尔基蛋白编码序列;一个完整的高尔基体蛋白质序列有大量的氨基酸,编码时这是非常耗时的。在本文中,我们目前subRF_seq,完整的高尔基体的分类使用高尔基蛋白序列的一部分,有一个相当大的分类效果。我们把数据集,从减少序列中提取特征向量,最后,火车在一个随机森林区分trans-Golgi和cis-Golgi。在二元分类问题,正面和负面的比例很多训练集的样本无法达到1:1,这将导致错误的AUC值高的问题。我们的模型可以有效地解决这个问题。我们还使用其他的分类和特征提取技术来证明我们的想法,和使用的结果表明,我们的想法的一部分高尔基序列特征提取是可行的因为AUC的值和ACC是相当不同的分类和编码方法。实验结果证明,高尔基体蛋白可以通过使用部分仍然是杰出的高尔基体序列,换句话说,在高尔基体有一定程度的冗余蛋白质分类高尔基分类。如果我们用高尔基在高尔基体序列分类的一部分,这将大大减少。
数据可用性
数据用于支持本研究的发现可以从相应的作者。
的利益冲突
作者宣称没有利益冲突。
确认
这项工作是由美国国家科学基金会的拨款(61902337和61902337号)中国江苏省自然科学基金、中国(没有。SBK2019040953),为江苏省高校自然科学基金。19 kjb520016。