文摘
G protein-coupled受体(GPCRs)是最大的受体超家族。在本文中,我们尝试采用理化性质,它来自SVM-Prot,代表GPCR。随机森林是利用作为区分他们从其他蛋白质序列的分类器。MEME套件是用来检测最重要的人类GPCRs 10守恒的图案。在测试数据集,平均精度为91.61%,平均AUC为0.9282岁。MEME发现分析表明,许多主题聚合七疏水螺旋跨膜区域适应GPCRs的特点。上述表明,我们的机器学习方法可以成功区分GPCRs non-GPCRs。
1。介绍
G protein-coupled受体(GPCRs)是真核生物中发现,构成一个庞大的蛋白质家族,执行各种功能总是通过联轴器与G蛋白在细胞中。GPCRs有很多别名,例如heptahelical受体,蛇形受体G蛋白质受体(GPLR)和seven-transmembrane (tm) 7日域受体;所有GPCRs包含单一多肽链通过细胞膜的7倍(1]。大约有1000 GPCRs在人类基因组(编码基因占2%);因此,它们形成最大的受体超科(2];他们也参与了各种疾病,占约40%,药物靶点。因为罗伯特·j·莱夫科维茨和布莱恩·k·Kobilka透露的生化机制GPCRs信号通路,他们被授予2012年诺贝尔化学奖(3]。
许多不同的方法被用于GPCRs分类,如蛋白质motif-based系统、机器学习方法(4),和其他技术。基于原始序列的相似性和系统发育研究,GPCRs总科可分为5、6或7类在不同时期5,6]。根据GPCRdb (http://gpcrdb.org/)数据库开发的科拉和更新由角等。7),它包含数据,图表,和网络工具包括收集GPCRs晶体结构和受体突变体,GPCRs分为六个主要家庭:A类(视紫红质),类B1(分泌素),类B2(粘连),C类(谷氨酸),类F(卷曲的),和其他GPCRs。前五类是一致的谷氨酸,视紫红质,附着力,使卷曲,分泌素(伯爵)分类系统(8,9]。表1显示了每个类的蛋白质数量和成分。
甲级rhodopsin-like受体构成最大的(80%以上)人类GPCR亚型。他们协调许多内源性肽的影响包括神经递质,激素,和旁分泌信号。例如,生物胺(10],如去甲肾上腺素、多巴胺和5 -羟色胺通常扮演他们的角色通过绑定GPCRs病理性疾病的药物。尽管n端细胞外域很短,类受体可以形成二聚体,homo / heterodimerization [11]。这个类还包括大约60孤儿受体没有配体或函数定义(12,13]。
属于一个类B1 secretin-like受体激素和神经肽受体的家庭;他们由一个大型和多才多艺的氨基端细胞外域(ECD)函数作为一个亲和的陷阱激素(14]。此外,他们是起源于古代,可以结合各种肽分泌素等促肾上腺皮质激素释放因子,胰高血糖素、甲状旁腺素、降钙素、生长激素释放激素、降钙素相关基因肽(15]。
类B2 adhesion-like受体也被称为粘附G protein-coupled受体(ADGRs)与古老的起源;他们大脑的功能在各种组织包括突触(16]。大多数ADGRs包含各种领域的n端提供结合位点的其他细胞(17];这些领域有超过16个类型,包括cadherin-like重复,thrombospondin-like重复,calnexin域。ADGRs有氨基端胶粘剂领域的特点18]。例如,ADGR亚G4 (ADGRG4)的序列特征独特的高度保守的主题和一些功能重要的主题类似于类,类B1,结合元素(19]。
C类GPCRs主要包括metabotropic谷氨酸受体(mGluRs),一种L-glutamate绑定受体;另一种类型是ionotropic谷氨酸受体(iGluRs)属于ligand-gated离子通道而不是GPCR的家庭。C类GPCRs包含大量氨基配体结合域。存在8亚型mGluRs形成信号分子通过第二信使系统(20.),转移细胞外信号通过受体二聚体包装和变构调节的机制21]。mGluRs是一个间接metabotropic过程的激活绑定谷氨酸的援助,大脑中一个主要的兴奋性神经递质。细胞外谷氨酸浓度(在微摩尔的范围)低于细胞内(毫克分子距离)在神经元22]。人类mGluRs在预处理和突触后神经元,海马、小脑、和其他大脑区域的神经突触,在外围组织。mGluRs发挥重要作用在调节神经元兴奋性突触可塑性和在担任精神障碍的药物靶点23]。
类F卷曲的/受体参与抵抗Wnt绑定而平和的受体(属于GPCRs)和解刺猬信号通过所需的地区cysteine-rich域(CRD) n端(24),因为蛋白质序列同源卷曲的抵抗。7 tm两种蛋白有相同的结构和进化关系(25]。但frizzled-related分泌蛋白可以通过促进或阻碍Wnt3发挥它的功能α/β连环蛋白信号在不同浓度的分泌frizzled-related蛋白1和细胞上下文(26]。
其他GPCRs包括一些孤儿受体除了上面的类;这些受体的特点是,他们有一个类似的结构与其他识别受体但缺乏内源性配体。他们共37个蛋白质和6在人类。其中,Gpr175(也称为Tpra1)和GPR157研究。Gpr175是孤儿GPCR的积极调控刺猬信号通路(27];GPR157夫妇和Gq蛋白质,然后激活IP3介导钙2 +级联,这也是一个信号分子参与积极调节神经元通过GPR157-Gq-IP放射状胶质祖细胞的分化3级联途径(28]。
一般来说,GPCRs与配体的种类可以分为受体激动剂,对手,或逆受体激动剂,三个类基于受体效应(29日,30.];这些包括不同形式的“信息”,如光子,味道,气味(31日),离子,信息素、二十烷类核苷酸,核苷(9),神经递质、氨基酸(32),多肽、蛋白质和激素(33]。这些配体含有小分子大小不同和大型蛋白质。
GPCRs跨膜受体,通过激活细胞内heterotrimeric成胞内信号转导细胞外刺激G蛋白复合物,包括15克α子单元,5克β子单元,12克γ子单元。基于序列相似性和G的功能特征α子单元,G蛋白分为四个主要类别:Gαs, Gαi / o, Gαq / 11, Gα12/13 (34]。Gα激活或失活周期控制信号转导,细胞处于休眠模式,国内生产总值(GDP)结合Gα形成Gα国内生产总值(gdp),然后加入Gβγ生成Gαβγ复杂,克α是不活跃的在这个阶段;当刺激信号从GPCR介绍,Gα提出了一个构象变化,三磷酸鸟苷结合Gα形成Gα三磷酸鸟苷G和不稳定αβγ复杂,克βγ剥离和受克吗βγ相互作用的蛋白质,和Gα在这个阶段很活跃。当Gα满足下游的信号转导通路,Gα通过其内在的GTPase活性水解三磷酸鸟苷对GDP构成Gα国内生产总值(gdp)并返回到休眠模式;这个过程构成G蛋白周期(35]。激活Gα年代催化ATP营地的腺苷酸环化酶(AC)和结果在激活的蛋白激酶A (PKA)和下游效应器的磷酸化。相反,Gα我起抑制作用的交流和抑制营地生产。Gαq / 11激活磷脂酶Cβ(PLC)β)和生产inositol-1 4 5-trisphosphate (IP3)和甘油二酯(DAG)可以形成PLCβ知识产权3dag信号通路。Gα12/13激活ρGTPase家庭通过RhoGEF调节细胞骨架重塑;这些家庭G蛋白信号转导的主要效应(3]。因此,GPCR-Gα-AC-PKA和GPCR-Gα-PLC-IP3两个主要细胞内的信号转导级联构成。
在本文中,我们做了在网上分析GPCRs信息和其他多肽氨基酸理化特性和构造188 d特征向量(表2)的蛋白质成一个分类器(36- - - - - -41]。188年第20 d d代表了20种天然氨基酸组成;另168 d包括每个派生从所谓的八个理化CTD模式(42],C代表氨基酸含量为每个类型的疏水氨基酸,T代表双价多肽的频率,和D代表氨基酸序列的分布从五个位置。这188维特征向量已经集成到软件BinMemPredict表现良好在膜蛋白预测(42]。此外,我们还进行主题分析,MEME套件(http://meme-suite.org/),因为一个主题可以直接符合一种酶的活性部位或域的蛋白质。MEME已经不仅用来预测守恒的主题区域,也用于引物设计质量较低的序列相似性模式在多个全局比对(43]。
2。材料和方法
2.1。数据检索和预处理
GPCR序列和fasta格式从UniProt检索数据库(http://www.uniprot.org/);我们获得初始5027序列。提高分析性能,原始数据集被protein-clustering预处理程序CD-HIT (http://cd-hit.org/为减少预测的序列同源性偏差);序列标识阈值被设定为0.80和其他参数默认值;因此,高度同源的序列被移除,最后2495 GPCR蛋白质序列是获得积极的数据集,和负面的例子来自所有的蛋白质序列,但删除积极的,和10386个条目(non-GPCRs)获得负的数据集。
2.2。提取的区别的特征向量进行分类和测试随机森林分类器
蛋白质特性提取从主序列根据他们的20种氨基酸成分和他们的八种理化性质;基于这些特点,Cai et al。44和邹等。42)提高了188 d SVM-Prot的特征向量。工作流程如下:
(1)所有不同的积极的蛋白质样本用来提取相应的数字包含了家庭的“家庭和域”部分uniprot网站和排除和冗余数量包含相同;独特的数集包含了积极的数据集(fasta格式)收购。
(2)所有的蛋白质序列都集成到一个包含文件;相同的序列包含了合并与数字包含了相同的文件命名;然后,积极的数字包含了文件被移除;剩下的数字文件包含每个包含只在最长序列中提取的负面数据集(fasta格式)。
(3)由于蛋白质序列具有不同的长度,每个序列需要转变成固定大小向量分类、积极和消极的数据集都输入188 d SVM-Prot计划为他们的特征向量,给出的正样本的标签“1”的向量,负样本的标签“−1”的向量,和积极的和消极的文件组合成一个文件,文件名格式在.arff结束。
(4)上述文件正面和负面的矢量数据集随机分为五个部分,分别为,其中,每四部分作为训练的例子,剩下的作为测试的一部分,每一部分包含正负样本(表3使用),5倍交叉验证。
(5)训练和测试数据集被先后导入weka数据挖掘包(http://www.cs.waikato.ac.nz/ml/weka/),一个机器学习工作台。在weka,训练数据集过滤与合成少数过采样技术(打)45,46),改变了积极克服高度不平衡样本100%到300%财产的积极的和消极的病例;与击打技术群数据预处理后保持一个平衡,通过可视化分析和矢量数据自动分类(47]。基于最优特征的一些初步试验,我们最终选择了随机森林(RF) (48)模块和“使用训练集”项测试选项作为训练数据集的分类器,而对于测试数据集我们选择“提供测试设置”项测试选项预测样本GPCRs或non-GPCRs:也就是说,预测模块使用的结果只是训练集来区分两类。
测量的性能质量统计分类更直观地在机器学习领域,我们采用5倍交叉验证测试数据集和计算四种常见参数(49,50]:敏感性(Sn),特异性(Sp)、准确性(Acc),马修和相关系数(MCC)采用SVM-Prot特性和分类器评价,制定如表4。
2.3。守恒的主题分析人类GPCR的蛋白质
在线MEME套件4.11.0 (http://meme-suite.org/)是用于分析守恒的主题分析。MEME是一个强大的、全面的基于web的工具,用于开采顺序图案在蛋白质、DNA和RNA (51]。目前,MEME套件以来增加了6个新工具核酸研究Web服务器的问题2009年,和基于web的版本工具达到13。的最大主题宽度、最小宽度,主题和主题的最大数量设置为50,6日分别和10。
3所示。结果
3.1。重新分类的正面和负面的蛋白质在五个测试数据集
我们获得了188维特征向量包含积极的和消极的样品,并把他们分成训练集和测试数据集作为输入Weka explorer,分别结果显示准确分类的所有五个训练数据集;因此,训练分类器可以用来验证预测的效果,和测试数据集被用来直接预测它的类标签。5测试数据集的正确分类率分别为90.64%,90.37%,88.04%,93.28%,和95.73%,分别(平均数±标准差:);表中所示的其他指标5。
3.2。人类GPCRs守恒的主题分析
为目的的披露的进化关系GPCRs守恒的图案,我们随机选择6类人类GPCRs和获得66蛋白质序列分析MEME软件。MEME的多个局部比对进行生成最重要的序列(图10守恒的图案1和表6)。
(一)
(b)
4所示。讨论
在这项研究中,我们表明,该小说SVM-Prot特性建立二元分类器可以区分从non-GPCRs GPCRs;我们从五个训练数据集获得确切的分类模型和AUC = 1,和五个测试数据集得到的平均正确分类率91.61%,平均AUC 0.9282;这些表明,预测GPCRs和真实GPCRs总体一致性良好。AUC是一个阴谋设在代表假阳性(等于1−特异性)设在代表真正的阳性(等于灵敏度),基于不同的截止值的分数从二元分类器(52,53]。AUC 1代表一个完美的模型;AUC越接近1,我们可以开发更好的预测模型,但如果值减少到0.5,模型变得没有预测能力。二进制分类模型我们获得高特异性和准确性测试数据集,但灵敏度和马修的值的相关系数相对较低,约为0.7;这可能是由于不平衡数据集的大小的问题积极与的比例小于- 1:4;因此,假阴性率相对较高。这个缺陷也可能来自监督学习算法的内在限制,因为分类模型由训练数据集只能有一个良好的预测效果在测试数据集上拥有相同的概率分布作为训练数据集(54]。
十大人类GPCR图案显示一些主题聚合的特点出现的框图;这反映在7 GPCRs tm螺旋区域的结构特点。主题1、4、6、7和10属于这些7 tm域;其中,前4主题显示包含该地区高度同源类B1分泌素家族,和主题10是一个Fz域膜生成地区附近GPCRs胞内c端区域,包含一个α螺旋Cys-rich域(CRD)卷曲的Wnt绑定(它是必不可少55,56]。主题3 8和9 CRD Frizzled-1像域参与Wnt信号(57]。主题5是latrophilin / CL-1-like G protein-coupled受体蛋白水解作用的网站主题(GPS)首次发现在神经元Ca2 +独立的受体alpha-latrotoxin(黄道眉鹀)/ latrophilin,孤儿GPCR [58]。GPS是GPCR的一部分autoproteolysis-inducing(获得)域举行粘附GPCRs的造型的特性,和GPS卵裂过程中扮演了一个重要的角色在肾器官生理学(59]。以第一个序列Q9BY15为例,列出三种守恒的领域从n端:钙结合EGF域(没有显示),GPS领域,和7 tm域分泌素家族。后两个域与浓度出现框图。
支持向量机(SVM)是一种监督机器学习算法的基础上,统计学习理论(53,60- - - - - -65年]。由于鲁棒性,迅速,重复性,机器学习方法被认为是一个最好的方法有效地分类许多蛋白质分子。在两级的问题,我们的支持向量机分类器输入188 d特征向量映射到一个高维特征空间,然后建立最优分离超平面(66年]GPCRs non-GPCRs,同时避免过度拟合和underfitting问题。这种方法属于线性分类模型(67年]。
所有的GPCR总科包含七个高度保守的7 tm地区与疏水性的特点;可以通过隐马尔可夫模型识别这些7 tm(摘要)和机器学习方法(68年]。GPCRs结构研究表明,经典的序列包含以下:seven-transmembrane段(TM1-7),三个细胞外循环(EL1-3),三个胞内循环(IL1-3)和蛋白质末端。因此,GPCR顺序可以分成以下地区:N-terminus-TM1-IL1-TM2-EL1-TM3-IL2-TM4-EL2-TM5-IL3-TM6-EL3-TM7-C终点站。总之,我们已经成功地开发了一个基于SVM-Prot特性随机森林识别GPCRs non-GPCRs基于蛋白质序列信息和他们的物理化学性质。然而,这一预测模型需要进一步探索,歧视的亚科和sub-subfamily GPCRs。
相互竞争的利益
作者宣称没有利益冲突有关的出版。
确认
支持的工作是中国福建省自然科学基金(没有。2016 j01152),中国自然科学基金会(没有。61370010),药用化学生物学国家重点实验室(没有。201601013)。