确定热休克蛋白家庭不平衡数据通过使用组合特性

文摘

热休克蛋白(休克)在生物无处不在。热休克细胞生长和生存的重要组成部分;热休克的主要功能是控制蛋白质的折叠和展开过程。根据分子的功能和质量,热休克分为六个不同的家庭:HSP20(小热休克),HSP40 (J-proteins), HSP60, HSP70,一半,HSP100。本文改进的HSP预测方法提出了分离氨基酸组成(SAAC)二肽成分(直流),联合三特性(CTF), pseudoaverage化学位移(PseACS)被选来预测热休克与支持向量机(SVM)。为了克服不平衡数据分类问题,少数语法过采样技术(杀)被用来平衡数据集。总体精度与平衡的数据集是99.72%重叠测试通过使用优化的组合特性SAAC + DC +周大福+ PseACS, 4.81%高于不平衡数据集具有相同的组合功能。Sn, Sp、Acc和MCC HSP的家庭在我们的预测模型比现有的方法。这个方法可能有利于改善蛋白质功能预测。

1。介绍

热休克蛋白(休克)在生物无处不在。他们作为分子伴侣’通过促进和维持适当的蛋白质结构和功能1- - - - - -4];此外,他们参与各种细胞过程如蛋白质组装、分泌、运输、和蛋白质降解[5,6]。热休克时迅速表达细胞暴露于生理和环境条件如高温、感染和炎症(7,8]。自热休克Ritossa(于1962年被发现9],休克蛋白被广泛研究,包括参与心血管疾病、糖尿病、癌症(10- - - - - -14]。根据分子的功能和质量,热休克分为六个不同的家庭:HSP20(小热休克),HSP40 (J-protein), HSP60, HSP70,一半,HSP100 [15]。这些家庭医生有不同的功能。HSP20家族是一个ATP-independent分子伴侣。他们是有效的防止不可逆聚合过程绑定变性蛋白质(16]。HSP70家族是最测定仪中高度保守的家庭;这是一个ATP-dependent分子伴侣蛋白,包括蛋白质折叠和重构(17]。HSP40 HSP70的cochaperone,参与DNA结合,蛋白质降解,细胞内信号转导,胞外分泌,内吞作用,病毒感染,细胞凋亡,热休克传感18]。一半是另一个ATP-dependent伴侣控制蛋白质功能和活动通过促进蛋白质折叠,结合配体的受体或目标,或multiprotein复合物的组装19]。HSP100蛋白质的功能是提高耐温度和促进特定细胞基质的蛋白水解作用和调节转录(20.]。实验测定的热休克是费时又费力,所以有必要使用一个有效的方法来预测热休克。最近,一些计算方法在文献中提出了预测热休克。峰等人开发了一个名为“iHSP-RAAAC”选择的预测减少了氨基酸字母表(RAAA)作为特征向量;重叠测试的总体预测精度为87.42% (21]。艾哈迈德等人利用拆分氨基酸组成(SAAC)二肽成分(DC), PseAAC [22,23]确定热休克;最高的总体预测精度为90.7%的重叠测试(24]。Kumar等人预测热休克和non-HSPs,最好的预测精度是72.98%通过使用二肽成分(DC)的5倍交叉验证测试(25]。默赫等人使用G-Spaced氨基酸对作文(GPC)来预测热休克;得到一个更好的结果的重叠测试(26]。陈等人总结了最新进展在机器学习的方法来预测热休克27]。在一个分类特征选择通常是必要的,适当的集成特性模型通常提供精度高(28]。因此,混合特性年代最近研究成功用于构建分类器(29日,30.]。我们使用了混合特性来提高性能。本文分离氨基酸组成(SAAC)二肽成分(直流),联合三特性(CTF)和pseudoaverage化学位移(PseACS)被用来预测热休克用相同的数据集作为冯et al。调查数据不平衡一直被认为是一个问题在发展中高效、可靠的预测系统;由于不均衡数据集,分类器将倾向于多数类。这里,句法少数过采样技术(杀)被用来解决不平衡的问题。总体精度与平衡的数据集是99.72%重叠测试通过使用优化的组合特性SAAC + DC +周大福+ PseACS, 4.81%高于不平衡数据集具有相同的组合功能。

2。材料和方法

2.1。数据集

基准数据集是由冯et al。21];数据集最初来自HSPIR数据库。为了减少同源偏差和冗余,程序CD-HIT [31日)被用来去除那些≥40%的序列两两序列的身份。从不同的HSP 2225序列得到家庭:子集包含357个序列子集包含1279个序列子集包含163个序列子集包含283个序列子集包含58序列,和子集包含85个序列(见下表1)。数据集可以从http://lin-group.cn/server/iHSP-PseRAAAC免费下载。独立数据集包括两个数据集:HGNC数据集和水稻数据集(见表2)。HGNC数据集(32)有96人热休克,水稻数据集有55米热休克,获得了31个热休克从王et al。33)和24从单个家庭从热休克Sarkar et al。34]。独立的数据集可以免费下载http://cabgrid.res.in: 8080 / ir-hsp。


数据集	家庭	HSP样本数量

	HSP20	357年
	HSP40	1279年
	HSP60	163年
	HSP70	283年
	一半	58
	HSP100	85年
	整体	2225年


家庭	HGNC数据集	水稻数据集
家庭	HGNC数据集	王等。	Sarkar et al。

HSP20	11	14	- - - - - -
HSP40	49	- - - - - -	- - - - - -
HSP60	15	4	- - - - - -
HSP70	17	7	24
一半	4	3	- - - - - -
HSP100	- - - - - -	3	- - - - - -
总	96年	31日	24

2.2。预测模型建设概述

预测模型过程如图1。热休克的特征参数提取。通过使用各种信息参数,预测结果表明,可以获得更好的预测结果结合以下四个信息参数:分离氨基酸组成(SAAC)二肽成分(直流),联合三特性(CTF), pseudoaverage化学位移(PseACS)。在SAAC,蛋白质序列分成n端段和糖基段根据黄金比例。在四个特征参数,分离氨基酸组成(SAAC)二肽成分(DC)和联合三合一功能(CTF)是基于蛋白质序列,而pseudoaverage化学位移(PseACS)与蛋白质二级结构。因此,相关的特征参数序列和结构信息。四个特征参数结合,句法少数过采样技术(杀)是用来解决不平衡数据集的问题。总体精度(OA)与平衡的数据集是99.72%,结果表明,该方法优于现有方法。

2.3。特征提取技术

为了预测热休克,是很重要的选择一个分类器和一组合理的参数。本文将氨基酸组成(SAAC),二肽成分(DC) (35),联合三特性(CTF), pseudoaverage化学位移(PseACS)被用来预测热休克。

2.3.1。拆分氨基酸组成(SAAC)

拆分氨基酸组成(SAAC)是一种基于AAC的特征提取方法。在SAAC,蛋白质序列分成不同的部分;然后,单独统计每一段的构成(36- - - - - -39]。众所周知,黄金比例在本质上是无处不在的。根据黄金比例,蛋白质序列分为n端部分和糖基部分;糖基的n端段段的比例是黄金比例40]。这种方法可以表示如下: 在哪里是互译使用黄金比例分割,N代表N端,C代表糖基,氨基酸的发生吗 , n端段的长度,是糖基段的长度。

通过这种方法,我们可以得到 , ,…。

2.3.2。二肽组分(DC)

二肽组分(DC)是一个离散的方法利用序列的邻居信息(27,41,42]。每两个相邻氨基酸残基的发生频率计算;直流的优点是,它认为一些序列号信息。它可以计算如下: 在哪里发生的数量吗th二肽的蛋白质序列,蛋白质序列的长度。

2.3.3。联合三特性(CTF)

联合三特性(CTF)表示被沈et al。43]。在这种方法中,一个氨基酸的性质及其附近的氨基酸被认为是。三个连续的氨基酸被视为一个单元。20种氨基酸分为7组基于偶极矩和侧链的体积: , , , , , ,和。因此,每个蛋白质序列是由一个343 - ( )维向量,向量的每个元素对应于相应的频率联合三合会的蛋白质序列。联合三特性(CTF)已经成功地预测酶功能(44),蛋白质-蛋白质之间的关系(45],rna蛋白质相互作用[46),和核受体(47]。周大福可以制定如下的特点: 在哪里是每个三类型的发生数量的蛋白质序列,蛋白质序列的长度。

2.3.4。Pseudoaverage化学位移(PseACS)

核磁共振(NMR)在研究蛋白质的结构中起着独特的作用,因为它提供了内部运动的动态信息的蛋白质在多个时间尺度(48]。质子的化学环境敏感的。质子在不同的化学环境中体验不同的磁场,他们吸收不同频率不同的磁场;各种蛋白质的共振频率与一个站被称为化学位移49]。作为重要的参数是由核磁共振(NMR)谱测量,化学位移被用作蛋白质结构的指标。一些研究人员透露,平均化学位移(ACS)的一个特定的核蛋白质骨干经验相关,其二级结构(50]。PseACS web访问生物信息学手段/中航商用飞机有限公司/ index.asp http://202.207.14.87:8032。

为蛋白质 ,序列中的每个氨基酸取代的平均化学位移,和可以表示如下: 在哪里代表氮,α碳,α氢,氢与氮。

之后,我们选择和 ,PseACS将表示如下:

2.4。语法少数过采样技术(打)

如表所示1HSP40的数量的4倍,8倍,5倍,22倍,HSP20的15倍,HSP60, HSP70,一半,和HSP100分别。这导致不平衡数据分类问题。为了克服这个问题,我们使用了击杀来解决不平衡的问题。打过采样方法,少数类是通过选择少数采样过量类和创建新的合成样品沿着线段连接任何或所有 - - - - - -最近的邻居属于这个类(51,52]。摘要蛋白质数量的六个亚科与杀处于平衡状态。该算法由Weka软件实现。一个过滤器选择击打加载数据时,显示和参数采用默认参数从小型到大型的家庭数量;剩下的五个家庭数量的增加反过来HSP40的数量,这是物质本身的最大数量的家庭。通过这种方式,实现。

2.5。支持向量机(SVM)

支持向量机是一种机器学习算法,它是基于统计学习理论。支持向量机的基本思想是将输入数据转换为高维希尔伯特空间,然后确定可选分离超平面(53,54]。激进的基础内核函数(RBF)被用来获取分类超平面的效果和速度的训练过程。处理多类问题,调节参数和内核宽度参数通过网格搜索方法确定。“One-versus-one(蛋)”和“one-versus-rest(表达)”方法通常适用于扩展传统的支持向量机。在这项研究中,所使用的“蛋”策略。蛋策略构造与每一个分类器训练数据从两个不同的类。支持向量机已经成功地应用在计算生物学和生物信息学领域的55- - - - - -64年]。摘要LibSVM包是用来预测热休克,可以从下载https://www.csie.ntu.edu.tw/ ~ cjlin / libsvm。

2.6。绩效评估

在统计预测,三交叉验证测试常用检查其有效性的预测在实际应用 - - - - - -折交叉验证(二次抽样测试),独立数据集测试和重叠测试。在三种方法中,重叠测试被认为是最客观、严谨。在重叠测试,每个样本在训练数据集是反过来指出作为一个独立的测试样本和所有的规则参数计算基于剩余的数据集不包括被确定。因此,重叠测试是用来评估性能。评估我们的模型的预测能力和可靠性,分类算法的性能测量使用以下:灵敏度(Sn),特异性(Sp)、准确性(Acc),马修的相关系数(MCC),总体精度(OA) [65年- - - - - -75年]。分类算法的性能测量通过以下: TP代表真阳性,TN代表真正的负面,FP是假阳性,FN代表了假阴性。的子集,是总序列的数量HSP的家庭。

3所示。结果与讨论

3.1。热休克的预测性能

为了调查预测模型的有效性,很多选择特征参数预测热休克(76年,77年]。然后,分离氨基酸组成(SAAC)二肽成分(直流),联合三特性(CTF), pseudoaverage化学位移(PseACS)被选来预测热休克。表3列出了热休克的预测性能使用个人特性的支持向量机分类算法没有击杀;最高的整体精度(OA)的单个参数是使用PseACS 91.38%重叠测试。个人特征与整体精度确定热休克的家庭(OA)从80.92%到91.38%不等。


特性		HSP的家庭						OA (%)
特性		HSP20	HSP40	HSP60	HSP70	一半	HSP100	OA (%)

清洁技术基金	Sn (%)	74.86	90.92	54.72	67.27	53.85	67.9	80.92
	Sp (%)	95.07	76.19	98.71	96.48	99.86	99.52
	世纪挑战集团	0.7	0.68	0.63	0.66	0.69	0.75
	Acc (%)	91.79	84.68	95.5	92.75	98.76	98.35
SAAC	Sn (%)	81.07	97.53	58.49	75.9	57.69	74.07	87.25
	Sp (%)	97.7	81.06	99.36	98.26	One hundred.	99.48
	世纪挑战集团	0.81	0.81	0.7	0.78	0.76	0.78
	Acc (%)	95年	90.55	96.38	95.41	98.99	98.53
直流	Sn (%)	90.96	96.66	68.55	84.89	63.46	77.78	90.69
	Sp (%)	96.66	90.69	99.11	98.16	One hundred.	99.86
	世纪挑战集团	0.85	0.88	0.75	0.84	0.79	0.86
	Acc (%)	95.73	94.13	96.88	96.47	99.13	99.04
PseACS	Sn (%)	92.37	95.46	75.47	87.41	67.31	83.95	91.38
	Sp (%)	99.01	89.94	98.71	98.16	99.91	99.33
	世纪挑战集团	0.92	0.86	0.77	0.86	0.79	0.83
	Acc (%)	97.94	93.12	97.02	96.79	99.13	98.76

图2显示了不同的预测结果结合热休克的特点和支持向量机没有击杀。的结果表明,该组合特征SAAC + DC +周大福+ PseACS比其他参数。的整体精度(OA)的结合特性SAAC + DC +周大福+ PseACS重叠测试94.91%。这一结果表明,结合功能强大的预测热休克。

表4列出了HSP家庭使用的预测性能优化组合特性SAAC + DC +周大福+ PseACS没有击杀。模型与击杀,Sn, Sp, Acc, MCC HSP的家庭得到了显著提高。例如,对于HSP20击杀, , , ,和 ,这是5.65%、1.34%、0.08和2.04%高于那些没有击杀。此外, 杀,这是4.81%高于HSP家庭没有击杀。结果表明,结合参数SAAC + DC +周大福+ PseACS杀是有助于提高预测性能。


功能有或没有击杀(Y / N)			HSP的家庭						OA (%)
功能有或没有击杀(Y / N)			HSP20	HSP40	HSP60	HSP70	一半	HSP100	OA (%)

PseACS + DC + SAAC +清洁技术基金	Y	Sn (%)	One hundred.	98.33	One hundred.	One hundred.	One hundred.	One hundred.	99.72
		Sp (%)	99.92	One hundred.	99.92	99.82	One hundred.	One hundred.
		世纪挑战集团	1	0.99	1	0.99	1	1
		Acc (%)	99.93	99.72	99.93	99.85	One hundred.	One hundred.
PseACS + DC + SAAC +清洁技术基金	N	Sn (%)	94.35	98.89	81.13	90.29	75年	91.36	94.91
		Sp (%)	98.58	94.26	99.6	98.84	One hundred.	99.9
		世纪挑战集团	0.92	0.94	0.87	0.90	0.86	0.94
		Acc (%)	97.89	96.93	98.26	97.75	99.4	99.59

3.2。与其他算法比较

我们的预测模型的预测性能(SVM),随机森林(RF) (78年),朴素贝叶斯(NB), - - - - - -最近的邻居(资讯)79年)所示的数字3和4。从图3的差异,我们可以看到锡、Sp, MCC, Acc HSP的家庭是显而易见的。HSP60的Sn, HSP70,一半,HSP100使用SVM和资讯都是100%。的Sp HSP20使用资讯和SVM相似,和Sp HSP40使用SVM和资讯是100%。的MCC HSP20一半寿命和使用支持向量机和资讯都是1。HSP20使用资讯和支持向量机的Acc是相似的。此外,从图4,我们可以看到,OA与SVM的价值为99.72%,4.39%,7.07%,和18.99%高于射频,资讯,分别和NB。其他参数的最高价值是通过支持向量机。因此,实验结果表明,支持向量机取得了最好的措施。

图5显示了预测性能HSP家庭使用独立的数据集。HGNC独立数据集,我们预测模型的OA是98.96%,11.60%和11.46%高于PredHSP ir-HSP,分别。大米的独立的数据集,我们预测模型的OA达到99.31%,4.76%和2.95%高于PredHSP ir-HSP,分别。的比较,我们可以得出一个结论,我们的预测模型的适用性和准确性HSP预测提高了。

3.3。与现有的方法比较

为了评估我们的预测模型的性能,我们做了与现有的方法比较。方法由艾哈迈德等人并没有提供任何family-wise热休克的准确性,所以我们比较iHSP-PseRAAAC的有效性,PredHSP, ir-HSP。比较结果如表所示5。我们可以看到Sn, Sp, Acc,和MCC的HSP的家庭在我们的预测模型是高于PredHSP, iHSP-PseRAAAC, ir-HSP。例如,在我们的预测模型, , , ,和 HSP20超过那些ir-HSP, PredHSP, iHSP-PseRAAAC。此外,在我们的预测模型, HSP的家庭,除了HSP40 。此外,我们预测模型的整体精度为99.72%。这些结果表明,我们的预测模型是优于现有方法。


方法		HSP的家庭
方法		HSP20	HSP40	HSP60	HSP70	一半	HSP100

iHSP-PseRAAAC^一个	Sn (%)	87.68	95.31	66.87	79.15	51.72	69.41
	Sp (%)	96.36	84.87	98.93	86.54	99.89	99.84
	世纪挑战集团	0.82	0.99	0.69	0.54	0.3	0.83
	Acc (%)	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
PredHSP^b	Sn (%)	92.16	96.09	79.75	91.17	72.41	82.35
	Sp (%)	97.16	86.26	97.24	91.97	99.12	98.08
	世纪挑战集团	0.87	0.83	0.72	0.71	0.7	0.71
	Acc (%)	96.36	91.91	95.96	91.87	98.43	97.48
ir-HSP^c	Sn (%)	94.63	97.45	67.92	88.49	75年	88.89
	Sp (%)	96.61	95.13	98.86	98.84	99.76	99.57
	世纪挑战集团	0.8718	0.9276	0.7307	0.8871	0.8112	0.8846
	Acc (%)	96.28	96.47	96.61	97.52	99.17	99.17
我们的预测模型	Sn (%)	One hundred.	98.33	One hundred.	One hundred.	One hundred.	One hundred.
	Sp (%)	99.92	One hundred.	99.92	99.82	One hundred.	One hundred.
	世纪挑战集团	1	0.99	1	0.99	1	1
	Acc (%)	99.93	99.72	99.93	99.85	One hundred.	One hundred.

^一个冯et al。21]。^bKumar et al。25]。^c默赫et al。26]。

4所示。结论

在这项工作中,一个优化分类器对HSP家庭识别了。这个模型是由支持向量机的机器学习算法,并击杀被用于不平衡数据分类问题。总体精度是99.72%与平衡的数据集和重叠测试通过使用优化的组合特性SAAC + DC +周大福+ PseACS。总体精度高的结果表明,我们的预测模型是一个可靠的工具,HSP家庭预测。众所周知,HSP表达与人类疾病有关,和这些家庭的休克蛋白有不同的功能。因此,我们预测模型将有利于研究人员通过快速和有效地确定HSP家庭和使研究人员设计新的药物来达到治疗疾病的目的。

数据可用性

使用的数据来支持本研究的结果可从补充材料。

的利益冲突

作者宣称没有利益冲突。

作者的贡献

调频李构思特征参数的选择。XY京进行了计算和写的手稿。李调频进行了结果分析。两位作者回顾了手稿。

确认

这项工作是支持的中国内蒙古自治区自然科学基金(2019 ms03015)和中国国家自然科学基金(31360206)。

补充材料

补充1。序列的名称HSP的家庭。

补充2。序列的名称独立的数据集。

引用

刘t、c·k·丹尼尔斯和曹,“全面审查HSC70功能,互动与相关分子和参与临床疾病和治疗的潜力,”药理学和治疗,卷136,不。3、354 - 374年,2012页。视图:出版商的网站|谷歌学术搜索
j·m·吴t . e . Liu z里奥斯,问:梅,x k .林和s . s .曹“热休克蛋白和癌症,”药理科学趋势,38卷,不。3、226 - 256年,2017页。视图:出版商的网站|谷歌学术搜索
m·e·菲德尔·g·e·霍夫曼:“热休克蛋白,分子伴侣’和应激反应:进化和生态生理学、”年度回顾的生理,卷61,不。1,第282 - 243页,1999。视图:出版商的网站|谷歌学术搜索
s·r·卡齐n . Ul Haq s艾哈迈德和沙克尔、“HSEAT:植物热休克的工具元素分析、主题识别和分析,“目前的生物信息学,15卷,不。3、196 - 203年,2020页。视图:出版商的网站|谷歌学术搜索
Chatterjee和t·f·伯恩斯,“针对热休克蛋白在癌症:一个有前途的治疗方法,”国际分子科学杂志》上,18卷,不。9,1978年,页2017。视图:出版商的网站|谷歌学术搜索
c .快活和r。森本晃司,”热休克反应和分子伴侣’的作用在肿瘤形成和细胞死亡,”美国国家癌症研究所杂志》上,卷92,不。19日,1564 - 1572年,2000页。视图:出版商的网站|谷歌学术搜索
a . Khadir s Kavalakatt p Cherian et al .,“体育锻炼增强热休克蛋白60表达和减毒炎症在人类糖尿病肥胖的脂肪组织,”内分泌学前沿,9卷,p。2018。视图:出版商的网站|谷歌学术搜索
p c . Ikwegbue p . Masamba l·s·姆巴b . e . Oyinloye和a . p . Kappo“热休克蛋白质之间的相互作用、炎症和癌症:一个潜在的癌症治疗的目标,“美国癌症研究杂志》上,9卷,不。2、242 - 249年,2019页。视图:谷歌学术搜索
f . Ritossa”,一个新的膨化温度冲击引起的模式和DNP在果蝇中,“Experientia,18卷,不。12日,第573 - 571页,1962年。视图:出版商的网站|谷歌学术搜索
b . Rodriguez-Iturbe和r . j . Johnson,“热休克蛋白和心血管疾病,”生理学国际,卷105,不。1,19-37,2018页。视图:出版商的网站|谷歌学术搜索
m . Zilaee和s . Shirali“热休克蛋白和糖尿病,”加拿大糖尿病杂志》,40卷,不。6,594 - 602年,2016页。视图:出版商的网站|谷歌学术搜索
g . d . Lianos g . a . Alexiou曼格诺et al ., a“热休克蛋白在癌症的作用。”癌症的信,卷360,不。2、114 - 118年,2015页。视图:出版商的网站|谷歌学术搜索
胡赵t、y、j .彭和l . Cheng”DeepLGP:小说深度学习方法优先lncRNA目标基因,”生物信息学,2020年。视图:出版商的网站|谷歌学术搜索
c .梁Changlu, z, f . Tongze z .雪,“gutMDisorder:一个全面的数据库失调紊乱和肠道微生物群的干预,”核酸的研究,48卷,不。D1, D554-D560, 2019页。视图:谷歌学术搜索
n .纳s . p . Arunraj D . Sinha v . b . Rajan v . k . Esthaki和p•德席尔瓦”HSPIR:手动带注释的热休克蛋白信息资源,”生物信息学,28卷,不。21日,第2855 - 2853页,2012年。视图:出版商的网站|谷歌学术搜索
t·马哈茂德w . Safdar b h . Abbasi s s和纳,“小热休克蛋白,概述”非洲生物技术杂志,9卷,不。7,927 - 939年,2010页。视图:谷歌学术搜索
o . Genest、美国Wickner和s·m·道尔”Hsp 90和Hsp 70陪伴:合作者在蛋白质改造,“《生物化学》杂志上,卷294,不。6,2109 - 2120年,2019页。视图:出版商的网站|谷歌学术搜索
李t, t·h·林h . m . et al .,“热休克蛋白40 (HSP40)太平洋白虾(方面对虾):分子克隆、组织分布和个体发生,反应温度、酸度、碱度和盐度压力,在卵巢发育和潜在的作用,“前沿生理学,9卷,p。1784年,2018年。视图:出版商的网站|谷歌学术搜索
p.h. Schopf m . m . Biebl和j .毕希纳”一半伴侣机械”,自然评论。分子细胞生物学,18卷,不。6,345 - 360年,2017页。视图:出版商的网站|谷歌学术搜索
e . c . Schirmer j·r·格洛弗·m·a·歌手,和美国林奎斯特,“HSP100 / Clp蛋白质:一个共同的机制解释了多样化的功能,“生化科学趋势,21卷,不。8,289 - 296年,1996页。视图:出版商的网站|谷歌学术搜索
p·m·冯·w·陈,h·林和k . c .周”iHSP-PseRAAAC:识别热休克蛋白家族使用伪氨基酸减少字母组成,”分析生物化学,卷442,不。1,第125 - 118页,2013。视图:出版商的网站|谷歌学术搜索
·f·杜·w·赵,y y苗,l . y . Wei和l .王”UltraPse:一个通用的、可扩展的软件平台为代表的生物序列,”国际分子科学杂志》上,18卷,不。11,2400年,页2017。视图:出版商的网站|谷歌学术搜索
p . j . Wang f . Du x y雪et al .,“VisFeature:一个独立的程序生物序列的统计特性进行观察和分析,“生物信息学,36卷,不。4、1277 - 1278年,2019页。视图:出版商的网站|谷歌学术搜索
s·艾哈迈德·m·卡比尔和m .是“识别热休克蛋白家族和J-protein类型将二肽成分纳入周的PseAAC将军”计算机在生物医学方法和项目,卷122,不。2、165 - 174年,2015页。视图:出版商的网站|谷歌学术搜索
r·库马尔b Kumari, m·库马尔”PredHSP:基于序列proteome-wide热休克蛋白预测和分类工具开启压力生物学,”《公共科学图书馆•综合》,11卷,不。5 p . e0155872 2016。视图:出版商的网站|谷歌学术搜索
p . k .默赫、t . k . Sahu和s . Gahoi”ir-HSP:识别热休克蛋白,改善他们的家庭和亚型根据g-spaced di-peptide特性和支持向量机,”遗传学前沿,8卷,p。235年,2018年。视图:出版商的网站|谷歌学术搜索
p . w . Chen, t·刘,d .金”最新进展在机器学习的方法来预测热休克蛋白质,”目前的药物代谢,20卷,不。3、224 - 228年,2019页。视图:出版商的网站|谷歌学术搜索
w·d·l·李,s . j . Yu肖et al .,“对细菌蛋白质亚细胞定位预测将各种功能纳入周PseAAC和落后的特征选择方法,”Biochimie卷,104年,第107 - 100页,2014年。视图:出版商的网站|谷歌学术搜索
张l . n和c j .张“JPPRED:预测类型的J-proteins不平衡数据使用一个学习方法,“生物医学研究的国际卷。2015年,12页,2015。视图:出版商的网站|谷歌学术搜索
f·m·李和x问:王”,确定抗癌肽通过使用改进的混合成分,”科学报告》第六卷,没有。1,p。33910年,2016。视图:出版商的网站|谷歌学术搜索
w z, a . Godzik“Cd-hit:快速聚类和大组蛋白质和核苷酸序列相比,“生物信息学,22卷,不。13日,1658 - 1659年,2006页。视图:出版商的网站|谷歌学术搜索
h·h·Kampinga j .接触m . j . Vos et al .,“人类的热休克蛋白的命名指南,”细胞应激和陪伴,14卷,不。1,第111 - 105页,2009。视图:出版商的网站|谷歌学术搜索
s . y . Wang Lin问:歌et al .,“全基因组的识别热休克蛋白(休克)和Hsp在水稻扶少团团员:Hsp70s为例,“BMC基因组学,15卷,不。1,第344 - 344页,2014。视图:出版商的网站|谷歌学术搜索
n . k . Sarkar p Kundnani, a . Grover”Hsp70家族蛋白的功能分析大米(栽培稻)”细胞应激和陪伴,18卷,不。4、427 - 437年,2013页。视图:出版商的网站|谷歌学术搜索
x j .朱c .问:冯h . y .赖w . Chen和h·林,“预测蛋白质结构类low-similarity序列通过评估不同的特性,“以知识为基础的系统卷,163年,第793 - 787页,2019年。视图:出版商的网站|谷歌学术搜索
k .艾哈迈德·m·瓦里斯-和m .是“预测蛋白质的亚线粒体将二肽成分纳入周的位置一般伪氨基酸组成,”《膜生物学》杂志上,卷249,不。3、293 - 304年,2016页。视图:出版商的网站|谷歌学术搜索
m . Arif m是z 1月,“iMem-2LSAAC:两级膜蛋白及其类型歧视模型通过扩展的概念SAAC周的伪氨基酸组成,”理论生物学杂志》上卷。442年,乳,2018页。视图:出版商的网站|谷歌学术搜索
m . Tahir和m .是“iNuc-STNC:序列预测核小体定位的识别基因组通过扩展的概念SAAC周PseAAC,”分子生物系统,12卷,不。8,2587 - 2593年,2016页。视图:出版商的网站|谷歌学术搜索
诉萨拉瓦南和p . t . v . Lakshmi Dualpred:网络服务器为预测植物蛋白质dual-targeted叶绿体和线粒体使用protein-relatedness-measure分裂功能,“目前的生物信息学,10卷,不。3、323 - 331年,2015页。视图:出版商的网站|谷歌学术搜索
问:戴,s .妈,y . b .海黄懿慧姚明,和x问:刘,“基于分割的凋亡蛋白质亚细胞定位预测模型,”化学计量学和智能实验室系统卷,158年,第154 - 146页,2016年。视图:出版商的网站|谷歌学术搜索
w·杨,x j·朱、黄j . h .叮,h·林,”一个简短的调查机器学习方法在蛋白质sub-Golgi本地化,”目前的生物信息学,14卷,不。3、234 - 240年,2019页。视图:出版商的网站|谷歌学术搜索
z . m . s . h . j . x Tan Li Zhang et al .,“激素结合蛋白的识别基于机器学习的方法,”数学生物科学与工程,16卷,不。4、2466 - 2480年,2019页。视图:出版商的网站|谷歌学术搜索
罗j . w .沈j .张x m . et al .,“预测蛋白质相互作用仅基于序列信息,“美国国家科学院院刊》上,卷104,不。11日,第4341 - 4337页,2007年。视图:出版商的网站|谷歌学术搜索
z . x y y . c . Wang Wang杨和n . y .邓“支持向量机预测酶功能的联合三位一体的功能和层次的背景下,“BMC系统生物学,5卷,不。S1, S6页,2011年。视图:出版商的网站|谷歌学术搜索
l . j . Wang, l .贾任y,和g . Yu”使用新颖的蛋白质相互作用预测当地联合三氨基酸序列的描述符,“国际分子科学杂志》上,18卷,不。11,2373年,页2017。视图:出版商的网站|谷歌学术搜索
h . c . Wang和p·f·吴”,预测rna蛋白质交互使用联合三合一功能和混乱游戏表示,“生物工程,9卷,不。1,第251 - 242页,2018。视图:出版商的网站|谷歌学术搜索
h . c . Wang和x h·胡”,准确的预测与联合三位一体的核受体功能,“BMC生物信息学,16卷,不。1,p。402年,2015。视图:出版商的网站|谷歌学术搜索
p . Calligari d .做烤鸡,“多尺度动力学在多个时间尺度的波动探测蛋白质核磁共振化学变化,“《物理化学》杂志上。B,卷118,不。14日,第3831 - 3823页,2014年。视图:出版商的网站|谷歌学术搜索
g . l .风扇和李问:z”预测分枝杆菌蛋白质亚细胞位置通过合并pseudo-average化学位移的一般形式周的伪氨基酸组成,”理论生物学杂志》上卷,304年,第95 - 88页,2012年。视图:出版商的网站|谷歌学术搜索
a . b . Sibley m . Cosman诉诉Krishnan,“实证关系蛋白质二级结构含量和平均化学变化,“生物物理期刊,卷84,不。2、1223 - 1227年,2003页。视图:出版商的网站|谷歌学术搜索
r·t·杨c . Zhang r·高和l . n张“小说特征提取与特征选择方法,确定Golgi-resident蛋白质类型不平衡数据,”国际分子科学杂志》上,17卷,不。2,p。218年,2016年。视图:出版商的网站|谷歌学术搜索
n . v .拉k·w·鲍耶l . o .大厅,和w·p·Kegelmeyer“击杀:少数over-sampling合成技术,”人工智能研究杂志》上》16卷,第357 - 321页,2002年。视图:出版商的网站|谷歌学术搜索
l . Cheng“计算和生物基因治疗的方法,”目前基因治疗,19卷,不。4、210 - 210年,2019页。视图:出版商的网站|谷歌学术搜索
l . Cheng和y,“人类疾病系统生物学,”目前基因治疗,18卷,不。5,255 - 256年,2018页。视图:出版商的网站|谷歌学术搜索
李问:z, w . x苏,l .问:Zhang et al .,“基因表达分类使用表观遗传特性和DNA序列组成的人类胚胎干细胞线H1,”基因,卷592,不。1,第234 - 227页,2016。视图:出版商的网站|谷歌学术搜索
b . Manavalan、t·h·Shin和g·李,“PVP-SVM:噬菌体病毒蛋白质的序列预测使用支持向量机,”微生物学前沿,9卷,p。476年,2018年。视图:出版商的网站|谷歌学术搜索
z h . y . Lai y, z d·苏et al .,“iProEP:预测启动子的计算预测,”分子Therapy-Nucleic酸,17卷,第346 - 337页,2019年。视图:出版商的网站|谷歌学术搜索
x李问:唐,h . Tang和w·陈,“确定抗氧化蛋白结合多种方法,”在生物工程和生物技术前沿,8卷,p。858年,2020年。视图:出版商的网站|谷歌学术搜索
w·赵g . p . Li j . Wang y . k .周y高,p . f . Du,“预测蛋白质sub-Golgi位置结合功能域浓缩与pseudo-amino酸成分得分,”理论生物学杂志》上卷。473年,中山,2019页。视图:出版商的网站|谷歌学术搜索
黄懿慧杨,c .妈,j·s·王et al .,“预测人类RNA N7-methylguanosine网站基于最优序列的特性,“基因组学,卷112,不。6,4342 - 4347年,2020页。视图:出版商的网站|谷歌学术搜索
苏w·m·l . Liu, z . x关et al .,”概述预测蛋白质subchloroplast本地化使用机器学习方法,“当前蛋白质和肽科学2020年,卷。21日。视图:出版商的网站|谷歌学术搜索
问:唐,j·康,j .元et al .,“DNA4mC-LIP:线性集成方法来识别N4-methylcytosine网站在多个物种,”生物信息学,36卷,不。11日,第3335 - 3327页,2020年。视图:出版商的网站|谷歌学术搜索
j . j . Chen赵、杨,z . Chen和z,“预测拟南芥蛋白质泛素化网站的“目前的生物信息学,14卷,不。7,614 - 620年,2019页。视图:出版商的网站|谷歌学术搜索
黄永发。郭,c c。Chang C.-W。陈,h。梁,彭译葶。常,Y.-W。楚,”序列结构b细胞表位预测通过使用两层支持向量机模型和关联规则特性,”目前的生物信息学,15卷,不。3、246 - 252年,2020页。视图:出版商的网站|谷歌学术搜索
焦y和p .杜”绩效指标在评估基于机器学习的生物信息学预测分类时,“定量生物学,4卷,不。4、320 - 330年,2016页。视图:出版商的网站|谷歌学术搜索
f·m·李和x w·高,“革兰氏阳性细菌蛋白质亚细胞定位预测通过使用功能相结合,“生物医学研究的国际卷,2020篇文章ID 9701734、8页,2020。视图:出版商的网站|谷歌学术搜索
h·l . Cheng壮族,h . Ju et al .,“暴露身体质量指数的因果影响2型糖尿病的风险:孟德尔随机化研究中,“遗传学前沿,10卷,2019年。视图:谷歌学术搜索
王h·l . Cheng赵,p . et al .,“计算方法对于识别类似的疾病,”分子Therapy-Nucleic酸18卷,第604 - 590页,2019年。视图:出版商的网站|谷歌学术搜索
h·l . Cheng壮族、杨,h .江s . Wang和j·张,“暴露的因果效应c反应蛋白在2型糖尿病的风险:孟德尔随机化研究中,“遗传学前沿,9卷,p。657年,2018年。视图:出版商的网站|谷歌学术搜索
z y, y . h·杨,h·丁w·陈,d . Wang和h·林,”设计的有力预测mRNA在智人,亚细胞定位预测”简报的生物信息学,2020年。视图:谷歌学术搜索
f . y . Dao h . Lv h . Zulfiqar et al .,”一个计算平台在真核生物识别复制网站的起源,”简报的生物信息学,2020年。视图:出版商的网站|谷歌学术搜索
f . y . Dao h . Lv黄懿慧杨h . Zulfiqar h·高和h·林,“计算识别N6-methyladenosine网站在多个组织的哺乳动物,”计算和结构生物技术杂志18卷,第1091 - 1084页,2020年。视图:出版商的网站|谷歌学术搜索
h·杨,杨w . f . y . Dao et al .,”计算方法的比较和评估识别在酿酒酵母重组热点,”简报的生物信息学,2019年。视图:出版商的网站|谷歌学术搜索
k·刘和w·陈,“iMRM:平台同时识别多个类型的RNA修改,“生物信息学,36卷,不。11日,第3342 - 3336页,2020年。视图:出版商的网站|谷歌学术搜索
B.-Q。李,中州。张>。金、t·黄和Y.-D。蔡”,与最近邻算法预测蛋白质肽的相互作用,”目前的生物信息学,13卷,不。1、14 - 24,2018页。视图:出版商的网站|谷歌学术搜索
陈z, p .赵f·李et al .,“iFeature: Python包和web服务器从蛋白质和肽序列特征提取和选择,”生物信息学,34卷,不。14日,第2502 - 2499页,2018年。视图:出版商的网站|谷歌学术搜索
r . Muhammod艾哈迈德,d . m . Farid, s . Shatabda a·沙玛和a . Dehzangi”PyFeat:面向有效功能生成工具DNA, RNA和蛋白质序列,”生物信息学,35卷,不。19日,3831 - 3833年,2019页。视图:出版商的网站|谷歌学术搜索
c . Ao w·周l .高董,和l . Yu”预测的抗氧化蛋白使用混合特性表征方法和随机森林,”基因组学,卷112,不。6,4666 - 4674年,2020页。视图:出版商的网站|谷歌学术搜索
e . Kwon m .赵、h·金和h . s .儿子,“流感病毒宿主取向决定因素研究使用机器学习,”目前的生物信息学,15卷,不。2、121 - 134年,2020页。视图:出版商的网站|谷歌学术搜索

计算和数学方法在医学

开发和应用基于机器学习方法在特殊功能蛋白质的鉴定

文摘

1。介绍

2。材料和方法

2.1。数据集

2.2。预测模型建设概述

2.3。特征提取技术

2.3.1。拆分氨基酸组成(SAAC)

2.3.2。二肽组分(DC)

2.3.3。联合三特性(CTF)

2.3.4。Pseudoaverage化学位移(PseACS)

2.4。语法少数过采样技术(打)

2.5。支持向量机(SVM)

2.6。绩效评估

3所示。结果与讨论

3.1。热休克的预测性能

3.2。与其他算法比较

3.3。与现有的方法比较

4所示。结论

数据可用性

的利益冲突

作者的贡献

确认

补充材料

引用

版权

相关文章

计算和数学方法在医学

开发和应用基于机器学习方法在特殊功能蛋白质的鉴定

确定热休克蛋白家庭不平衡数据通过使用组合特性

文摘

1。介绍

2。材料和方法

2.1。数据集

2.2。预测模型建设概述

2.3。特征提取技术

2.3.1。拆分氨基酸组成(SAAC)

2.3.2。二肽组分(DC)

2.3.3。联合三特性(CTF)

2.3.4。Pseudoaverage化学位移(PseACS)

2.4。语法少数过采样技术(打)

2.5。支持向量机(SVM)

2.6。绩效评估

3所示。结果与讨论

3.1。热休克的预测性能

3.2。与其他算法比较

3.3。与现有的方法比较

4所示。结论

数据可用性

的利益冲突

作者的贡献

确认

补充材料

引用

版权

更多相关文章

相关文章