基于机器学习合奏Zika病毒t细胞表位预测模型

文摘

Zika病毒(ZIKV)的病原体Zika病毒发烧对于人类来说,是一种RNA病毒,属于属黄病毒。目前还没有批准临床使用疫苗来对抗ZIKV感染和控制疫情。表位肽疫苗提高疫苗接种安全,有很大的开发潜力大,免疫原性。尽管已经进行了很多尝试开发疫苗ZIKV,这些已被证明是成功的。表位肽疫苗可以作为强大的替代传统疫苗因其生产成本低,减少reactogenic,过敏反应。设计一个有效的和可行的表位肽疫苗在这种致命病毒,必须选择自表位抗原t细胞抗原表位疫苗被认为是安全的。在硅片machine-learning-based ZIKV t细胞表位预测方法可以节省大量的物理实验时间和精力快速疫苗开发相比在活的有机体内方法。我们在此培训machine-learning-based计算模型来预测小说ZIKV t细胞抗原表位采用氨基酸的物理化学性质。提出整体模型基于投票机制的混合预测每个类(抗原决定基或nonepitope)从每个基分类器。单个分类器预测获得了每个类的总结,和类的多数投票预计。奇数个分类器被用来避免在投票的发生关系。通过实验确定ZIKV肽序列数据集收集从免疫抗原决定基数据库和分析资源(IEDB)存储库。3519年的数据集是由序列,其中1762是nonepitopes抗原表位和1757。序列的长度范围从6到30米。对于每个序列,我们提取13理化特性。提出整体模型实现敏感性,特异性,基尼系数,AUC,精度、f值,精度为0.976,0.959,0.993,0.994,0.989,0.985和97.13%,分别。 To check the consistency of the model, we carried out five-fold cross-validation and an average accuracy of 96.072% is reported. Finally, a comparative analysis of the proposed model with existing methods has been carried out using a separate validation data set, suggesting the proposed ensemble model as a better model. The proposed ensemble model will help predict novel ZIKV vaccine candidates to save lives globally and prevent future epidemic-scale outbreaks.

1。介绍

ZIKV包膜病毒,属于属黄病毒和同属黄病毒属。几乎是类似于登革热和西尼罗河病毒,因为它通过受感染蚊子的叮咬传播(1]。世界卫生组织(WHO)宣布了一个“国际关注的突发公共卫生事件”爆发于2016年2月。迄今为止,ZIKV疾病的碎片的证据来自86个国家和地区已报告(2]。ZIKV最近爆发的感染被报道的特里凡得琅印度喀拉拉邦的地区在2021年7月初3]。大多数感染者ZIKV是无症状的。一般来说,症状包括轻度发热、结膜炎、关节痛、肌肉疼痛、不适,头痛,通常持续2 - 7天。病毒的潜伏期为3 - 14天(4]。感染了致畸性,有可能造成先天性畸形如头小畸型和其他怀孕相关的并发症,比如死产,早产,胎儿损失(5]。在年龄较大的儿童和成年人,ZIKV感染被报道的主要触发神经病变,格林-巴利综合征、脊髓炎(6]。

ZIKV是单链,nonsegmented积极意义RNA病毒基因组的10.7 kb,可以直接翻译成一个长蛋白质。蛋白质可以编码三个结构蛋白(衣壳(C)、信封(E)和膜蛋白(M))以及七nonstructured蛋白质(NS1, NS2A, NS2B, NS3, NS4A, NS4B, NS5) (6]。主要抗原决定簇是信封(E)糖蛋白,在病毒介导融合和绑定条目。因此,信封(E)糖蛋白是发展抗病毒疗法的一个主要研究目标和候选疫苗5- - - - - -7]。尽管ZIKV感染是一种严重和致命的疾病,没有有效的疫苗和特定的医学对抗感染。然而,人们需要遵循一定的预防措施,防止感染,如采取足够的水停止脱水,使用扑热息痛或止痛药,对乙酰氨基酚,和休息8,9]。

然而,这些措施并不足以防止传染病。疫苗治疗ZIKV的发展是至关重要的在当前场景自病毒已经杀死了很多人在巴西和世界蔓延到其他地区。目前市场上没有预防性或治疗性疫苗接种预防这种感染(10]。虽然减毒活疫苗黄热病疫苗的发展(YFV)是一项重大的进步,最近的事态发展,表位疫苗正变得越来越重要,作为减毒活疫苗疫苗在免疫功能低下的患者(可能是致命的11]。几个ZIKV疫苗目前正在开发的直接目标病毒与病毒的不同部分作为基础(11]。因为婴儿和孕妇的风险锁定增强(正面)在相关的条目黄病毒,安全成为主要的问题在发展中ZIKV疫苗(11]。肽疫苗被认为是一个安全的疫苗研发的平台。不必要的抗原成分只能被使用的部分蛋白质,可以引起免疫反应。对于ZIKV, CD8 + t细胞活动一直在证明防止正面登革热感染(12,13]。表位疫苗与传统疫苗相比,有更少的副作用,更容易和更少的昂贵的制造,不含病原体组件,和花费更少的时间来生产改进的特异性、稳定性和可持续性(13]。所以一个有效的和可行的ZIKV不同毒株的疫苗,有必要选择抗原决定的数量因为表位疫苗被认为是安全的14]。研究在其他黄病毒表明一种适应性免疫反应黄病毒包括中和抗体的作用如CD8 +及CD4 + t细胞(10,15]。

1.1。动机和贡献

Immunoinformatics研究发现,许多保守的和高免疫原性T - / b细胞抗原表位(抗原决定因素被宿主免疫细胞和诱发体液免疫和细胞免疫反应的能力)的病毒抗原可以利用候选疫苗的目标(15]。这些抗原表位诱导保护性免疫反应对多种病原微生物。

与机器学习技术的进步在生物学和ZIKV感染的流行,关键是建立一个健壮的ZIKV t细胞抗原表位预测模型设计一个有效的和可行的表位肽疫苗这致命的病毒。

表位疫苗被认为是强大的替代传统疫苗因其生产成本低,减少reactogenic,过敏反应和克服使用生物疫苗相关联的问题。

这是第一个研究提出一个基于机器学习的合奏模型预测ZIKV投票t细胞抗原表位的设计。预测获得每个类个体分类器(抗原决定基或nonepitope)的总结,与多数投票预计和类。提出的整体模型预测变长肽,与CTLpred [16),预测的肽长度9米是被允许的。也直接模型应当预测抗原表位,与NetMHC [17服务器,估计绑定一个肽序列的能力。研究中使用的基分类器(如部分中讨论4.2)被训练使用氨基酸的物理化学。奇数个分类器被用来避免在投票的发生关系。

在这项研究中提出的模型达到97.13%的准确率,是有前途的。我们进行5倍交叉验证检查的一致性,并发现其性能几乎是线性的,平均精度为96.072%。最后,比较分析已经完成与现有方法建议使用一个单独的验证数据集提出整体模型作为一个更好的模型。该模型将帮助科学家和生物学家在预测小说ZIKV候选疫苗。

剩下的纸是组织如下。部分2涵盖了相关工作。部分3细节数据集、特征提取、特征选择和目标变量。提出的整体模型,其方法论,在当前的研究中使用机器学习分类器是解释部分4。绩效评估指标解释部分5。实验结果发表在部分6。在讨论部分7。结论和未来工作的方向提出了部分8。

在硅片表位预测方法已经成为一种很有前途的领域(18]。许多基于硅的研究和方法存在ZIKV t细胞抗原表位的预测。在他们的研究中,阿拉姆et al。19)获得包膜糖蛋白和强大的免疫原性t细胞抗原表位的ZIKV蛋白质数据库。他们主要集中在MHC类1潜在的肽。根据他们的研究,MMLELDPPF-GLDFSDLYY和YRIMLSVHG-VLIFLSTAV高度主要预测抗原表位对CD8 +及CD4 + t细胞,分别。作者使用了NETCTL_1.2在线工具(20.]0.95阈值保持特异性和敏感性的0.95和0.90,分别为t细胞表位预测。

在他们的研究中,Dar et al。15)检索54 ZIKV多元蛋白质序列从NCBI的网站。他们使用一种共识序列预测t细胞抗原决定基序列,结合MHCI和mhc ii等位基因利用PorPred1 [21和清洁的22)工具,分别。作者后来使用VaxiJen 2.0工具来计算每个表位预测的抗原性的分数。

Wiwanitkit和Wiwanitkit23),在他们的研究在Brazil-ZKV2015 ZIKV隔离(完整的基因组与基因库ID: KU497555.1),使用一个标准的生物信息学工具,即SVMTriP [24]。倾向和三肽的相似子序列被用来预测抗原表位,并取得了80.1%的敏感性。

在他们的研究中,亚达夫et al。25]预测MHC II级滥交的抗原表位使用immunoinformatics工具清洁的(22]。选择MHC等位基因和抗原表位是分子模拟使用CPH模型(26)和PEP-FOLD服务器(27,28),分别。此外,病毒糖蛋白有YRIMLSVHG抗原决定基绑定到MHC II级DRB1等位基因∗01:01显示非凡的绑定得分。

在他们的研究中,Kumar Pandey et al。29日)应用的组合immunoinformatics技术开发multiepitope通过使用结构和非结构蛋白亚单位疫苗ZIKV。亚单位疫苗由辅助T淋巴细胞和细胞毒性T淋巴细胞抗原表位与适当的链接器和辅助。

在他们的研究中,Prasasty et al。30.)使用immunoinformatics找到候选人在一系列ZIKV蛋白质组t细胞抗原表位。候选人的t细胞抗原表位的作者进行映射使用指定的HLA等位基因。后来作者展示了一个明确的主要组织相容性复合体II peptide-HLA交互(mhc II)抗原表位使用分子对接。

Shahid et al。31日),在他们的研究中,用分子对接和immunoinformatics技术的组合来构成multiepitope-based肽(MEBP)疫苗。作者使用了ZIKV蛋白质组预测t细胞(HTL和CTL)抗原表位。预测后,作者已经入围强烈重叠和抗原决定HTL 11和14 CTL表位与最终通过GPGPG肽和AAY连接器。

另一方面,NetMHC服务器(17)基于SVM(支持向量机)和神经网络分类器预测肽的唯一绑定能力而不是确定性的预测方式(discrete-valued输出,即。nonepitope、抗原决定基1和0)。不过,CTLpred服务器(16)采用人工神经网络、支持向量机和量化矩阵技术预测肽以确定的方式。不过,它可以预测肽长度9米。

3所示。材料和方法

3.1。序列数据集的检索和准备

通过实验确定ZIKV肽序列(抗原表位和nonepitopes)来自IEDB [32]。3519年的数据集是由线性肽序列,其中1762是nonepitopes t细胞抗原表位和1757。肽序列属于MHC I和MHC II类。序列的长度在6到30米的范围。的一瞥和结构数据集如表所示1SL,列表示序列长度和类列表示目标类,也就是说,抗原决定基1和nonepitope 0。


肽序列	SL	F1	F2	F10	季	类

GSLQLLAIE	9	184.4444	−0.74222	−0.56222	3	0
EEQRYTCHVQHEGLPKPLTLRW	22	66.36364	2.643182	−0.08955	4	0
LQSNGWDRLKRMAVS	15	78年	2.785333	−0.07	4	1
YKYKVVKIEPLGVA	14	125年	−0.06929	−0.12429	2	0
GDTLKECPLKHRAWNSFL	18	70.55556	1.928889	−0.02667	5	1
HMCDATMSY	9	11.11111	1.3	−0.18	4	1
KAFEATVRGAKRMAV	15	65.33333	1.915333	−0.62	6	1
CKRGIKSGS	9	43.33333	2.748889	0.385556	5	0
WASRELERF	9	54.44444	3.868889	−0.46222	2	0
AVRHFPRIW	9	86.66667	2.046667	−0.09444	1	0

3.2。特征提取

在目前的研究中,我们利用氨基酸的物理化学性质从肽序列中提取特征。物理化学性质代表一个功能。我们使用肽(33和肽34包的R语言提取13特性。基本理化性质,必要的R包,包内功能,以及在当前的研究中使用的符号表中列出2。


老不。	属性名	包	函数名	符号

1	脂肪指数	肽	aIndex (seq)	F1
2	潜在的蛋白质相互作用指数	肽	鲍曼(seq)	F2
3	不稳定指数的蛋白质序列	肽	instaIndex (seq)	F3
4	肽的检测概率	肽	Ppeptide (x, libscheme, N)	F4
5	疏水性的时刻 (1)蛋白质旋转角一个螺旋= 100 (2)蛋白质旋转角b-sheet = 160	肽	hmoment (seq,角度)	F5_1, F5_2
6	分子量 (1)单一同位素的= false (2)单一同位素的= true	肽	兆瓦(seq,单一同位素的)	F6_1, F6_2
7	理论净电荷在9 pKa鳞片	肽	负责	F7
8	疏水性指数	肽	疏水性	F8
9	等电点	肽	π	F9
10	Kidera因素	肽	kideraFactors	F10
11	氨基酸组成	肽	aaComp	季

3.3。特征选择

特征选择方法选择的基本特征来提高模型效率而丢弃那些无关的信息。特征选择是使用的重要性()函数执行包下的随机森林算法可用FSelectorin r算法的输入是一组数据的13个特点和目标属性,即类。然后函数计算每个特性的重要性使用平均精度下降和平均减少节点杂质。在最近的研究中,意味着减少精度已经使用,因为它是基于实验使用out-of-bag (OOB)样品和通过减少预测能力的特性没有改变其边缘分布。基于平均精度下降,使用截止3特性被丢弃的13。k函数R,只有十大特性被认为是重要的。表3显示所有的特性和它们的重要性得分。图1显示他们的线路图,下列方程显示了模型方程的函数十大重要功能训练模型:


功能	分数

F4	60.53
F6_2	52.03
F6_1	51.95
F8	46.15
F2	44.18
F10	43.43
F9	42.25
F5_1	41.69
F1	40.87
F3	39.49
F5_2	38.08
F7	36.36
季	30.52

3.4。目标变量

类是一个目标变量与二进制实例,本研究即抗原决定基(1)和nonepitope(0)抗原的抗原决定基是一个部分或外国蛋白质绑定到一个特定的抗原受体,可以刺激免疫反应。在图所示的流程图2展示了我们建议的整体模型分类ZIKV t细胞抗原决定基或nonepitope肽序列。

4所示。提出投票整体模型

Voting-based合奏学习是一种有效的技术来提高分类器的精度通过合并一组基础模型或分类器。所有这些分类器投票给一个新实例。预测的输出是一个标签“类”在本研究基于多数选票。我们开发了一个ensemble-based预测模型结合支持向量机(SVM),随机森林(RF),决策树(DT),神经网络(NN),和演算法分类器(Ada)。这些分类器作为基分类器,因为他们的二元分类问题的性能优于其他分类器。

4.1。提出了整体方法论

图3描述的方法在当前的研究中,而图4描述了ensemble-based学习技术,之后在构建整体模型。下面提到的步骤演示我们的提出的整体模型的方法。

步骤1。获得肽序列
ZIKV肽序列(抗原表位和nonepitopes)从IEDB网站获得一个逗号分隔值(CSV)格式。我们检索两个CSV文件,包含一个表位和其他nonepitope序列。我们用“1”标记的抗原决定基序列和nonepitopes序列与目标类“0”。

步骤2。特征提取
在步骤获得的两个CSV文件1给出了物理化学性质函数作为输入(如表所示2肽和多肽包内)R产生两个单独的CSV文件。一个文件包含抗原决定基序列,另一个包含一个nonepitope序列。CSV文件中的每一行对应一个肽序列,由13个特性(物理化学属性值)。这两个CSV文件然后合并形成最后一个数据集的二进制变量“类”作为目标变量。

步骤3。数据清理
数据清洗和特征选择方法用于进行数据预处理。之前我们打扫了数据集构建模型来实现精确的和高度可靠的信息。数据清理的主要焦点在我们的研究中移除重复的条目,消除异常数据,并处理异常值。我们发现一些重复的条目的序列,并把他们作为数据清洗过程的一部分。异常值检测也进行了。任何数据实例有重大偏离其他实例被称为局外人和模型预测可能会导致一些问题。之前所有的异常值被移除的数据集进行特征选择和模型建立。

步骤4。特征选择
特征选择是一个技术降低维数,提高了模型的性能。我们使用一个随机森林算法的重要性,选择只有10个基本特征。以下公式描述了目标类和其相应的特征用于我们提出整体模型:

第5步。分类模型构建整体学习使用
在这项研究中,我们使用80%的数据集模型训练来达到更好的结果和测试为20%。我们训练基地模型(随机森林、决策树、支持向量机、神经网络、和演算法)总数的80%数据集和它们使用整体技术相结合。

步骤6。voting-based预测的整体方法
提出了整体模型的准确性评估使用测试数据集的总数的20%数据集。评估是基于多数投票系统五个基分类器,也就是说,随机森林、决策树、支持向量机、神经网络、演算法。结果,提出整体模型结合五个基分类器,将是我们最终的预测模型预测的类或类型ZIKV肽序列,抗原决定基还是nonepitope。由于这些测试元组由五个基分类器投票预测,该模型预测他们完全和提供准确、可靠的结果。

4.2。机器学习分类器在当前的研究中使用

分类器用于ZIKV t细胞抗原表位的预测表中列出4。每个分类器都有其需要的包,方法,和必要的调优参数。我们进行调优的基本参数的所有分类器得到更好的预测结果,并实现它们R在gnu gpl(通用公共许可证)。机器学习分类器应用于当前的研究如下所述。


老不。	分类器	R包	调整参数

01	决策树(35]	rpart	maxsurrogate = 0, usesurrogate = 0
02	神经网络(36]	nnet	大小= 10,麦克斯特= 100
03	支持向量机(37]	ksvm	内核= " rbfdot, " type = C-svc "
04	演算法(38]	艾达	Iter = 50,类型=“离散”,ν= 0.5
05年	随机森林(39]	randomForest	ntree = 500, mtry = 2

4.2.1。准备决策树

决策树分类器预测目标变量的值(在本研究类)根据输入预测变量。是流程图的形式组织,其中每个内部节点表示一个检查或测试的输入变量。边子节点代表一个试验的结果,和叶节点充当类标签。推断出决策树,我们使用rpart()函数R。我们执行的参数调优“usesurrogate”和“maxsurrogate”参数来改善其性能。参数“maxsurrogate”意味着代理的数量将保存在输出。寻找代孕将消耗几乎一半的计算时间(除了设置)。参数“usesurrogate”意味着分裂过程中如何使用代理。值0表示观察只是显示,1表示使用代理。这些参数设置为0时,处理时间显著减少,因为寻找代理将占用了大约一半的计算时间。

4.2.2。支持向量机(SVM)

与支持向量机分类器,我们构造一个超平面,把两套(抗原决定基或nonepitope)n维空间。这里的“n“等于给定肽的特性。在R、包kernlab包含ksvm()函数的支持向量机。我们改善了性能调优参数kvsm“类型”和“内核”。更好的性能,我们使用径向基核函数(rbfdot),”高斯。”“类型”参数表示是否分类或回归或新奇检测。这取决于y是一个因素,类型的默认值是“C-svc”或“eps-svr。“这是一个分类问题,所以我们已经安排了C-svc它为“= C-svc类型。“核函数是用于培训和预测计算两个向量之间的特征空间的内积参数。

4.2.3。随机森林

随机森林是一个整体的决策树。这里,随机森林分类器所提供的结果是基于决策树的多数选票的特定类。在R,包randomForest包含一个函数randomForest(),它返回一个随机森林分类器对象。我们执行的参数调优“mtry”和“ntree”它的各种参数来改善其性能。原因调优“mtry”和“ntree”表现在当前的研究中,他们有最大的影响最终的精度。参数“mtry”表示在每个部门随机取样的数量特征,而“ntree”表示树的计数。在这项研究中使用的随机森林模型实现更好的性能值2和500年分别“mtry”和“mtry,”。

4.2.4。演算法

也被称为一种自适应增强算法,它将组弱学习者强的学习者。在R,ada包包含一个函数ada()演算法的分类器。性能出色的离散数据,由于这个原因,我们调整它的类型参数“类型”,这意味着增加算法类型,指定“离散”执行离散值增加。其他值,它可以是真正的提高和“真正的”“温柔”来执行温柔的提振。迭代参数“通路”,我们设定的重量50到有效的提高表明数量的增加0.5迭代执行和收缩参数“ν”(默认值为1)演算法的性能提高。

4.2.5。神经网络

神经网络是一种有效的分类器组成的节点,也称为神经元相互连接。这些神经元被组织成三层:输入、隐藏和输出。每个神经元通过一个链接,连接到其他神经元和每个链接与价值关联被称为重量与输入信号的信息。在R,包nnet包含nnet()函数的神经网络分类器。基本参数调谐网络大小为“规模”和最大迭代为“麦克斯特。麦克斯特“参数显示的最大迭代数有一个默认值为100。参数“大小”是指隐层单元的总数。参数“大小”设置为0如果有skip-layer单位。在这项研究中,值10和300已经分配给“大小”和“麦克斯特”参数,分别实现更好的结果和避免过度拟合。另外,值得一提的是,建议设置“麦克斯特= 300”数据集组成的3000年到5000年数据实例。设置为较高的值可能会导致过度拟合问题。

5。绩效评价指标

我们评估和比较的性能提出了整体模型对现有模型使用二进制分类性能指标如敏感性,特异性,基尼系数,精度、准确性,AUC f值。下面将描述这些。

5.1。曲线下的面积(AUC)

对于二元分类问题,接收机算子特征(ROC)曲线是一个重要的评价指标。ROC曲线是一个概率曲线,我们把真阳性率(TPR)和假阳性(玻璃钢)在不同的阈值,从而有效区分信号和噪声。ROC曲线的值在左上角被认为是最好的价值比其他值。

5.2。灵敏度(Sens)

灵敏度(Sens)也称为真阳性(TPR)或召回率。这是一个衡量真阳性的比例实例模型预测都是积极正面的。它是计算如下:

5.3。特异性(规范)

特异性(规范)也称为真阴性率(TNR)。这是一个衡量真正的比例-实例模型预测的底片。它是计算如下:

5.4。基尼系数

基尼系数为衡量不平等的分布数据。基尼系数范围从0到1。值1表示完美的数据时不平等,平等值0表示完美的数据。例如,给定两个模型A和B基尼系数为0.7和0.5,分别然后模型比模型B和更富有成效的计算如下:

5.5。精度

精密的测量精确,正确积极的实例的数量。它是计算如下:

5.6。精度

准确的定义是正确的预测测试数据的百分比。它是计算如下:

5.7。f值

调和平均数的查全率和查准率。它是计算如下:

6。结果

6.1。性能结果的整体模型和现有的分类器

二元分类器,基尼系数,精度、灵敏度、特异性,AUC, f值,和准确性是评价参数中定义的部分5。我们使用这些参数来评估我们的提出的整体模型的性能和比较现有分类ZIKV t细胞表位预测模型,如表所示5。模型实现了AUC,敏感性、特异性、精密,f值,基尼系数,精度为0.994,0.976,0.959,0.989,0.985,0.993和97.13%,分别。图5描绘了一个现有的模型的性能比较图提出整体的精度。图6描述了中华民国情节提出模型的测试数据集的AUC 0.994。获得的结果表明,提出的整体模型性能更好比现有的分类模型在测试使用的测试数据集。


模型	基尼	精度	f值	AUC	灵敏度	特异性	精度(%)

随机森林	0.905	0.963	0.958	0.952	0.953	0.921	94.29
神经网络	0.990	0.936	0.951	0.973	0.948	0.963	96.52
演算法	0.988	0.985	0.963	0.994	0.942	0.972	95.24
决策树	0.987	0.972	0.972	0.993	0.972	0.938	96.19
支持向量机	0.912	0.979	0.975	0.995	0.972	0.956	96.67
提出了整体模型	0.993	0.989	0.985	0.994	0.976	0.959	97.13

6.2。K倍交叉验证的结果提出了整体模型

我们做了5倍交叉验证(简历;k在本研究= 5)估计的能力提出了整体模型和评估其鲁棒性。数据集被划分为5折。四个折叠是用来适应模型,和一个折叠伸出来评估模型。表6描述了每次运行的准确性和图7描述精度的情节在五倍的履历记录Zika病毒t细胞表位预测。


褶皱	精度

1	96.27
2	95.28
3	97.52
4	96.49
5	94.80

每次运行如图的准确性7描述中记录的准确性情节的五倍的简历ZIKV t细胞抗原表位的预测。通过简历5倍的平均准确率为96.072%。从获得的结果可见的五倍的简历提出的整体模型上执行持续折叠。

6.3。提出了整体模型的比较结果与现有的方法

一个独立的验证数据集用于性能验证,包括八个ZIKV t细胞抗原表位和5 nonepitopes。这些肽序列是出现在训练集和测试集,也称为盲数据集。假设我们建议的模型的性能验证数据集是满意的;在这种情况下,它完成验证过程,如表所示7正确,结果都是很好的,因为它将所有的肽序列验证集。


肽序列	实际的目标	与NetMHC		与CTLpred
肽序列	实际的目标	绑定能力NetMHC	由该模型预测	预测由CTLpred	由该模型预测

NSFVVDGDT	抗原决定基	49	1	抗原决定基	1
VREDYSLECDPAVIG	抗原决定基	25	1	- - - - - -	1
AQMAVDMQT	抗原决定基	3.9	1	抗原决定基	1
FVVDGDTLKECPLKH	抗原决定基	2.2	1	- - - - - -	1
GEAYLDKQ	抗原决定基	75年	1	Nonepitope	1
GPSLRSTTASGRVIE	抗原决定基	34	1	- - - - - -	1
MEIRPRKEPESNLVR	抗原决定基	65年	1	- - - - - -	1
TRGPSLRST	抗原决定基	7.2	1	抗原决定基	1
MLRIINARG	非抗原决定基	3.4	0	Nonepitope	0
IQIMDLGHMATC	非抗原决定基	56	0	- - - - - -	0
LVTCAKMQ	非抗原决定基	80年	0	Nonepitope	0
LGGFGSL	非抗原决定基	78年	0	抗原决定基	0
VVVLGSQERIN	非抗原决定基	34	0	- - - - - -	0

使用验证计划的整体模型的验证结果数据集比较与现有的t细胞表位预测方法,也就是说,NetMHC CTLpred,因为这些是最常用的方法为t细胞表位预测方法由科学家、生物学家和研究人员。由于NetMHC服务器只提供peptide-binding能力,提出了整体模型是更高效的直接预测肽是否ZIKV t细胞表位(表7)。CTLpred服务器只预测t细胞抗原表位的长度9米。如表所示7,CTLpred预测的序列长度大于9米显示为一个连字符(-),这意味着“出乎意料”CTLpred无法预测。然而,我们提出了整体模型预测肽序列的大小。此外,安和SVM CTLpred服务器是有限的,但更强大的和有效的分类器被用于我们的提出的整体模型。比较结果见表7表明,该模型比现有的方法执行。

7所示。讨论

ZIKV疾病被认为是一个毁灭性的疾病影响着全球数百万人的生命,尤其是在第三世界。在其新闻报告中(40),世卫组织报告了它的全球传播和最近爆发强调疫苗开发研究的必要性及其持续的警惕。使用的实验方法来确定ZIKV t细胞抗原表位是一个昂贵和耗时的过程。设计基于抗原表位疫苗已经显示出非凡的和充满希望的结果。该技术在治疗和预防癌症中起着举足轻重的作用,细菌,病毒和其他类型的疾病41,42]。因此,是时候利用和利用immunoinformatics快速发展的方法。本研究提出了一个模型来预测ZIKV t细胞抗原表位与令人印象深刻的结果。它的统计性能分析是评估使用各种性能指标如AUC,精度、灵敏度、特异性,基尼系数,f值和精度。积极的预测性能类(抗原表位)是由敏感性,而负类的预测性能是由特异性(nonepitopes)表示。另一方面,准确性是最重要的参数来确定如何提出的整体模型预测表位和nonepitope类。因此,一个优秀的二元分类器精度高,灵敏度和准确度。的特异性、灵敏度和精度值我们的模型是0.976,0.959和97.13%,分别是有前途的。

8。结论

建立一个ensemble-based计算方法来预测ZIKV t细胞抗原表位的研究。类是表位预测的目标变量,在当前的研究中使用的数据集是平衡几乎相同数量的抗原表位和nonepitopes。肽序列的特征提取进行了使用氨基酸的物理化学性质和特征选择的帮助下一个随机森林算法的重要性。提出的整体模型使用AUC等性能参数进行了测试,敏感性,特异性,精度、f值,基尼系数,和准确性,和值达到了0.994%,0.976%,0.959%,0.989%,0.985%,0.993%,和97.13%,分别。通过严格的实验,发现该整体模型优于现有的模型用在这项研究中,如随机森林、决策树、支持向量机、神经网络、演算法。

此外,提出了整体模型的性能几乎是线性的5倍交叉验证,平均96.072%的记录的准确性。最后,提出了整体模型的有效性进行了测试使用验证数据集包含新肽序列。这些新肽序列既没有出现在训练和测试数据集,达到了100%的准确率。提出了整体模型将帮助生物学家和科学家预测小说ZIKV候选疫苗在更少的时间和成本效益的方式,全球拯救生命,防止未来epidemic-scale爆发。预测小说ZIKV候选疫苗通过湿实验室实验是一项昂贵的任务,需要大量的时间。然而,相关的提到一些空间可以提高,探索更多的氨基酸的性质和使用其他机器学习分类器。因此,我们未来的工作将集中在增强预测的鲁棒性和准确性拓展更多的机器学习分类器和氨基酸的物理化学性质。

数据可用性

数据请求到相应的作者。

的利益冲突

作者宣称没有利益冲突。

引用

疾病控制和预防中心的报告,国家新兴和人畜共患传染病中心(NCEZID)、媒介传播疾病(DVBD)分工Zika病毒传播疾病控制和预防中心,亚特兰大,乔治亚州,美国,2019年,https://www.cdc.gov/zika/prevention/transmission-methods.html。
谁,”世界卫生组织的报告,“印度儿科杂志》1948年,卷。15日,https://www.who.int/news-room/fact-sheets/detail/zika-virus。视图:出版商的网站|谷歌学术搜索
“五个Zika病毒感染病例推动喀拉拉邦统计至28日|最新消息India-Hindustan时代,“https://www.hindustantimes.com/india - news/five更多- zika病毒病例——发现——在喀拉拉邦-总- 28 -现在- 101626327725947. - html。视图:谷歌学术搜索
m . Shabaz和美国Garg“预测未来疾病使用链接预测,基于现有的健康状况”世界日报的工程,2021年。视图:出版商的网站|谷歌学术搜索
m d p . m . ViedmaN。高丝l . Parham a Balmaseda et al .,“肽数组孵化和三个集合的人类患者的血清感染蚊子传播的病毒,“F1000Research,8卷,p。1875年,2020年。视图:出版商的网站|谷歌学术搜索
m·乌斯曼Mirza s Rafique a阿里et al .,“对肽疫苗Zika病毒:immunoinformatics结合分子动力学模拟来预测抗原Zika病毒蛋白的抗原表位,”科学报告》第六卷,没有。1,1卷,2016页。视图:出版商的网站|谷歌学术搜索
b . d . Lindenbach和c . M大米,“黄病毒分子生物学,”病毒研究进展卷,59号23日,23 - 61,2003页。视图:出版商的网站|谷歌学术搜索
答:ChengX。张,r·贾h .沈m . Wang和z阴,“包膜糖蛋白的结构和功能黄病毒感染,”病毒,9卷,不。338年,页1 - 14,2017。视图:出版商的网站|谷歌学术搜索
A . r . Plourde和e·m·布洛赫“Zika病毒的文献综述,新发传染病,22卷,不。7,1185 - 1192年,2016页。视图:出版商的网站|谷歌学术搜索
p . Ratta考尔,沙玛,m . Shabaz和g . Dhiman”区块链的应用,物联网在医疗和医疗领域:应用程序,挑战,和未来的视角,“《食品质量卷,2021篇文章ID 7608296, 20页,2021年,https://doi.org/10.1155/2021/7608296。视图:出版商的网站|谷歌学术搜索
f . a . Lagunas-Rangel m . e . Viveros-Sandoval, a . Reyes-Sandoval“Zika病毒疫苗目前的趋势发展,”杂志的病毒消灭,3卷,不。3、124 - 127年,2017页。视图:出版商的网站|谷歌学术搜索
r·m·齐薇格w·e·艾迪w·w·唐r·米勒和s . Shresta”CD8 + T细胞防止antigen-induced锁定增强登革热病的老鼠,”《免疫学,卷193,不。8,4117 - 4124年,2014页。视图:出版商的网站|谷歌学术搜索
基肖尔,c . Chakraborty, w . Jeberson“智能医疗数据隔离使用雾计算与物联网和机器学习”工程系统建模与仿真的国际期刊,12卷,不。2 - 3、188 - 194年,2021页。视图:出版商的网站|谷歌学术搜索
w·Slenczka“Zika病毒疾病”,微生物学领域,4卷,不。EI10, 0019 - 2016年,2016页。视图:出版商的网站|谷歌学术搜索
h .飞镖。查希尔·m·t·拉赫曼a阿里et al .,“滥交的t细胞抗原表位的预测Zika病毒多蛋白:一个在硅片方法中,“亚洲太平洋热带医学杂志》上,9卷,不。9日,第850 - 844页,2016年。视图:出版商的网站|谷歌学术搜索
m·哈和g P Raghava使用QM CTL表位预测,支持向量机和安技术,”疫苗,22卷,不。23 - 24日,第3204 - 3195页,2004年。视图:出版商的网站|谷歌学术搜索
m·尼尔森c . Lundegaard p .穿et al .,“可靠的t细胞抗原表位预测使用神经网络和小说序列表示,“蛋白质科学,12卷,不。5,1007 - 1017年,2003页。视图:出版商的网站|谷歌学术搜索
e . Cunha-Neto d . s . Rosa p·e·哈里斯et al .,”的方法合成CTL对Zika黄病毒疫苗设计使用类I和II类抗原表位被计算机建模、”免疫学前沿,8卷,p。640年,2017年。视图:出版商的网站|谷歌学术搜索
阿拉姆,阿里,s . Ahamad m . z .马利克和r . Ishrat”从ZikV基因疫苗:硅片方法表位肽疫苗Zika病毒包膜糖蛋白,”免疫学,卷149,不。4、386 - 399年,2016页。视图:出版商的网站|谷歌学术搜索
m . v . Larsen c . Lundegaard k .兰博斯s .我校o .隆德和m·尼尔森,“大规模的验证方法进行细胞毒性t淋巴球表位预测,“BMC生物信息学,8卷,不。1,2007。视图:出版商的网站|谷歌学术搜索
h·辛格和g p s Raghava Propred1:滥交MHC一级结合位点预测,“生物信息学,19卷,不。8,1009 - 1014年,2003页。视图:出版商的网站|谷歌学术搜索
h·辛格和g p s Raghava“清洁的:HLA-DR结合位点预测,”生物信息学,17卷,不。12日,第1237 - 1236页,2001年。视图:出版商的网站|谷歌学术搜索
美国Wiwanitkit和诉Wiwanitkit抗原决定基Zika病毒分子发现:第一次世界报告,“亚洲太平洋热带生物医学杂志》上,7卷,不。1、1 - 3,2017页。视图:出版商的网站|谷歌学术搜索
b .姚明,l·张,s .梁和c .张“SVMTriP:一个方法来预测抗原决定使用支持向量机集成tri-peptide相似性和倾向,”《公共科学图书馆•综合》,7卷,不。9篇文章ID e45152 2012。视图:出版商的网站|谷歌学术搜索
g . Yadav, r . Rao, Raj, p . k . Varadwaj”突出的t细胞抗原表位的计算建模和分析协助设计ZIKA病毒的疫苗,”应用制药科学杂志》上,7卷,不。8,116 - 122年,2017页。视图:出版商的网站|谷歌学术搜索
m·尼尔森c . Lundegaard o·隆德,t·n·彼得森”cphmodels - 3.0 -远程使用structure-guided序列同源性建模概要文件,”核酸的研究,38卷,不。2,W576-W581, 2010页。视图:出版商的网站|谷歌学术搜索
y沈,j . Maupetit, p . Derreumaux, p . Tuffery”改善PEP-FOLD多肽和miniprotein结构预测的方法,”理论和计算化学杂志》上,10卷,不。10日,4745 - 4758年,2014页。视图:出版商的网站|谷歌学术搜索
d·卡纳和p s Rana IgA多层次集成预测模型和免疫球蛋白抗体,”免疫学的信卷。184年,51-60,2017页。视图:出版商的网站|谷歌学术搜索
r·库马尔Pandey r . Ojha a . Mishra诉Kumar所,“设计B和T细胞应承担的多人使用immunoinformatics方法基于表位的亚单位疫苗来控制Zika病毒感染,”细胞生物化学杂志》上,卷119,不。9日,第7642 - 7631页,2018年。视图:出版商的网站|谷歌学术搜索
v . d . Prasasty k . Grazzolie r . Rosmalena f . Yazid f . X伊万和E Sinaga,“肽链型亚单位疫苗设计的T - b细胞主要针对Zika病毒使用immunoinformatics方法,”微生物7卷,2019。视图:出版商的网站|谷歌学术搜索
f·舍希德,a·阿什法克a . Javaid和h·哈立德”Immunoinformatics引导合理设计基于下一代多表位肽(MEBP)疫苗的探索Zika病毒蛋白质组,“感染、遗传与进化文章ID 104199卷,80年,2020年。视图:出版商的网站|谷歌学术搜索
p·b·维塔R, s . Mahajan j . a . Overton et al .,“免疫抗原决定基数据库(IEDB): 2018更新”核酸的研究,2018,http://www.iedb.org。视图:出版商的网站|谷歌学术搜索
d·奥索里奥、p . Rondon-Villarreal和r·托雷斯”为数据挖掘的抗菌肽肽:一个包,“《生产日报》,7卷,不。1,学报》第4 - 14页,2015。视图:出版商的网站|谷歌学术搜索
h·霍夫曼、大肠野兔和GGobi基金会“肽:多样性评价核苷酸库,”2015年,R 0.2.2包版本。https://CRAN.R-project.org/package=peptider。视图:谷歌学术搜索
m . b . Therneau b•阿特金森和b·里普利,“包rpart,”https://cran.r-project.org/web/packages/rpart/rpart.pdf访问。视图:谷歌学术搜索
r·m·里普利B和w·维纳布尔斯nnet“包”,“-12年7.3版本,”2016年,http://ftp: / / tdf.c3sl.ufpr.br /凹口/ / kernlab / kernlab.pdf Aweb /包。视图:谷歌学术搜索
d·迈耶”,支持向量机∗libsvm的接口包e1071,”2021年,http://www.csie.ntu.edu.tw/%7Ecjlin/papers/ijcnn.ps.gz。视图:谷歌学术搜索
RPubs-AdaBoosting。(无日期),2021年,检索2021年8月14日https://rpubs.com/praveen_jalaja/adaboosting。
a . Liaw m·维纳,m .安迪Liaw随机森林分类和回归施普林格,柏林,德国,2018年。
《世界卫生组织。(无日期),2021年,检索2021年8月14日https://www.who.int/publications/journals/bulletin/。
A . Arumugam”,提高水稻作物生产力的预测建模方法使用数据挖掘技术,”土耳其的电气工程和计算机科学杂志》上,25卷,不。6,4777 - 4787年,2017页。视图:出版商的网站|谷歌学术搜索
j·汉、m . Kamber和j .贝聿铭数据挖掘:概念和技术爱思唯尔,荷兰阿姆斯特丹,第3版,2012年版。

医疗保健工程

利用物联网的医疗卫生保健系统内复杂的数据分析

文摘

1。介绍

1.1。动机和贡献

3所示。材料和方法

3.1。序列数据集的检索和准备

3.2。特征提取

3.3。特征选择

3.4。目标变量

4所示。提出投票整体模型

4.1。提出了整体方法论

4.2。机器学习分类器在当前的研究中使用

4.2.1。准备决策树

4.2.2。支持向量机(SVM)

4.2.3。随机森林

4.2.4。演算法

4.2.5。神经网络

5。绩效评价指标

5.1。曲线下的面积(AUC)

5.2。灵敏度(Sens)

5.3。特异性(规范)

5.4。基尼系数

5.5。精度

5.6。精度

5.7。f值

6。结果

6.1。性能结果的整体模型和现有的分类器

6.2。K倍交叉验证的结果提出了整体模型

6.3。提出了整体模型的比较结果与现有的方法

7所示。讨论

8。结论

数据可用性

的利益冲突

引用

版权

相关文章

医疗保健工程

利用物联网的医疗卫生保健系统内复杂的数据分析

基于机器学习合奏Zika病毒t细胞表位预测模型

文摘

1。介绍

1.1。动机和贡献

2。相关工作

3所示。材料和方法

3.1。序列数据集的检索和准备

3.2。特征提取

3.3。特征选择

3.4。目标变量

4所示。提出投票整体模型

4.1。提出了整体方法论

4.2。机器学习分类器在当前的研究中使用

4.2.1。准备决策树

4.2.2。支持向量机(SVM)

4.2.3。随机森林

4.2.4。演算法

4.2.5。神经网络

5。绩效评价指标

5.1。曲线下的面积(AUC)

5.2。灵敏度(Sens)

5.3。特异性(规范)

5.4。基尼系数

5.5。精度

5.6。精度

5.7。f值

6。结果

6.1。性能结果的整体模型和现有的分类器

6.2。K倍交叉验证的结果提出了整体模型

6.3。提出了整体模型的比较结果与现有的方法

7所示。讨论

8。结论

数据可用性

的利益冲突

引用

版权

更多相关文章

相关文章