计算和数学方法在医学gydF4y2Ba

计算和数学方法在医学gydF4y2Ba/gydF4y2Ba2012年gydF4y2Ba/gydF4y2Ba文章gydF4y2Ba
特殊的问题gydF4y2Ba

机器学习在基因组学和系统生物学中的应用gydF4y2Ba

把这个特殊的问题gydF4y2Ba

研究文章|gydF4y2Ba开放获取gydF4y2Ba

体积gydF4y2Ba 2012年gydF4y2Ba |gydF4y2Ba文章的IDgydF4y2Ba 696190年gydF4y2Ba |gydF4y2Ba https://doi.org/10.1155/2012/696190gydF4y2Ba

杨杨gydF4y2Ba,gydF4y2Ba ”gydF4y2Ba识别小说类型III效应器使用潜在狄利克雷分配gydF4y2Ba”,gydF4y2Ba计算和数学方法在医学gydF4y2Ba,gydF4y2Ba 卷。gydF4y2Ba2012年gydF4y2Ba,gydF4y2Ba 文章的IDgydF4y2Ba696190年gydF4y2Ba,gydF4y2Ba 6gydF4y2Ba 页面gydF4y2Ba,gydF4y2Ba 2012年gydF4y2Ba。gydF4y2Ba https://doi.org/10.1155/2012/696190gydF4y2Ba

识别小说类型III效应器使用潜在狄利克雷分配gydF4y2Ba

学术编辑器:gydF4y2Ba纯美少女刘gydF4y2Ba
收到了gydF4y2Ba 2012年5月14日gydF4y2Ba
修改后的gydF4y2Ba 07年8月2012年gydF4y2Ba
接受gydF4y2Ba 2012年8月12日gydF4y2Ba
发表gydF4y2Ba 2012年9月11日gydF4y2Ba

文摘gydF4y2Ba

6分泌系统识别的革兰氏阴性细菌,III型分泌系统(T3SS)在病原体的疾病发展中扮演重要角色。T3SS吸引了极大的研究兴趣。然而,分泌的机制尚未完全了解。尤其是效应器(分泌蛋白质)的识别是一个重要的和具有挑战性的任务。本文采用机器学习的方法来识别III型分泌效应器(T3SEs)。我们从氨基酸序列中提取特征和行为特征减少基于潜在语义信息通过使用潜在狄利克雷分配模型。的实验结果gydF4y2Ba两gydF4y2Ba数据集演示新方法的良好性能。gydF4y2Ba

1。介绍gydF4y2Ba

细菌分泌是一个重要的机制适应和生存在他们的周围环境。分泌过程传输效应分子内部的细菌细胞外。到目前为止,研究人员发现六种分泌系统。III型分泌系统是最复杂的,这使得细菌提供跨真核细胞膜毒性效应器(gydF4y2Ba1gydF4y2Ba]。gydF4y2Ba

近年来,已取得显著进展对我们理解T3SS的结构组成,包括一个针状的组件和基地嵌入到内部和外部的细菌膜(gydF4y2Ba2gydF4y2Ba]。然而,分泌机制,定义了信号的细节仍然未知。识别的效应器T3SS分泌的(称为III型分泌效应器,T3SEs) T3SS研究非常重要。他们被认为有一些独特的特性,可以被分泌系统和交付到宿主细胞。这些特征是提示发现T3SS机制和理解每个组件分泌过程中所扮演的角色。gydF4y2Ba

T3SEs有很大的序列的氨基酸序列多样性通过快速进化,和许多T3SEs很少有同源蛋白质在公共数据库。因此,识别T3SEs是出了名的困难。植物病原体gydF4y2Ba两gydF4y2Ba一直是一个研究模型类型III效应器。到目前为止,只有数百T3SEs几件物品已经被确认和证实的细菌物种,其中很大一部分来自gydF4y2Bap .两gydF4y2Ba菌株。这表明,绝大多数T3SEs仍然未知。gydF4y2Ba

本研究旨在开发一个计算预测系统,它可以帮助生物学家获得效应候选人wet-bench实验确认。通常,计算工具预测T3SEs可分为两种类型:序列和领域知识。gydF4y2Ba

序列的方法通常试图从氨基酸序列中提取判别子序列特性或核苷酸序列和执行基于这些特性的预测。从氨基酸序列提取的特征包括氨基酸组成,gydF4y2Ba gydF4y2Ba - m频率(gydF4y2Ba3gydF4y2Ba,gydF4y2Ba4gydF4y2Ba),和position-specific特性(gydF4y2Ba5gydF4y2Ba]。的核苷酸序列,基因编码T3SS装置和T3SEs通常有一个守恒监管主题推广者(gydF4y2Ba6gydF4y2Ba]。另一个序列的方法,使用已知的同源性搜索效应器(gydF4y2Ba3gydF4y2Ba),也经常使用,但它不能识别小说效应器。domain-knowledge-based方法包括识别基因附近伴侣蛋白同系物(gydF4y2Ba7gydF4y2Ba),n端和nonoptimal密码子使用的预测不稳定gydF4y2Ba8gydF4y2Ba),使用蛋白质二级结构和溶剂可达性信息gydF4y2Ba9gydF4y2Ba]。领域知识没有可用的序列数据,通常通过计算方法,降低了预测精度。gydF4y2Ba

本文采用机器学习的方法来预测III型分泌效应器(T3SEs)。从氨基酸序列中提取特征。研究人员发现在T3SEs氨基酸组成的偏见,尤其是在N-termini。例如,格特曼et al。gydF4y2Ba10gydF4y2Ba报道称,前50的氨基酸gydF4y2Bap .两gydF4y2Ba效应器有高比例的爵士和低比例的Asp残留。应该注意的是,这些观察结果只显示一些统计偏差,而不是特定的信号/功能。此外,许多感受器不满足这些需求。在本文中,我们把蛋白质序列作为一种生物语言和gydF4y2Ba gydF4y2Ba 即词。这个词的频率组成特征向量。为了压缩特征空间,提高预测的准确性,我们提出两种功能降低的方法。他们利用潜在语义信息的潜在狄利克雷分配模式gydF4y2Ba11gydF4y2Ba]。gydF4y2Ba

我们已经研究了这两种方法的预测精度并与其他四个方法,包括频率二聚体,三聚体的频率,并使用频率以及特征选择gydF4y2Ba gydF4y2Ba gydF4y2Ba - - - - - -gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 价值。上的方法进行测试gydF4y2Ba两gydF4y2Ba通过5倍交叉验证数据集。实验结果证明该方法的有效性。gydF4y2Ba

2。方法gydF4y2Ba

蛋白质序列连续的氨基酸残基,这可以被看作是文本字符串和一个字母gydF4y2Ba gydF4y2Ba 的大小gydF4y2Ba |gydF4y2Ba gydF4y2Ba |gydF4y2Ba =gydF4y2Ba 2gydF4y2Ba 0gydF4y2Ba 。氨基酸组成和gydF4y2Ba gydF4y2Ba - m(子序列的长度gydF4y2Ba gydF4y2Ba )频率可以作为蛋白质序列的特征分类。氨基酸组成不考虑氨基酸的顺序gydF4y2Ba gydF4y2Ba 即保留一些订单信息序列,因此,后一种方法通常是采用。然而,的维度gydF4y2Ba gydF4y2Ba - m特征空间呈指数级增长gydF4y2Ba gydF4y2Ba 增加。基于完整的预测gydF4y2Ba gydF4y2Ba - m特征空间降维是难以计算的。事实上,很多gydF4y2Ba gydF4y2Ba 即预测无关。例如,gydF4y2Ba gydF4y2Ba 即仅出现一次或几次。gydF4y2Ba

在本文中,我们提出两种功能降低的方法基于潜在狄利克雷分配(LDA)模型(gydF4y2Ba11gydF4y2Ba]。这两个方法以不同的方式利用潜在语义信息。一是将原来的gydF4y2Ba gydF4y2Ba - m空间主题空间,另一个是使用主题信息选择的信息gydF4y2Ba gydF4y2Ba 即为预测。这两个方法中引入部分gydF4y2Ba2.2gydF4y2Ba和gydF4y2Ba2.3gydF4y2Ba,分别。gydF4y2Ba

2.1。潜在狄利克雷分配gydF4y2Ba

潜在狄利克雷分配(LDA),目前使用最普遍的话题模型,被广泛应用于自然语言处理、图像分类、社会网络分析,等等gydF4y2Ba12gydF4y2Ba,gydF4y2Ba13gydF4y2Ba]。在LDA模型中,每个文档可以被看作是一个混合的各种话题,每个词的创造是由文档的主题之一。gydF4y2Ba

图gydF4y2Ba1gydF4y2Ba显示了LDA的图形化模型表示。(这里我们考虑平滑LDA。)方形的框架表示复制。有gydF4y2Ba gydF4y2Ba 文档在语料库,gydF4y2Ba gydF4y2Ba 话,gydF4y2Ba gydF4y2Ba 的话题。在这个LDA模型,以下步骤生成一个文档。gydF4y2Ba

画gydF4y2Ba gydF4y2Ba 之前从狄利克雷:gydF4y2Ba gydF4y2Ba ∼gydF4y2Ba DgydF4y2Ba 我gydF4y2Ba rgydF4y2Ba (gydF4y2Ba gydF4y2Ba )gydF4y2Ba 。gydF4y2Ba (gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba

为每一个词gydF4y2Ba gydF4y2Ba gydF4y2Ba ,选择一个主题gydF4y2Ba gydF4y2Ba gydF4y2Ba 从gydF4y2Ba 米gydF4y2Ba ugydF4y2Ba lgydF4y2Ba tgydF4y2Ba 我gydF4y2Ba ngydF4y2Ba ogydF4y2Ba 米gydF4y2Ba 我gydF4y2Ba 一个gydF4y2Ba lgydF4y2Ba (gydF4y2Ba gydF4y2Ba )gydF4y2Ba ,然后选择gydF4y2Ba gydF4y2Ba gydF4y2Ba 从gydF4y2Ba gydF4y2Ba (gydF4y2Ba gydF4y2Ba gydF4y2Ba ∣gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba )gydF4y2Ba ,这是一个多项式概率条件的话题gydF4y2Ba gydF4y2Ba gydF4y2Ba :gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ∼gydF4y2Ba 米gydF4y2Ba ugydF4y2Ba lgydF4y2Ba tgydF4y2Ba (gydF4y2Ba gydF4y2Ba )gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ∼gydF4y2Ba gydF4y2Ba gydF4y2Ba ∣gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 。gydF4y2Ba ,gydF4y2Ba gydF4y2Ba (gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba

生成一个语料库的可能性gydF4y2Ba gydF4y2Ba 定义在以下方程:gydF4y2Ba gydF4y2Ba gydF4y2Ba (gydF4y2Ba gydF4y2Ba ∣gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba )gydF4y2Ba =gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ∣gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ×gydF4y2Ba gydF4y2Ba ∣gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ∣gydF4y2Ba gydF4y2Ba gydF4y2Ba ∣gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 。gydF4y2Ba (gydF4y2Ba 3gydF4y2Ba )gydF4y2Ba

在这个模型中,gydF4y2Ba gydF4y2Ba gydF4y2Ba 完全可观测的。推理的隐藏变量通常采用吉布斯抽样(gydF4y2Ba14gydF4y2Ba[]或变分算法gydF4y2Ba15gydF4y2Ba]。由于LDA生成模型,有限的区别的能力在分类任务中,我们只使用它用于创建功能。gydF4y2Ba

2.2。预测的T3SEs主题空间gydF4y2Ba

在LDA模型中,每个文档主题由后狄利克雷表示。这是一个用词频相比更低维表示。因此,在这种方法中,我们通过使用主题创建特征向量表示。gydF4y2Ba

我们把蛋白质序列作为文本,gydF4y2Ba gydF4y2Ba 即是单词。我们想用LDA模型捕捉潜在的主题信息。由于LDA模型不能直接使用蛋白质序列,我们首先需要将蛋白质序列转换为一种生物的语言,是他说的话gydF4y2Ba gydF4y2Ba 即。类似中国的句子,我们段氨基酸序列不重叠的gydF4y2Ba gydF4y2Ba 即单词之间没有空格。之后,LDA模型可以应用于序列。gydF4y2Ba

所有的自然语言都有预定义的字典。然而,蛋白质序列都写在一个未知的语言对我们目前的状态,他的字不是划定。的任意组合字母任意长度可以是一个词。所以我们首先需要建立一个字典,这是市场细分的基础。因此,这种方法的整个过程包括三个步骤:(1)建立一个字典,也就是说,词集;(2)部分的蛋白质序列匹配的单词在字典里,也就是说,gydF4y2Ba gydF4y2Ba 即;(3)运行LDA模型分段序列和创建特征向量。gydF4y2Ba

我们已经尝试两个指标来确定单词在字典中包含。一个是词频,另一个是gydF4y2Ba gydF4y2Ba gydF4y2Ba - - - - - -gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 价值。他们在以下定义。gydF4y2Ba

2.2.1。频率gydF4y2Ba

自然语言中的词,通常是经常出现在文本字符的组合。根据这一观察,氨基酸与高频子字符串可以被视为的话,应该分割出来作为特征。的不寻常的字符串是noninformative分类和全球性能几乎没有影响。我们为每个记录出现时间gydF4y2Ba gydF4y2Ba - m的训练序列集和保存一个预定义的比例的最常见gydF4y2Ba gydF4y2Ba 即。gydF4y2Ba

2.2.2。gydF4y2Ba gydF4y2Ba gydF4y2Ba - - - - - -gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 价值gydF4y2Ba

考虑到频率测量是倾向于选择过多的单词在文本中,可能没有判别能力,我们也使用gydF4y2Ba gydF4y2Ba gydF4y2Ba - - - - - -gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 价值。根据其在文本分类的定义,gydF4y2Ba gydF4y2Ba gydF4y2Ba - - - - - -gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 计算出一个术语在一个文档中。该值出现的次数比例文档中的术语,即gydF4y2Ba gydF4y2Ba gydF4y2Ba (频率);和文档的数量成反比的训练集的项至少出现一次,也就是说,gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba (逆文档频率)的部分。gydF4y2Ba

这里我们定义以下方程。让gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba 是gydF4y2Ba gydF4y2Ba gydF4y2Ba - - - - - -gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 值gydF4y2Ba gydF4y2Ba - mgydF4y2Ba gydF4y2Ba 按顺序gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba 的频率gydF4y2Ba gydF4y2Ba - mgydF4y2Ba gydF4y2Ba 按顺序gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba 训练集的规模,gydF4y2Ba gydF4y2Ba gydF4y2Ba 是数字的序列gydF4y2Ba gydF4y2Ba 出现:gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba =gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba gydF4y2Ba ×gydF4y2Ba lgydF4y2Ba ogydF4y2Ba ggydF4y2Ba gydF4y2Ba gydF4y2Ba 。gydF4y2Ba (gydF4y2Ba 4gydF4y2Ba )gydF4y2Ba 为了避免遇到生词,所有的20种氨基酸都包含在字典。gydF4y2Ba

在第二步中,我们使用的分割方法gydF4y2Ba16gydF4y2Ba]。这种分割方法有两个标准搜索分割的最佳方式。一个是段的数量是最小的。另一个是权重的乘积的单词分割是最大的。gydF4y2Ba

如果频率测量中使用词典建设、词的重量gydF4y2Ba gydF4y2Ba 由频率定义如下:gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba 。gydF4y2Ba (gydF4y2Ba 5gydF4y2Ba )gydF4y2Ba

否则,如果gydF4y2Ba gydF4y2Ba gydF4y2Ba - - - - - -gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 测量使用,词的重量被定义为最大的价值gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba ,这是gydF4y2Ba gydF4y2Ba gydF4y2Ba - - - - - -gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 值gydF4y2Ba gydF4y2Ba - mgydF4y2Ba gydF4y2Ba 按顺序gydF4y2Ba gydF4y2Ba :gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba 米gydF4y2Ba 一个gydF4y2Ba xgydF4y2Ba gydF4y2Ba ∈gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba ,gydF4y2Ba (gydF4y2Ba 6gydF4y2Ba )gydF4y2Ba 在哪里gydF4y2Ba gydF4y2Ba 表示整个数据集。gydF4y2Ba

分割后,我们运行LDA模型在序列。然后我们获得稀疏gydF4y2Ba gydF4y2Ba ×gydF4y2Ba gydF4y2Ba 矩阵gydF4y2Ba gydF4y2Ba ,在那里gydF4y2Ba gydF4y2Ba 序列和的数量吗gydF4y2Ba gydF4y2Ba 是主题的数量。gydF4y2Ba gydF4y2Ba (gydF4y2Ba gydF4y2Ba ,gydF4y2Ba gydF4y2Ba )gydF4y2Ba 在文档包含一个字令牌的次数gydF4y2Ba gydF4y2Ba 被分配到另一个话题吗gydF4y2Ba gydF4y2Ba 。行向量的特征向量用于分类。这里,我们分类主题空间,而不是词的蛋白质序列空间。因此特性集的维数可以大大减少由于主题的数量远低于的话。gydF4y2Ba

2.3。预测的T3SEs减少空间gydF4y2Ba

在这种方法中,特征表示是完全不同于第一种方法。我们仍在使用gydF4y2Ba gydF4y2Ba - m的频率特性。而不是使用所有的gydF4y2Ba gydF4y2Ba 即在字典里,我们根据主题选择信息的信息。gydF4y2Ba

功能还原过程也由三个步骤组成。前两个步骤是一样的gydF4y2Ba2.2gydF4y2Ba,而第三步需要一定的策略选择。gydF4y2Ba

实际上,词典建设可以被视为初始筛选词选择的过程。词典中的词的出现时间可以记录和组合特性集。在实验中,我们检查了这两种预测精度的使用频率和特性集gydF4y2Ba gydF4y2Ba gydF4y2Ba - - - - - -gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 分别选词,发现频率比gydF4y2Ba gydF4y2Ba gydF4y2Ba - - - - - -gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 在这项研究中(见表所示的结果gydF4y2Ba2gydF4y2Ba)。因此我们进行第三步基于词典由词频的标准。gydF4y2Ba

这里我们使用主题信息执行进一步的选择。我们检查的次数的话被分配到主题和设置一个阈值gydF4y2Ba gydF4y2Ba 。如果一个词不是至少分配给任何话题gydF4y2Ba gydF4y2Ba 时候,这个词就会被丢弃。通过这种方式,我们可以删除的话,要么是不寻常的单词或不特定的任何话题。gydF4y2Ba

2.4。复杂性分析gydF4y2Ba

计算的时间主要花在序列分割和LDA模型。分割算法(gydF4y2Ba16gydF4y2Ba)作为每个氨基酸。每一点,只保留最优分割的算法进行修剪,最少的部门到目前为止,和搜索词的匹配旁边的子序列点的单词在字典里。假设字典大小gydF4y2Ba gydF4y2Ba ,蛋白质序列的数量数据集gydF4y2Ba gydF4y2Ba ,平均序列长度gydF4y2Ba gydF4y2Ba ,文字的最大长度gydF4y2Ba gydF4y2Ba 匹配一个单词,要求字典的成本gydF4y2Ba gydF4y2Ba (gydF4y2Ba lgydF4y2Ba ogydF4y2Ba ggydF4y2Ba 2gydF4y2Ba gydF4y2Ba )gydF4y2Ba 二分查找。因此,分割方法的计算复杂度gydF4y2Ba gydF4y2Ba (gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba lgydF4y2Ba ogydF4y2Ba ggydF4y2Ba 2gydF4y2Ba gydF4y2Ba )gydF4y2Ba (gydF4y2Ba gydF4y2Ba =gydF4y2Ba 3gydF4y2Ba 在实验中)。至于LDA模型,假设有gydF4y2Ba gydF4y2Ba 话题,复杂性gydF4y2Ba gydF4y2Ba (gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba )gydF4y2Ba 吉布斯抽样方法,它通过对参数估计和推断。和第二特征选择方法,选择单词的复杂性gydF4y2Ba gydF4y2Ba (gydF4y2Ba gydF4y2Ba gydF4y2Ba )gydF4y2Ba 。gydF4y2Ba

3所示。结果与讨论gydF4y2Ba

3.1。数据集gydF4y2Ba

自gydF4y2Ba两gydF4y2Ba已被用来作为生物模型研究T3SEs,最效应器,已确认。因此,我们收集的数据从这个物种。据我们所知,有一个283效应器,已确认,从gydF4y2Bap .两gydF4y2Bapv。番茄菌株DC3000,gydF4y2Bap .两gydF4y2Bapv。两株B728a,gydF4y2Bap .两gydF4y2Bapv。phaseolicola菌株1448 a。然而,其中很大一部分是同源染色体,即序列相似度非常高。这是因为同源搜索发现小说效应器仍是主要手段。考虑到冗余的数据集将导致过高的分类器的准确性,我们消除了样品与序列相似度超过60%。通过删除冗余序列,我们得到一个积极的108个样本集。gydF4y2Ba

的负面数据集提取的基因组gydF4y2Bap .两gydF4y2Bapv。番茄菌株DC3000。我们排除了有关T3SS所有的蛋白质,以及假设的蛋白质。(注意,这仍可能包含一些未知的效应器。)然后我们选择随机从剩下的样本构成的负面,因为如果我们使用的所有数据集将太多的不平衡。表列出了数据集的数量gydF4y2Ba1gydF4y2Ba。gydF4y2Ba


数据集gydF4y2Ba 数量gydF4y2Ba

积极组gydF4y2Ba 108年gydF4y2Ba
负集gydF4y2Ba 760年gydF4y2Ba

总gydF4y2Ba 868年gydF4y2Ba


方法gydF4y2Ba 维gydF4y2Ba 助教(%)gydF4y2Ba 灵敏度(%)gydF4y2Ba 特异性(%)gydF4y2Ba

二聚体gydF4y2Ba 400年gydF4y2Ba 94.2gydF4y2Ba 91.4gydF4y2Ba 94.5gydF4y2Ba
三聚物gydF4y2Ba 8000年gydF4y2Ba 90.4gydF4y2Ba 100.0gydF4y2Ba 90.2gydF4y2Ba
频率gydF4y2Ba 220年gydF4y2Ba 95.3gydF4y2Ba 92.4gydF4y2Ba 95.6gydF4y2Ba
tf-idfgydF4y2Ba 220年gydF4y2Ba 94.7gydF4y2Ba 88.8gydF4y2Ba 95.3gydF4y2Ba
星期五gydF4y2Ba 50gydF4y2Ba 91.2gydF4y2Ba 83.3gydF4y2Ba 91.7gydF4y2Ba
FRIIgydF4y2Ba 184年gydF4y2Ba 95.0gydF4y2Ba 94.5gydF4y2Ba 95.1gydF4y2Ba

3.2。实验设置和评估标准gydF4y2Ba

分类器是使用最先进的监督学习机械、支持向量机,广泛用于生物信息学。我们的实现支持向量机采用LibSVM的2.8版(gydF4y2Ba17gydF4y2Ba]。我们认为多项式、乙状结肠和RBF内核对RBF核函数的SVM和观察到的最好的分类精度。gydF4y2Ba

我们用LDA模型在Matlab的话题建模工具箱1.4 [gydF4y2Ba18gydF4y2Ba]。在LDA,主题的数量对其性能有很大影响。搜索最优数量的主题是描述的部分gydF4y2Ba3.3gydF4y2Ba。LDA模型中使用的其他参数设置如下:gydF4y2Ba gydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 。gydF4y2Ba 0gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba gydF4y2Ba =gydF4y2Ba 5gydF4y2Ba 0gydF4y2Ba /gydF4y2Ba gydF4y2Ba ,在那里gydF4y2Ba gydF4y2Ba 是主题的数量,和迭代的数量是500。阈值gydF4y2Ba gydF4y2Ba 将40据统计的词出现。gydF4y2Ba

多种措施被用来评估我们的方法的性能,包括敏感性,特异性,总精度(gydF4y2Ba TgydF4y2Ba 一个gydF4y2Ba )。的敏感性和特异性可以定义真阳性的数量(gydF4y2Ba TgydF4y2Ba PgydF4y2Ba 年代gydF4y2Ba ),假阳性的数量(gydF4y2Ba FgydF4y2Ba PgydF4y2Ba 年代gydF4y2Ba ),假阴性的数量(gydF4y2Ba FgydF4y2Ba NgydF4y2Ba 年代gydF4y2Ba )和真正的底片的数量(gydF4y2Ba TgydF4y2Ba NgydF4y2Ba 年代gydF4y2Ba )如下。我们定义gydF4y2Ba 年代gydF4y2Ba egydF4y2Ba ngydF4y2Ba 年代gydF4y2Ba 我gydF4y2Ba tgydF4y2Ba 我gydF4y2Ba vgydF4y2Ba 我gydF4y2Ba tgydF4y2Ba ygydF4y2Ba =gydF4y2Ba TgydF4y2Ba PgydF4y2Ba TgydF4y2Ba PgydF4y2Ba +gydF4y2Ba FgydF4y2Ba NgydF4y2Ba 年代gydF4y2Ba pgydF4y2Ba egydF4y2Ba cgydF4y2Ba 我gydF4y2Ba figydF4y2Ba cgydF4y2Ba 我gydF4y2Ba tgydF4y2Ba ygydF4y2Ba =gydF4y2Ba TgydF4y2Ba NgydF4y2Ba 。gydF4y2Ba TgydF4y2Ba NgydF4y2Ba +gydF4y2Ba FgydF4y2Ba PgydF4y2Ba (gydF4y2Ba 7gydF4y2Ba )gydF4y2Ba 这两个措施检查正确分类的能力积极的和消极的样本,分别。助教正确分类样本的比例相比的总大小的数据集,计算如下:gydF4y2Ba TgydF4y2Ba 一个gydF4y2Ba =gydF4y2Ba TgydF4y2Ba PgydF4y2Ba +gydF4y2Ba TgydF4y2Ba NgydF4y2Ba 。gydF4y2Ba TgydF4y2Ba PgydF4y2Ba +gydF4y2Ba FgydF4y2Ba PgydF4y2Ba +gydF4y2Ba TgydF4y2Ba NgydF4y2Ba +gydF4y2Ba FgydF4y2Ba NgydF4y2Ba (gydF4y2Ba 8gydF4y2Ba )gydF4y2Ba

考虑到最大分泌或易位可能需要第一100个氨基酸(gydF4y2Ba19gydF4y2Ba- - - - - -gydF4y2Ba21gydF4y2Ba),在我们的实验中,前100个氨基酸。gydF4y2Ba

3.3。许多话题gydF4y2Ba

主题的数量在LDA模型是一个关键参数,因为它直接影响模型的性能。困惑是经常用来评估LDA模型的性能。这措施的性能模型,它被定义为(gydF4y2Ba11gydF4y2Ba]:gydF4y2Ba gydF4y2Ba gydF4y2Ba pgydF4y2Ba egydF4y2Ba rgydF4y2Ba pgydF4y2Ba lgydF4y2Ba egydF4y2Ba xgydF4y2Ba 我gydF4y2Ba tgydF4y2Ba ygydF4y2Ba tgydF4y2Ba egydF4y2Ba 年代gydF4y2Ba tgydF4y2Ba gydF4y2Ba gydF4y2Ba −gydF4y2Ba ∑gydF4y2Ba =gydF4y2Ba egydF4y2Ba xgydF4y2Ba pgydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba gydF4y2Ba gydF4y2Ba lgydF4y2Ba ogydF4y2Ba ggydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba ∑gydF4y2Ba gydF4y2Ba gydF4y2Ba =gydF4y2Ba 1gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 。gydF4y2Ba (gydF4y2Ba 9gydF4y2Ba )gydF4y2Ba

这种方法在测试数据的可能性减少单调;从而降低值表明更好的建模性能。gydF4y2Ba

我们计算了数据集的价值困惑。图gydF4y2Ba2gydF4y2Ba显示了隐藏主题的数量的困惑,从5到100。它可以观察到,困惑随越来越多的话题。主题从5到40的话题,困惑迅速下降。当话题的数量大于40岁的困惑几乎是常数。在我们的实验中,我们组的主题是50。gydF4y2Ba

3.4。实验结果gydF4y2Ba

我们已经进行了一系列的实验来检查这两个特性降低方法的性能和比较其他四个方法。表gydF4y2Ba2gydF4y2Ba列表的数量维度,总精度(TA),这六个方法的敏感性和特异性。缩写的方法和相应的描述如下:gydF4y2Ba(1)gydF4y2Ba二聚体:使用所有的二聚体,没有功能降低;gydF4y2Ba(2)gydF4y2Ba三聚物:使用所有三没有功能降低;gydF4y2Ba(3)gydF4y2Ba频率:使用字典单词词频选择;gydF4y2Ba(4)gydF4y2Ba gydF4y2Ba gydF4y2Ba - - - - - -gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 选择:使用字典单词gydF4y2Ba gydF4y2Ba gydF4y2Ba - - - - - -gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 价值;gydF4y2Ba(5)gydF4y2Ba星期五:使用主题信息功能;gydF4y2Ba(6)gydF4y2BaFRII:使用功能设置基于(3)但进一步凝聚主题信息。gydF4y2Ba

从表gydF4y2Ba2gydF4y2Ba,我们可以发现所有的六个方法获得总精度超过90%,这表明氨基酸模式是胜任不同的感受器和noneffectors。gydF4y2Ba

在这项研究中,长gydF4y2Ba gydF4y2Ba 即没有分类的优势。二聚体方法具有更好的性能比像方法。尽管三聚物的方法获得的灵敏度为100%,其总比其他方法的准确性和特异性要低得多。这是因为其假阳性率很高。由于预测系统旨在提供一个可靠的预测效应候选人的结果,假阳性高速率是不允许的。gydF4y2Ba

基本上,所有的新方法具有令人满意的性能。特征选择方法使用字典单词频率或选择gydF4y2Ba gydF4y2Ba gydF4y2Ba - - - - - -gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 整体价值实现最好的特异性和更好的性能比原来的二聚物和三聚物的方法。它表明,词典建设和细分的策略是成功的蛋白质序列的分类。维度的数量220年这两个方法,包括20种氨基酸,50 150二聚体,三聚。频率比的测量gydF4y2Ba gydF4y2Ba gydF4y2Ba - - - - - -gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 值,因为后者灵敏度较低。这可能因为gydF4y2Ba gydF4y2Ba gydF4y2Ba - - - - - -gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 值更喜欢选择一些不寻常的话说,这并不有利于分类。gydF4y2Ba

显然,该功能还原法我(星期五)最小数量的维度,但其精度相对较低。FRII 184维度,包括20个氨基酸,137二聚体,三聚。比二聚体三被丢弃,因为三聚的频率要低得多,只有少数人可以通过词选择的标准部分gydF4y2Ba2.3gydF4y2Ba。实际上,更多的三不能提高我们之前提到过的准确性。gydF4y2Ba

FRII达到好的结果,甚至比使用所有字典词。FRII的敏感性是2%高于频率的方法,和总准确性和特异性也相当或优于其他方法。这些结果表明,尽管主题空间分类是不够的,潜在的主题信息是有效的选择功能。gydF4y2Ba

4所示。结论gydF4y2Ba

本文着重于功能降低的方法确定蛋白质分泌通过III型分泌系统使用机器学习的方法。我们的目标是要从n端氨基酸序列中提取特征并使用分类器来区分输入特征向量作为分泌或nonsecreted蛋白质。gydF4y2Ba

我们有六个方法相比,包括gydF4y2Ba gydF4y2Ba - m方法没有功能降低和其他方法减少具有不同特性的方法。计算实验gydF4y2Ba两gydF4y2Ba数据集上的交叉验证测试gydF4y2Bap .两gydF4y2Ba数据显示,我们的方法实现较高的精度。gydF4y2Ba

我们观察到,而长gydF4y2Ba gydF4y2Ba - m特性判别效果器和noneffectors几乎没有贡献,减少导电特性可以提高预测精度。使用频率和方法gydF4y2Ba gydF4y2Ba gydF4y2Ba - - - - - -gydF4y2Ba gydF4y2Ba gydF4y2Ba gydF4y2Ba 值词选择实现更好的精度gydF4y2Ba gydF4y2Ba - m方法和进一步使用主题信息特征选择可以提高性能和压缩特征空间在同一时间。gydF4y2Ba

到目前为止,大部分T3SEs革兰氏阴性细菌仍未知。的生物信息学工具是非常重要的。我们相信,新的计算方法将有助于识别小说III型分泌tts效应器,推进我们的理解。gydF4y2Ba

对于未来的工作,潜在语义信息揭示了主题模型将进一步调查。LDA引入了一个潜在的层,代表主题/主题文件,或场景图像。蛋白质序列,潜层可能是次要的或空间结构,功能域,或其他生化性质。因为它不像图片那么容易跑后蛋白质序列形象化LDA,很难定义相对应的特定的潜在主题在蛋白质序列的概念。我们将继续探索生物学特性和主题之间的联系和整合其他可用信息来发现分泌系统的底层机制。gydF4y2Ba

确认gydF4y2Ba

这项工作得到了国家自然科学基金(批准号61003093)和上海海事大学的科技项目(批准号20110009)。gydF4y2Ba

引用gydF4y2Ba

  1. j·e·加兰和a . Collmer”III型分泌机器:细菌蛋白质设备交付到宿主细胞,”gydF4y2Ba科学gydF4y2Ba,卷284,不。5418年,第1328 - 1322页,1999年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
  2. 野村k . s . y .他和t . s . Whittam”类型III蛋白质分泌机制在哺乳动物和植物病原体,”gydF4y2BaBiochimica et Biophysica学报gydF4y2Ba,卷1694,不。1 - 3、181 - 206年,2004页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
  3. r·阿诺德·s . Brandmaier f . Kleine et al .,“序列预测III型分泌蛋白质,”gydF4y2BaPLoS病原体gydF4y2Ba,5卷,不。4篇文章ID e1000376 2009。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
  4. 杨y”,比较研究序列特征提取III型分泌效应预测”gydF4y2Ba学报》第八届国际会议上模糊系统和知识发现(FSKD 11)gydF4y2Ba,2011年7月。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
  5. 问:y . Wang, m . a .太阳和d .郭“高精度预测细菌III型分泌效应器基于position-specific氨基酸组成资料,”gydF4y2Ba生物信息学gydF4y2Ba,27卷,不。6,777 - 784年,2011页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
  6. a·o·费雷拉,c·r·迈尔斯j·s·戈登et al .,“全基因组表达谱定义HrpL调节子gydF4y2Ba两gydF4y2Bapv。番茄DC3000,允许新创合cis克莱门特的重建,并识别小说coregulated基因,”gydF4y2Ba分子Plant-Microbe交互gydF4y2Ba,19卷,不。11日,第1179 - 1167页,2006年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
  7. e . m . Panina s Mattoo) n .格里菲斯n A·科扎m . h的趣事和j·f·米勒”,全基因组屏幕识别gydF4y2Ba博代氏杆菌属gydF4y2BaIII型分泌效应和候选人效应器在其他物种,”gydF4y2Ba分子微生物学gydF4y2Ba,卷。58岁的没有。1,第279 - 267页,2005。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
  8. a . Takaya y佐藤,t .山本”整合方法准确预测分泌毒性效应物在革兰氏阴性细菌,”gydF4y2BaBMC生物信息学gydF4y2Ba,12卷,不。1,第442条,2011。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
  9. y, j .赵r·l·摩根,w•马和t .江”计算预测III型分泌蛋白质从革兰氏阴性细菌,”gydF4y2BaBMC生物信息学gydF4y2Ba补充1卷。11日,S47条,2010年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
  10. d . s .格特曼b . A . Vinatzer s . f . Sarkar m . v . Ranall g .凯特勒和j·t·格林伯格”功能屏幕的类型检查参与组成分泌腺III(合)植物病原体gydF4y2Ba两gydF4y2Ba”,gydF4y2Ba科学gydF4y2Ba,卷295,不。5560年,第1726 - 1722页,2002年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
  11. d·m·布莱a . y . Ng,乔丹,“潜在狄利克雷分配”gydF4y2Ba机器学习研究杂志》上gydF4y2Ba,3卷,不。4 - 5,993 - 1022年,2003页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
  12. 布莱c, d, l .菲菲“同步图像分类和标注”gydF4y2Ba《IEEE计算机学会学报计算机视觉与模式识别会议研讨会(CVPR ' 09)gydF4y2Ba2009年6月,页1903 - 1910。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
  13. 张h . b .秋c·贾尔斯h·福利和j .日圆,”一个LDA-based社区结构发现方法大规模社交网络”gydF4y2Ba《IEEE情报与安全信息学(ISI ' 07)gydF4y2Ba2007年5月,页200 - 207。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
  14. r·m·尼尔”dirichiet过程混合模型,马尔可夫链抽样方法”gydF4y2Ba计算和图形统计杂志》上gydF4y2Ba,9卷,不。2、249 - 265年,2000页。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
  15. 布莱博士和m .乔丹,“狄利克雷过程混合变分推理,”gydF4y2Ba贝叶斯分析gydF4y2Ba,1卷,不。1,第144 - 121页,2006。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
  16. y杨和b . l . Lu”从蛋白质序列中提取特征使用中国亚细胞定位、分割技术”gydF4y2Ba《IEEE研讨会上计算智能在生物信息学和计算生物学(CIBCB 05)gydF4y2Ba2005年11月,页288 - 295。gydF4y2Ba视图:gydF4y2Ba谷歌学术搜索gydF4y2Ba
  17. c . c . Chang和c·j·林,2001年,LIBSVM:支持向量机的库,软件,gydF4y2Bahttp://www.csie.ntu.edu.tw/ cjlin / libsvm /gydF4y2Ba。gydF4y2Ba
  18. 2011年m . Steyvers和t·格里菲斯,Matlab主题建模工具箱1.4,软件,gydF4y2Bahttp://psiexp.ss.uci.edu/research/programs_data/toolbox.htmgydF4y2Ba。gydF4y2Ba
  19. c . Casper-Lindley d . Dahlbeck e·t·克拉克和b . j . Staskawicz”直接生化证据类型III secretion-dependent易位AvrBs2效应蛋白进入植物细胞,”gydF4y2Ba美国国家科学院院刊》上的美利坚合众国gydF4y2Ba,卷99,不。12日,第8341 - 8336页,2002年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
  20. t . Petnicki-Ocwieja d·j·施耐德v c . Tam et al .,“全基因组鉴定蛋白质合III型分泌的蛋白质分泌系统gydF4y2Ba两gydF4y2Bapv。番茄DC3000。”gydF4y2Ba美国国家科学院院刊》上的美利坚合众国gydF4y2Ba,卷99,不。11日,第7657 - 7652页,2002年。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
  21. l . m . Schechter k·a·罗伯茨y Jamir, j·r·阿尔法诺,a . Collmer。”gydF4y2Ba两gydF4y2BaIII型分泌系统目标信号和小说效应器研究自保”易位记者,“gydF4y2Ba细菌学期刊gydF4y2Ba,卷186,不。2、543 - 555年,2004页。gydF4y2Ba视图:gydF4y2Ba出版商的网站gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

版权©2012杨杨。这是一个开放的分布式下文章gydF4y2Ba知识共享归属许可gydF4y2Ba,它允许无限制的使用、分配和复制在任何媒介,提供最初的工作是正确引用。gydF4y2Ba


更多相关文章gydF4y2Ba

PDFgydF4y2Ba 下载引用gydF4y2Ba 引用gydF4y2Ba
下载其他格式gydF4y2Ba更多的gydF4y2Ba
订单打印副本gydF4y2Ba订单gydF4y2Ba
的观点gydF4y2Ba1115年gydF4y2Ba
下载gydF4y2Ba729年gydF4y2Ba
引用gydF4y2Ba

相关文章gydF4y2Ba

文章奖:2020年杰出的研究贡献,选择由我们的首席编辑。gydF4y2Ba获奖的文章阅读gydF4y2Ba。gydF4y2Ba