T3SEs有很大的序列的氨基酸序列多样性通过快速进化,和许多T3SEs很少有同源蛋白质在公共数据库。因此,识别T3SEs是出了名的困难。植物病原体
两一直是一个研究模型类型III效应器。到目前为止,只有数百T3SEs几件物品已经被确认和证实的细菌物种,其中很大一部分来自
p .两菌株。这表明,绝大多数T3SEs仍然未知。
为每一个词
w
n,选择一个主题
z
n从
多项
(
θ
),然后选择
w
n从
p
(
w
n
∣
z
n
,
β
),这是一个多项式概率条件的话题
z
n:
(2)
z
n
~
乘
(
θ
)
w
n
~
p
(
w
n
∣
z
n
,
β
)
。
生成一个语料库的可能性定义在以下方程:
(3)
p
(
∣
α
,
η
)
=
∬
∏
k
=
1
K
p
(
β
k
∣
η
)
∏
d
=
1
D
p
(
θ
d
∣
α
)
×
(
∏
n
=
1
NgydF4y2Ba
∑
z
n
p
(
z
n
∣
θ
)
p
(
w
n
∣
z
n
,
β
)
)
d
θ
d
β
。
在这个模型中,
w
n完全可观测的。推理的隐藏变量通常采用吉布斯抽样(
14[]或变分算法
15]。由于LDA生成模型,有限的区别的能力在分类任务中,我们只使用它用于创建功能。
2.2.2。< inline-formula > < mml:数学xmlns: mml = " http://www.w3.org/1998/Math/MathML " id = " M38 " > < mml: mi > t < / mml: mi > < mml: mi > f < / mml: mi > < mml:多行文字> - < / mml:多行文字> < mml: mi >我< / mml: mi > < mml: mi > d < / mml: mi > < mml: mi > f < / mml: mi > < / mml:数学> < / inline-formula >价值
考虑到频率测量是倾向于选择过多的单词在文本中,可能没有判别能力,我们也使用
t
f
- - - - - -
我
d
f价值。根据其在文本分类的定义,
t
f
- - - - - -
我
d
f计算出一个术语在一个文档中。该值出现的次数比例文档中的术语,即
t
f(频率);和文档的数量成反比的训练集的项至少出现一次,也就是说,
我
d
f(逆文档频率)的部分。
这里我们定义以下方程。让
w
t
,
年代是
t
f
- - - - - -
我
d
f值
K- m
t按顺序
年代,
f
t
,
年代的频率
K- m
t按顺序
年代,
NgydF4y2Ba训练集的规模,
n
t是数字的序列
t出现:
(4)
w
t
,
年代
=
f
t
,
年代
×
日志
NgydF4y2Ba
n
t
。为了避免遇到生词,所有的20种氨基酸都包含在字典。
实际上,词典建设可以被视为初始筛选词选择的过程。词典中的词的出现时间可以记录和组合特性集。在实验中,我们检查了这两种预测精度的使用频率和特性集
t
f
- - - - - -
我
d
f分别选词,发现频率比
t
f
- - - - - -
我
d
f在这项研究中(见表所示的结果
2)。因此我们进行第三步基于词典由词频的标准。
计算的时间主要花在序列分割和LDA模型。分割算法(
16)作为每个氨基酸。每一点,只保留最优分割的算法进行修剪,最少的部门到目前为止,和搜索词的匹配旁边的子序列点的单词在字典里。假设字典大小
年代,蛋白质序列的数量数据集
D,平均序列长度
l,文字的最大长度
米匹配一个单词,要求字典的成本
O
(
日志
2
年代
)二分查找。因此,分割方法的计算复杂度
O
(
D
l
米
日志
2
年代
)(
米
=
3在实验中)。至于LDA模型,假设有
K话题,复杂性
O
(
D
K
l
)吉布斯抽样方法,它通过对参数估计和推断。和第二特征选择方法,选择单词的复杂性
O
(
K
年代
)。
3所示。结果与讨论3.1。数据集
自
两已被用来作为生物模型研究T3SEs,最效应器,已确认。因此,我们收集的数据从这个物种。据我们所知,有一个283效应器,已确认,从
p .两pv。番茄菌株DC3000,
p .两pv。两株B728a,
p .两pv。phaseolicola菌株1448 a。然而,其中很大一部分是同源染色体,即序列相似度非常高。这是因为同源搜索发现小说效应器仍是主要手段。考虑到冗余的数据集将导致过高的分类器的准确性,我们消除了样品与序列相似度超过60%。通过删除冗余序列,我们得到一个积极的108个样本集。
的负面数据集提取的基因组
p .两pv。番茄菌株DC3000。我们排除了有关T3SS所有的蛋白质,以及假设的蛋白质。(注意,这仍可能包含一些未知的效应器。)然后我们选择随机从剩下的样本构成的负面,因为如果我们使用的所有数据集将太多的不平衡。表列出了数据集的数量
1。
基本上,所有的新方法具有令人满意的性能。特征选择方法使用字典单词频率或选择
t
f
- - - - - -
我
d
f整体价值实现最好的特异性和更好的性能比原来的二聚物和三聚物的方法。它表明,词典建设和细分的策略是成功的蛋白质序列的分类。维度的数量220年这两个方法,包括20种氨基酸,50 150二聚体,三聚。频率比的测量
t
f
- - - - - -
我
d
f值,因为后者灵敏度较低。这可能因为
t
f
- - - - - -
我
d
f值更喜欢选择一些不寻常的话说,这并不有利于分类。