蛋白质序列数据分类的半监督学习

摘要

蛋白质序列数据继续以指数速度可用。对于这些数据的功能和结构属性的标注非常滞后，只有一小部分数据被实验方法理解和标注。基于半监督学习的分类方法可以在许多领域提高部分标记数据分类的总体准确率，但很少有方法在蛋白质序列分类中发挥作用。我们展示了如何从文本分类证明的方法可以应用到蛋白质序列数据，因为我们考虑了基本方法的现有和新的扩展，并展示了必须考虑的限制和差异。我们演示了与转导支持向量机的比较结果，并在最困难的分类问题上显示了优越的结果。我们的结果表明，大量未标记蛋白质序列数据确实可以用来提高预测性能，特别是在可用标记蛋白质序列较少和/或数据在本质上高度不平衡的情况下。

科学的规划

生物数据挖掘

摘要

版权

更多相关文章