开放获取
Brian R. King, Chittibabu Guda报道, "蛋白质序列数据分类的半监督学习",科学的规划, 卷。16, 文章的ID795010, 25 页面, 2008. https://doi.org/10.3233/SPR-2008-0241
蛋白质序列数据分类的半监督学习
摘要
蛋白质序列数据继续以指数速度可用。对于这些数据的功能和结构属性的标注非常滞后,只有一小部分数据被实验方法理解和标注。基于半监督学习的分类方法可以在许多领域提高部分标记数据分类的总体准确率,但很少有方法在蛋白质序列分类中发挥作用。我们展示了如何从文本分类证明的方法可以应用到蛋白质序列数据,因为我们考虑了基本方法的现有和新的扩展,并展示了必须考虑的限制和差异。我们演示了与转导支持向量机的比较结果,并在最困难的分类问题上显示了优越的结果。我们的结果表明,大量未标记蛋白质序列数据确实可以用来提高预测性能,特别是在可用标记蛋白质序列较少和/或数据在本质上高度不平衡的情况下。
版权
版权所有©2008 Hindawi出版公司。这是一篇发布在知识共享署名许可协议,允许在任何媒介上不受限制地使用、传播和复制,但必须正确引用原作。