热线电话:13121318867

登录
2018-11-30 阅读量: 868
文本分类的半监督疑惑

在这里,理论上有趣的答案是尝试应用 半监督训练方法。这包括bootstrapping等方法 EM算法。在这些方法中,系统获得一些带标签的文档,以及可以尝试学习的大量未标记文档。Naive Bayes的一大优势是它可以直接扩展为半监督学习算法,但对于SVM,还有半监督学习工作,其标题是 转导SVM

通常,实际的答案是找出如何尽可能快地获得更多标记数据的方法。实现这一目标的最佳方法是将自己插入到人类愿意为您标记数据作为其自然任务的一部分的过程中。例如,在许多情况下,人们会出于自己的目的对电子邮件进行排序或路由,这些操作会提供有关课程的信息。使人类贴标者明确地用于训练分类器的任务的替代方案通常难以组织,并且标签通常质量较低,因为标签未嵌入到真实的任务环境中。不是让人们标记所有或随机的文件样本,而是进行了大量的研究 主动学习,建立一个系统,决定人类应该标记哪些文件。通常这些是分类器不确定正确分类的那些。这可以有效地将注释成本降低2-4倍,但是存在这样的问题:标记为训练一种类型的分类器的好文档通常不是标记以训练不同类型的分类器的好文档。

如果有合理数量的标记数据,那么您就可以使用我们提供的有关文本分类的所有内容。例如,您可能希望使用SVM。但是,如果要部署线性分类器(如SVM),则应该设计一个应用程序,该应用程序通过机器学习分类器覆盖基于布尔规则的分类器。用户经常喜欢调整那些不合适的东西,如果管理人员通过电话并希望立即修复特定文档的分类,那么通过手工编写规则比通过编制工作更容易如何在不破坏整体分类精度的情况下调整SVM的权重。

如果有大量数据可供使用,那么分类器的选择可能对您的结果影响不大,最佳选择可能不清楚。最好根据训练的可扩展性甚至运行时效率来选择分类器。要达到这一点,您需要拥有大量数据。一般的经验法则是,训练数据大小的每次加倍都会使分类器性能线性增加,但是对于非常大量的数据,改进变为亚线性。

0.0000
2
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子