2019-01-08
阅读量:
840
分类器如何分类?
当遇到构建文本分类器的需要时,首先要问的问题是当前有多少训练数据可用?没有?很少?非常多?或者是巨额,每天都在增长?通常,在实际应用中部署机器学习分类器的最大实际挑战之一是创建或获取足够的训练数据。对于许多问题和算法,需要来自每个类的数百或数千个示例来生成高性能分类器,并且许多现实世界上下文涉及大量类别。我们最初会假设需要尽快分类; 如果有很多时间可用于实现,那么大部分时间可能用于组装数据资源。
如果您没有标记的培训数据,特别是如果现有员工对数据领域有所了解,那么您永远不应该忘记使用手写规则的解决方案。也就是说,正如我们在第13章开头所提到的那样,你写了常设查询。例如:
在实践中,规则比这更大,并且可以使用比仅仅布尔表达式更复杂的查询语言来表达,包括使用数字分数。通过精心制作(即通过人类调整开发数据的规则),这些规则的准确性可能会变得非常高。Jacobs和Rau(1990)报道了关于收购的文章,准确率为92%,召回率为88.5%,Hayes和Weinstein(1990)在路透社新闻专线文件中报告了94%的召回率和84%的精确度。然而,创建这种调整良好的规则的工作量非常大。合理的估计是每班2天,并且额外的时间必须用于维护规则,作为课堂文件的内容随着时间的推移漂移。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论