如果文本分类问题由少量分离良好的类别组成,则许多分类算法可能运行良好。但是许多真正的分类问题包括大量通常非常相似的类别。读者可能会想到诸如网络目录(Yahoo!目录或开放目录项目),图书馆分类方案(Dewey Decimal或国会图书馆)或法律或医学应用中使用的分类方案等示例。例如,雅虎!目录由深层次结构中的200,000多个类别组成。对大量密切相关的类别进行准确分类本身就很困难。
大多数类别都具有层次结构,并尝试通过执行来利用层次结构 分层分类 是一种很有前景的方法 但是,目前这样做的有效性而不仅仅是处理层次结构的类仍然是适度的。
如果文本分类问题由少量分离良好的类别组成,则许多分类算法可能运行良好。但是许多真正的分类问题包括大量通常非常相似的类别。读者可能会想到诸如网络目录(Yahoo!目录或开放目录项目),图书馆分类方案(Dewey Decimal或国会图书馆)或法律或医学应用中使用的分类方案等示例。例如,雅虎!目录由深层次结构中的200,000多个类别组成。对大量密切相关的类别进行准确分类本身就很困难。
机器学习的一般结果是,通过组合多个分类器,您可以始终获得分类精度的小幅提升,前提是它们所犯的错误至少在某种程度上是独立的。现在有大量关于投票,装袋和提升多种分类器等技术的文献。同样,参考文献中有一些指针。然而,最终可能需要混合自动/手动解决方案来实现足够的分类准确度。在这种情况下,一种常见的方法是首先运行分类器,并接受其所有高可信度的决策,但是将低可信度的决策放入队列中以进行人工审查。这样的过程还自动地导致新训练数据的产生,该新训练数据可以在机器学习分类器的未来版本中使用。然而, 不是从文件空间中随机抽样的。








暂无数据