文本分类的检索问题

詹惠儿

2018-11-30 阅读量: 1079

文本分类的检索问题

到目前为止，本书主要讨论了这一过程临时检索，用户通过向搜索引擎提出一个或多个查询来尝试解决的瞬态信息需求。但是，许多用户都有持续的信息需求。例如，您可能需要跟踪多核计算机芯片的发展。这样做的一种方法是每天早晨针对最近新闻专线文章的索引发出查询多核和计算机和芯片。在本章和以下两章中，我们将研究这个问题：如何重复这个重复性任务？为此，许多系统都支持常设查询。常设查询与任何其他查询类似，只是它会在一个集合上定期执行，新文档会随着时间的推移逐渐添加到该集合中。

如果您的常设查询只是多核，计算机和芯片，您将倾向于错过许多使用其他术语（如多核处理器）的相关新文章。为了实现良好的回忆，因此必须随着时间的推移改进常设查询，并逐渐变得相当复杂。在此示例中，使用带有词干分析的布尔搜索引擎，您最终可能会得到类似（多核或多核）和（芯片或处理器或微处理器）的查询。

为了捕捉常设查询所属的问题空间的一般性和范围，我们现在介绍a的一般概念分类问题。给定一组类，我们试图确定给定对象属于哪个类。在该示例中，常设查询用于将新的新闻专线文章划分为两类：关于多核计算机芯片的文档和不涉及多核计算机芯片的文档。我们将此称为两级分类。也称为使用常设查询的分类路由或滤波。

规则捕获表示类的关键字的特定组合。手工编码规则具有良好的扩展属性，但随着时间的推移创建和维护它们是劳动密集型的。技术熟练的人（例如，擅长编写正则表达式的领域专家）可以创建规则集，这些规则集将与我们将在稍后讨论的自动生成的分类器的准确性相媲美或超过其准确性;但是，很难找到具有这种专业技能的人。