2018-11-30
阅读量:
886
文本分类运用在哪?
一个类不必像常设查询多核计算机芯片那样集中精力。通常,课程是一个更普遍的学科领域,如中国或咖啡。这种更通用的类通常被称为 然后调用主题和分类任务 文字分类, 文本分类, 主题分类,或 主题发现。常设查询和主题的特异性程度不同,但解决路由,过滤和文本分类的方法基本相同。因此,我们在本章和后续章节中包括文本分类标题下的路由和过滤。
的概念 分类非常通用,并且在信息检索(IR)内外具有许多应用。例如,在计算机视觉中,可以使用分类器将图像划分为诸如风景,肖像和两者之类的类。我们将重点放在信息检索的例子上,例如:
- 索引所需的几个预处理步骤,检测文档的编码(ASCII,Unicode UTF-8等); 分词(两个字母之间的空格是否为单词边界); truecasing; 并识别文件的语言。
- 自动检测 垃圾邮件 页面(然后不包含在搜索引擎索引中)。
- 自动检测 色情内容(仅当用户关闭安全搜索等选项时才包含在搜索结果中)。
- 情绪检测 或电影或产品评论的自动分类为正面或负面。示例应用程序是用户在购买相机之前搜索负面评论以确保其没有不期望的特征或质量问题。
- 个人 邮件分类。用户可能具有诸如谈话公告,电子账单,来自家人和朋友的电子邮件等的文件夹,并且可能希望分类器对每个传入的电子邮件进行分类并自动将其移动到适当的文件夹。在排序文件夹中查找邮件比在非常大的收件箱中查找邮件更容易。这个应用程序最常见的情况是a 包含所有可疑垃圾邮件的垃圾邮件文件夹
- 主题特定或垂直搜索。 垂直搜索引擎 限制搜索特定主题。例如,查询计算机科学在垂直搜索引擎上的主题中国将返回一个中国计算机科学系列表,其精度和召回率高于查询计算机科学中国的通用搜索引擎。这是因为垂直搜索引擎在其索引中不包含含有不同意义上的术语中的网页(例如,指的是硬白陶瓷),但是包括相关页面,即使他们没有明确提到中国一词。
- 最后,即席信息检索中的排名功能也可以基于文档分类器
该列表显示了IR中分类的一般重要性。今天的大多数检索系统包含使用某种形式的分类器的多个组件。我们将在本书中使用的分类任务是文本分类。
计算机不是分类所必需的。传统上,许多分类任务都是手动解决的。图书馆的书籍由图书管理员分配给国会图书馆。但手动分类的规模很大。多核计算机芯片示例说明了一种替代方法:使用常设查询进行分类 - 可以将其视为 规则 - 最常用手写。如我们的示例(多核或多核)和(芯片或处理器或微处理器),规则有时等同于布尔表达式。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论