即席检索和文本分类中的默认设置是使用术语作为功能。然而,对于文本分类,通过设计适合于特定问题的附加特征,可以实现大量的里程。与IR查询语言的情况不同,由于这些特征是分类器的内部特征,因此将这些特征传递给最终用户没有问题。这个过程通常被称为 特色工程。目前,特征工程仍然是一种人工技术,而不是机器学习所做的事情。良好的特征工程通常可以显着提高文本分类器的性能。它在文本分类的一些最重要的应用中特别有用,例如 垃圾邮件 和 色情 过滤。
分类问题通常包含大量可以方便地分组的术语,并且在文本分类问题中具有类似的投票。典型的例子可能是年份提及或感叹号串。或者他们可能是更专业的令牌,如ISBN或化学公式。通常,直接在分类器中使用它们会大大增加词汇量而不提供分类能力,除了知道存在化学式之外。在这种情况下,通过将这些项与正则表达式匹配并将它们转换为可分辨的标记,可以减少特征的数量和特征稀疏性。因此,通常会提高效率和分类器速度。有时所有数字都会转换为单个功能,但通常可以通过区分不同类型的数字来获得一些价值,例如四位数(通常是年数)与其他基数相比实数小数点。类似的技术可以应用于日期,ISBN号,体育比赛得分等。
从另一个方向来看,通过匹配单词的部分来增加特征的数量,以及通过匹配特别具有辨别力的所选多字模式通常是有用的。单词的一部分通常与字符图特征匹配 。当部署分类器时,这些特征可以特别擅长为其他未知单词提供分类线索。例如,即使在训练数据中没有看到,以-rase结尾的未知单词也可能是一种酶。良好的多字模式通常通过寻找独特常用词对(也许用文字之间的相互信息准则,以类似的方式在其使用节找到 ,然后使用针对类评估的特征选择方法。当化合物的组分本身会误导为分类线索时,它们是有用的。例如,如果关键字种族最能指示食品和艺术类别,关键字清洗最能表明类别家庭,那么就是这种情况 ,但搭配种族清洗代表了类别世界新闻。一些文本分类器也使用来自的功能命名实体识别器。
词干和小写(词汇)等技术是否有助于文本分类?与往常一样,最终测试是对适当的测试集合进行的实证评估。但是,注意到这些技术对分类有用的可能性更大是有用的。对于IR,您经常需要折叠像含氧化合物和 氧合作用这样的单词形式,因为文档中任何一个的出现都是一个很好的线索,文档将与有关氧合作用的查询相关。鉴于大量的培训数据,词干不一定对文本分类没有任何价值。如果一起形成的几种形式具有相似的信号,则为所有这些形式估计的参数将具有相似的权重。像词干这样的技术只能帮助补偿数据稀疏性。这可以是一个有用的角色,但通常不同形式的单词可以传达关于正确文档分类的显着不同的线索。过度侵略性的堵塞很容易降低分类性能。








暂无数据