热线电话:13121318867

登录
2018-11-29 阅读量: 909
python规范化的术语

将我们的文档(以及我们的查询)分解为标记后,最简单的情况是查询中的标记是否与文档的标记列表中的标记匹配。但是,在很多情况下,两个字符序列不完全相同,但您希望匹配发生。例如,如果您搜索美国,您可能希望也匹配包含USA的文档。

令牌标准化 是规范化令牌的过程,以便尽管令牌的字符序列存在表面差异,但仍会发生匹配。

标准化的最标准方法是隐式创建 等价类,通常以集合的一个成员命名。例如,如果令牌反歧视和反歧视都被映射到反歧视一词,在文档文本和查询中,则搜索一个术语将检索包含其中任何一个的文档。

仅使用删除像连字符这样的字符的映射规则的优点是要完成的等价分类是隐式的,而不是事先完全计算:由于这些规则的结果恰好相同的术语是等价类。编写这种删除字符的规则很容易。由于等价类是隐式的,因此当您想要添加字符时并不明显。例如,很难知道将反歧视变为反歧视。

创建等价类的另一种方法是维护非标准化标记之间的关系。这种方法可以扩展到手工构建的同义词列表,如汽车汽车,这些术语关系可以通过两种方式实现。通常的方法是索引非标准化令牌并维护多个词汇表条目的查询扩展列表,以考虑某个查询词。然后,查询术语实际上是几个帖子列表的分离。另一种方法是在指数构建期间执行扩展。当文档包含汽车时,我们也将它在汽车下编入索引(通常,反之亦然)。使用这些方法中的任何一种都比等效分类效率低得多,因为存储和合并的帖子更多。第一种方法添加查询扩展字典,在查询时需要更多处理,而第二种方法需要更多空间来存储帖子。传统上,扩大帖子列表所需的空间被认为更不利,这些方法比等价类更灵活,因为扩展列表可以重叠而不是相同。

0.0000
2
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子