詹惠儿

2018-11-29   阅读量: 907

数据分析师 Python编程 Python数据分析 Python爬虫

去停用词是什么?

扫码加入数据分析学习群

有时,一些非常常见的单词在帮助选择符合用户需求的文档时似乎没什么价值,它们完全被排除在词汇表之外。这些话被称为停止说话。确定停止列表的一般策略是对术语进行排序收集频率(每个术语在文档集合中出现的总次数),然后采用最频繁的术语,通常手动过滤其相对于被索引的文档的域的语义内容,作为停止列表,然后在索引期间丢弃其成员。停止列表的示例如图2.5所示。使用停止列表可以显着减少系统必须存储的过帐数量;并且很多时候没有索引停止词几乎没有什么害处:使用像和by这样的术语的关键字搜索似乎没有用。但是,短语搜索不是这样。查询“美国总统”这个短语包含两个停用词,比总统和“美国”更准确。如果要删除的话,飞往伦敦的航班的意义很可能会丢失。搜索Vannevar Bush的文章如果前三个单词被停止,我们可能会认为很难,并且系统只搜索包含单词think的文档。某些特殊查询类型受到不成比例的影响。一些歌曲标题和众所周知的诗句完全由通常在停止列表上的单词组成(成为或不成为,让它成为,我不想成为......)

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 2 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子