热线电话:13121318867

登录
2019-06-20 阅读量: 908
什么是停止词?

什么是停止词?

将数据转换为计算机可以理解的内容的过程称为预处理。预处理的主要形式之一是过滤掉无用的数据。在自然语言处理中,无用的单词(数据)被称为停用词。

停用词:停用词是搜索引擎被编程为忽略的常用词(例如“the”,“a”,“an”,“in”),用于索引搜索条目和检索它们时作为搜索查询的结果。

我们不希望这些单词在我们的数据库中占用空间,或者占用宝贵的处理时间。为此,我们可以通过存储您认为是停用词的单词列表来轻松删除它们。python中的NLTK(自然语言工具包)有一个以16种不同语言存储的停用词列表。您可以在nltk_data目录中找到它们。

0.0000
2
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子