热线电话:13121318867

登录
2019-02-13 阅读量: 648
NLTK如何制止错误

制止错误:


主要有在制止两个错误- OverstemmingUnderstemming。当两个词被引导到具有不同茎的相同根时,就会发生过度干扰。当两个词被引入相同的根,而不是不同的词干时,会发生梗塞

堵塞的应用是:

  • 词干在搜索引擎等信息检索系统中使用。
  • 它用于确定域分析中的域词汇表。

词干是理想的,因为它可以减少冗余,因为大多数时候词干及其变形/派生词的含义相同。

代码:从句子中扼杀单词

# importing modules

from nltk.stem import PorterStemmer

from nltk.tokenize import word_tokenize

ps = PorterStemmer()

sentence = "Programers program with programing languages"

words = word_tokenize(sentence)

for w in words:

print(w, " : ", ps.stem(w))

输出:

Programers  :  program
program : program
with : with
programing : program
languages : languag

7.1474
1
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子