热线电话:13121318867

登录
2020-11-05 阅读量: 671
Overstemming和Understemming两个错误如何制止?

问题详述:Overstemming和Understemming两个错误如何制止?


解答:
Overstemming和Understemming这两个错误可以使用NLTK来制止 。当两个词被引导到具有不同茎的相同根时,就会发生过度干扰。当两个词被引入相同的根,而不是不同的词干时,会发生梗塞


堵塞的应用是:

  • 词干在搜索引擎等信息检索系统中使用。

  • 它用于确定域分析中的域词汇表。


词干是理想的,因为它可以减少冗余,因为大多数时候词干及其变形/派生词的含义相同。


代码:从句子中扼杀单词

# importing modules

from nltk.stem import PorterStemmer

from nltk.tokenize import word_tokenize


ps = PorterStemmer()


sentence = "Programers program with programing languages"

words = word_tokenize(sentence)


for w in words:

print(w, " : ", ps.stem(w))


输出:

Programers  :  program
program : program
with : with
programing : program
languages : languag




35.2579
0
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子
0条评论