2020-11-05
阅读量:
671
Overstemming和Understemming两个错误如何制止?
问题详述:Overstemming和Understemming两个错误如何制止?
解答:
Overstemming和Understemming这两个错误可以使用NLTK来制止 。当两个词被引导到具有不同茎的相同根时,就会发生过度干扰。当两个词被引入相同的根,而不是不同的词干时,会发生梗塞
堵塞的应用是:
词干在搜索引擎等信息检索系统中使用。
它用于确定域分析中的域词汇表。
词干是理想的,因为它可以减少冗余,因为大多数时候词干及其变形/派生词的含义相同。
代码:从句子中扼杀单词
# importing modules
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
ps = PorterStemmer()
sentence = "Programers program with programing languages"
words = word_tokenize(sentence)
for w in words:
print(w, " : ", ps.stem(w))
输出:
Programers : program
program : program
with : with
programing : program
languages : languag






评论(0)


暂无数据
推荐帖子
0条评论
1条评论
0条评论