2019-02-13
阅读量:
648
NLTK如何制止错误
制止错误:
主要有在制止两个错误- Overstemming和Understemming。当两个词被引导到具有不同茎的相同根时,就会发生过度干扰。当两个词被引入相同的根,而不是不同的词干时,会发生梗塞
堵塞的应用是:
- 词干在搜索引擎等信息检索系统中使用。
- 它用于确定域分析中的域词汇表。
词干是理想的,因为它可以减少冗余,因为大多数时候词干及其变形/派生词的含义相同。
代码:从句子中扼杀单词
# importing modules
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
ps = PorterStemmer()
sentence = "Programers program with programing languages"
words = word_tokenize(sentence)
for w in words:
print(w, " : ", ps.stem(w))
输出:
Programers : program
program : program
with : with
programing : program
languages : languag






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论