2019-01-18
阅读量:
769
python如何词干化
词干化是指词形还原,是将单词的不同变形形式组合在一起的过程,因此可以将它们作为单个项目进行分析。词形简化类似于词干,但它为词语带来了语境。因此它将具有相似含义的词链接到一个词。
词形还原的应用是:
- 用于搜索引擎等综合检索系统。
- 用于紧凑索引
词形还原的例子:
- >岩石:摇滚
- >语料库:语料库
- >更好:好
与词干化的一个主要区别是词形变换需要一个词性参数,“pos”如果没有提供,则默认为“名词”。
以下是使用NLTK实现词形还原词:
# import these modules
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
print("rocks :", lemmatizer.lemmatize("rocks"))
print("corpora :", lemmatizer.lemmatize("corpora"))
# a denotes adjective in "pos"
print("better :", lemmatizer.lemmatize("better", pos ="a"))






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论