热线电话:13121318867

登录
2019-01-18 阅读量: 769
python如何词干化

词干化是指词形还原,是将单词的不同变形形式组合在一起的过程,因此可以将它们作为单个项目进行分析。词形简化类似于词干,但它为词语带来了语境。因此它将具有相似含义的词链接到一个词。

词形还原的应用是:

  • 用于搜索引擎等综合检索系统。
  • 用于紧凑索引
词形还原的例子:

- >岩石:摇滚
- >语料库:语料库
- >更好:好

与词干化的一个主要区别是词形变换需要一个词性参数,“pos”如果没有提供,则默认为“名词”。

以下是使用NLTK实现词形还原词:

# import these modules

from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

print("rocks :", lemmatizer.lemmatize("rocks"))

print("corpora :", lemmatizer.lemmatize("corpora"))

# a denotes adjective in "pos"

print("better :", lemmatizer.lemmatize("better", pos ="a"))

0.0000
1
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子