2019-01-16
阅读量:
1736
python如何使用NLTK进行词形还原(1)
用NLTK进行词形还原
词形还原是将单词的不同变形形式组合在一起的过程,因此可以将它们作为单个项目进行分析。词形简化类似于词干,但它为词语带来了语境。因此它将具有相似含义的词链接到一个词。
文本预处理包括词干化和词形还原。很多时候人们发现这两个词令人困惑。有些人认为这两者是一样的。实际上,词典化比词干化更受欢迎,因为词形还原会对词语进行形态分析。
词形还原的应用是:
- 用于搜索引擎等综合检索系统。
- 用于紧凑索引
词形还原的例子:
- >岩石:岩石
- >语料库:语料库
- >更好:好
与词干化的一个主要区别是词形变换需要一个词性参数,“pos”如果没有提供,则默认为“名词”。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论