zxq997

2018-10-19   阅读量: 924

数据分析师

jieba分词贴加自定义词典

扫码加入数据分析学习群

使用一个函数:jieba.load_userdict()

只含有一个参数。参数为一个文件,文件的的编码必须为utf-8.

自定义的字典的结构要求如下:

Structure of dict file: word1 freq1 word_type1; word2 freq2 word_type2; ... ;Word type may be ignored。例如:

然后在使用之前的函数将新建的词典加入到jieba里面去。

jieba能把‘速览’一词运用到分词去。

236.7216 1 1 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子