热线电话:13121318867

登录
2020-04-13 阅读量: 613
分词的包可不可以不用默认的,而使某些特定的词不会被分词分开?

Jieba分词支持开发者使用自定定义的词典,以便包含jieba词库里没有的词语。虽然结巴有新词识别能力,但自行添加新词可以保证更高的正确率,尤其是专有名词。

添加方式如下:

jieba.load_userdict(file_name) #file_name为自定义词典的路径

词典格式和dict.txt一样,一个词占一行,每一行分三部分,第一部分为词语,中间部分为词频,最后部分为词性(可省略,ns为地点名词),用空格隔开。

只需要将自定义的一些词放到文本文档中,再利用上面方法添加到jieba就可以了

14.6295
3
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子