2020-04-13
阅读量:
613
分词的包可不可以不用默认的,而使某些特定的词不会被分词分开?
Jieba分词支持开发者使用自定定义的词典,以便包含jieba词库里没有的词语。虽然结巴有新词识别能力,但自行添加新词可以保证更高的正确率,尤其是专有名词。
添加方式如下:
jieba.load_userdict(file_name) #file_name为自定义词典的路径
词典格式和dict.txt一样,一个词占一行,每一行分三部分,第一部分为词语,中间部分为词频,最后部分为词性(可省略,ns为地点名词),用空格隔开。
只需要将自定义的一些词放到文本文档中,再利用上面方法添加到jieba就可以了






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论