2018-10-26
阅读量:
891
Python结巴中文分词
结巴分词(Jieba)是python中一个比较常用的中文分词包,功能包括:中文分词、词性标注、未登录词识别等。
一、结巴分词下载与安装
1、下载结巴分词(jieba)
官方下载地址:https://pypi.python.org/pypi/jieba/
2、将下载好的ZIP包,解压缩到新建文件夹中
3、进入Windows下cmd命令框,输入如下命令
C:\Users\Admin>e:
E:\>cd 新建文件夹
E:\新建文件夹>cd jieba-0.38
D:\新建文件夹\jieba-0.38>python setup.py install
#=========== 安装完成 ============#
二、结巴中文分词基础应用
结巴分词共支持如下三种分词模式:
精确模式 也是最常用的模式,适合文本分析;
全模式 把句子中所有的可以组成词的词语都切分出来;
搜索引擎模式 在精确模式的基础上,对长词再次切分,从而提高召回率;
import jieba
text="小明硕士毕业于中国科学院计算所,后在日本京都大学深造"
seg_list = jieba.cut(text, cut_all = False)
print("Precise Mode: " + "/".join(seg_list)) #精确模式
seg_list = jieba.cut(text, cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut_for_search(text) #搜索引擎模式
print("Search Mode: " + "/".join(seg_list))Python执行结果:
Precise Mode: 小明/硕士/毕业/于/中国科学院/计算所/,/后/在/日本京都大学/深造
Full Mode: 小/ 明/ 硕士/ 毕业/ 于/ 中国/ 中国科学院/ 科学/ 科学院/ 学院/ 计算/ 计算所/ / / 后/ 在/ 日本/ 日本京都大学/ 京都/ 京都大学/ 大学/ 深造
Search Mode: 小明/硕士/毕业/于/中国/科学/学院/科学院/中国科学院/计算/计算所/,/后/在/日本/京都/大学/日本京都大学/深造






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论