一文带你了解中文文本分类的关键技术--中文分词-CDA数据分析师官网

热线电话：13121318867

一文带你了解中文文本分类的关键技术--中文分词

2020-07-28

通常来说，计算机对于网络上存在的大量半结构化或结构化的文本数据，计算机很难直接进行处理，因此我们需要在文本分类之前对这些数据作相应的预处理。文本的预处理分为：文本分词、去除停用词、词义消歧、统计等处理。英文文本各单词之间则有代表分割的空格，而中文文本则不相同，没有词的界限，因此我们对中文文本进行分类之前，首先要进行分词处理，这也就是我今天要分享给大家的中文文本分类的关键技术--中文分词。

一、中文分词概念

中文分词，Chinese Word Segmentation)，指的是将一个汉字序列切分成一个一个单独的词。再具体解释一下：分词指的是：将连续的字序列按照一定的规范重新组合成词序列的过程，分词效果会直接对影响词性、句法树等模块的效果产生影响。当然，分词只是一个工具，随着场景的不同，要求也会随之变化。

在人机自然语言交互中，成熟的中文分词算法可以达到更好的自然语言处理效果，帮助计算机对复杂的中文语言的理解·。

目前中文分词算法有主要分为四大类：基于词典的方法，基于统计的方法，基于规则的方法，基于理解的方法。下面具体介绍一下这四种方法。

二、基于词典的方法

1.基于词典的方法，或者说是字符串匹配，机械分词方法。

定义：按照一定策略将待分析的字符串与一个“大机器词典”中的词条进行匹配，如果能在词典中找到某个字符串，那么就表示匹配成功，识别该词。

2.优缺点分析

优点：简单，很容易实现

缺点：

匹配速度较慢

存在交集型和组合型歧义切分问题

词本身并没有一个标准的定义，没有统一标准的词集

不同词典所产生的歧义不同

对于自学习的智能性比较缺乏

3.常见的基于词典的方法有：

按照扫描方向的不同：正向匹配 & 逆向匹配

按照长度的不同：最大匹配 & 最小匹配

按照是否与词性标注过程相结合：单纯分词方法 & 分词与标注相结合

(1)正向最大匹配算法(MM)

从左向右取待切分汉语句的m个字符作为匹配字段，m为大机器词典中最长词条个数

(2)逆向最大匹配算法(RMM)

该算法是正向最大匹配的逆向思维，匹配不成功，将匹配字段的最前一个字去掉，实验表明，逆向最大匹配算法要优于正向最大匹配算法。

(3)双向最大匹配法(Bi-directction Matching method,BM)

双向最大匹配法是将正向最大匹配法得到的分词结果和逆向最大匹配法的到的结果进行比较，从而决定正确的分词方法。

三、基于规则(基于语义)的分词方法

这一方法的原理为：模拟人对句子的理解，以此来达到识别词的效果。基本思想为：语义分析，句法分析，也就是通过对句法信息和语义信息来进行文本分词。

基于规则(基于语义)的分词方法能够自动推理，并完成对未登录词的补充。

语义分词法引入了语义分析，能够对自然语言本身的语言信息作更多的处理，例如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、矩阵约束法、语法分析法等。

四、基于统计的分词方法

基于统计的分词方法指的是：在给定大量已定分词的文本的前提下，通过利用统计机器学习模型学习词语切分的规律(称为训练)，从而实现对未知文本的切分。其基本思想为：上下文当中，相邻的字同时出现的次数越多，那么就越可能构成一个词。所以字与字相邻出现的概率或频率，可以比较好的反映词的可信度。

主要的统计模型有：N元文法模型(N-gram)，HMM模型(隐马尔可夫模型Hidden Markov Model ，)，最大熵模型(ME)，条件随机场模型(Conditional Random Fields，CRF)等。

1.N-gram模型思想

模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。

2.HMM模型(隐马尔可夫模型Hidden Markov Model )

根据观测值序列找到真正的隐藏状态值序列。

五、基于人工智能技术的中文分词方法(基于理解)

基于人工智能技术的中文分词方法原理为：在进行分词的同时，对句法、语义也进行分析，也就是利用句法信息和语义信息对歧义现象进行处理

一般分为三个部分：分词子系统、句法语义子系统和总控部分。

在总控部分的协调下，分词子系统能够获得有关词、句子等的句法和语义信息，并以此来对分词歧义进行判断，也就是说，它是对人理解句子过程的模拟

基于人工智能技术的中文分词需要使用大量的语言知识和信息。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

人工智能字段文本分类特征机器学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇python 为什么要有 pass 语句？

下一篇这几种常见的假设检验方法，你了解吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

一文带你了解中文文本分类的关键技术--中文分词

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少寒谈传统制造业与互联网行业数 ...

学完商业数据分析，开启 CDA 量化策略：从业务思维 ...

CDA持证人专访：赵森淼谈药企数据分析从业体验与转 ...

【CDA干货】卡方检验与T检验结果的标准化解读方法及 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载