登录
首页大数据时代NLP自然语言处理基础概念的理解与介绍
NLP自然语言处理基础概念的理解与介绍
2020-07-13
收藏

NLP(Natural Language Processing)自然语言处理是数据科学领域的一个非常重要的分支,它包含了,以一种高效的方式去分析,理解并从文本中提取信息等重要过程,终极目标是让计算机拥有自然语言处理交际能力。通过利用NLP及其相关组件,可以将大量的文本数据组织起来,以此来执行大量的自动化任务,并用于各种问题的解决,例如自动摘要,命名实体识别,情感分析,关系提取,语音识别、机器翻译和主题分割等。

NLP自然语言处理和计算机语言学,这两者在本质上是一样的,横跨了计算机科学、语言学、人工智能学科等学科。

一、NLP步骤

1、形态处理:

目的为:分割整个输入的文本,形成各种符号集合。这些符号分别与段落、句子及词汇等一一对应。

例:“uneasy”—>“un-easy”。这里“uneasy”就被分割成两个子词符号“un”和“easy”

2、语法分析:

目的为:a、检查句子,确定句式是否合理;b、把句子分解成一个结构,此结构能够将不同单词之间的句法关系显示出来。

例:“The school goes to the boy”这样的会无法通过句法分析器以及句法解释器。

3、语义分析:

确定输入文本的准确含义,或者找出输入文本在字典中的意思。目的为,检查文本是否有意义。

例:“Hot ice-cream”无法通过语义分析器。

4、语用分析:

语用分析简单地拟合实际的对象/事件,这些对象/事件存在于给定的上下文中,其中对象引用是在最后阶段(语义分析)获得的。

例如:“Put the banana in the basket on the shelf”这句话可以有两种语义解释:a把篮子里的香蕉放到书架上;b把香蕉放到书架上的篮子里。语用分析器能够结合上下文在这两种解释之间做出选择。

二. NLP的基本方法

1.基于规则的方法

研究人员,例如如语言学家,通过语言规律的总结,从而形成规则形态的知识库;

研制语言处理算法,并利用这些规则处理自然语言;

结合处理结构,进行规则调整,优化处理效果。

存在的问题:并不能总结出所有规则

2.基于统计的方法

建立能够反应语言使用状况的语料库;

研究人员对自然语言进行统计建模;

利用统计技术或者机器学习技术,借助语料库来进行语言模型的训练;

根据所得到的模型,设计相应算法对语言进行处理;

根据处理效果,优化模型,提高处理能力。

存在的问题:数据稀疏问题也就是长尾效应

数据分析咨询请扫描二维码

客服在线
立即咨询