简单理解文本挖掘的定义与过程-CDA数据分析师官网

热线电话：13121318867

简单理解文本挖掘的定义与过程

2020-07-02

文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识，并且利用这些知识更好地组织信息的过程。

文本挖掘指的是从文本数据中获取有价值的信息和知识，它是数据挖掘中的一种方法，主要用途是从原本未经处理的文本中提取出未知的知识。文本挖掘中最重要最基本的应用是实现文本的分类和聚类，前者是有监督的挖掘算法，后者是无监督的挖掘算法。

但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂领域,涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术。

文本挖掘的独特表现：文档本身是半结构化或非结构化的，无确定形式并且缺乏机器可理解的语义。对比数据挖掘，数据挖掘以数据库中的结构化数据为主要对象，并利用关系表等存储结构来发现知识。这就需要特殊注意了，有些数据挖掘技术并不适用于文本挖掘，即使能够使用，也需要在对文本集预处理的基础上进行。

文本挖掘过程：

第一步：一般确定的大量文本数据才是适合应用的文档。文档聚类方法经常用语解决“大量”这个问题。这些方法是非监督的学习方法，最受欢迎的文档聚类方法是K-means聚类和凝聚层次聚类。

第二步：文本是被清洗过的——1.将数据从网页上的广告中拆离出来;标准化文本从二进制格式转换而来;表、数字等式都是经过处理的;还有其它的等等。然后，将文本中的词语与对应的词类标记的步骤开始进行。之后，一个词语在依据给定的话句子中所含有的拥有的许多不同的含义确定了。最后，明确语义结构。

第三步：这些词语(特征)决定了文本表示。最基本的文档表示方法有词袋法和向量空间。这些方法的目标在于确定哪些特征可以最好的描述一个文档。

第四步：特征的维度被降低。为此，无关的属性将被移除。

第五步：文本挖掘过程与传统的数据挖掘过程结合。经典的数据挖掘技术如聚类，分类，决策树，回归分析，神经网络和近邻取样将被用在之前的阶段所得到的结构化数据库上。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

文本挖掘数据挖掘特征有监督层次聚类神经网络决策树无监督

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇echarts—一款实用的百度开源绘图工具

下一篇数据倾斜解决优化方法有哪些？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

简单理解文本挖掘的定义与过程

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】OSM指标体系：自上而下拆解逻辑、搭建流 ...

【CDA干货】选择统计方法前最重要的核心工作：避免9 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载