詹惠儿

2018-11-19   阅读量: 596

数据分析师 自然语言

文本挖掘主要涉及哪些步骤?

扫码加入数据分析学习群

假设您有一个包含产品描述的数据集。 并且,要求您从给定描述中提取特征。 你会如何开始理解它? 原始文本数据(描述)将通过几个清理阶段进行过滤,以转换为表格格式进行分析。 我们来看看一些步骤:

  1. 语料库创建 - 它涉及创建包含文档和术语(或标记)的矩阵。 文档可以被理解为每行具有产品描述并且每列具有术语。 术语是指说明中的每个单词。 通常,语料库中的文档数等于给定数据中的行数。
  2. 文本清理 - 它涉及以下列方式清理文本:
    • 删除单词 - 如果使用Web抓取提取数据,您可能需要删除html标记。
    • 删除停用词 - 停用词是一组有助于句子构造并且没有任何真实信息的词。 诸如a,an,the,they等词语被归类为停用词。
    • 转换为较低 - 保持所有文本的标准化并消除大小写差异并将整个文本转换为较低的文本。
    • 删除标点符号 - 我们删除标点符号,因为它们不提供任何信息。
    • 删除数字 - 同样,我们从文本中删除数字
    • 删除空格 - 然后,我们删除文本中使用的空格。
    • 词干和词形还原 - 最后,我们将术语转换为它们的根形式。 例如:播放,播放,播放等词语会转换为词根“播放”。 它有助于准确捕捉术语的意图。

3. 特征工程 - 用于减少因文本数据提供的广泛可能性的新函数的维度

4. 模型构建 - 在原始数据通过上述所有步骤后,它就可以进行模型构建。 如上所述,并非所有ML算法在文本数据上都表现良好。 众所周知,朴素贝叶斯能够为文本数据提供高精度。 此外,深度神经网络模型也表现得相当好。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 2 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子