文本挖掘主要涉及哪些步骤？

詹惠儿

2018-11-19 阅读量: 1097

文本挖掘主要涉及哪些步骤？

假设您有一个包含产品描述的数据集。并且，要求您从给定描述中提取特征。你会如何开始理解它？原始文本数据（描述）将通过几个清理阶段进行过滤，以转换为表格格式进行分析。我们来看看一些步骤：

语料库创建 - 它涉及创建包含文档和术语（或标记）的矩阵。文档可以被理解为每行具有产品描述并且每列具有术语。术语是指说明中的每个单词。通常，语料库中的文档数等于给定数据中的行数。
文本清理 - 它涉及以下列方式清理文本：

3. 特征工程 - 用于减少因文本数据提供的广泛可能性的新函数的维度

4. 模型构建 - 在原始数据通过上述所有步骤后，它就可以进行模型构建。如上所述，并非所有ML算法在文本数据上都表现良好。众所周知，朴素贝叶斯能够为文本数据提供高精度。此外，深度神经网络模型也表现得相当好。

0.0000

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子