文本挖掘中使用的特征工程技术是什么？

詹惠儿

2018-11-19 阅读量: 1158

文本挖掘中使用的特征工程技术是什么？

你知道你正在阅读的这一行的每个单词都可以转换成一个函数吗？是的，你听错了。文本数据提供了广泛的可能性来生成新函数。但有时候，我们最终会产生很多功能，在某种程度上处理它们会变成一项痛苦的任务。因此，我们应该仔细分析提取的特征。别担心！下面解释的方法也有助于减少结果数据集的维度。

以下是使用的常用功能工程方法列表：

1. n-gram ：在文档语料库中，1个单词（如婴儿，游戏，饮料）被称为1克。同样地，我们可以有2克（婴儿玩具，游戏台，钻石戒指），3克等。这种技术背后的想法是探索当一个或两个或多个单词一起出现时给模型提供更多信息的机会。。

2. TF - IDF ：它也称为术语频率 - 反向文档频率。该技术认为，从文档语料库中，学习算法从很少出现的术语获得比经常出现的术语更多的信息。使用加权方案，此技术有助于评估术语的重要性。经常发生的术语加权较低，并且发生的术语很少被加权。 * TF计算为：文档中术语的频率/文档中的所有术语。 * IDF计算如下：log的比率（语料库中的文档总数/文档数量与语料库中的'term'）*最后，TF-IDF计算如下：TF X IDF。幸运的是，R拥有可以进行这些计算工作的软件包

3. 余弦相似度 - 此度量有助于查找类似文档。它是文本分析中常用的距离度量之一。对于给定的2个长度为n的向量A和B，余弦相似度可以计算为两个单位向量的点积：

4. Jaccard相似性 - 这是文本分析中使用的另一个距离度量。对于给定的两个向量（A和B），可以将其计算为（在任一向量中可用的两个向量/项中可用的项的比率）。它的公式是：（A∩B）/（AUB）。要使用距离度量创建要素，首先我们将创建类似文档的集群，并为新列中的每个文档指定唯一标签。

5. Levenshtein距离 - 我们也可以使用levenshtein距离根据两个弦之间的距离创建一个新特征。我们不会进入其复杂的公式，但要理解它的作用：它在较长的文本中找到较短的字符串，如果找到较短的字符串则返回最大值1。例如：计算字符串“Alps Street 41”和“1st Block，Alps Street 41”的levenshtein距离将导致1。

6. 特征散列 - 这种技术实现了“散列技巧”，有助于减少文档矩阵（较小列）的维度。它不使用实际数据，而是使用数据的索引[i，j]，因此它仅在需要时处理数据。而且，这就是它在计算中占用较少内存的原因。