关联分析算法：fp-growth算法的简单介绍-CDA数据分析师官网

热线电话：13121318867

关联分析算法：fp-growth算法的简单介绍

2020-05-19

FP-Growth使用了一种特殊的分治策略，将提供频繁项集的数据库压缩到一棵频繁模式树（FP-tree），但仍保留项集关联信息。

这种关联分析算法的概念由韩嘉炜等人在2000年提出，在FP-Growth算法中使用了一种称为频繁模式树（Frequent Pattern Tree）的数据结构。

FP-tree是一种特殊的前缀树，由频繁项头表和项前缀树构成。FP-Growth算法基于以上的结构加快整个挖掘过程。

有关FP-Growth算法的知识点：

FP-Tree：将事务数据表中的各个事务数据项按照支持度排序后，把每个事务中的数据项按降序依次插入到一棵以 NULL为根结点的树中，同时在每个结点处记录该结点出现的支持度。

条件模式基：包含FP-Tree中与后缀模式一起出现的前缀路径的集合

条件树：将条件模式基按照FP-Tree的构造原则形成的一个新的FP-Tree

FP-Growth算法的基本思路：不断地迭代FP-tree的构造和投影过程

FP-Growth算法的分解：

1、对于每个频繁项，构造它的条件投影数据库和投影FP-tree。

2、对每个新构建的FP-tree重复这个过程，直到构造的新FP-tree为空，或者只包含一条路径。

3、当构造的FP-tree为空时，其前缀即为频繁模式；当只包含一条路径时，通过枚举所有可能组合并与此树的前缀连接即可得到频繁模式。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；