登录
首页精彩阅读关联分析算法:fp-growth算法的简单介绍
关联分析算法:fp-growth算法的简单介绍
2020-05-19
收藏
FP-Growth使用了一种特殊的分治策略,将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息。

这种关联分析算法的概念由韩嘉炜等人在2000年提出,在FP-Growth算法中使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构。

FP-tree是一种特殊的前缀树,由频繁项头表和项前缀树构成。FP-Growth算法基于以上的结构加快整个挖掘过程。

有关FP-Growth算法的知识点:

FP-Tree:将事务数据表中的各个事务数据项按照支持度排序后,把每个事务中的数据项按降序依次插入到一棵以 NULL为根结点的树中,同时在每个结点处记录该结点出现的支持度。

条件模式基:包含FP-Tree中与后缀模式一起出现的前缀路径的集合

条件树:将条件模式基按照FP-Tree的构造原则形成的一个新的FP-Tree

FP-Growth算法的基本思路:不断地迭代FP-tree的构造和投影过程

FP-Growth算法的分解:

1、对于每个频繁项,构造它的条件投影数据库和投影FP-tree。

2、对每个新构建的FP-tree重复这个过程,直到构造的新FP-tree为空,或者只包含一条路径。

3、当构造的FP-tree为空时,其前缀即为频繁模式;当只包含一条路径时,通过枚举所有可能组合并与此树的前缀连接即可得到频繁模式。

数据分析咨询请扫描二维码

客服在线
立即咨询