田齐齐

2020-03-27   阅读量: 1587

机器学习

怎么理解关联规则中最小支持度和最小置信度?

扫码加入数据分析学习群

Apriori算法有支持度和置信度两个概念,都是在执行算法之前自己设定的,在每一次迭代过程后,大于支持度的项集被保留为频繁项集,最后生成的规则由最终的频繁项集组成。

一、支持度

支持度就是所有我们分析的交易中,某两种(若干种)商品同时(这里的同时,一般意味着同单或者一次独立的交易)被购买的概率(比率)。我们选择支持度的最终目的就是找出同时被购买的两个商品,可以提高我们的推荐转换率,从而增加收入。那么可以选出支持度最高的前n对(以下分析仅考虑两种商品,简称“对”)商品,我通常是选择总对数的万分之一或者是前20个。这样的数量不会很多,可以比较快的进行下一步分析,而且做推荐,要记住一点,“不能急功近利”。

根据万分之一或者前20,可以得到一个支持度,其实这个时候的支持度阀值,对本次分析已经意义不大了,主要是用于后续推荐系统的智能学习提供一个参考值。

二、置信度

置信度就是根据某一个条件,得到一个结论的可信程度、可靠程度。例子中,“购买了尿布”这个条件,可以推出“同时也会购买啤酒”这个结论的可靠程度很高,百度百科关联规则_百度百科 中分析的数据表明沃尔玛尿布到啤酒的置信度高达70%。

在分析支持度得到的前20对商品中,分别计算双向置信度(购买a同时购买b和购买b同时购买a的置信度都要算),然后筛选中前n个置信度较高的置信度,分析其对应的结论。通过有经验的业务人员,从中共同选出最合理的一对商品,来进行单向的购物车推荐。这时得到的一个置信度,可以作为今后机器学习的参考值。

原文链接:https://www.zhihu.com/question/22574269/answer/22227427

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
6.3232 6 1 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子