电商数据挖掘之关联算法(2)数据分析师-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读电商数据挖掘之关联算法(2)数据分析师

电商数据挖掘之关联算法(2)数据分析师

2015-01-07

电商数据挖掘之关联算法(2)数据分析师

在数据挖掘过程中，由于数据存在分散性和偶然性，因而在底层的数据关联上很难准确挖掘出强关联规则，进而也很难为我们决策提供参考。通常的解决的方案通常是引入概念层次，在较高的层次上，我们就可以通过“支持度和置信度”的框架来挖掘多层关联规则。

　　在《电商数据挖掘之关联算法(一)：“啤酒＋尿布”的关联规则是怎么来的》，我们介绍了关联规则的基本概念，这一期则以数据实例来看最著名的Apriori关联算法的演算过程。

　　从一家公司的销售记录中我们找到以下8条消费记录，并以3作为最小支持度，也就是说出现频率在3次以下的记录是被我们所忽略的。

　　所有满足最小支持度3的1项频集如下，其中的支持度是指该产品在整个数据集中出现的次数。比如牛奶出现了5次，而冰淇淋出现了3次。

　　递归执行，所有满足最小支持度3的2项频集如下，这其中出现最多的频集是｛牛奶，面包｝和｛面包，果酱｝，各自出现了4次。

　　再次递归执行，所有满足最小支持度3的3项频集只剩下一条：

　　那么｛牛奶，果酱，面包｝就是我们要的满足最小支持度3的3项频集，也就是说牛奶、果酱和面包这三个商品是最经常被一起购买的。

　　概念层次的数据挖掘

　　在研究挖掘关联规则的过程中，许多学者发现在实际应用中，对于很多应用来说，由于数据分布的分散性，数据比较少，所以很难在数据最细节的层次上发现一些强关联规则。要想在原始的概念层次上发现强的(strong)和有意义的(interesting)关联规则是比较困难的，因为好多项集往往没有足够的支持数。

　　当我们引入概念层次后，就可以在较高的层次上进行挖掘。虽然较高层次上得出的规则可能是更普通的信息，但是对于一个用户来说是普通的信息，对于另一个用户却未必如此。所以数据挖掘应该提供这样一种在多个层次上进行挖掘的功能。

　　概念层次在要挖掘的数据库中经常是存在的，比如在一个超市中会存在这样的概念层次：蒙牛牌牛奶是牛奶，伊利牌牛奶是牛奶，王子牌饼干是饼干，康师傅牌饼干是饼干等。

　　如果我们只是在数据基本层发掘关系，｛蒙牛牌牛奶，王子牌饼干｝，｛蒙牛牌牛奶，康师傅牌饼干｝，｛伊利牌牛奶，王子牌饼干｝，｛伊利牌牛奶，康师傅牌饼干｝都不符合最小支持度。不过如果我们上升一个层级，会发现｛牛奶，饼干｝的关联规则是有一定支持度的。

　　我们称高层次的项是低层次项的父亲层次(parent)，这种概念层次关系通常用一个DAG(directed acyclic graph，有向无环图)来表示。所谓有向无环图是指，任意一条边有方向，且不存在环路的图。这样我们就可以在较高的概念层次上发现关联规则。

　　支持度的设置策略

　　根据规则中涉及的层次和多层关联的规则，我们可以把关联规则分为同层关联规则和层间关联规则。多层关联规则的挖掘基本上可以沿用“支持度—置信度”的框架。不过，在支持度设置的问题上有一些要考虑的东西。

同层关联规则可以采用两种支持度策略：

　　统一的最小支持度。对于不同的层次，都使用同一个最小支持度。这样对于用户和算法实现来说都比较容易，但是弊端也是显而易见的。

　　递减的最小支持度。每个层次都有不同的最小支持度，较低层次的最小支持度相对较小。同时还可以利用上层挖掘得到的信息进行一些过滤的工作。层间关联规则考虑最小支持度的时候，应该根据较低层次的最小支持度来定。

　　以上我们讨论的基本上都是同一个字段的值之间的关系，比如用户购买的物品。换句话说就是在单维或者叫维内的关联规则，这些规则很多都是在交易数据库中挖掘的。

　　但是对于实际应用来说，多维的关联规则可能是更加有价值的。

　　同时，在挖掘维间关联规则和混合维关联规则的时候，还要考虑不同的字段种类，是分类型数据还是数值型数据等等。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

关联规则数据挖掘字段 Apriori 数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

电商数据挖掘之关联算法(2)数据分析师

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载