非一般的数据挖掘机:关联规则法-CDA数据分析师官网

热线电话：13121318867

非一般的数据挖掘机:关联规则法

2016-01-29

机器学习中的许多数据挖掘"数据分析师" 方法主要是针对数值型数据的，算法也很偏向数理方法（例如支持向量机）。而分类数据（非数值型数据），其本质不过是简单的计数，针对这类数据的一个简单实用的方法就是关联规则挖掘法，谷歌的MapReduce也为这类算法提供了很好的软件构架。下面我们就来讨论一下应用关联规则法的有趣实例。

关联规则法的核心在于研究一些经常相伴发生的事件之间的关系，特别是当他们同时发生的频率远远超出预期时。它最早被用于超市销售，因此又被称为市场购物篮分析法。举一个数据挖掘教科书中的关于啤酒和尿布关联性的经典案例－去超市买啤酒的男人同时也经常买尿布。假如超市销售量有如下数据：

总销售量：600000

尿布销售量：7500（1.25%）

啤酒销售量：60000（10%）

尿布和啤酒共同销售量：6000（1%）

如果啤酒和尿布之间没有关联的话（即他们之间是统计上独立的），那么按照啤酒在总销售量中的比例来计算，我们预计只有10%的尿布购买者也会买啤酒。但实际情况却是80%（＝6000/7500）的尿布购买者都购买了啤酒，是我们预计的8倍。这个值在关联规则法中被称作电梯值（Lift），即事件X和Y实际同时发生的频率和预期同时发生的频率之间的比例（Lift=P(x,y)/[P(x)P(y)]）。如果事件X和Y相互独立，那么 P(x,y)=P(x)P(y),相应的电梯值即为1。而如果X和Y是互斥事件，则会产生小于1 的电梯值。在这个案例中，关联规则的结论就是尿布购买者也会购买啤酒的电梯值是8。

以上是一个假设的案例，如此高的电梯值在实际生活中非常罕见，但也绝非不可能。2004年佛罗里达州经历了一系列飓风。第一场飓风之后，沃尔玛利用了他们大量的销售数据来研究顾客在飓风来临之前会买什么。他们发现一个商品的销售量是平时的7倍，这个电梯值在现实生活中非常高的。这个商品既不是瓶装水，也不是电池，啤酒，手电筒，发电机等等，而是草莓果酱吐司饼干！吐司饼干之所以在飓风来临之前销量大增也许是因为它不需要冰箱保存，不需要烹饪，而且独立包装，保质期很长，同时本来大家也都很喜欢它。

尽管这个发现有些出乎意料，但是沃尔玛利用关联规则的分析补货了大量的草莓吐司饼干，创造了一个双赢的结果－沃尔玛大大增加了销量，顾客买到了满意的商品。还有一个大型电子商品零售店也成功地利用关联规则法增加了商品销量。商家"数据分析师"根据零售数据，发现许多购买播放器和录影机的顾客会在3-4个月后购买摄影机。于是利用这个关系，商家会给所有购买播放器或者录影机的顾客几个月后邮寄摄影机折扣券，由此来吸引更多顾客购买摄影机。

除了商业营销，关联规则法在科学研究上也有很多应用。乔治梅森大学的一位地质信息教授利用关联规则研究了飓风的内部风速，风眼气压，风切变，降雨量，方向和速度等等因素和飓风最终等级之间的关系，最后成功建立了新的模型可以更精确地预测飓风的等级。还有一位在美国国家航天中心实习的高中生利用关联规则法研究了太阳风暴之后太阳高能粒子到达地球的时间关系。他利用卫星收集到的太阳风暴之后太阳和地球磁场的一些特征因素数据，探究了两者之间关系随时间的变化，即在太阳风暴一小时，两小时，三小时，四小时后，地球磁场的活跃度变化。结果发现在太阳风暴后2-3小时左右地球磁场最活跃，即太阳高能粒子到达地球的时间。

以上这些例子向我们展示了在做大数据挖掘时两个重要方法：研究非数值型数据时，我们在挖掘因果关系之前，可关注事件之间的关联性；如果数据在随时间变化，注意事件之间的关联是否会在某个时间点达到最强。现今越来越多的数据被大量收集，科技平台也越来越发达，许多事物之间意想不到的关联正等待我们发现。那么就让我们从计数开始吧！数据分析师培训

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；