层次聚类算法：Affinity Propogation算法学习指南-CDA数据分析师官网

热线电话：13121318867

层次聚类算法：Affinity Propogation算法学习指南

2020-06-10

Affinity Propogation最初是由Brendan Frey 和 Delbert Dueck于2007年在Science上提出的。相比其它的层次聚类算法，Affinity Propogation算法不需要预先指定聚类个数。

Affinity Propogation算法的原理可以简单的概括为：每一个数据点都会给其它的多有点发送信息，告知其它所有点每个目标对发送者（sender）的相对吸引力的目标值（target）。

随后，鉴于从所有其它sender收到信息的“attractiveness”，每个target所有sender一个回复，以告知与sender相联系的每一个sender的可用性。sender会给target回复相关信息，以告知每一个target对sender修正的相对“attractiveness”（基于从所有target收到的关于可用性的信息）。信息传递的整个过程直到达成一致才会停止。

一旦sender与某个target相联系，这个target就会称为该点（sender）的“典型代表（exemplar）”。所有被相同exemplar标记的点都被放置在一个聚类中。

算法

假定一个如下的数据集。每一个参与者代表一个五维空间的数据点。

相似性矩阵（C）

除了在对角线上的元素外，其它的元素是负的均方误差作为两个数据间的相似值。

计算公式如下：c(i, j) = -||X_i-X_y||^2c(i,j)=−∣∣Xi−Xy∣∣2以Alice和Bob为例，两者间的相似性计算过程如下：(3-4)^2+(4-3)^2+(3-5)^2+(2-1)^2+(1-1)^2 = 7(3−4)2+(4−3)2+(3−5)2+(2−1)2+(1−1)2=7。

因此，Alice与Bob之间的相似值为-7。

相似性值的计算边界出现在Bob和Edna间：(4-1)^2+(3-1)^2+(5-3)^2+(1-2)^2+(1-3)^2 = 22(4−1)2+(3−1)2+(5−3)2+(1−2)2+(1−3)2=22Bob和Edna之间的相似值为-22。

通过逐步的计算，最后得到的结果如下：

一般对角线上的元素取相似值中较小的数，在本例中取值为-22，因此，得到的相似性矩阵如下：

Responsibility Matrix ®

这里的responsibility matrix 是中间的过度步骤。通过使用如下的公式计算responsibility matrix：r(i, k ) \leftarrow s(i, k)- max_{k^{'} such\ that\ k^{'} \not= \ k} \{a(i, k^{'})+s(i, k^{'})\},r(i,k)←s(i,k)−maxk′such that k′= k{a(i,k′)+s(i,k′)},其中，i表示协同矩阵的行，k表示列的关联矩阵。

例如，r(Alice, Bob)r(Alice,Bob)的值为-1，首先提取similarity matrix中c(Alice, Bob)c(Alice,Bob)的值为-7，减去similarity matrix中Alice行的最大值为-6，因此，得到r(Alice, Bob)=-1r(Alice,Bob)=−1。

取值的边界为r(Cary, Doug)r(Cary,Doug)，其计算如下：

r(Cary, Doug) = -18-(-6)=-12r(Cary,Doug)=−18−(−6)=−12

根据上述公式计算得到的最终结果如下图所示：

Availability Matrix (a)

Availability Matrix的初始值为矩阵中的所有元素均为0。

首先，计算对角线上的元素值：a(k,k) \leftarrow \sum_{i^{'}such \ that \ i^{'} \not= k} max\{0, r\{i^{'}, k\}\},a(k,k)←i′such that i′=k∑max{0,r{i′,k}},其中，i表示协同矩阵的行，k表示协同矩阵的列。

实际上，上面的公式只告诉你沿着列，计算所有行与0比较的最大值（除列序与行序相等时的情况除外）。

例如，a(Alice, Alice)a(Alice,Alice)的计算如下：a(Alice, Alice) = 10+11+0+0 = 21a(Alice,Alice)=10+11+0+0=21

其次，计算非对角线上的元素值，分别以a(Alice, Cary)a(Alice,Cary)和a(Doug, Edna)a(Doug,Edna)为例，其计算过程如下所示：

a(Alice, Cary) = 1+0+0+0 = 1 \\ a(Doug, Edna)

= 0+0+0+9 = 9a(Alice,Cary)

=1+0+0+0=1a(Doug,Edna)

=0+0+0+9=9

以下公式是用于更新Availability Matrix，其公式如下：a(i, k) \leftarrow min\{0, r(k,k)+\sum_{i^{'} such \ that \ i^{'} \notin \{i, k\}} max{\{0, r(i^{'}, k)}\}\}a(i,k)←min{0,r(k,k)+i′such that i′∈/{i,k}∑max{0,r(i′,k)}}

当你想要更新a(Alice, Bob)a(Alice,Bob)的值时，其计算过程如下：a(Doug, Bob) = min\{{0,(-15)+0+0+0}\}=-15a(Doug,Bob)=min{0,(−15)+0+0+0}=−15最后得到的结果如下表所示：

Criterion Matrix ©

在得到上面的availability matrix后，将availability matrix和responsibility matrix的对应元素相加，便可得到criterion matrix。

其计算公式如下：c(i, k) \leftarrow r(i,k)+a(i,k).c(i,k)←r(i,k)+a(i,k).最后得到的criterion matrix的结果如下：

以上便是Affinity Propogation算法的计算过程，这是我见过最浅显易懂的讲解了，详见原文。

代码示例如下：

首先，导入相关库：

import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()
from sklearn.datasets.samples_generator import make_blobs
from sklearn.cluster import AffinityPropagation

使用scikit-learn生成需要的数据集，详见如下：

X, clusters = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)
plt.scatter(X[:,0], X[:,1], alpha=0.7, edgecolors='b')

训练模型（因为是无监督算法，因此不需要拆分训练集和测试集）：

af = AffinityPropagation(preference=-50)
clustering = af.fit(X)

最后，将不同聚类的点可视化：

plt.scatter(X[:,0], X[:,1], 
c=clustering.labels_, cmap='rainbow', alpha=0.7, 
edgecolors='b')

算法使用场景：

Affinity Propagation是一个无监督的机器学习算法，它尤其适用于那些不知道最佳聚类数情况的算法。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

无监督 matplotlib 层次聚类 numpy seaborn 机器学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇mysql面试经典50题：带你从聚合和分组开始

下一篇python知识普及：numpy基础操作

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

层次聚类算法：Affinity Propogation算法学习指南

算法

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】巧用AI生成SQL语句：基于数据库字典的精 ...

【CDA干货】支持向量机处理非线性问题：核技巧的原 ...

数据分析与CDA数据分析师：核心概念与价值逻辑 ...

【CDA干货】数据分析指标选取：从原则到场景的实操 ...

【CDA干货】MySQL核心逻辑：为何SELECT在ORDER BY前 ...

CDA数据分析师：企业数字化转型的核心引擎与价值抓 ...

〖提高职业含金量〗数据分析师认证考核！ ...

【CDA干货】数据模型：连接业务与数据的核心逻辑框 ...

【CDA干货】挖掘用户行为路径：关键路径的识别、分 ...

CDA数据分析师视角：企业数据安全管理方法论的落地 ...

【CDA干货】SQL日期转换全解析：函数、场景与避坑指 ...

【CDA干货】SQL多表关联：从语法逻辑到业务落地的全 ...

CDA数据分析师视角：企业数据管理方法论的落地与实 ...

【CDA干货】商业数据分析应用框架：从数据到决策的 ...

【CDA干货】让定量报告“活”起来：可视化易读性提 ...

CDA数据分析师实战：决策树分析的业务应用与落地指 ...

【CDA干货】Python实操：造价清单汇总分类 ...

【CDA干货】数据清洗核心：错误数据类型全解析与处 ...

CDA数据分析师实战：聚类分析的业务应用与落地指南 ...

【CDA干货】维度表与事实表：数据仓库的核心双支柱 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载