基于模型的聚类简介
还有另一种处理聚类问题的方法:基于模型的方法,包括使用某些模型进行聚类并尝试优化数据和模型之间的拟合。
在实践中,每个聚类可以通过参数分布在数学上表示,如高斯(连续)或泊松(离散)。因此,整个数据集由这些分布的混合物建模。用于对特定集群建模的单个分布通常称为组件分布。
具有高可能性的混合模型倾向于具有以下特征:
- 组件分布具有高“峰值”(一个簇中的数据很紧);
- 混合模型很好地“覆盖”数据(数据中的主导模式由组件分布捕获)。
基于模型的聚类的主要优点:
- 经过充分研究的统计推断技术;
- 选择组件分布的灵活性;
- 获得每个聚类的密度估计;
- 可以使用“软”分类。
高斯混合物
这种最广泛使用的聚类方法是基于学习高斯混合的方法:我们实际上可以将聚类视为以其重心为中心的高斯分布,正如我们在这张图中所见,灰色圆圈表示分布的第一个方差:

该算法以这种方式工作:
- 它以概率随机选择分量(高斯分布)

;
- 它取样一点

。
我们假设有:
- x 1,x 2,...,x N.

我们可以获得样本的可能性:

。
我们真正想要最大化的是

(给出高斯中心的数据的概率)。

是写似然函数的基础:

现在我们应该通过计算来最大化似然函数

,但这太难了。这就是我们使用称为EM(期望最大化)的简化算法的原因。
EM算法
在实践中用于找到可以对数据集建模的高斯混合的算法称为EM(期望最大化)(Dempster,Laird和Rubin,1977)。让我们看看它如何与一个例子一起工作。
假设x k是一个班级学生得到的标记,具有以下概率:
x 1 = 30

x 2 = 18

x 3 = 0

x 4 = 23

第一种情况:我们观察到学生之间的分布如此分布:
x 1:学生
x 2:b学生
x 3:c学生
x 4:d学生

我们应该通过计算最大化这个功能

。让我们改为计算函数的对数并最大化它:

假设a = 14,b = 6,c = 9和d = 10,我们可以计算出来

。
第二种情况:我们观察到学生之间的分布如此分散:
x 1 + x 2:h学生
x 3:c学生
x 4:d学生
我们已经获得了一个循环,分为两个步骤:
- 期望:

- 最大化:

该循环可以以迭代的方式求解。
现在让我们看看EM算法如何适用于高斯混合(在第p次迭代中估计的参数用上标(p)标记:
- 初始化参数:

- E-步:

- M步:

其中R是记录数。








暂无数据