【从零开始学统计】11.物以类聚，人以群分！-CDA数据分析师官网

【从零开始学统计】11.物以类聚，人以群分！

2014-07-04

在统计学的应用中，有一些方法与回归这类定量数据为主的分析不同，他们更倾向于定性的分析，比如判别，比如聚类……这类分析或许搞经济的，搞金融的不太会去使用，但在医药，咨询服务类公司则会经常（或相比经济金融界较多）使用到。今天，就来介绍一下判别分析和聚类分析。
   把他们放在一起讨论，主要是因为他们都有一个“类”的概念，比如咱先看看判别分析：
     判别分析又称“分辨法”，是在分类确定的条件下，根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。其基本原理是按照一定的判别准则，建立一个或多个判别函数，用研究对象的大量资料确定判别函数中的待定系数，并计算判别指标。据此即可确定某一样本属于何类。当得到一个新的样品数据，要确定该样品属于已知类型中哪一类，这类问题属于判别分析问题。
   判别分析的类别很多，常用的有：适用于定性指标或计数资料的有最大似然法、训练迭代法；适用于定量指标或计量资料的有：Fisher二类判别、Bayers多类判别以及逐步判别。

那聚类分析呢？
   聚类分析又称群分析，是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统计分析方法，它们讨论的对象是大量的样品，要求能合理地按各自的特性来进行合理的分类，没有任何模式可供参考或依循，即是在没有先验知识的情况下进行的。
     聚类分析的方法常用的有：系统聚类法，K-均值法，模糊聚类法，有序样品的聚类，分解法，加入法。 （如果百度过聚类分析，又点开了维基百科或者百度百科，可以发现百科里对聚类分析的算法介绍比楼主多很多，也复杂很多，还有各种算法间的比较，楼主当初也愣住了，但是看了又看，由于应用的领域不同，所以划分确实很多，但如果不是做深入数据挖掘的话，上述的几种方法已经够用了，当然你要是需要用到其他复杂的算法，那楼主的帖子估计也不适合你看，毕竟写它的目的仅仅为了普及知识而已……）

Q1：什么是类别？
A：类别指具有相同属性或者特征指标的个体（有的人称之为样品）的集合。用来标明相同属性、相同的特征指标，无论在判别分析还是在聚类分析中，我们都喜欢用“距离”，同一类别的个体之间距离小，不同总体的样本之间距离大。

Q2：距离是什么？有哪些距离呢？
A：距离是一个原则性的定义，满足对称性、非负性。距离的分类主要有绝对距离、马氏距离、欧几里得距离（欧氏距离）。

绝对距离：平面直角坐标系中两点的横坐标的差的绝对值与纵坐标的差的绝对值的和叫做这两点的绝对距离（引自百度百科），通俗点的话我们常说的这栋楼高100米，这就是一个绝对距离，它的前提是需要一个水平点。
马氏距离：用来表示数据的协方差距离，用来计算两个未知样本集的相似度设有两个个体（点）X与Y（假定为一维数据，即在数轴上）是来自均数为，协方差阵为的总体（类别）A的两个个体（点），则个体X与Y的马氏距离为，类似地可以定义个体X与总体（类别）A的距离为
欧几里德距离（欧氏距离）：是一个通常采用的距离定义，指在m维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离）。二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离：

在判别和聚类分析中，马氏距离和欧氏距离运用较多，因为欧氏距离计算相对简单，而马氏距离也有很多优点：它不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关；由标准化数据和中心化数据(即原始数据与均值之差）计算出的二点之间的马氏距离相同；马氏距离还可以排除变量之间的相关性的干扰，但它的缺点是夸大了变化微小的变量的作用。

判别分析与聚类分析的区别：

	聚类分析	判别分析
基本原理	将个体（样品）或者对象（变量）按相似程度（距离远近）划分类别，使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。	从已知的各种分类情况中总结规律（训练出判别函数），当新样品进入时，判断其与判别函数之间的相似程度（概率最大，距离最近，离差最小等判别准则）
假设条件	对变量的多元正态性，方差齐性等要求较高	分组类型在两组以上，解释变量必须是可测的；每个解释变量不能是其它解释变量的线性组合；各解释变量之间服从多元正态分布，且各组解释变量的协方差矩阵相等
应用领域	细分市场，消费行为划分，设计抽样方案等	对客户进行信用预测，寻找潜在客户，临床上用于鉴别诊断

判别分析的步骤：
1、研究问题（选择对象，评估一个多元问题各组的差异，将观测个体归类，确定组与组之间的判别函数）
2、设计要点（选择解释变量，考虑样本量，简历分析样本的保留样本）
3、假定（解释变量的正态性、线性关系、解释变量间不存在多重共线性、协方差阵相等）
4、估计判别函数（联立估计或者逐步估计，判别函数的显著性）
5、判别函数的解释（需要几个判别函数）
6、评价判别函数（权重、载荷、偏F值）

判别分析的误用（假设一份分析报告点评下错误）：
网友的想法：分别视4月,5月,6月三个月的离网用户数据分别为三组(GROUP),每个用户的指标包含号码、品牌、区域、月消费金额、计费时长、gprs流量、彩信量、短信量、数据业务取消种类、账户余额、亲情套餐捆绑、营销捆绑剩余月份。希望通过这些指标分析出离网用户的特征，并找到阈值。
在他的分析报告中分组变量的选取：他的分组变量分为了三组，希望以月份来判别。
这里就有了第一点错误。先回忆下判别分析，假如有2个人，已知一个中国人，一个日本人，判别分析就是据此对再来一个人的归属的推断。网友希望分析出离网用户却误操作为月。
第一个问题理清后，接着出现了第二个问题，对他的分析报告认真检索发现他的数据全都是离网用户数据，不可能进行判别。
★注：在做判别分析时fisher和贝叶斯函数都是常用的方法，但是fisher自身并不完美，所以一般做分析的时候也勾选上贝叶斯函数。除此之外，最后判别函数的书写，一定要去分Z和非Z数据。

聚类方法实例：
聚类的方法有很多，统计软件也自带很多聚类方法，画谱系图也很容易，但是考试的时候没有电脑，往往最容易考的就是让你手工计算绘图的系统聚类法（最长或最短距离进行聚类的一种），这里咱们就用一个实例来演示一下，既能阐明步骤，又能加深理解：

设有12个个体，各测了3个指标