2018-11-20
阅读量:
914
多维尺度分析
多维尺度分析(Multidimensional Scaling)的概念,最早产生于心理学,是用于衡量样本间相异性(距离)或相似性程度。当变量比较多的时候,我们没有办法直接进行观测,所以需要通过一种更加可视化的方式来进行分析。多维尺度分析应需而生。事物之间的相似程度,我们可以用实际距离来表示,也可以是一种主观的判断,也就是名义上的距离。因此当我们希望通过一些核心的变量来解释失误之间的相似性时,我们就可以通过数学定义的“距离”来进行表示。
当我们有n个事物时,我们对他们进行两两比较,可以得到一个n×n的矩阵,来记录任意两个事物之间的距离。
由于变量类型的不同,样本间的距离或相似性往往也需要采用不同的方法来衡量,比如闵可夫斯基距离、卡方距离、余弦相似度等等。
①闵可夫斯基距离Minkowski/欧式距离,用于连续型数据:

其中p=2时为欧式距离,p=1时为block距离;因此,也可以把欧式距离和block距离看作是Minkowski距离的特殊形式。
②杰卡德相似系数(Jaccard),用于分类数据:

,A、B为各自变量分类水平的集合;
③余弦相似度(cosine similarity):

,a、b为向量,该测量实际反映了向量之间夹角的余弦值。等于1时,表明两个向量方向完全相同,即越接近1,表明两个向量越相似。
通过两两样本间距离/相似性测算,形成距离矩阵,但矩阵的缺点在于不直观。如果能够在低维空间尤其是在二维上等比例地近似地表示这些距离,就可以非常直观地在图上展示样本间的相异相似性。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论