SPSS聚类分析：用于筛选聚类变量的一套方法-CDA数据分析师官网

热线电话：13121318867

SPSS聚类分析：用于筛选聚类变量的一套方法

2015-06-01

SPSS聚类分析：用于筛选聚类变量的一套方法

聚类分析是常见的数据分析方法之一，主要用于市场细分、用户细分等领域。利用SPSS进行聚类分析时，用于参与聚类的变量决定了聚类的结果，无关变量有时会引起严重的错分，因此，筛选有效的聚类变量至关重要。

案例数据源：

在SPSS自带数据文件plastic.sav中记录了20中塑料的三个特征，分别是tear_res（抗拉力）、gloss（光滑度）、opacity（透明度），相关经验表面这20中塑料可以分为3个种类，如果用这三个变量进行聚类，请判断和筛选有效聚类变量。

一套筛选聚类变量的方法

图片加载中......

一、盲选

将根据经验得到的、现有的备选聚类变量全部纳入模型，暂时不考虑某些变量是否不合适。本案例采用SPSS系统聚类方法。对话框如下:

图片加载中......

统计量选项卡：聚类成员选择单一方案，聚类数输入数字3；

绘制选项卡：勾选树状图；

方法选项卡：默认选项，不进行标准化；

保存选项卡：聚类成员选择单一方案，聚类数输入数字3；

二、初步聚类

这是盲选得到的初步聚类结果，并且在数据视图我们可以看到已经自动生成了一个聚类结果变量，这个变量非常有用。

图片加载中......

三、方差分析

是不是每一个纳入模型的聚类变量都对聚类过程有贡献？利用已经生成的初步聚类结果，我们可以用一个单因素方差分析来判断分类结果在三个变量上的差异是否显著，进而判断哪些变量对聚类是没有贡献的。

图片加载中......

分析——比较均值——单因素方差分析：

选项选项卡：勾选均值图

图片加载中.....

由方差分析我们很明确的得知，纳入模型的三个聚类变量，其中只有“透明度”指标在各个分类上有显著的差异，也就是说分类有效果，让每个分类的差异很大，而两外两个变量则在三个分类上没有显著差异，没有很好的类别区分度，所以，我们可以认为，这两个变量对聚类无作用或者无贡献，可考虑踢出模型。

我们还想从可视化的角度来查看和判断，单因素方差分析为我们提供了均值图，可惜，这三个图却最容易误导我们的判断，因为spss在自动生产均值图时为每一个变量单独制图，而且分配不同的纵轴坐标，导致每个图看起来都有非常大的差异，从视觉上迷惑我们做出错误的判断。

图片加载中......

这里需要改进！

四、均值描述

为改进以上SPSS默认选项的不足之处，我们需要自己生成三个变量在不同类别上的均值，means过程可以帮助到我们。

图片加载中......

从数字上来看，抗拉力（6.8、6.7、7.1）、光滑度（9.3、9.4、9.2）两个指标在三个类别上并没有多大的差异，而对聚类有贡献的透明度指标在不同类别上区分度非常明显。

图片加载中......

五、多线均值图

克服纵轴刻度的方法是将这三个指标放在同一个坐标轴上进行对比，也就是制作一个多线均值图。

图片加载中......

此时，结果已经一目了然了。

综上，我们可以将抗拉力、光滑度两个指标从模型中剔除，只留下透明度一个指标再进行聚类。

图片加载中......

我们发现，前后两次聚类的结果一模一样，用一个指标可以代替以前三个指标的进行聚类。

我们这样做的意义何在？如果能将这些整理成为规则，形成经验，那我们就可以不用测量抗拉力和光滑度这两个指标了，你不觉得多测量两个指标成本会增加吗？

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

方差分析特征数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

SPSS聚类分析：用于筛选聚类变量的一套方法

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载