京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据分析技术:聚类分析;可怕的不是阶层固化,而是因此放弃了努力
划分类别、等级和阶层的行为自发或不自发的存在于社会生活的各个角落。例如,可以根据家庭年收入情况将所有家庭划分为低收入到高收入的不同阶层;根据人们的工作性质,也可以将人们划分不同阶层;根据出生地和生活习惯,同样可以对人群进行分类。对事物分门别类依据的是不同事物身上共同的标签。
分阶层、分等级、分类别从来都不是一个能够被简单定义好坏的行为。中华几千年的文明历史,从奴隶社会、封建社会,再跨越进入社会主义社会的初级阶段,没有那种社会形态只存在一种阶层,一种人群。在不同的阶层和人群间,也必然存在协作、欺压甚至剥削等不同的相处模式,这是由不同群体身上的标签决定的,这是分类残酷的一面。对于数据分析者和商业运营者来说,不同类别事物身上的特有标签是他们需要充分利用的信息,例如,年轻人喜欢闹腾消遣娱乐方式;女性消费者是化妆品的主要购买和使用者;老年社会的来临,意味着养老机构存在极大的需求缺口等等,这是分类信息带给商业运营者制定下一步发展策略的方向。
上面列举的例子都是通过一个指标、特征或标签就对所有的事物进行分类,这样的分类情况是非常简单和明确的。然而,如果分类需要考虑的标签是多个,事物在这些标签上的表现有好有坏,那么就需要用到聚类分析来达到我们的需求了。
聚类分析原理
在介绍聚类分析原理前,需要强调一个事实。同其它统计分析方法不同,聚类分析是一种探索性的分析方法,也就是说不用也没有办法对聚类分析的结果进行“是否正确”的检验,只能依据聚类结果在具体问题中的“有用性”来判断聚类效果的好坏,没有正确或错误之分。
聚类分析的实质就是按照事物之间距离的远近进行分类,其分析结果使同类别事物的距离(差异)尽可能小,不同类别的距离(差异)尽可能大。根据聚类分析的逻辑,以下几个问题是需要大家清楚理解的。
距离的定义
事物身上的指标数据(标签数据)类型可以分成两类:分类数据(定类或定序)以及连续型数据(定距和定比),这两类数据在聚类分析时,常用的距离测量方式是完全不同的,连续型数据一般使用欧氏平方距离,而分类数据使用的则是卡方相关性。对于连续型数据的欧式距离或欧式平方距离,可以用下面的公式表示,是非常好理解的:
基于不同数据类型,定义距离的方式不同,因此传统聚类方法只能使用单一种类的指标数据进行聚类分析,如果数据中同时含有两类数据,那么只能选取其中一种进行分析。令人高兴的是,随着聚类分析方法的发展,一些智能聚类方法已经可以很好的同时分析这两种变量,两步聚类就是最常用的只能聚类方法。
通过上面介绍的欧式距离公式,我们会发现一个很明显的缺陷,那就是不同指标数据的单位或数量级相差很大,那么数量级大的指标数据会对欧式距离产生更大的影响。例如,x的数量级如果是万,而y数量级仅为十,那么y变量对欧式距离结果的影响相对于x来说就显得微不足道了。解决这个缺陷最常用的办法就是数据标准化,使得不同数量级的数据回到同一起跑线。常用的标准化方式就是把数据转化成标准化分数,当然也可以根据实际情况将不同数量级的数据变换成同一个数量级进行比较。
聚类方法
聚类分析经过多年的发展,已经逐渐形成常用的三种聚类方法:层次聚类法、K-Mean聚类法和二阶聚类法。下面对这三种聚类方法的聚类逻辑进行介绍,后面会用三篇推送具体介绍它们的原理、SPSS软件实现和生活案例应用。
层次聚类法
层次聚类法是传统的聚类方法,它首先需要根据指标数据类型确定距离的基本定义和计算方式,随后按照距离的远近,将所有的事物(个案)一步一步的归成一类。这样聚类的结果显然存在嵌套,或者说不同类别间会有层次关系,因此被称为层次聚类法。层次聚类可用一张二维空间图来表示,称为树状图。
K-均值聚类
层次聚类的分析过程是非常细致的,需要计算所有事物(个案)两两之间的距离,所以聚类的效率不高。K-均值聚类可以在一定程度上解决这个问题。K-均值聚类在聚类之前就确定好了最终的类别数和类别坐标,整个分析过程使用迭代的方式进行。通过不断的迭代把事物(个案)在不同类别之间移动,直到找到距离最短的类别,然后将该事物归于此类。整个计算过程中不需要存储基本数据,因此不会出现嵌套结果,计算速度也非常快。
二阶聚类
随着数据收集和存储设备的发展,海量数据的聚类分析已经称为迫切的需求,而上面介绍的两种聚类方法在速度和效率上还不能满足要求。首先是面对海量数据,过高的计算量会使上面两种方法不具实用价值;其次上面两种聚类方法不能处理复杂指标数据同时存在的情况,特别是连续型和离散型数据混合出现的情况。二阶聚类能够解决上面两种聚类方法不能处理的复杂情况。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10