京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据分析技术:聚类分析;可怕的不是阶层固化,而是因此放弃了努力
划分类别、等级和阶层的行为自发或不自发的存在于社会生活的各个角落。例如,可以根据家庭年收入情况将所有家庭划分为低收入到高收入的不同阶层;根据人们的工作性质,也可以将人们划分不同阶层;根据出生地和生活习惯,同样可以对人群进行分类。对事物分门别类依据的是不同事物身上共同的标签。
分阶层、分等级、分类别从来都不是一个能够被简单定义好坏的行为。中华几千年的文明历史,从奴隶社会、封建社会,再跨越进入社会主义社会的初级阶段,没有那种社会形态只存在一种阶层,一种人群。在不同的阶层和人群间,也必然存在协作、欺压甚至剥削等不同的相处模式,这是由不同群体身上的标签决定的,这是分类残酷的一面。对于数据分析者和商业运营者来说,不同类别事物身上的特有标签是他们需要充分利用的信息,例如,年轻人喜欢闹腾消遣娱乐方式;女性消费者是化妆品的主要购买和使用者;老年社会的来临,意味着养老机构存在极大的需求缺口等等,这是分类信息带给商业运营者制定下一步发展策略的方向。
上面列举的例子都是通过一个指标、特征或标签就对所有的事物进行分类,这样的分类情况是非常简单和明确的。然而,如果分类需要考虑的标签是多个,事物在这些标签上的表现有好有坏,那么就需要用到聚类分析来达到我们的需求了。
聚类分析原理
在介绍聚类分析原理前,需要强调一个事实。同其它统计分析方法不同,聚类分析是一种探索性的分析方法,也就是说不用也没有办法对聚类分析的结果进行“是否正确”的检验,只能依据聚类结果在具体问题中的“有用性”来判断聚类效果的好坏,没有正确或错误之分。
聚类分析的实质就是按照事物之间距离的远近进行分类,其分析结果使同类别事物的距离(差异)尽可能小,不同类别的距离(差异)尽可能大。根据聚类分析的逻辑,以下几个问题是需要大家清楚理解的。
距离的定义
事物身上的指标数据(标签数据)类型可以分成两类:分类数据(定类或定序)以及连续型数据(定距和定比),这两类数据在聚类分析时,常用的距离测量方式是完全不同的,连续型数据一般使用欧氏平方距离,而分类数据使用的则是卡方相关性。对于连续型数据的欧式距离或欧式平方距离,可以用下面的公式表示,是非常好理解的:
基于不同数据类型,定义距离的方式不同,因此传统聚类方法只能使用单一种类的指标数据进行聚类分析,如果数据中同时含有两类数据,那么只能选取其中一种进行分析。令人高兴的是,随着聚类分析方法的发展,一些智能聚类方法已经可以很好的同时分析这两种变量,两步聚类就是最常用的只能聚类方法。
通过上面介绍的欧式距离公式,我们会发现一个很明显的缺陷,那就是不同指标数据的单位或数量级相差很大,那么数量级大的指标数据会对欧式距离产生更大的影响。例如,x的数量级如果是万,而y数量级仅为十,那么y变量对欧式距离结果的影响相对于x来说就显得微不足道了。解决这个缺陷最常用的办法就是数据标准化,使得不同数量级的数据回到同一起跑线。常用的标准化方式就是把数据转化成标准化分数,当然也可以根据实际情况将不同数量级的数据变换成同一个数量级进行比较。
聚类方法
聚类分析经过多年的发展,已经逐渐形成常用的三种聚类方法:层次聚类法、K-Mean聚类法和二阶聚类法。下面对这三种聚类方法的聚类逻辑进行介绍,后面会用三篇推送具体介绍它们的原理、SPSS软件实现和生活案例应用。
层次聚类法
层次聚类法是传统的聚类方法,它首先需要根据指标数据类型确定距离的基本定义和计算方式,随后按照距离的远近,将所有的事物(个案)一步一步的归成一类。这样聚类的结果显然存在嵌套,或者说不同类别间会有层次关系,因此被称为层次聚类法。层次聚类可用一张二维空间图来表示,称为树状图。
K-均值聚类
层次聚类的分析过程是非常细致的,需要计算所有事物(个案)两两之间的距离,所以聚类的效率不高。K-均值聚类可以在一定程度上解决这个问题。K-均值聚类在聚类之前就确定好了最终的类别数和类别坐标,整个分析过程使用迭代的方式进行。通过不断的迭代把事物(个案)在不同类别之间移动,直到找到距离最短的类别,然后将该事物归于此类。整个计算过程中不需要存储基本数据,因此不会出现嵌套结果,计算速度也非常快。
二阶聚类
随着数据收集和存储设备的发展,海量数据的聚类分析已经称为迫切的需求,而上面介绍的两种聚类方法在速度和效率上还不能满足要求。首先是面对海量数据,过高的计算量会使上面两种方法不具实用价值;其次上面两种聚类方法不能处理复杂指标数据同时存在的情况,特别是连续型和离散型数据混合出现的情况。二阶聚类能够解决上面两种聚类方法不能处理的复杂情况。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、计量研究等场景中,回归分析是探究变量间量化关系的核心方法,无论是简单的一元线性回归,还是复杂的多元线性回归、 ...
2026-05-07在数据分析、计量研究等场景中,回归分析是探究变量间量化关系的核心方法,无论是简单的一元线性回归,还是复杂的多元线性回归、 ...
2026-05-07 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-05-07在数字化时代,商业竞争的核心已从“经验驱动”转向“数据驱动”,越来越多的企业意识到,商业分析不是简单的数据统计与报表呈现 ...
2026-05-06在Excel数据透视表的实操中,“引用”是连接透视表与公式、辅助数据的核心操作,而相对引用作为最基础、最常用的引用方式,其设 ...
2026-05-06 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-05-06在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24