京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据分析技术:聚类分析;可怕的不是阶层固化,而是因此放弃了努力
划分类别、等级和阶层的行为自发或不自发的存在于社会生活的各个角落。例如,可以根据家庭年收入情况将所有家庭划分为低收入到高收入的不同阶层;根据人们的工作性质,也可以将人们划分不同阶层;根据出生地和生活习惯,同样可以对人群进行分类。对事物分门别类依据的是不同事物身上共同的标签。
分阶层、分等级、分类别从来都不是一个能够被简单定义好坏的行为。中华几千年的文明历史,从奴隶社会、封建社会,再跨越进入社会主义社会的初级阶段,没有那种社会形态只存在一种阶层,一种人群。在不同的阶层和人群间,也必然存在协作、欺压甚至剥削等不同的相处模式,这是由不同群体身上的标签决定的,这是分类残酷的一面。对于数据分析者和商业运营者来说,不同类别事物身上的特有标签是他们需要充分利用的信息,例如,年轻人喜欢闹腾消遣娱乐方式;女性消费者是化妆品的主要购买和使用者;老年社会的来临,意味着养老机构存在极大的需求缺口等等,这是分类信息带给商业运营者制定下一步发展策略的方向。
上面列举的例子都是通过一个指标、特征或标签就对所有的事物进行分类,这样的分类情况是非常简单和明确的。然而,如果分类需要考虑的标签是多个,事物在这些标签上的表现有好有坏,那么就需要用到聚类分析来达到我们的需求了。
聚类分析原理
在介绍聚类分析原理前,需要强调一个事实。同其它统计分析方法不同,聚类分析是一种探索性的分析方法,也就是说不用也没有办法对聚类分析的结果进行“是否正确”的检验,只能依据聚类结果在具体问题中的“有用性”来判断聚类效果的好坏,没有正确或错误之分。
聚类分析的实质就是按照事物之间距离的远近进行分类,其分析结果使同类别事物的距离(差异)尽可能小,不同类别的距离(差异)尽可能大。根据聚类分析的逻辑,以下几个问题是需要大家清楚理解的。
距离的定义
事物身上的指标数据(标签数据)类型可以分成两类:分类数据(定类或定序)以及连续型数据(定距和定比),这两类数据在聚类分析时,常用的距离测量方式是完全不同的,连续型数据一般使用欧氏平方距离,而分类数据使用的则是卡方相关性。对于连续型数据的欧式距离或欧式平方距离,可以用下面的公式表示,是非常好理解的:
基于不同数据类型,定义距离的方式不同,因此传统聚类方法只能使用单一种类的指标数据进行聚类分析,如果数据中同时含有两类数据,那么只能选取其中一种进行分析。令人高兴的是,随着聚类分析方法的发展,一些智能聚类方法已经可以很好的同时分析这两种变量,两步聚类就是最常用的只能聚类方法。
通过上面介绍的欧式距离公式,我们会发现一个很明显的缺陷,那就是不同指标数据的单位或数量级相差很大,那么数量级大的指标数据会对欧式距离产生更大的影响。例如,x的数量级如果是万,而y数量级仅为十,那么y变量对欧式距离结果的影响相对于x来说就显得微不足道了。解决这个缺陷最常用的办法就是数据标准化,使得不同数量级的数据回到同一起跑线。常用的标准化方式就是把数据转化成标准化分数,当然也可以根据实际情况将不同数量级的数据变换成同一个数量级进行比较。
聚类方法
聚类分析经过多年的发展,已经逐渐形成常用的三种聚类方法:层次聚类法、K-Mean聚类法和二阶聚类法。下面对这三种聚类方法的聚类逻辑进行介绍,后面会用三篇推送具体介绍它们的原理、SPSS软件实现和生活案例应用。
层次聚类法
层次聚类法是传统的聚类方法,它首先需要根据指标数据类型确定距离的基本定义和计算方式,随后按照距离的远近,将所有的事物(个案)一步一步的归成一类。这样聚类的结果显然存在嵌套,或者说不同类别间会有层次关系,因此被称为层次聚类法。层次聚类可用一张二维空间图来表示,称为树状图。
K-均值聚类
层次聚类的分析过程是非常细致的,需要计算所有事物(个案)两两之间的距离,所以聚类的效率不高。K-均值聚类可以在一定程度上解决这个问题。K-均值聚类在聚类之前就确定好了最终的类别数和类别坐标,整个分析过程使用迭代的方式进行。通过不断的迭代把事物(个案)在不同类别之间移动,直到找到距离最短的类别,然后将该事物归于此类。整个计算过程中不需要存储基本数据,因此不会出现嵌套结果,计算速度也非常快。
二阶聚类
随着数据收集和存储设备的发展,海量数据的聚类分析已经称为迫切的需求,而上面介绍的两种聚类方法在速度和效率上还不能满足要求。首先是面对海量数据,过高的计算量会使上面两种方法不具实用价值;其次上面两种聚类方法不能处理复杂指标数据同时存在的情况,特别是连续型和离散型数据混合出现的情况。二阶聚类能够解决上面两种聚类方法不能处理的复杂情况。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在信贷业务中,违约率是衡量信贷资产质量、把控信用风险、制定风控策略的核心指标,其统计分布特征直接决定了风险定价的合理性、 ...
2026-02-03在数字化业务迭代中,AB测试已成为验证产品优化、策略调整、运营活动效果的核心工具。但多数业务场景中,单纯的“AB组差异对比” ...
2026-02-03企业战略决策的科学性,决定了其长远发展的格局与竞争力。战略分析方法作为一套系统化、专业化的思维工具,为企业研判行业趋势、 ...
2026-02-03在统计调查与数据分析中,抽样方法分为简单随机抽样与复杂抽样两大类。简单随机抽样因样本均匀、计算简便,是基础的抽样方式,但 ...
2026-02-02在数据驱动企业发展的今天,“数据分析”已成为企业经营决策的核心支撑,但实践中,战略数据分析与业务数据分析两个概念常被混淆 ...
2026-02-02在数据驱动企业发展的今天,“数据分析”已成为企业经营决策的核心支撑,但实践中,战略数据分析与业务数据分析两个概念常被混淆 ...
2026-02-02B+树作为数据库索引的核心数据结构,其高效的查询、插入、删除性能,离不开节点间指针的合理设计。在日常学习和数据库开发中,很 ...
2026-01-30在数据库开发中,UUID(通用唯一识别码)是生成唯一主键、唯一标识的常用方式,其标准格式包含4个短横线(如550e8400-e29b-41d4- ...
2026-01-30商业数据分析的价值落地,离不开标准化、系统化的总体流程作为支撑;而CDA(Certified Data Analyst)数据分析师,作为经过系统 ...
2026-01-30在数据分析、质量控制、科研实验等场景中,数据波动性(离散程度)的精准衡量是判断数据可靠性、稳定性的核心环节。标准差(Stan ...
2026-01-29在数据分析、质量检测、科研实验等领域,判断数据间是否存在本质差异是核心需求,而t检验、F检验是实现这一目标的经典统计方法。 ...
2026-01-29统计制图(数据可视化)是数据分析的核心呈现载体,它将抽象的数据转化为直观的图表、图形,让数据规律、业务差异与潜在问题一目 ...
2026-01-29箱线图(Box Plot)作为数据分布可视化的核心工具,能清晰呈现数据的中位数、四分位数、异常值等关键统计特征,广泛应用于数据分 ...
2026-01-28在回归分析、机器学习建模等数据分析场景中,多重共线性是高频数据问题——当多个自变量间存在较强的线性关联时,会导致模型系数 ...
2026-01-28数据分析的价值落地,离不开科学方法的支撑。六种核心分析方法——描述性分析、诊断性分析、预测性分析、规范性分析、对比分析、 ...
2026-01-28在机器学习与数据分析领域,特征是连接数据与模型的核心载体,而特征重要性分析则是挖掘数据价值、优化模型性能、赋能业务决策的 ...
2026-01-27关联分析是数据挖掘领域中挖掘数据间潜在关联关系的经典方法,广泛应用于零售购物篮分析、电商推荐、用户行为路径挖掘等场景。而 ...
2026-01-27数据分析的基础范式,是支撑数据工作从“零散操作”走向“标准化落地”的核心方法论框架,它定义了数据分析的核心逻辑、流程与目 ...
2026-01-27在数据分析、后端开发、业务运维等工作中,SQL语句是操作数据库的核心工具。面对复杂的表结构、多表关联逻辑及灵活的查询需求, ...
2026-01-26支持向量机(SVM)作为机器学习中经典的分类算法,凭借其在小样本、高维数据场景下的优异泛化能力,被广泛应用于图像识别、文本 ...
2026-01-26