
SPSS分析技术:二阶聚类分析;为什么出现大学生“裸贷”业务,因为放贷者知道贷款者还不起
今天将介绍一种智能聚类法,二阶聚类法,在开始介绍之前,先解答很多人在后台提出的一个疑问:那就是很多分析者发现,对同一套数据应用不同的聚类分析方法,其结果经常是不一致的,甚至完全不一样,到底哪个结果是“正确”的呢?
草堂君来解释一下:聚类分析在众多数据分析方法中,其应用范围和作用都是非常亮眼的表现,但是聚类分析与其它数据分析方法之间还有一个重要的区别,就是聚类分析是一种探索性的分析方法,分析结果没有绝对的对错之分,只有相对的好坏区别。聚类分析的结果是否“漂亮”是由结果的“有用性”来决定的。如何判断结果的有用性,有以下几个主观判断的方向:
每个类别中个案的数量尽量接近。如果分析者聚类分析的目的不是为了发现异常值,那么总是希望每个类别中个案(记录)的数量尽量接近。例如,聚类分析的结果是大量的记录集中在一个类别里,这样的聚类结果是完全没有实用性的,相当于没有聚类。
不同类别间,各个因素(变量)间的差别应该尽量的大。例如,对客户群体进行分类,不同类别的客户在年龄、性别、收入等因素间的距离应该尽量大。可以用类别作为区分水平,对各个因素(变量)做单因素方差分析,通过比较F值的大小来得到各个变量在本次聚类分析中的相对重要性,F值越大的变量,对聚类结果的影响也越大。如果很多变量的单因素方差分析结果是没有显著性差异,那么聚类分析的结果很可能是不太好的。
二阶聚类法
二阶聚类法又称为两步聚类法,是一种智能聚类方法,能够用于海量和复杂类别结构数据的聚类分析。与前面介绍的层次聚类法和K-均值聚类法相比,二阶聚类法有着它们无法比拟的算法优势:
能够用于二阶聚类的变量既可以是连续型变量,也可以是离散型变量。这与层次聚类和K-均值聚类有很大不同,层次聚类需要区分变量的数据类型选择距离公式,或对离散型变量进行连续化处理,而K-均值聚类要求更严格,只能使用连续型数据,这也需要对离散型数据做连续化处理。
相比传统层次聚类和K-均值聚类算法,两步聚类法占用的计算机内存资源更少,能够用于海量数据的处理且运算速度较快。
二阶聚类能够根据AIC和BIC这两个统计量在不同类别间的变化,自动确定最佳的聚类数目,使聚类结果更为量化。
二阶聚类的聚类过程分两步完成。第一步是预聚类,在这一步中,软件会对记录(个案)进行初步聚类,结果会给出分析者设置的最大分类数;第二步是正式聚类,这步将对第一步完成的初步聚类进行再聚类并确定最终的聚类方案,确定最终类别数的标准是AIC或BIC这两个统计量。
预聚类过程;预聚类过程是通过构建和修改聚类特征树来完成的。聚类特征树可以想象成生活中的树枝,叶子是末端,连接叶子的是叶枝,连接叶枝的是分支,链接分支的是树干和根部。聚类特征树的叶子、叶枝和分支都带有自己的特征条目。每一片叶子代表一个子类,有多少片叶子就有多少个子类,叶枝和分支的特征条目是用来指引记录(个案)进入叶片(子类)的,这些特征条目包括连续变量的均值和方差以及离散型变量的频数。每个记录都从树根部进入聚类特征树,然后依照分支和叶枝的特征信息指引找到最接近的叶片(子类),如果某个记录进入到叶片子类中,那么该叶片的聚类特征将从新计算;如果记录最终没有找到合适的叶片,那么该记录就会自己成为一片叶子。当所有记录都通过以上方式进入聚类特征树,预聚类过程结束,叶片数量就是预聚类的聚类数量。
正式聚类过程;在正式聚类过程,将以预聚类的结果作为输入,对其进行再聚类,直到达成使用者指定的类别。因为这个阶段所需处理的类别数已经远小于记录的数量,所以SPSS采用的是传统的层次聚类法。在层次聚类的每个阶段,SPSS都会计算每个类别的统计量,AIC或BIC,这两个统计量的值越小,说明聚类的效果越好。二阶聚类法最终会根据AIC和BIC的大小,以及类间距离来确定最优的类别数量。
案例分析
上一篇中,我们介绍了聚类分析在客户分级管理上的应用,举的例子是电信运营商对客户群体依据各种情况下的通话时长来对他们进行分类,发现不同类别客户的通话特点,然后向不同的客户类型推出不同的套餐服务,提高运营效率,获取更高的利润。银行同样是客户非常多的企业,聚类分析在这个领域的应用很多,下面的例子将会介绍。
开始案例分析之前先说个社会热点事件。前段时间,很多大学女生赤裸身体拿着身份证的照片在网络上大范围传播,由此揭开了大学校园里的裸贷黑幕。很多大学女生向互联网金融机构借款,无需抵押和担保,只需赤裸身体,拿着身份证照几张照片就能贷款成功,这些贷款的利息非常高,很多女生逾期无法偿还本金和利息,被追债人员拿着裸照威胁父母替她们还钱,甚至有的追债人威胁女生“肉偿”。从下面案例的聚类分析结果可以知道,大学生本来就是违约的高风险群体,这些互联网金融机构大肆向大学生提供不需信用审核的高利息贷款的行为,与高利贷无异。
银行有一套风险评估的模型,可以对每个客户进行分类,为每一类客户打上标签。比如你去办贷款,会先叫你提供一大堆的材料,采集到你的各种信息以后,将信息放入模型里计算,从而确定处在哪个级别,然后根据这个级别决定是否给你贷款以及贷款的额度是多少。信用卡的申办过程也是如此。当然,之前中国的信贷业务曾经走过一段多快好省的岁月,拉着你办信用卡。现在有一份某银行的1500个客户的数据资料,记录了客户的包括年龄、教育程度、工龄、收入等9个变量信息。如下图所示,其中有定距变量,也有定类变量。用二阶聚类的方法对这些客户进行分类。
分析步骤
1、选择菜单【分析】-【分类】-【两步聚类】,在跳出的对话框中进行如下操作,将“教育水平”和“是否曾经违约”选入分类变量,将其它定距型变量选入连续变量;在聚类准侧中选择BIC,也可以选择AIC。
如果只有连续变量,距离测量可以使用欧氏距离,也可以使用对数似然值,使用欧式距离和传统聚类方法的距离测量没有太大区别。如果既有离散变量又有连续变量,那么就只能使用对数似然值来表述个案间的距离了。二阶聚类会自动对连续型变量进行标准化。聚类数目可以由软件自动确定,也可以由分析者事先指定聚类数目。
2、点击右上角的【选项】和【输出】按钮。在跳出的对话框中进行如下操作。选中透视表,能够在结果中输出结果表格,否则只能在模型查看器中查看聚类结果。选中创建聚类成员变量,聚类结束后,将会新生成一列类别变量,标明每个个案被归属的类别。
3、点解确定,输出结果。
结果解释
1、聚类过程表格。从后面的表格可以知道,软件选择的最佳聚类数是6,选择的依据可以用聚类过程表格进行说明。
确定最佳类别数的指标是BIC值,这个数值越小代表聚类效果越好,但这不是唯一的标准。从结果可知,虽然聚类数达到设定的最大值15时,BIC值最小,但是BIC值在14类到15类的变化非常小,说明从14类再分成15类意义不大,因此还需要参考BIC变化量、BIC变化比率这两个指标。BIC 变化列的数据反映相邻两个结果的BIC值之差,发现BIC值在聚为4类和6类以后,BIC值的下降幅度有大幅减少,所以聚为4到6类是比较合理的聚类数据。距离测量比率表示不同聚类数目的聚类分析,两种结果的最小类间距离比值,比值越大,说明继续分类的意义不大。可以发现,距离测量比率的最大值出现在4类,表示聚成4类的最小类间距离是聚成5类的最小类间距离的1.669倍,说明5类的最小类间距离太小,没有拆分的意义。综上所述,软件选择4类为最佳聚类数。
2、聚类情况;表明每个类别的聚类数和比例。
3、类别的描述统计结果;连续型变量的结果显示每个类别的平均值和标准差,分类型数据显示不同类别的频数分布。这些都能够帮助分析者了解分类结果的有用性。限于篇幅,这里就聚类结果做过多解释,如果每个类别的变量特征有显著性差异,能够帮助分析者做制定行动措施,那么聚类结果就是有用的。
4、聚类综合结果查看器;鼠标双击这两个图形区域,会跳出结果查看页面,里面综合了各种可视化的聚类结果。
5、可视化聚类结果;左图是每个类别包含个案数和比例的饼图;右图是所有聚类变量在本次聚类分析过程的重要性,从结果可知,是否违约这个变量最重要;
下图显示的是每个类别包含个案的描述性统计结果。以第四个类别为例,这个类别的客户基本上都违约了,他们在当前公司的工作时间很短,家庭收入很低,年龄较小,在当前居住地的居住年限短,负债数额不高,但负债收入比却很高,以上客户的特点和裸贷的大学生群体特征很相似。此外,这个类别的学历水平分布很均匀,什么学历的都有,说明违约与学历之间没有直接联系。
总结一下
从以上结果可以看出,银行信贷数据能够很容易得出大学生的还贷违约概率极高,很多互联网金融机构作“裸贷”业务,与沾血的“高利贷”如出一辙。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09在 CDA 数据分析师的日常工作中,常会遇到这样的困惑:某电商平台 11 月 GMV 同比增长 20%,但究竟是 “长期趋势自然增长”,还 ...
2025-10-09Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30