京公网安备 11010802034615号
经营许可证编号:京B2-20210330
SPSS分析技术:二阶聚类分析;为什么出现大学生“裸贷”业务,因为放贷者知道贷款者还不起
今天将介绍一种智能聚类法,二阶聚类法,在开始介绍之前,先解答很多人在后台提出的一个疑问:那就是很多分析者发现,对同一套数据应用不同的聚类分析方法,其结果经常是不一致的,甚至完全不一样,到底哪个结果是“正确”的呢?
草堂君来解释一下:聚类分析在众多数据分析方法中,其应用范围和作用都是非常亮眼的表现,但是聚类分析与其它数据分析方法之间还有一个重要的区别,就是聚类分析是一种探索性的分析方法,分析结果没有绝对的对错之分,只有相对的好坏区别。聚类分析的结果是否“漂亮”是由结果的“有用性”来决定的。如何判断结果的有用性,有以下几个主观判断的方向:
每个类别中个案的数量尽量接近。如果分析者聚类分析的目的不是为了发现异常值,那么总是希望每个类别中个案(记录)的数量尽量接近。例如,聚类分析的结果是大量的记录集中在一个类别里,这样的聚类结果是完全没有实用性的,相当于没有聚类。
不同类别间,各个因素(变量)间的差别应该尽量的大。例如,对客户群体进行分类,不同类别的客户在年龄、性别、收入等因素间的距离应该尽量大。可以用类别作为区分水平,对各个因素(变量)做单因素方差分析,通过比较F值的大小来得到各个变量在本次聚类分析中的相对重要性,F值越大的变量,对聚类结果的影响也越大。如果很多变量的单因素方差分析结果是没有显著性差异,那么聚类分析的结果很可能是不太好的。
二阶聚类法
二阶聚类法又称为两步聚类法,是一种智能聚类方法,能够用于海量和复杂类别结构数据的聚类分析。与前面介绍的层次聚类法和K-均值聚类法相比,二阶聚类法有着它们无法比拟的算法优势:
能够用于二阶聚类的变量既可以是连续型变量,也可以是离散型变量。这与层次聚类和K-均值聚类有很大不同,层次聚类需要区分变量的数据类型选择距离公式,或对离散型变量进行连续化处理,而K-均值聚类要求更严格,只能使用连续型数据,这也需要对离散型数据做连续化处理。
相比传统层次聚类和K-均值聚类算法,两步聚类法占用的计算机内存资源更少,能够用于海量数据的处理且运算速度较快。
二阶聚类能够根据AIC和BIC这两个统计量在不同类别间的变化,自动确定最佳的聚类数目,使聚类结果更为量化。
二阶聚类的聚类过程分两步完成。第一步是预聚类,在这一步中,软件会对记录(个案)进行初步聚类,结果会给出分析者设置的最大分类数;第二步是正式聚类,这步将对第一步完成的初步聚类进行再聚类并确定最终的聚类方案,确定最终类别数的标准是AIC或BIC这两个统计量。
预聚类过程;预聚类过程是通过构建和修改聚类特征树来完成的。聚类特征树可以想象成生活中的树枝,叶子是末端,连接叶子的是叶枝,连接叶枝的是分支,链接分支的是树干和根部。聚类特征树的叶子、叶枝和分支都带有自己的特征条目。每一片叶子代表一个子类,有多少片叶子就有多少个子类,叶枝和分支的特征条目是用来指引记录(个案)进入叶片(子类)的,这些特征条目包括连续变量的均值和方差以及离散型变量的频数。每个记录都从树根部进入聚类特征树,然后依照分支和叶枝的特征信息指引找到最接近的叶片(子类),如果某个记录进入到叶片子类中,那么该叶片的聚类特征将从新计算;如果记录最终没有找到合适的叶片,那么该记录就会自己成为一片叶子。当所有记录都通过以上方式进入聚类特征树,预聚类过程结束,叶片数量就是预聚类的聚类数量。
正式聚类过程;在正式聚类过程,将以预聚类的结果作为输入,对其进行再聚类,直到达成使用者指定的类别。因为这个阶段所需处理的类别数已经远小于记录的数量,所以SPSS采用的是传统的层次聚类法。在层次聚类的每个阶段,SPSS都会计算每个类别的统计量,AIC或BIC,这两个统计量的值越小,说明聚类的效果越好。二阶聚类法最终会根据AIC和BIC的大小,以及类间距离来确定最优的类别数量。
案例分析
上一篇中,我们介绍了聚类分析在客户分级管理上的应用,举的例子是电信运营商对客户群体依据各种情况下的通话时长来对他们进行分类,发现不同类别客户的通话特点,然后向不同的客户类型推出不同的套餐服务,提高运营效率,获取更高的利润。银行同样是客户非常多的企业,聚类分析在这个领域的应用很多,下面的例子将会介绍。
开始案例分析之前先说个社会热点事件。前段时间,很多大学女生赤裸身体拿着身份证的照片在网络上大范围传播,由此揭开了大学校园里的裸贷黑幕。很多大学女生向互联网金融机构借款,无需抵押和担保,只需赤裸身体,拿着身份证照几张照片就能贷款成功,这些贷款的利息非常高,很多女生逾期无法偿还本金和利息,被追债人员拿着裸照威胁父母替她们还钱,甚至有的追债人威胁女生“肉偿”。从下面案例的聚类分析结果可以知道,大学生本来就是违约的高风险群体,这些互联网金融机构大肆向大学生提供不需信用审核的高利息贷款的行为,与高利贷无异。
银行有一套风险评估的模型,可以对每个客户进行分类,为每一类客户打上标签。比如你去办贷款,会先叫你提供一大堆的材料,采集到你的各种信息以后,将信息放入模型里计算,从而确定处在哪个级别,然后根据这个级别决定是否给你贷款以及贷款的额度是多少。信用卡的申办过程也是如此。当然,之前中国的信贷业务曾经走过一段多快好省的岁月,拉着你办信用卡。现在有一份某银行的1500个客户的数据资料,记录了客户的包括年龄、教育程度、工龄、收入等9个变量信息。如下图所示,其中有定距变量,也有定类变量。用二阶聚类的方法对这些客户进行分类。
分析步骤
1、选择菜单【分析】-【分类】-【两步聚类】,在跳出的对话框中进行如下操作,将“教育水平”和“是否曾经违约”选入分类变量,将其它定距型变量选入连续变量;在聚类准侧中选择BIC,也可以选择AIC。
如果只有连续变量,距离测量可以使用欧氏距离,也可以使用对数似然值,使用欧式距离和传统聚类方法的距离测量没有太大区别。如果既有离散变量又有连续变量,那么就只能使用对数似然值来表述个案间的距离了。二阶聚类会自动对连续型变量进行标准化。聚类数目可以由软件自动确定,也可以由分析者事先指定聚类数目。
2、点击右上角的【选项】和【输出】按钮。在跳出的对话框中进行如下操作。选中透视表,能够在结果中输出结果表格,否则只能在模型查看器中查看聚类结果。选中创建聚类成员变量,聚类结束后,将会新生成一列类别变量,标明每个个案被归属的类别。
3、点解确定,输出结果。
结果解释
1、聚类过程表格。从后面的表格可以知道,软件选择的最佳聚类数是6,选择的依据可以用聚类过程表格进行说明。
确定最佳类别数的指标是BIC值,这个数值越小代表聚类效果越好,但这不是唯一的标准。从结果可知,虽然聚类数达到设定的最大值15时,BIC值最小,但是BIC值在14类到15类的变化非常小,说明从14类再分成15类意义不大,因此还需要参考BIC变化量、BIC变化比率这两个指标。BIC 变化列的数据反映相邻两个结果的BIC值之差,发现BIC值在聚为4类和6类以后,BIC值的下降幅度有大幅减少,所以聚为4到6类是比较合理的聚类数据。距离测量比率表示不同聚类数目的聚类分析,两种结果的最小类间距离比值,比值越大,说明继续分类的意义不大。可以发现,距离测量比率的最大值出现在4类,表示聚成4类的最小类间距离是聚成5类的最小类间距离的1.669倍,说明5类的最小类间距离太小,没有拆分的意义。综上所述,软件选择4类为最佳聚类数。
2、聚类情况;表明每个类别的聚类数和比例。
3、类别的描述统计结果;连续型变量的结果显示每个类别的平均值和标准差,分类型数据显示不同类别的频数分布。这些都能够帮助分析者了解分类结果的有用性。限于篇幅,这里就聚类结果做过多解释,如果每个类别的变量特征有显著性差异,能够帮助分析者做制定行动措施,那么聚类结果就是有用的。
4、聚类综合结果查看器;鼠标双击这两个图形区域,会跳出结果查看页面,里面综合了各种可视化的聚类结果。
5、可视化聚类结果;左图是每个类别包含个案数和比例的饼图;右图是所有聚类变量在本次聚类分析过程的重要性,从结果可知,是否违约这个变量最重要;
下图显示的是每个类别包含个案的描述性统计结果。以第四个类别为例,这个类别的客户基本上都违约了,他们在当前公司的工作时间很短,家庭收入很低,年龄较小,在当前居住地的居住年限短,负债数额不高,但负债收入比却很高,以上客户的特点和裸贷的大学生群体特征很相似。此外,这个类别的学历水平分布很均匀,什么学历的都有,说明违约与学历之间没有直接联系。
总结一下
从以上结果可以看出,银行信贷数据能够很容易得出大学生的还贷违约概率极高,很多互联网金融机构作“裸贷”业务,与沾血的“高利贷”如出一辙。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据仓库与数据分析体系中,维度表与事实表是构建结构化数据模型的核心组件,二者如同“骨架”与“血肉”,协同支撑起各类业务 ...
2026-01-16在游戏行业“存量竞争”的当下,玩家留存率直接决定游戏的生命周期与商业价值。一款游戏即便拥有出色的画面与玩法,若无法精准识 ...
2026-01-16为配合CDA考试中心的 2025 版 CDA Level III 认证新大纲落地,CDA 网校正式推出新大纲更新后的第一套官方模拟题。该模拟题严格遵 ...
2026-01-16在数据驱动决策的时代,数据分析已成为企业运营、产品优化、业务增长的核心工具。但实际工作中,很多数据分析项目看似流程完整, ...
2026-01-15在CDA(Certified Data Analyst)数据分析师的日常工作中,“高维数据处理”是高频痛点——比如用户画像包含“浏览次数、停留时 ...
2026-01-15在教育测量与评价领域,百分制考试成绩的分布规律是评估教学效果、优化命题设计的核心依据,而正态分布则是其中最具代表性的分布 ...
2026-01-15在用户从“接触产品”到“完成核心目标”的全链路中,流失是必然存在的——电商用户可能“浏览商品却未下单”,APP新用户可能“ ...
2026-01-14在产品增长的核心指标体系中,次日留存率是当之无愧的“入门级关键指标”——它直接反映用户对产品的首次体验反馈,是判断产品是 ...
2026-01-14在CDA(Certified Data Analyst)数据分析师的业务实操中,“分类预测”是高频核心需求——比如“预测用户是否会购买商品”“判 ...
2026-01-14在数字化时代,用户的每一次操作——无论是电商平台的“浏览-加购-下单”、APP的“登录-点击-留存”,还是金融产品的“注册-实名 ...
2026-01-13在数据驱动决策的时代,“数据质量决定分析价值”已成为行业共识。数据库、日志系统、第三方平台等渠道采集的原始数据,往往存在 ...
2026-01-13在CDA(Certified Data Analyst)数据分析师的核心能力体系中,“通过数据建立模型、实现预测与归因”是进阶关键——比如“预测 ...
2026-01-13在企业数字化转型过程中,业务模型与数据模型是两大核心支撑体系:业务模型承载“业务应该如何运转”的逻辑,数据模型解决“数据 ...
2026-01-12当前手游市场进入存量竞争时代,“拉新难、留存更难”成为行业普遍痛点。对于手游产品而言,用户留存率不仅直接决定产品的生命周 ...
2026-01-12在CDA(Certified Data Analyst)数据分析师的日常工作中,“挖掘变量间的关联关系”是高频核心需求——比如判断“用户停留时长 ...
2026-01-12在存量竞争时代,用户流失率直接影响企业的营收与市场竞争力。无论是电商、互联网服务还是金融行业,提前精准预测潜在流失用户, ...
2026-01-09在量化投资领域,多因子选股是主流的选股策略之一——其核心逻辑是通过挖掘影响股票未来收益的各类因子(如估值、成长、盈利、流 ...
2026-01-09在CDA(Certified Data Analyst)数据分析师的工作场景中,分类型变量的关联分析是高频需求——例如“用户性别与商品偏好是否相 ...
2026-01-09数据库中的历史数据,是企业运营过程中沉淀的核心资产——包含用户行为轨迹、业务交易记录、产品迭代日志、市场活动效果等多维度 ...
2026-01-08在电商行业竞争日趋激烈的当下,数据已成为驱动业务增长的核心引擎。电商公司的数据分析师,不仅是数据的“解读官”,更是业务的 ...
2026-01-08