京公网安备 11010802034615号
经营许可证编号:京B2-20210330
前边我们已经讲过很多内容了。回顾一下,主要有相关分析,假设检验,和各种回归。以及因子分析。我们知道,对于两组连续变量,我们可以通过假设检验来判断他们的分布是否相同,差异时候存在。不知道大家想过没有,如果我们想讨论两个分类变量的分布是否相同呢?这里我们首先来讨论这个问题。
首先举个例子,假设我们有两个不同季节的某种卫生的是否达标的记录。那么我们就是有两组二分类的变量(就是取值不是这个就是那个,只有两种取值的变量)。对于这两组变量,如果你还想用均值检验来看看分布是不是一样的话,那我真是被你蠢哭了。这个明显是不适合用均值检验或者非参数检验的。它适合的是我们正在介绍的卡方检验。
做分析首先需要做的第一步是输入数据。正常的输入方法是类似均值检验的:我们设一列达标与否,打一堆1或者2上去表示这个个案是达标或者不达标的。然后在设一列季节变量,在打一堆1或者2上去表示对应的这个个案是那个季节的。但是大部分时候,出于效率的考虑,我们都不会这么输数据。我们会设三个变量。达标与否,季节,权重。这样我们用四个个案就能表示了(1,1,第一个季节达标的数量)(1,2,第二个季节达标的数量)(2,1,第一个季节不达标的数量)(2,2,第二个季节不达标的数量)。这两种输入数据的方法都是正确的,但是明显,后一种要简洁一些是不是?
然后,首先用权重那个变量为我们的所有数据加权。然后打开菜单分析——描述统计——交叉表。行选季节,列选达标与否(或者行选达标与否,列选季节),勾选下边的显示复式条形图。点开统计量,全部勾选。点开单元格,全部勾选。然后确定。(为了后边的对应分析,我得节省点篇幅。)
第一个表是在概述你的数据情况,不用管它。第二个表是卡方检验表。这个表可要好好看。我相信到了现在大家已经认识到了p值是多么可爱,多么重要的一个指标了,可是这个表的问题在于,它的p值太多了。分别有:pearson卡方,连续矫正,似然比,fisher精确检验,线性和线性组合,mcnemar检验,哇,这么多,我到底要看哪一个呢?
首先你要看先你的最后一行的有效案例是多少个,其次还要看你最下边的标注,有几个单元格的期望计数小于2,最小期望计数是多少。有了这三个数据就能判断用哪个p值了。注意,下边这段判断方法很重要,你最好找张纸抄下来。
有效案例大于等于40,所有期望计数大于等于5的时候,用Pearson卡方。有效案例大于等于40,有期望计数小于5但最小的期望计数大于1时,用校正卡方。总频数小于40,或者,注意,是或者,有期望计数小于1的时候,用fisher精确。
P值小于0.05,则认为有差异。
现在把我们的例子在变一变,如果我们的卫生达标与否这个指标改为了一个三分类变量,不达标,合格,优秀。这三种类别呢?
操作过程和上边是一样的,但是结果只会告诉你这三组是否有差异,到底那组和那组有差异还要自己从新在做四格表才能判断。
另,在加一个变量,比如这个个案是公有性质或私有性质,三个指标放到一起来判断的时候,就把性质这个变量放到交叉表的主面板的层里边(就在行和列的框框下边。)
粗略的说完卡方以后,我们就来介绍一下对应分析。
卡方检验通常用来处理比较简单的问题,但是对于复杂一点的问题,它的效果会很糟糕哦。比如我的变量每个都有四五个分类,我想看看分类之间的分布是否有差别等等的,肯定不可能用卡方撒。所以这时候就用到了对应分析。
对应分析又叫做关联分析,因为它不仅能反映出来那个分类和那个分类的分布有没有差别,也能反映出来变量之间的分类谁和谁更容易接近。举个例子,假设我有一个变量分类为1,2,3,4,5,另一个变量分类为a,b,c,d,e,f。那么我不仅能观察知道1,2,3,4,5之间谁和谁更接近,我还能观察知道a是和1,2,3,4,5中的那个更亲近,b又是和谁更亲近,套用到实际问题里就是我会知道,哪一类人更容易有那种行为,所以也叫关联分析。(这个名是不是比对应分析响亮一些?想想啤酒与尿布的故事吧!注意,你已经开始涉及到一些机器学习的内容了。)
那么为什么对应分析算是降维分析的一种呢?主要是因为它的原理是主成分分析。粗糙的理解是这样的,它通过把两个多分类变量分别降维降到二维(就是用两个成分来表示这个多分类变量,类似因子分析里的成分图),然后把两张二维的图通过某些转换合到一块(你凑合着这么理解吧,不是简单的往一块和,在最一开始就是一块降得),然后你就可以在一张平面上观察了。因此它归到降维里的范畴。尽管它不像因子分析那样,把多个变量降成较少的变量那样好理解。
打开菜单分析——降维——对应分析,行和列各选择一个分类变量。比如一个变量是年龄段的分类,另一个变量是对某种商品的喜爱程度。在行和列的框框下边还有一个定义范围,点开那个对话框,选择你的最大值和最小值。定义好以后打开模型对话框,解得维数一般选2,处于一个好观察的角度,也出于准确性,一般选择2。然后在打开统计量,勾选对应表,行点概览,列点概览,列轮廓表。绘制对话框勾选双标图。然后就可以得到结果了。
对应表和简要表是不怎么重要的,可以忽略掉。注意看摘要表。首先要解释两个名词。 奇异值。(这里忍不住插嘴,世界上优秀的智能推荐的算法都是用的奇异值分解。)我们知道一个大矩阵通过这么这么分解,那么那么分解,最后能分解成几个小矩阵。这些小矩阵就对应于我们的一个个的成分。所以奇异值的大小呢,就能反映这些小矩阵的重要程度。那么奇异值和因子分析里的特征值有什么区别呢?特征值是用在方阵里的,而奇异值是用在长方形的矩阵里的。而惯量它是奇异值的方,就类似于特征值了。这两个名词了解就可以了,不需要详细的知道。
在摘要表里第一要看总计里边的p值。这个p值不小于0.05的话,那对应分析完全就是没意义的。
第二要看惯量比例里边的解释。对应的百分比。这个类似于因子分析里解释的总方差。都是反映的某一个维能够解释模变量的百分比。通常来说,前两个维都要起码累积到百分之九十。有的数据很好的话,可能只能提取出两个维,两个维就能够累计到百分之百了。
在下边是概述点,如果你的摘要表表现很好的话,这个表就不怎么用看啦。
最后是最重要的散点图。
双击散点图,在图形编辑里边调整坐标的初始值,在行和列的0.0处加辅助线。然后这张图就会别分成四大块了。中心点就是(0,0)。那么在这张图上边就会有两类不同图形的点点,比如圆形表示年龄段的分类,三角表示喜爱程度。在小图形附近还会标注清楚每个小图形对应那个程度。那么这个图怎么看呢?
首先四个大块就直观的告诉我们那些点和那些点距离比较近了。比如代表20岁到40岁的点和非常喜爱的点靠的很近,那么就可以认为20岁到40岁的人会非常喜爱这个产品。这是最基本的一个信息。此外我们可以通过辅助线来进一步解释这张图。比如,我们找到代表非常喜爱的这个三角形,然后把这个点和(0,0)的中心点连线,连出一条直线来。然后把所有的小圆点向这条线做垂线。就是代表每个年龄段的小圆点都引一条垂线出来,垂点落到原来的那条直线上。假如我们分四个年龄段的话,那我们现在就有四个垂点啦。然后我们比较这四个垂点离代表非常喜爱的那个三角形的距离。注意,比较的是垂点哦。垂点离三角形越近,也就是说该年龄段的人越容易表达出非常喜爱哦。因为是垂点,所以从图上看离得比较远的两个点未必就关联程度比较低哦。
同样的道理,我们也可以做出同一年龄段的人更容易喜爱还是不喜爱这个产品的直线图。总之散点图可以很直观的解释信息哦。
简单对应分析大概就是这样了。注意,做简单分析的时候,我们只能观察两个变量啊。那怎么观察更多的变量呢?敬请期待下一讲:多重对应分析。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06