京公网安备 11010802034615号
经营许可证编号:京B2-20210330
SPSS分析技术:探索性分析;强大的综合性描述性统计模块
SPSS还提供了一种综合性的数据描述工具:探索性分析,它能够一次性将上述分析结果和其它更详细的分析结果呈现出来,不能能够输出数据结果,还能提供各种直观统计图。
探索性分析
生活中,高空作业一般都会借助外物如吊车等工具帮住自己达到目标,而统计学中也一样,在对数据的基本特征有所了解,需要对数据进行更为细致和深入的描述性观察分析,这时候就需要绘制统计图来辅助分析,这样就使得数据分析更为深入、细致和全面。
探索性分析项目
描述性统计结果。输出各种描述性统计指标,例如,均值、方差、标准差等。
正态分布检验。通过对数据的进一步探索分析,验证其是否符合正态分布,进而确定能否使用正态分布数据的分析方法进行分析。常用的正态分布验证是Q-Q概率图。
方差齐性检验。通过Levene检验比较各组数据之间的方差是否相等,以此判断数据的离散程度是否存在差异。若Levene检验得到的显著性水平小于0.05,就拒绝方差相同的假设。
寻找数据中的奇异值。在数据整理输入过程中,对出现某些影响分析结果的奇异值进行删除或保留。
探究性分析结果的图形描述
探究性分析增加了图形的方式对数据的分布给予直观呈现。图形包括茎叶图、直方图、箱图和Q-Q概率图。茎叶图:是用以描述连续变量的一种手法,主要包括频率、茎和叶三个部分。其中,茎和叶分布代表数据的整数部分和小数部分。茎代表观测值的十位数,叶对应观测值的个位数。一个个位数代表一个观测值,每一行左边的频率就是该行对应的个案数。每个茎叶图的底部还注明了茎宽和每叶代表的个案数。数据的值即为茎叶组成的数值结合乘以茎宽。茎叶图既保留了数据的频率分布,也保存了原始数据,是探究性分析常用方法之一。
直方图:用于对连续变量数据的观察。它是以区间作为水平轴,以各个区间的频率作为相应条块的高度来绘制出统计图。从直方图上可以直观看出数据的分布状况等。
箱图:是表现五数(最小值、最大值、中位数、第一个四分位数、第三个四分位数)的图形形式,其中矩形为箱图的主题,两个四分位数之差为箱长,也称内四分位限。箱体部分包含全体数据约50%的数值,箱体的上中下三条平行线分别表示75%、50%(中位数)和25%分位数。纵贯箱体中间的竖线称为触须线,触须线上下两端的横线代表该组变量数值的最大值(97.5%)和最小值(2.5%)。箱图在比较两个或多个变量时尤其有用,它还可用于判别极端值的存在。如果箱图中有异常值,用【。】表示,如果有极端异常值,则用【*】表示。
案例分析
现有某校451名学生的体检数据,测量了身高、体重、肺活量、血压、心率等指标。对所有学生的身高数据进行探索性分析,进一步了解该校学生的身高情况。
分析步骤
1、选择菜单【分析】-【描述统计】-【探索】。将变量身高选入因变量列表;将性别选入因子列表;将编号变量选入标注个案。
因变量指待分析的数据变量;
因子列表指分类变量,即按照因子变量对因变量进行分类;
标注个案指对异常值的标注信息;
本案例将身高变量选为因变量,即待分析数据变量;将年龄变量选为因子变量,即按照年龄对身高数据进行分类;标注个案选择编号变量,在统计图上,异常值将标注其编号。
2、统计指标及统计图选择。
为了展示探索性分析的所有功能,我们将所有的统计指标及统计图类型都进行勾选。其它的选项比较简单,这里需要对伸展与级别Levene检验进行说明。
3、点击【继续】,然后点击【确定】,输出结果。
结果解读
1、个案处理摘要;从下表可以知道每个年龄的有效个案数、缺失个案数和总计个案数。
2、描述统计摘要表;由于年龄跨度较大,所以在这里只展示10岁的学生数据。包括了所有的描述性统计指标。
3、M-估计值;
当数据中存在极端值和奇异值时,M估计值是更好的平均值和中位数的替代者,能够更好的反映数据的集中程度。M估计采取的办法是给每个个案数值增加权重,这样能够有效的减少极端值和异常值对平均值和中位数的影响,从而让分析者更好的了解手中的数据。表中有四个M估计值,它们的区别在于权重不同。如果描述统计中,平均值和中位数与M估计表的有很大出入,说明原始数据中存在极端值。
4、百分位数;表中显示每个年龄数据的不同百分位的身高。
5、正态分布检验结果;探索性分析采用了两种正态分布检验方法:K-S检验和S-W检验。
结果展示了每个年龄学生的身高是否服从正态分布。
6、各种统计图形,这里以10岁学生群体的统计图为例。输出结果中包括了直方图、茎叶图、Q-Q图、去势Q-Q图以及箱图。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据仓库与数据分析体系中,维度表与事实表是构建结构化数据模型的核心组件,二者如同“骨架”与“血肉”,协同支撑起各类业务 ...
2026-01-16在游戏行业“存量竞争”的当下,玩家留存率直接决定游戏的生命周期与商业价值。一款游戏即便拥有出色的画面与玩法,若无法精准识 ...
2026-01-16为配合CDA考试中心的 2025 版 CDA Level III 认证新大纲落地,CDA 网校正式推出新大纲更新后的第一套官方模拟题。该模拟题严格遵 ...
2026-01-16在数据驱动决策的时代,数据分析已成为企业运营、产品优化、业务增长的核心工具。但实际工作中,很多数据分析项目看似流程完整, ...
2026-01-15在CDA(Certified Data Analyst)数据分析师的日常工作中,“高维数据处理”是高频痛点——比如用户画像包含“浏览次数、停留时 ...
2026-01-15在教育测量与评价领域,百分制考试成绩的分布规律是评估教学效果、优化命题设计的核心依据,而正态分布则是其中最具代表性的分布 ...
2026-01-15在用户从“接触产品”到“完成核心目标”的全链路中,流失是必然存在的——电商用户可能“浏览商品却未下单”,APP新用户可能“ ...
2026-01-14在产品增长的核心指标体系中,次日留存率是当之无愧的“入门级关键指标”——它直接反映用户对产品的首次体验反馈,是判断产品是 ...
2026-01-14在CDA(Certified Data Analyst)数据分析师的业务实操中,“分类预测”是高频核心需求——比如“预测用户是否会购买商品”“判 ...
2026-01-14在数字化时代,用户的每一次操作——无论是电商平台的“浏览-加购-下单”、APP的“登录-点击-留存”,还是金融产品的“注册-实名 ...
2026-01-13在数据驱动决策的时代,“数据质量决定分析价值”已成为行业共识。数据库、日志系统、第三方平台等渠道采集的原始数据,往往存在 ...
2026-01-13在CDA(Certified Data Analyst)数据分析师的核心能力体系中,“通过数据建立模型、实现预测与归因”是进阶关键——比如“预测 ...
2026-01-13在企业数字化转型过程中,业务模型与数据模型是两大核心支撑体系:业务模型承载“业务应该如何运转”的逻辑,数据模型解决“数据 ...
2026-01-12当前手游市场进入存量竞争时代,“拉新难、留存更难”成为行业普遍痛点。对于手游产品而言,用户留存率不仅直接决定产品的生命周 ...
2026-01-12在CDA(Certified Data Analyst)数据分析师的日常工作中,“挖掘变量间的关联关系”是高频核心需求——比如判断“用户停留时长 ...
2026-01-12在存量竞争时代,用户流失率直接影响企业的营收与市场竞争力。无论是电商、互联网服务还是金融行业,提前精准预测潜在流失用户, ...
2026-01-09在量化投资领域,多因子选股是主流的选股策略之一——其核心逻辑是通过挖掘影响股票未来收益的各类因子(如估值、成长、盈利、流 ...
2026-01-09在CDA(Certified Data Analyst)数据分析师的工作场景中,分类型变量的关联分析是高频需求——例如“用户性别与商品偏好是否相 ...
2026-01-09数据库中的历史数据,是企业运营过程中沉淀的核心资产——包含用户行为轨迹、业务交易记录、产品迭代日志、市场活动效果等多维度 ...
2026-01-08在电商行业竞争日趋激烈的当下,数据已成为驱动业务增长的核心引擎。电商公司的数据分析师,不仅是数据的“解读官”,更是业务的 ...
2026-01-08