
SPSS分析技术:探索性分析;强大的综合性描述性统计模块
SPSS还提供了一种综合性的数据描述工具:探索性分析,它能够一次性将上述分析结果和其它更详细的分析结果呈现出来,不能能够输出数据结果,还能提供各种直观统计图。
探索性分析
生活中,高空作业一般都会借助外物如吊车等工具帮住自己达到目标,而统计学中也一样,在对数据的基本特征有所了解,需要对数据进行更为细致和深入的描述性观察分析,这时候就需要绘制统计图来辅助分析,这样就使得数据分析更为深入、细致和全面。
探索性分析项目
描述性统计结果。输出各种描述性统计指标,例如,均值、方差、标准差等。
正态分布检验。通过对数据的进一步探索分析,验证其是否符合正态分布,进而确定能否使用正态分布数据的分析方法进行分析。常用的正态分布验证是Q-Q概率图。
方差齐性检验。通过Levene检验比较各组数据之间的方差是否相等,以此判断数据的离散程度是否存在差异。若Levene检验得到的显著性水平小于0.05,就拒绝方差相同的假设。
寻找数据中的奇异值。在数据整理输入过程中,对出现某些影响分析结果的奇异值进行删除或保留。
探究性分析结果的图形描述
探究性分析增加了图形的方式对数据的分布给予直观呈现。图形包括茎叶图、直方图、箱图和Q-Q概率图。茎叶图:是用以描述连续变量的一种手法,主要包括频率、茎和叶三个部分。其中,茎和叶分布代表数据的整数部分和小数部分。茎代表观测值的十位数,叶对应观测值的个位数。一个个位数代表一个观测值,每一行左边的频率就是该行对应的个案数。每个茎叶图的底部还注明了茎宽和每叶代表的个案数。数据的值即为茎叶组成的数值结合乘以茎宽。茎叶图既保留了数据的频率分布,也保存了原始数据,是探究性分析常用方法之一。
直方图:用于对连续变量数据的观察。它是以区间作为水平轴,以各个区间的频率作为相应条块的高度来绘制出统计图。从直方图上可以直观看出数据的分布状况等。
箱图:是表现五数(最小值、最大值、中位数、第一个四分位数、第三个四分位数)的图形形式,其中矩形为箱图的主题,两个四分位数之差为箱长,也称内四分位限。箱体部分包含全体数据约50%的数值,箱体的上中下三条平行线分别表示75%、50%(中位数)和25%分位数。纵贯箱体中间的竖线称为触须线,触须线上下两端的横线代表该组变量数值的最大值(97.5%)和最小值(2.5%)。箱图在比较两个或多个变量时尤其有用,它还可用于判别极端值的存在。如果箱图中有异常值,用【。】表示,如果有极端异常值,则用【*】表示。
案例分析
现有某校451名学生的体检数据,测量了身高、体重、肺活量、血压、心率等指标。对所有学生的身高数据进行探索性分析,进一步了解该校学生的身高情况。
分析步骤
1、选择菜单【分析】-【描述统计】-【探索】。将变量身高选入因变量列表;将性别选入因子列表;将编号变量选入标注个案。
因变量指待分析的数据变量;
因子列表指分类变量,即按照因子变量对因变量进行分类;
标注个案指对异常值的标注信息;
本案例将身高变量选为因变量,即待分析数据变量;将年龄变量选为因子变量,即按照年龄对身高数据进行分类;标注个案选择编号变量,在统计图上,异常值将标注其编号。
2、统计指标及统计图选择。
为了展示探索性分析的所有功能,我们将所有的统计指标及统计图类型都进行勾选。其它的选项比较简单,这里需要对伸展与级别Levene检验进行说明。
3、点击【继续】,然后点击【确定】,输出结果。
结果解读
1、个案处理摘要;从下表可以知道每个年龄的有效个案数、缺失个案数和总计个案数。
2、描述统计摘要表;由于年龄跨度较大,所以在这里只展示10岁的学生数据。包括了所有的描述性统计指标。
3、M-估计值;
当数据中存在极端值和奇异值时,M估计值是更好的平均值和中位数的替代者,能够更好的反映数据的集中程度。M估计采取的办法是给每个个案数值增加权重,这样能够有效的减少极端值和异常值对平均值和中位数的影响,从而让分析者更好的了解手中的数据。表中有四个M估计值,它们的区别在于权重不同。如果描述统计中,平均值和中位数与M估计表的有很大出入,说明原始数据中存在极端值。
4、百分位数;表中显示每个年龄数据的不同百分位的身高。
5、正态分布检验结果;探索性分析采用了两种正态分布检验方法:K-S检验和S-W检验。
结果展示了每个年龄学生的身高是否服从正态分布。
6、各种统计图形,这里以10岁学生群体的统计图为例。输出结果中包括了直方图、茎叶图、Q-Q图、去势Q-Q图以及箱图。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29CDA 数据分析与量化策略分析流程:协同落地数据驱动价值 在数据驱动决策的实践中,“流程” 是确保价值落地的核心骨架 ——CDA ...
2025-08-29CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-28CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-08-28PCU:游戏运营的 “实时晴雨表”—— 从数据监控到运营决策的落地指南 在游戏行业,DAU(日活跃用户)、MAU(月活跃用户)是衡量 ...
2025-08-28Excel 聚类分析:零代码实现数据分群,赋能中小团队业务决策 在数字化转型中,“数据分群” 是企业理解用户、优化运营的核心手段 ...
2025-08-28CDA 数据分析师:数字化时代数据思维的践行者与价值推动者 当数字经济成为全球经济增长的核心引擎,数据已从 “辅助性信息” 跃 ...
2025-08-28ALTER TABLE ADD 多个 INDEX:数据库批量索引优化的高效实践 在数据库运维与性能优化中,索引是提升查询效率的核心手段。当业务 ...
2025-08-27Power BI 去重函数:数据清洗与精准分析的核心工具 在企业数据分析流程中,数据质量直接决定分析结果的可靠性。Power BI 作为主 ...
2025-08-27CDA 数据分析师:数据探索与统计分析的实践与价值 在数字化浪潮席卷各行业的当下,数据已成为企业核心资产,而 CDA(Certif ...
2025-08-27t 检验与 Wilcoxon 检验:数据差异比较的两大统计利器 在数据分析中,“比较差异” 是核心需求之一 —— 如新药疗效是否优于旧药 ...
2025-08-26季节性分解外推法:解锁时间序列预测的规律密码 在商业决策、资源调度、政策制定等领域,准确的预测是规避风险、提升效率的关键 ...
2025-08-26CDA 数据分析师:数据治理驱动下的企业数据价值守护者 在数字经济时代,数据已成为企业核心战略资产,其价值的释放离不开高 ...
2025-08-26基于 SPSS 的 ROC 曲线平滑调整方法与实践指南 摘要 受试者工作特征曲线(ROC 曲线)是评估诊断模型或预测指标效能的核心工具, ...
2025-08-25神经网络隐藏层神经元个数的确定方法与实践 摘要 在神经网络模型设计中,隐藏层神经元个数的确定是影响模型性能、训练效率与泛 ...
2025-08-25CDA 数据分析师与数据思维:驱动企业管理升级的核心力量 在数字化浪潮席卷全球的当下,数据已成为企业继人力、物力、财力之后的 ...
2025-08-25CDA数据分析师与数据指标:基础概念与协同逻辑 一、CDA 数据分析师:数据驱动时代的核心角色 1.1 定义与行业价值 CDA(Certified ...
2025-08-22Power Query 移动加权平均计算 Power Query 移动加权平均设置全解析:从原理到实战 一、移动加权平均法的核心逻辑 移动加权平均 ...
2025-08-22描述性统计:CDA数据分析师的基础核心与实践应用 一、描述性统计的定位:CDA 认证的 “入门基石” 在 CDA(Certified Data Analy ...
2025-08-22