京公网安备 11010802034615号
经营许可证编号:京B2-20210330
SPSS分析技术:探索性分析;强大的综合性描述性统计模块
SPSS还提供了一种综合性的数据描述工具:探索性分析,它能够一次性将上述分析结果和其它更详细的分析结果呈现出来,不能能够输出数据结果,还能提供各种直观统计图。
探索性分析
生活中,高空作业一般都会借助外物如吊车等工具帮住自己达到目标,而统计学中也一样,在对数据的基本特征有所了解,需要对数据进行更为细致和深入的描述性观察分析,这时候就需要绘制统计图来辅助分析,这样就使得数据分析更为深入、细致和全面。
探索性分析项目
描述性统计结果。输出各种描述性统计指标,例如,均值、方差、标准差等。
正态分布检验。通过对数据的进一步探索分析,验证其是否符合正态分布,进而确定能否使用正态分布数据的分析方法进行分析。常用的正态分布验证是Q-Q概率图。
方差齐性检验。通过Levene检验比较各组数据之间的方差是否相等,以此判断数据的离散程度是否存在差异。若Levene检验得到的显著性水平小于0.05,就拒绝方差相同的假设。
寻找数据中的奇异值。在数据整理输入过程中,对出现某些影响分析结果的奇异值进行删除或保留。
探究性分析结果的图形描述
探究性分析增加了图形的方式对数据的分布给予直观呈现。图形包括茎叶图、直方图、箱图和Q-Q概率图。茎叶图:是用以描述连续变量的一种手法,主要包括频率、茎和叶三个部分。其中,茎和叶分布代表数据的整数部分和小数部分。茎代表观测值的十位数,叶对应观测值的个位数。一个个位数代表一个观测值,每一行左边的频率就是该行对应的个案数。每个茎叶图的底部还注明了茎宽和每叶代表的个案数。数据的值即为茎叶组成的数值结合乘以茎宽。茎叶图既保留了数据的频率分布,也保存了原始数据,是探究性分析常用方法之一。
直方图:用于对连续变量数据的观察。它是以区间作为水平轴,以各个区间的频率作为相应条块的高度来绘制出统计图。从直方图上可以直观看出数据的分布状况等。
箱图:是表现五数(最小值、最大值、中位数、第一个四分位数、第三个四分位数)的图形形式,其中矩形为箱图的主题,两个四分位数之差为箱长,也称内四分位限。箱体部分包含全体数据约50%的数值,箱体的上中下三条平行线分别表示75%、50%(中位数)和25%分位数。纵贯箱体中间的竖线称为触须线,触须线上下两端的横线代表该组变量数值的最大值(97.5%)和最小值(2.5%)。箱图在比较两个或多个变量时尤其有用,它还可用于判别极端值的存在。如果箱图中有异常值,用【。】表示,如果有极端异常值,则用【*】表示。
案例分析
现有某校451名学生的体检数据,测量了身高、体重、肺活量、血压、心率等指标。对所有学生的身高数据进行探索性分析,进一步了解该校学生的身高情况。
分析步骤
1、选择菜单【分析】-【描述统计】-【探索】。将变量身高选入因变量列表;将性别选入因子列表;将编号变量选入标注个案。
因变量指待分析的数据变量;
因子列表指分类变量,即按照因子变量对因变量进行分类;
标注个案指对异常值的标注信息;
本案例将身高变量选为因变量,即待分析数据变量;将年龄变量选为因子变量,即按照年龄对身高数据进行分类;标注个案选择编号变量,在统计图上,异常值将标注其编号。
2、统计指标及统计图选择。
为了展示探索性分析的所有功能,我们将所有的统计指标及统计图类型都进行勾选。其它的选项比较简单,这里需要对伸展与级别Levene检验进行说明。
3、点击【继续】,然后点击【确定】,输出结果。
结果解读
1、个案处理摘要;从下表可以知道每个年龄的有效个案数、缺失个案数和总计个案数。
2、描述统计摘要表;由于年龄跨度较大,所以在这里只展示10岁的学生数据。包括了所有的描述性统计指标。
3、M-估计值;
当数据中存在极端值和奇异值时,M估计值是更好的平均值和中位数的替代者,能够更好的反映数据的集中程度。M估计采取的办法是给每个个案数值增加权重,这样能够有效的减少极端值和异常值对平均值和中位数的影响,从而让分析者更好的了解手中的数据。表中有四个M估计值,它们的区别在于权重不同。如果描述统计中,平均值和中位数与M估计表的有很大出入,说明原始数据中存在极端值。
4、百分位数;表中显示每个年龄数据的不同百分位的身高。
5、正态分布检验结果;探索性分析采用了两种正态分布检验方法:K-S检验和S-W检验。
结果展示了每个年龄学生的身高是否服从正态分布。
6、各种统计图形,这里以10岁学生群体的统计图为例。输出结果中包括了直方图、茎叶图、Q-Q图、去势Q-Q图以及箱图。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10