SPSS分析技术:探索性分析;强大的综合性描述性统计模块
SPSS还提供了一种综合性的数据描述工具:探索性分析,它能够一次性将上述分析结果和其它更详细的分析结果呈现出来,不能能够输出数据结果,还能提供各种直观统计图。
探索性分析
生活中,高空作业一般都会借助外物如吊车等工具帮住自己达到目标,而统计学中也一样,在对数据的基本特征有所了解,需要对数据进行更为细致和深入的描述性观察分析,这时候就需要绘制统计图来辅助分析,这样就使得数据分析更为深入、细致和全面。
探索性分析项目
描述性统计结果。输出各种描述性统计指标,例如,均值、方差、标准差等。
正态分布检验。通过对数据的进一步探索分析,验证其是否符合正态分布,进而确定能否使用正态分布数据的分析方法进行分析。常用的正态分布验证是Q-Q概率图。
方差齐性检验。通过Levene检验比较各组数据之间的方差是否相等,以此判断数据的离散程度是否存在差异。若Levene检验得到的显著性水平小于0.05,就拒绝方差相同的假设。
寻找数据中的奇异值。在数据整理输入过程中,对出现某些影响分析结果的奇异值进行删除或保留。
探究性分析结果的图形描述
探究性分析增加了图形的方式对数据的分布给予直观呈现。图形包括茎叶图、直方图、箱图和Q-Q概率图。茎叶图:是用以描述连续变量的一种手法,主要包括频率、茎和叶三个部分。其中,茎和叶分布代表数据的整数部分和小数部分。茎代表观测值的十位数,叶对应观测值的个位数。一个个位数代表一个观测值,每一行左边的频率就是该行对应的个案数。每个茎叶图的底部还注明了茎宽和每叶代表的个案数。数据的值即为茎叶组成的数值结合乘以茎宽。茎叶图既保留了数据的频率分布,也保存了原始数据,是探究性分析常用方法之一。
直方图:用于对连续变量数据的观察。它是以区间作为水平轴,以各个区间的频率作为相应条块的高度来绘制出统计图。从直方图上可以直观看出数据的分布状况等。
箱图:是表现五数(最小值、最大值、中位数、第一个四分位数、第三个四分位数)的图形形式,其中矩形为箱图的主题,两个四分位数之差为箱长,也称内四分位限。箱体部分包含全体数据约50%的数值,箱体的上中下三条平行线分别表示75%、50%(中位数)和25%分位数。纵贯箱体中间的竖线称为触须线,触须线上下两端的横线代表该组变量数值的最大值(97.5%)和最小值(2.5%)。箱图在比较两个或多个变量时尤其有用,它还可用于判别极端值的存在。如果箱图中有异常值,用【。】表示,如果有极端异常值,则用【*】表示。
案例分析
现有某校451名学生的体检数据,测量了身高、体重、肺活量、血压、心率等指标。对所有学生的身高数据进行探索性分析,进一步了解该校学生的身高情况。
分析步骤
1、选择菜单【分析】-【描述统计】-【探索】。将变量身高选入因变量列表;将性别选入因子列表;将编号变量选入标注个案。
因变量指待分析的数据变量;
因子列表指分类变量,即按照因子变量对因变量进行分类;
标注个案指对异常值的标注信息;
本案例将身高变量选为因变量,即待分析数据变量;将年龄变量选为因子变量,即按照年龄对身高数据进行分类;标注个案选择编号变量,在统计图上,异常值将标注其编号。
2、统计指标及统计图选择。
为了展示探索性分析的所有功能,我们将所有的统计指标及统计图类型都进行勾选。其它的选项比较简单,这里需要对伸展与级别Levene检验进行说明。
3、点击【继续】,然后点击【确定】,输出结果。
结果解读
1、个案处理摘要;从下表可以知道每个年龄的有效个案数、缺失个案数和总计个案数。
2、描述统计摘要表;由于年龄跨度较大,所以在这里只展示10岁的学生数据。包括了所有的描述性统计指标。
3、M-估计值;
当数据中存在极端值和奇异值时,M估计值是更好的平均值和中位数的替代者,能够更好的反映数据的集中程度。M估计采取的办法是给每个个案数值增加权重,这样能够有效的减少极端值和异常值对平均值和中位数的影响,从而让分析者更好的了解手中的数据。表中有四个M估计值,它们的区别在于权重不同。如果描述统计中,平均值和中位数与M估计表的有很大出入,说明原始数据中存在极端值。
4、百分位数;表中显示每个年龄数据的不同百分位的身高。
5、正态分布检验结果;探索性分析采用了两种正态分布检验方法:K-S检验和S-W检验。
结果展示了每个年龄学生的身高是否服从正态分布。
6、各种统计图形,这里以10岁学生群体的统计图为例。输出结果中包括了直方图、茎叶图、Q-Q图、去势Q-Q图以及箱图。
数据分析咨询请扫描二维码
CDA数据分析师在中国航信高科技产业园进行了面向测试度量的数据分析培训课程,培训人数近2 ...
2024-05-01CDA数据分析师走进深圳迈瑞生物医疗电子股份有限公司,在迈瑞总部展开了为期两天的培训,本次课程参训人员线上及线下近百人, ...
2024-05-01CDA数据分析师在合肥市对合肥阳光新能源科技有限公司开展了为期8天的企业内训。 合肥阳光新能源科技 ...
2024-05-01CDA数据分析师走进海尔大学,进行了《数据治理与数据中台建设的道与术》专题培训,培训现场爆满,近百人参加了此次培训。 ...
2024-05-01在中国银行苏州分行培训中心开始数据分析师培训,此次培训课程共10天内容,包括Excel、MySQL、概率论与数理统计、SPSS等内容, ...
2024-05-01从实际的业务需求出发,结合行业的典型应用特点,围绕实际的商业问题,探讨数据挖掘、机器学习模型在金融领域的应用,包括获客、信用评分、细分画像、交叉销售、反欺诈、违规识别、时序预测、运筹优化、流程挖掘九个方面,形成 ...
2024-05-01本次培训课程为线上+线下的模式,由于学员编程能力不一、部分学员没有编程基础,故提供统计学、python基 ...
2024-05-01华夏银行信用卡中心-机器学习培训 1、课程亮点 取材于业界一流企业和顶级咨询公司的行业实践;已经被证明是人人 ...
2024-05-01主 题:数据中台建设及数据分析应用主题分享 1. 数据中台市场洞察 2. 主流数据中台产品比较 3. 某企业数据中 ...
2024-05-01围绕“数据驱动”战略,全力打造我行 300 人数字化人才梯队,着力培养数字化管理人才、大数据专业团队 ...
2024-05-01在当今数据驱动的商业环境中,数据分析成为了企业决策的重要依据。通过对大量数据的收集、处理和分析,企业能够更好地理解市场 ...
2024-04-29在人工智能(AI)的世界里,提示词(Prompt)是一种强大的工具,它能够引导AI按照用户的需求产生特定的输出。本文将深入探讨AI ...
2024-04-29CDA立足未来职场,拓展前沿视野——对外经贸大学保险学院举办“三全育人大讲堂”分享行业最新动态。 ...
2024-04-294月2日,CDA数据分析师创始发起人兼协会理事长赵坚毅博士受邀在浙江万里学院举办了一场以“数字化能力在职场中的作用” ...
2024-04-29随机森林(Random Forests)现在机器学习中比较火的一个算法,是一种基于Bagging的集成学习方法,能够很好地处理分类和回归的问 ...
2022-12-23方差分析是数据分析中常用的一种统计分析方法,接下来让我们简单了解一下方差分析的基本思想和原理吧。 方差分析(Analysis ...
2022-12-23来源:关于数据分析与可视化 关于streamlit-aggrid 数据排序 表格样式的调整 数据 ...
2022-08-03作者:麦叔 定义 「把上面晦涩的概念汇成一句话就是:」 ❝ 回调函数就是一个被作为参 ...
2022-08-03现今,高学历人群日益增多,物以稀为贵的高学历光环淡去。无论本科生还是研究生,甚至博士生,求职竞争力都大不如前,就业压力越来越大。
2022-06-01某家企业10个人面试,有9个本科生……如何脱颖而出,除得体的举止和良好的沟通力外,证书成重要筹码,这也是很多人考证的关键所在。
2022-04-14