SPSS—描述性统计分析—探索性分析-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读SPSS—描述性统计分析—探索性分析

SPSS—描述性统计分析—探索性分析

2017-10-24

SPSS—描述性统计分析—探索性分析

菜单

除了可以计算基本的统计量之外，也可以给出一些简单的检验结果和图形，有助于用户进一步的分析数据。使得用户能够从大量的分析结果之中挖掘到所需要的统计信息。

适用范围
对资料的性质、分布特点等完全不清楚的时候

Analyze -> Descriptive Statistics -> Expore

数据源

ceramics.sav

因变量列表

用于选入待分析的变量

因子列表

用于选择分组变量，根据该变量取值不同，分组分析因变量列表中的变量

标注个案

选择标签变量

统计量

描述性

计算一般的描述性统计量，及指定的均数可信区间

M-估计量

描述集中趋势的统计量，用于稳健估计

界外值

分别输出5个极大值和极小值

百分位数

输出变量5%,10%,25%,50%,75%,90%,95%分位数

绘制

带校验的正态图

选择是否进行正态校验，且是否输出相应的Q-Q图

伸展与级别Levene检验

当选入分组变量时，该功能才被激活，主要用于比较各组之间的离散程度是否一致。在这里可以选择“未转换”，用于方差齐性检验

选项

输出结果

个案处理分析结果

包括观测量、缺失值等信息

描述性统计量

包括：均值、95%置信区间、方差、中位数、标准差、最大最小值、偏度和峰度等信息

集中趋势分布的3种较佳平稳测度

较佳测度之一：中位数等

中位数

与均值和众数大不相同，中位数是依赖于数据的主体部分而不是极值，因此它的值不是过分地受某几个观察值的影响

平稳估计量

如果对数据来源的总体做出某个假设（比如假定服从正态分布），则会有更佳分布位置的估计量，这种估计量称为平稳或稳健测度的估计量

较佳测度之二：修正均值
由于均值深受极端值影响，因此可通过去掉一些远离主体数据的极端值，进而获得一个对于分布位置简单而平稳的估计量

5%修正均值

是通过去掉所有观察值中最大的5%和最小的5%的数据而获得

调整后的均值与中位数可更好的利用数据

较佳测度之三：M估计
将极端值计算在内，而赋予比靠近中央值较小的一个权重，这种方法可借助M估计或采用广义最大似然估计
M-estimators：平稳分布位置的最大似然估计量

Huber的M估计值

Tukey双权重估计值

Hampel重复递减M估计值

Andrew波形估计值

M-估计器

极值

这里用标注个案来标记极值

正态性检验

其中Premium变量对应的K-S检验P值和Shapiro-Wilk检验P值均为0.000，非常显著，应该拒绝原假设。所以，此变量的数据分布不是正态分布。

而Standard数据的分布不是显著的，可以认为是正态分布

在‘探索’里出现的Kolmogorov-Smirnov 检验，它的右上角有一个a 的注释号。它将Kolmogorov-Smirnov 检验改进用于一般的正态性检验。

而在‘非参数检验’里出现的Kolmogorov-Smirnov 检验，是没有经过纠正或改进的。

该正态性检验只能做标准正态检验。

SPSS规定：当样本含量3≤n≤5000 时，结果以Shapiro—Wilk(W 检验)为难，当样本含量n>5000 结果以Kolmogorm —Smimov(D检验)为准。

问题：

(1) 在实际应用中常出现检验结果与直方图、正态性概率图不一致，甚至几种假设检验方法结果完全不同的情况。

(2) Shapiro—Wilk 检验(Ⅳ 检验)和经过Lilliefors 显著水平修正的Kolmogorov—Smirnov 检验(D 检验)是用一个综合指标(顺序统计量Ⅳ 或D)来判定资料的正态性由于两种方法都是用一个指标反映资料的正态性，

所以当资料的正态峰和对称性两个特征有一个不满足正态性要求时，两种方法出现假阴性错误的机率均较大；而且两种方法的检验统计量都是进行大小排序后得到，所以易受异常值的影响。

(3) Kolmogorov—Smirnov 单一样本检验是根据实际的累计频数分布和理论的累计频数分布的最大差异来检验资料的正态性，可对正态分布进行拟合优度检验。但它并非检验正态性的专用方法，因此它的检验效率是最低的，最容易受样本量和异常值等因素的影响。

方差齐性检验

假设检验：
H0: 两样本方差齐性（相等，或无显著性差异）

如上图，Sig > 0.2，并无显著差异。

正态Q-Q图

正态性检验可以通过直观的Q-Q图，进行人工验证。

Q-Q图是一种散点图,对应于正态分布的Q-Q图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图. 要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值.

如上图，batch=Standard Q-Q图上的点在一条直线附近，可以认为是正态分布，和正态性检验Lilliefors，Shapiro-Wilk得出的结果一致。

反趋势正态 Q-Q 图

如上图，反趋势正态概率Q-Q图以变量的观测值为X坐标，以变量的Z得分与期望值的偏差为Y坐标。
batch=Standard 图的观测点离期望值很集中，说明符合正态分布。

盒子图

Premiun中有部分异常数据，数据偏大。需要进行异常值检测。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

正态分布散点图假设检验特征偏差直方图统计分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业

下一篇Excel-漏斗图分析（差异分析）

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

SPSS—描述性统计分析—探索性分析

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA数据分析师认证介绍

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载