
小白学数据分析--SPSS探索分析实践操作[不同生命周期]
SPSS为我们提供了探索分析,所谓探索分析之所以是探索,是因为有时候我们对于变量的分布特点不是很清楚,探索的目的在于帮助我们完成以下的工作:
识别数据:例如数据的分布形式、异常值、缺失值;
正态性检验:服从正态分布的检验;
方差齐性检验:不同数据组的方差是否相等。
有关于方差齐性检验原理、正态分布这里不累述,这里主要介绍SPSS的探索分析使用。
数据文件
这里使用的文件是不同周期的充值用户的充值数据,这里主要是针对流失用户和活跃用户的充值数据。
具体操作
首先将源文件加载到SPSS中,选择菜单分析|描述统计|探索,如下图所示:
之后弹出对话框如下:
在该对话框中,有几个输入的位置:
因变量:为我们要分析的目标变量,变量多是连续性变量居多。
因子:是目标变量的分组,本例中,就是针对充值用户的充值金额进行分组,比如活跃和流失两组。
标注个案:对于异常值进行标注,识别异常值。
在此处,我们因变量选取充值总额,因子选取用户状态,标注个案我们选取服务器ID,如下图所示:
在该弹窗还有几个按钮,首先我们设置一下统计量按钮,打开统计量的窗口如下所示:
该弹窗的作用主要是设置输出时的统计量,在该弹窗可以看到以下的信息:
描述性:主要是完成输出一些我们之前说过的描述性统计的统计量,这些信息详见(http://www.cnblogs.com/yuyang-DataAnalysis/archive/2011/10/23/2221838.html)。同时这里还有一个置信区间的设置问题,这里默认的是95%,关于置信区间以后会说到,这里不再累述。
M-估计量:输出四种均值的稳健极大似然估计量,这里面有稳健估计量、非稳健估计量、波估计值、复权重估计量,有关于这部分的信息参见附件。
界外值:输出变量数据的前5个最大值和后5个最小值。
百分位数:变量数据的百分位数。
这里我们只选择描述性就可以了。接下来就是绘制对话框的设置了。
在此对话框中,有箱图、描述性、伸展与级别Levene检验三部分构成。首先来看箱图部分。
我们默认选择按因子水平分组,这标志着因变量的箱图将按照因子进行多个显示,此时就会有多个箱图,这取决于你分组的个数决定,当然不分组,就只会显示一个箱图,无,则就是不显示箱图。
描述性,则是选择输出的图形的种类而异。
伸展与级别Levene检验是设置数据转换的散步水平,其实就是对于原始数据变化的设置。有完成两个任务,一个是数据转换后的回归曲线斜率,另一个就是方差齐性检验。该部分主要有四种选项,无、幂估计、已转换、未转换。
无,则是不输出,变量的散步水平;
未转换,不对原始数据进行变换;
已转换,对因变量进行数据转换,方法有自然对数变换、1/平方根变换、倒数变换、平方根变换、立方变换。
幂估计,对每一个变量数据产生一个中位数的自然对数和四分位数的自然对数的散点图,对各变量的方差转化为同方差所需要的幂的估计。
在此处,我们选择无。
当然在这个对话框中,还有一个部分比较重要,那就是带检验的正态图。此选项能够输出正态概率图和离散概率图,且可以输出变量数据经Lilliefors显著水平修正的K-S和S-W的统计量。
下面就是选项对话框的设置了,该部分主要是针对缺失值的处理,方法有三种:
按列表排除个案:只要任何一个变量含有缺失值,就要踢出所有因变量或分组变量中有缺失值的观测记录。
按对排除个案:仅仅踢出所用到的变量的缺失值。
报告值:变量中存在缺失值单独作为一个类别进行统计,输出。
之后确定,结果输出,所有的结果会在查看器重显示,如下图:
报告分为几部分,摘要、描述统计、正态性检验、各种图形。
摘要部分
主要是确认是有缺失值情况信息。
描述统计部分
主要输出各项统计信息,参看描述性统计一文介绍。
正态性检验部分
Df表示自由度
Sig表示检验的显著水平,即P值,一般来说P值越大,越支持正态分布。
此处我们假设服从正态分布,根据K-S统计量和S-W统计量可以看出,两种用户的充值总额显著水平小于5%,即sig<0.05不服从正态分布。
图形部分
上图为茎叶图
Frequency表示数据的频数,stern表示茎,Leaf表示叶,两者表示数据的整数部分和小数部分,Stern width表示宽度。
怎么看这个茎叶图?
茎叶图其实是一种很形象的图示,下面告诉诸位怎么看茎叶图。简单的一句话解释就是:多少频数就代表多少(叶子+茎)。下面举一个例子来看。比如下图的数据:
其含义代表充值额2.5元的有三例,充值额2.8有两例,共计5例。
此外还有标准和趋势QQ图,用于从图形的角度来分析数据是否呈现正态分布。
首先来看标准QQ图,如果服从正态分布,则散点分布是接近于一条直线的,形式如下:
然而在本类中,我们看到流失玩家和活跃玩家的充值金额QQ图如下:
可以看到是不符合正态分布的。同样的我们看到的趋势QQ图则也是要分布在直线周围才是正态分布,而在下面的趋势QQ图中,却不是这样的情况。
最后还有一个图,就是箱线图,有关箱线图的解释和分析,已经在以前的文章中有所阐述,可翻阅(http://www.cnblogs.com/yuyang-DataAnalysis/archive/2012/03/08/2385874.html)。
这里简单的再说一句,矩形框的部分是箱线图的主体,上中下三线代表75%,50%,25%的百分位数。
纵向的直线叫做触须线,上截止到变量本体的最大值,下截止到变量本体的最小值。所谓本体即除奇异值以外 的变量值叫做本体值。
奇异值,用0作为标记,分大小两种,箱体上方用0标记,变量值超过第75分位与25分位数的变量差的1.5倍。箱体下方则表示小于这个1.5倍。
极值,用*表示,箱体上方是超过变量差值的3倍(75分位和25分位之差),箱体下方同理。
按照上述的叙述,可以看看我们所分析的数据的具体情况,这里不再累述了。
以上结合了一些教材把探索性分析的基本操作讲述了一遍,作为探索性分析这只是我们作为更深入分析的一个前奏过程,但是这里却不能忽略其价值,比如怎么看茎叶图,箱线图,正态分布检验等等,在网游行业的应用其实也有很多,比如今天提到的不同生命周期玩家的充值的探索性分析,还有比如付费与非付费玩家的等级成长探索分析,不同服务器,不同渠道,不同充值平台之间的玩家的探索分析,这些虽然看似简单,但是都是值得去做和慢慢研究的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01