SPSS数据分析实例_数据分析师培训-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读SPSS数据分析实例_数据分析师培训

SPSS数据分析实例_数据分析师培训

2015-06-12

SPSS数据分析实例_数据分析师培训

先从一个数据分析实例入手：当你将这个例题做完，SPSS的基本使用方法也就已经被你掌握了。具体的统计分析功能则按10.0版本讲述

就让我们开始吧！

例1.1 某克山病区测得11例克山病患者与13名健康人的血磷值(mmol/L)如下, 问该地急性克山病患者与健康人的血磷值是否不同（卫统第三版例4.8）？

患者: 0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11

健康人: 0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87

让我们把要做的事情理理顺：首先要做的肯定是打开计算机（废话），然后进入瘟98或瘟2000（还是废话，以下省去废话2万字），在进入SPSS后，具体工作流程如下：

将数据输入SPSS，并存盘以防断电。
进行必要的预分析（分布图、均数标准差的描述等），以确定应采用的检验方法。
按题目要求进行统计分析。
保存和导出分析结果。

下面就按这几步依次讲解。

§1.1 数据的输入和保存

1.1.1 SPSS的界面

当打开SPSS后，展现在我们面前的界面如下：

请将鼠标在上图中的各处停留，很快就会弹出相应部位的名称。

请注意窗口顶部显示为“SPSS for Windows Data Editor”，表明现在所看到的是SPSS的数据管理窗口。这是一个典型的Windows软件界面，有菜单栏、工具栏。特别的，工具栏下方的是数据栏，数据栏下方则是数据管理窗口的主界面。该界面和EXCEL极为相似，由若干行和列组成，每行对应了一条记录，每列则对应了一个变量。由于现在我们没有输入任何数据，所以行、列的标号都是灰色的。请注意第一行第一列的单元格边框为深色，表明该数据单元格为当前单元格。

对Windows操作界面不熟悉的朋友可参见SAS入门第一课中的相关内容。对数据表界面操作不熟悉的朋友可先学习一下EXCEL的操作（因为它的帮助是中文的）。

有的SPSS系统打开时会出现一个导航对话框，请单击右下方的Cancer按钮，即可进入上面的主界面。

1.1.2 定义变量

该资料是定量资料，设计为成组设计，因此我们需要建立两个变量，一个变量代表血磷值，习惯上取名为X，另一个变量代表观察对象是健康人还是克山病人，习惯上取名为GROUP。

对数据的统计分析格式不太熟悉的朋友请先学习统计软件第一课。

选择菜单Data==>Define Variable。系统弹出定义变量对话框如下：

该变量定义对话框在SPSS 10.0版中已被取消，这里的操作只适合9.0～7.0版的用户。

对话框最上方为变量名，现在显示为“VAR00001”，这是系统的默认变量名；往下是变量情况描述，可以看到系统默认该变量为数值型，长度为8，有两位小数位，尚无缺失值，显示对齐方式为右对齐；第三部分为四个设置更改按钮，分别可以设定变量类型、标签、缺失值和列显示格式；第四部分实际上是用来定义变量属于数值变量、有序分类变量还是无序分类变量，现在系统默认新变量为数值变量；最下方则依次是确定、取消和帮助按钮。

好，先来建立分组变量GROUP。请将变量名改为GROUP，然后单击OK按钮。

有没有搞错？！折腾了半天就改个名字！难道连变量格式、标签等都不改？是这样的，在SPSS中所有的数据均以最大位数保存（好象是双精度），也就是说，上面虽然默认只有两位小数，但那指的是计算精度，实际保存的数据位数是非常长的（可以输入Pi值试一下）。在绝大多数情况下，SPSS给出的默认数据类型和数据精度完全可以满足需要，只是不太好看而已。至于标签等比较花哨的选项，反正我也很少用。现在我们才刚刚入门，一切从简。以后我会详细介绍各种设置的用法。

在第一列灰色的“var”上双击，同样会弹出定义变量对话框。

现在SPSS的数据管理窗口如下所示：

第一列的名称已经改为了“group”，这就是我们所定义的新变量“group”。

现在我们来建立变量X。单击第一行第二列的单元格，然后选择菜单Data==>Define Variable，同样，将变量名改为X，然后确认。此时SPSS的数据管理窗口如下所示：

现在，第一、第二列的名称均为深色显示，表明这两列已经被定义为变量，其余各列的名称仍为灰色的“var”，表示尚未使用。同样地，各行的标号也为灰色，表明现在还未输入过数据，即该数据集内没有记录。

1.1.3 输入数据

我们先来输入变量X的值，请确认一行二列单元格为当前单元格，弃鼠标而用键盘，输入第一个数据0.84，此时界面显示如图A所示：


图A	图B

请注意：在回车之前，你输入的数据在数据栏内显示，而不是在单元格内显示，现在回车，界面如图B所示：

首先，当前单元格下移，变成了二行二列单元格，而一行二列单元格的内容则被替换成了0.84；其次，第一行的标号变黑，表明该行已输入了数据；第三，一行一列单元格因为没有输入过数据，显示为“.”，这代表该数据为缺失值。用类似的输入方式，我们将患者的血磷值输入完毕，并将相应的变量GROUP均取值为1，此时数据管理窗口如下所示：

从第12行开始输入健康人的数据，并将相应的GROUP变量取值为2。最终该数据集应该有24条记录。

1.1.4 保存数据

选择菜单File==>Save，由于该数据从来没有被保存过，所以弹出Save as对话框如下：

单击保存类型列表框，可以看到SPSS所支持的各种数据类型，有DBF、FoxPro、EXCEL、ACCESS等，这里我们仍然将其存为SPSS自己的数据格式（*.sav文件）。在文件名框内键入Li1_1并回车，可以看到数据管理窗口左上角由Untitled变为了现在的变量名Li1_1。

为什么这里的对话框会出现汉字？是这样的，需要从编程的角度来解释：SPSS在弹出该对话框时会调用Windows系统的公用函数，由于我们用的是中文Windows系统，所以调用出来的就是中文。

§1.2 数据的预分析

1.2.1 数据的简单描述

首先我们需要知道数据的基本情况，如均数、标准差等。选择Analyze==>Descriptive Statistics==>Descriptives菜单，系统弹出描述对话框如下：

如果按SPSS标准的叫法，这里应该是调用了Descriptives过程，为了避免太生硬，我们称为调用对话框，等大家熟悉SPSS了以后，在统计分析各章中可能两种称呼会混用。

该对话框可分为左右两大部分，左侧为所有可用的侯选变量列表，右侧为选入变量列表。我们只需要描述X，用鼠标选中X，单击中间的，变量X的标签就会移入右侧，注意这时OK按钮变黑，表明已经可以进行分析了，单击它，系统会弹出一个新的界面如下所示：

该窗口上方的名称为SPSS for Windows Viewer，即（结果）浏览窗口，整个的结构和资源管理器类似，左侧为导航栏，右侧为具体的输出结果。结果表格给出了样本数、最小值、最大值、均数和标准差这几个常用的统计量。从中可以看到，24个数据总的均数为1.2846，标准差为0.4687。

我们以上的做法对吗？当然有问题！光看总的描述是不够的，还应当看看分组的描述情况。这里要用到文件分割功能，请切换回数据管理窗口，选择Data==>Split File菜单，系统弹出文件分割对话框如下：

选择单选按钮Organize output by groups，将变量GROUP选入右侧的选入变量框，单击OK钮，此时界面不会有任何改变，但请再做一次数据描述，你就可以看到现在数据是分Group=1和Group=2两种情况在描述了！从描述可知两组的均数和标准差分别为1.5209、1.0846和0.4218、0.4221。如果定义了文件分割，则它会在以后的所有统计分析中起作用，直到你重新定义文件分割方式为止。

1.2.2 绘制直方图

统计指标只能给出数据的大致情况，没有直方图那样直观，我们就来画个直方图瞧瞧！选择Graphs==>Histogram，系统会弹出绘制直方图对话框如下：

将变量X选入Variable选择框内，单击OK按钮。此时结果浏览窗口内会绘制出如下两个直方图：

两组的数据没有特别偏的分布，也没有十分突出的离群值，因此无须变换，可以直接采用参数分析方法来分析。综合设计类型，最终确定采用成组设计两样本均数比较的t检验来分析。

最后，我们还要取消变量分割，免得它影响以后的统计分析，再次调出变量分割对话框，选择单选按钮中的“Analyze all cases, do not creat group”，单击OK按钮就可以了。

§1.3 按题目要求进行统计分析

下面我们要用SPSS来做成组设计两样本均数比较的t检验，选择Analyze==>Compare Means==>Independent-Samples T test，系统弹出两样本t检验对话框如下：

　　将变量X选入test框内，变量group选入grouping框内，注意这时下面的Define Groups按钮变黑，表示该按钮可用，单击它，系统弹出比较组定义对话框如右图所示：

该对话框用于定义是哪两组相比，在两个group框内分别输入1和2，表明是变量group取值为1和2的两组相比。然后单击Continue按钮，再单击OK按钮，系统经过计算后会弹出结果浏览窗口，首先给出的是两组的基本情况描述，如样本量、均数等（糟糕，刚才的半天工夫白费了），然后是t检验的结果如下：

Independent Samples Test

		Levene's Test for Equality of Variances		t-test for Equality of Means
		F	Sig.	t	df	Sig. (2-tailed)	Mean Difference	Std. Error Difference	95% Confidence Interval of the Difference
									Lower	Upper
X	Equal variances assumed	.032	.860	2.524	22	.019	.4363	.1729	7.777E-02	.7948
	Equal variances not assumed			2.524	21.353	.020	.4363	.1729	7.716E-02	.7954

可见该结果分为两大部分：第一部分为Levene's方差齐性检验，用于判断两总体方差是否齐，这里的戒严结果为F = 0.032，p = 0.860，可见在本例中方差是齐的；第二部分则分别给出两组所在总体方差齐和方差不齐时的t检验结果，由于前面的方差齐性检验结果为方差齐，第二部分就应选用方差齐时的t检验结果，即上面一行列出的t= 2.524，ν=22，p=0.019。从而最终的统计结论为按α=0.05水准，拒绝H₀，认为克山病患者与健康人的血磷值不同，从样本均数来看，可认为克山病患者的血磷值较高。

§1.4 保存和导出分析结果

1.4.1 保存结果文件

前面我们已经做出了分析结果，但是，可是，可但是，但可是呢？再好的结果只要一断电就会全部消失（废话），对于这一问题人们早已想出了三种解决办法，他们分别是：

需要结果的时候再运行一次分析程序。
用笔将结果抄在纸上。
直接保存结果文件。

显然，最方便快捷、最符合信息时代特征的就是第三种方法，在结果浏览窗口中（注意：一定要在结果浏览窗口中）选择菜单File==>Save，由于该结果也从来没有被保存过，所以弹出和前面保存数据时极为相似的一个Save as对话框，和前面相比，他唯一的区别就是文件的保存类型只有View Files(*.spo)一种。好，闲言少叙，在文件名框中键入“Li1_1”并回车，该结果文件就会按文件名Li1_1.spo被存储。

不是文件保存类型还有一种“ALL Files(*.*)”吗？别费劲了，这种类型是SPSS公司放在那里哄人的，在该对话框里无论怎么折腾，都只能按SPO文件的格式来保存。

1.4.2 导出分析结果

文件倒是保存了，但问题还没有完全解决：我们从来写文章什么的都用的是文字处理软件，尤其是WORD，可WORD不能直接读取SPO格式的文件，怎么办呢？没关系，SPSS提供了将结果导出为纯文本格式或网页格式的功能，在结果浏览窗口中选择菜单File==>Export，系统会弹出Exprot Output对话框如下：

最上方的Export下拉式列表可以选择输出的内容，可以为含图表的输出文档、无图表的输出文档和只有统计图表三种；中部的Exprot File对话框则填入输出的目标文件名；左下方的Export What单选框可以选择输出结果的哪些部分，可以是所有结果、所有可见结果或只输出选择的结果，一般选输出所有可见结果；右下方的输出文件类型下拉式列表已被我打开，可见里面有网页格式和纯文本格式两种，在一切按所需选择完毕后按OK钮，则结果文件就会输出为你想要的类型。

好，到这里，就象我们刚开始所说的一样，你实际上已经完全掌握了SPSS的基本使用方法。我们以后将要做的工作就是“百尺竿头，更进一步”，将从下一章开始详细介绍SPSS各个模块的精确用法，使大家能尽快的从SPSS新手向SPSS高手过度。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；