如何使用PROC MEANS和PROC UNIVARIATE进行统计描述
描述性统计分析是对一组数据的各个特征进行分析,以便于描述测量样本的各种特征及其所代表的总体特征。描述性统计分析的内容很多,常用的有平均数、标准差、中位数、频数分布、正态或偏态程度等。这些分析是复杂统计分析的基础。本文主要介绍如何运用SAS中的过程步进行描述性统计量的计算。
PROC MEANS
运用PROC MEANS可以计算数值型变量的均值、中位数、众数等描述性统计量。其基本用法为:
PROC MEANSDATA=数据集选项;
VAR变量1 变量2...;
RUN;
其中,如忽略VAR语句则分析数据集中所有数值型变量。另外,选项可以用来指定统计量的输出格式,不填写选项系统则默认输出频数、均值、标准差、最大值和最小值。输出指定统计量列表如下:
PROC UNIVARIATE
PROC UNIVARIATE和PROC MEANS一样可以计算数值型变量的均值、中位数、众数等描述性统计量。但相比PROC MEANS,其优势在于可以绘制直方图,从而更加直观地给出变量的分布情况。其基本用法为:
PROC UNIVARIATEDATA=数据集;
VAR变量;
BY 变量;
CLASS 变量;
HISTOGRAM变量选项;
QQPLOT 变量 选项;
PROBPLOT变量 选项;
RUN;
其中,如忽略VAR语句则分析数据集中所有数值型变量。BY与CLASS的用法基本相同,用于指定分组的变量。HISTOGRAM语句可以针对指定变量绘制直方图。QQPLOT语句用于控制Q-Q图的绘制。PROBPLOT 语句可以指定作出概率图,比较数据是否服从某已知分布,如正态分布、二项分布、泊松分布等。
示例: PROC MEANS
示例: PROC UNIVARIATE
从输出结果可以看出,PROC MEANS帮助用户选择性的输出所需的统计量,而PROC UNIVARIATE 则输出了几乎所有分析所需的统计量,同时,还可以选择性的输出一些分析所需的统计图(如P-P,Q-Q,直方图),并进行正态性检验。
数据分析咨询请扫描二维码