京公网安备 11010802034615号
经营许可证编号:京B2-20210330
PRINT过呈是最常用的SAS过呈之一。我们在生成了一个数据集之后,如果不是太大,一般都用一个proc print ;run;过程步来列出数据集的内容,这样可以检查变量与值之间对应是否正确,数据输入是否正确。为了列出一个指定的数据集,在PROC语句中使用DATA=选项指定要列表的输入数据集名。
在过程内使用VAR语句可以指定要列出的变量并指定顺序。比如,
proc print data=c9501;
var name chinese math;
run;
在过程中使用WHERE语句可以从输入数据集中选一个子集来处理,在PRINT过程中使用WHERE可以指定只列出满足条件的观测。
SAS的输出都显示在输出窗口。在运行了多个过程后,输出窗口积累了多个过程的输出,有时不易找到或特定的结果。新版本的SAS系统提供了一个结果管理窗口来管理输出,叫Results窗口。这个窗口缺省是打开的,固定放置在运行环境的左半部分,如果没有可以从"View - Results"菜单打开。
3.标题及全程语句
TITLE'标题内容'; 添加标题 ,为了取消这个标题,只要用一个空TITLE语句,即TITLE;
FOOTNOTE 添加脚注
OPTIONS 可以规定系统运行的一些选择项,比如输出是否每页有页号,是否有日期,输出的行宽,输出每一页的高度(行数)等等。
4. 计算总计与小计
用BY语句与SUM语句就可以既计算总和也计算分组小计。比如,我们除了要计算学生购买课外书总支出外还想分男、女生计算总支出,可以用下面的程序。注意由于数据集BKMONEY中没有性别的信息,我们用了带MERGE语句的数据步来横向合并C9501和BKMONEY两个数据集 。
3.3汇总表格
PRINT过程可以制作列表,它列出所有观测。当观测个数很多时,这样的列表意义不大。TABULATE过程制表不是列出观测,而是计算观测的分类统计量,绘制统计量的表格。这对于数据的汇总比较有用。TABULATE可以作出很复杂的表,其一般格式为:
PROC TABULATE DATA=数据集名;
CLASS 分类变量;
VAR 分析变量;
TABLE 页维说明,行维说明,列维说明/选项;
RUN;
其中CLASS语句给出分类变量,用分类变量可以给观测分类,计算统计量时可以对每一类分别计算。VAR语句给出区间变量。TABLE语句规定了绘制什么样的表格。我们用例子说明:
例1 对C950IBK数据集,我们希望表中绘出男、女生的课外书支出总和,
因为变量SEX和AMOUNT中间用逗号分隔,所以SEX在行维,表格的行用SEX的值区分,AMOUNT在列维,它画在列标题中。如果只是想统计男女生人数,可以只用SEX 一个变量。
区间变量的缺省统计量是总和,分类变量的缺省统计量是频数。如果我们要计算其它统计量,可以用"变量名*统计量名"的形式。统计量名包括N,NMISS, MEAN, STD, MIN, MAX, RANGE, SUM, USS,CSS,STDERR,CV,T(检验均值为O的t统计量值),PRT(t统计量的p值),VAR,SUMWGT(权数变量的和),PCTN(某类观测占总观测个数的百分比),PCTSUM(某类观测的总和占全部总和的百分比)。
例2:用如下程序求男、女生的数学、语文成绩平均值及标准差:
上面的表格只分类计算了统计量值,如果要计算总的统计量值,只要加一个ALL关键字。table sex,all (math chinese)*(mean std);
可以在TABULATE过程中使用KEYLABEL语句指定各统计量的标签。其格式为KEYLABEL关键字='标签';或者用如下方式:
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在金融行业的数字化转型进程中,SQL作为数据处理与分析的核心工具,贯穿于零售银行、证券交易、保险理赔、支付结算等全业务链条 ...
2025-12-24在数据分析领域,假设检验是验证“数据差异是否显著”的核心工具,而独立样本t检验与卡方检验则是其中最常用的两种方法。很多初 ...
2025-12-24在企业数字化转型的深水区,数据已成为核心生产要素,而“让数据可用、好用”则是挖掘数据价值的前提。对CDA(Certified Data An ...
2025-12-24数据分析师认证考试全面升级后,除了考试场次和报名时间,小伙伴们最关心的就是报名费了,报 ...
2025-12-23CDA中国官网是全国统一的数据分析师认证报名网站,由认证考试委员会与持证人会员、企业会员以及行业知名第三方机构共同合作,致 ...
2025-12-23在Power BI数据可视化分析中,矩阵是多维度数据汇总的核心工具,而“动态计算平均值”则是矩阵分析的高频需求——无论是按类别计 ...
2025-12-23在SQL数据分析场景中,“日期转期间”是高频核心需求——无论是按日、周、月、季度还是年度统计数据,都需要将原始的日期/时间字 ...
2025-12-23在数据驱动决策的浪潮中,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越“整理数据、输出报表”的基础层面,转 ...
2025-12-23在使用Excel数据透视表进行数据分析时,我们常需要在透视表旁添加备注列,用于标注数据背景、异常说明、业务解读等关键信息。但 ...
2025-12-22在MySQL数据库的性能优化体系中,索引是提升查询效率的“核心武器”——一个合理的索引能将百万级数据的查询耗时从秒级压缩至毫 ...
2025-12-22在数据量爆炸式增长的数字化时代,企业数据呈现“来源杂、格式多、价值不均”的特点,不少CDA(Certified Data Analyst)数据分 ...
2025-12-22在企业数据化运营体系中,同比、环比分析是洞察业务趋势、评估运营效果的核心手段。同比(与上年同期对比)可消除季节性波动影响 ...
2025-12-19在数字化时代,用户已成为企业竞争的核心资产,而“理解用户”则是激活这一资产的关键。用户行为分析系统(User Behavior Analys ...
2025-12-19在数字化转型的深水区,企业对数据价值的挖掘不再局限于零散的分析项目,而是转向“体系化运营”——数据治理体系作为保障数据全 ...
2025-12-19在数据科学的工具箱中,析因分析(Factor Analysis, FA)、聚类分析(Clustering Analysis)与主成分分析(Principal Component ...
2025-12-18自2017年《Attention Is All You Need》一文问世以来,Transformer模型凭借自注意力机制的强大建模能力,在NLP、CV、语音等领域 ...
2025-12-18在CDA(Certified Data Analyst)数据分析师的时间序列分析工作中,常面临这样的困惑:某电商平台月度销售额增长20%,但增长是来 ...
2025-12-18在机器学习实践中,“超小数据集”(通常指样本量从几十到几百,远小于模型参数规模)是绕不开的场景——医疗领域的罕见病数据、 ...
2025-12-17数据仓库作为企业决策分析的“数据中枢”,其价值完全依赖于数据质量——若输入的是缺失、重复、不一致的“脏数据”,后续的建模 ...
2025-12-17在CDA(Certified Data Analyst)数据分析师的日常工作中,“随时间变化的数据”无处不在——零售企业的每日销售额、互联网平台 ...
2025-12-17