sas快速处理大数据的使用技巧-CDA数据分析师官网

热线电话：13121318867

sas快速处理大数据的使用技巧

2014-11-02

sas快速处理大数据的使用技巧

用sas在做数据分析时，有很多朋友会遇到和我一样的问题吧，数据分析师在这里分享一下。1.测试代码的时候，可以从大数据集中抽取一部分数据来进行测试，而不比直接在大文件上全部进行测试。抽取数据这个有好多种方法常用的如使用obs=option选项，proc surveyselect进行分层抽样，利用种子产生随机数来抽取等等，反正怎么方便怎么取。如

proc means data=test(obs=1000);
run;

复制代码

或者

options obs=1000;
proc means data=test;
run;
options obs=max;

复制代码

2.每个数据集最好只保留自己想要的变量，变量太多是会影响效率的，所以无关变量可以drop掉，或者keep想要的变量。

3.在对符合已知变量条件的记录进行处理时，果断先进行筛选，然后在进行处理。同时在 Data步建立新数据集，在进行的条件筛选中，where的效率比if高，因为where在读入的时候就已经进行判断，而if则是等到全部读完的时候才进行判断。如需对class数据集中的男生建立一个新变量weight_new，以下这种写法是不可取的。数据分析师培训

data test;
set sashelp.class;
weight_new=sum(height,-101);
if sex=”男”;
run;

复制代码

可以这么写

data test;
set sashelp.class(Where =(sex=”男”));
weight_new=sum(height,-101);
run;

复制代码

4.一些能省略的data步，如先经过data步进行简单的条件筛选，然后进行proc步的一些操作，诸如此类的data步，尽量省略吧。

data test;
set sashelp.class;
where sex=”男”;
run;
proc means data=test;
var weight height;
run;

复制代码

完全可以这么写

proc means data=test(where=(sex=”男”));
var weight height;
run;

复制代码

5.需要修改数据集变量的label和format格式时，还是通过proc datasets过程进行修改效率比较快，它不需要记录进入pdv，比起data步更有效率。

data test;
set sashelp.class;
label weight="体重（斤）";
format weight best6.2;
run;
proc datasets library=sashelp;
modify class;
label weight="体重（斤）";
format weight best6.2;
run;
quit;

复制代码

6.纵向合并数据集时，如果生成的目标表就是来源表之一，那么proc append会比data步更有效率。

data test1;
do i=1 to 10000000;
x=1;y=1;z=1;
output;
end;
run;
data test2;
do i=1 to 10000000;
x=1;y=1;z=1;
output;
end;
run;
data test1;
set test1 test2;
run;
/*proc append*/
data test1;
set test1;
stop;
run;
proc append base=test1 data=test2;
run;
/*proc datasets中的append*/
data test1;
set test1;
stop;
run;
proc datasets library=work;
modify test;
append base=test1data=test2;
run;
quit;

复制代码

proc append和proc datasets中的append过程效率是一样的。

7.对于大数据集，一般都会讲数据集压缩，以节省存储空间，sas里可以通过options compress=yes;来进行压缩。

8.如果我们想要查看一个变量顶部5%的记录，可以通过proc rank一步实现，而不需先通过univariate过程先将p95分位数求出，然后赋值给宏变量，最后再回到数据集中筛选。

data test;
do i=1 to 200;
output;
end;
run;
proc rank data=test groups=100 out=want(where=(i_pct>=95));
var i;
ranks i_pct;
run;

复制代码

9.在编写一些proc步时，对于分组变量最好是用class而不用by，因为用by是得对分组变量进行排序的。

10.视图的应用。视图是一个虚拟表，其内容由查询定义。同真实的表一样，视图包含一系列带有名称的列和行数据。但是，视图并不在数据库中以存储的数据值集形式存在。行和列数据来自由定义视图的查询所引用的表，并且在引用视图时动态生成。所以视图能够节省大量的空间，同时因为它不是以存储的形式存在，因此在一定程序上能够提高运行效率。如对生成的数据集进行means过程

data test1/view=test1;
do i=1 to 30000000;
x=1;y=1;z=1;output;
end;
run;
proc means data=test1;
var i;
run;

复制代码

data test2;
do i=1 to 30000000;
x=1;y=1;z=1;
output;
end;
run;
proc means data=test2;
var i;
run;

复制代码

对比之下，我们可以看到视图比起数据集将近节省了10秒。但是引用视图的时候要注意，视图的名字能够覆盖视图的名字，但是它不能覆盖数据集的名字，因此建立视图的时候，不能存在跟视图一样名字的数据集，否则会报错。同时，如果视图的名字存在，再要建立同样名字的数据集也是会报错。

11.format格式数据集的引用。比如说在信用卡交易数据集，每天的交易量都是很大的，同时包括境内境外交易，这时就存在币种转换问题。一张交易量很大的表，和一张币种汇率表，这时如果通过币种去连接两个数据集，首先得先对这两个数据集按币种排序，然后merge进行计算，当然有人想到直接用sql连接，不过这样消耗时间也都是非常大的。这时候就可以先将汇率表做成format的数据集形式，到时就可以直接使用了。如