SAS—HASH对象的应用-CDA数据分析师官网

热线电话：13121318867

SAS—HASH对象的应用

2017-06-04

SAS—HASH对象的应用

HASH table原理

先介绍下hash的原理吧。hash table其实就是散列表，也叫哈希表，根据关Key-value键值对而直接进行访问的数据结构。它通过把key-value映射到表中一个位置来访问记录，不用扫描整张表以加快查找的速度。这个映射函数叫做散列函数，存放记录的数组叫做哈希表。

在数据装载时，根据F（key）=内存地址将表存到内存中指定的地址。

比如我最爱的杰伦，根据散列函数F(周杰伦) = 18 就可找到对应的value为87啦。

sas hash table 的优点

hash table是 SAS 查找技术中最为常用的技术啦，性能表现经评测也比较上乘，在SAS 产品中已被广泛使用，同时也深受国外SAS程序员的喜爱，但在国内大家好像并不怎么常用。但是想想可以用sas hash提高下数据查询的效率，是不是在小伙伴面前有些小逼格呢!?

下面呢就介绍下sas hash table的优点：

1.hash table 可以根据 K-V 定位数据，直接得到变量的存储地址，可以减少查询的次数；

2.hash table的变量查找是在内存中进行的，可以提高性能；

3.hash table可以在data步运行时的动态地添加、更新、删除等操作；

4.hash 可以做一些merge 和 proc sql 难以实现的数据集合并，并在细节上可以有更多的控制。

当然，因为sas hash是在内存中运行，所以如果数据太大，还是不要用hash对象了。

sas 定义hash对象

Hash对象的最基本的要点有三个：

（1）要放入内存中的表

（2）用来通过hash函数建立与内存对应存储地址的KEY值（可以是数值、字符或者两者的混合，最好是表的主键否则只有第一条记录有效，因为key值相同通过F（key）只会指向一个地址）。

（3）要调入内存中与key值一起构成数组的变量.

在SAS中分别通过以下步骤来完成上述三个要点：

hash的使用实例

（1）通过hash可以实现表与表的高效关联

（2）可以对hash表中的数据进行控制设计巧妙的算法。下边是一些具体的例子：

使用hash对象来筛选数据

/*新入职员工信息*/

data id_newly;

input id $ epl_ym;

cards

;

1101 201201

1102 201201

1123 201203

1105 201202

1104 201202

1105 201202

;

run;

如下图所示：

/*创建每位员工的销售级别及销售额*/

data sales_all;

input id $ grade $ amt;

cards

;

1001 a 561

1101 c 256

1002 b 421

1003 a 691

1005 a 555

1004 b 398

1015 a 402

1102 c 128

1123 d 96

1105 c 196

1104 d 89

1086 b 632

1093 a 701

1115 c 221

;

run;

如下图所示：

/*使用hash对象筛选新员工的销售额*/

data sales_newly;

length id $8. epl_ym 8.;/*定义数据变量id、epl_ym类型和长度，此处将变量类型和长度写死在程序里，这样当查找表的数据结构发生变化时还要重写代码。以后会单独介绍一下hash 对象处理的技巧。

if _n_ = 1 then do;

declare hash newly(dataset:'id_newly');/*使用数据集id_newly定义hash对象*/

newly.definekey('id');/*其中定义id为主键*/

newly.definedata('epl_ym');/*定义epl_ym为信息变量*/

newly.definedone();/*结束hash对象的初始化*/

end;

set sales_all;

rc = newly.find(key:id);/*调用find方法检索数据集sales_all中的变量id的值是否出现在hash对象的主键中*/

if rc = 0;/*此处注意，find()找到匹配的值返回的是0，这个和其他语言不同。*/

run;

所得结果如下：

2.使用hash对象拼接数据

/*创建销售等级对应的佣金比例数据集*/

data grade;

input grade $ rate;

cards

;

a 0.20

b 0.18

c 0.15

d 0.10

e 0.05

;

run;

结果如下：

/*计算佣金*/

data csm_amt;

if _n_ = 0 then do;

set id_newly grade;

end;

else if _n_ = 1 then do;

declare hash newly(dataset:'id_newly');

newly.definekey('id');

newly.definedata('epl_ym');

newly.definedone();

declare hash grd(dataset:'grade');

grd.definekey('grade');

grd.definedata('rate');

grd.definedone();

end;

call missing (of _all_);

set sales_all;

rc1 = newly.find(key:id);

rc2 = grd.find(key:grade);

if rc1 = 0 then csm_amt = amt*rate;

run;

3.调用definedata 时使用all选项

/*小组信息*/

data team_info;

input team $ open_ym grade employees;

cards

;

a 201201 12 6

b 201202 11 9

c 201205 9 12

d 201506 7 20

e 201205 8 9

f 201206 10 23

;

run;

所得数据集如下：

data employ_new;

input id $ team $;

cards

;

2001 c

2036 d

;

run;

data newly_info;

if _n_ = 0 then do;

set team_info;

end;

else if _n_ = 1 then do;

declare hash t(dataset:'team_info');

t.definekey('team');

t.definedata(all:'yes');

t.definedone();

end;

call missing(of _all_ );

set employ_new;src = t.find();

run;

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

SAS—HASH对象的应用

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】OSM指标体系：自上而下拆解逻辑、搭建流 ...

【CDA干货】选择统计方法前最重要的核心工作：避免9 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载