sas信用评分卡之番外哑变量的生成-CDA数据分析师官网

热线电话：13121318867

sas信用评分卡之番外哑变量的生成

2017-07-06

sas信用评分卡之番外哑变量的生成

哑变量是：举一个例子，假设变量“职业”的取值分别为：工人、农民、学生、企业职员、其他，5种选项，我们可以增加4个哑变量来代替“职业”这个变量，分别为D1（1=工人/0=非工人）、D2(1=农民/0=非农民)、D3（1=学生/0=非学生）、D4(1=企业职员/0=非企业职员)，最后一个选项“其他”的信息已经包含在这4个变量中了，所以不需要再增加一个D5（1=其他/0=非其他）了。这个过程就是引入哑变量的过程，其实在结合分析中，就是利用哑变量来分析各个属性的效用值的。以上这段话是我在博客那边粘过来的，是个粉丝都知道我的画风不是这种。

今天介绍的就是哑变量啦。其实我个人是不爱用哑变量的，对于一些可以解释得过的变量还可以，就是怕衍生出来的变量你都不敢用，你知道吧。譬如吧，职业的变量，是不是工人的变量，然后你要是弄完模型，说是工人的加分，不是工人的反而是减分，那你在宣讲的时候，你要这么讲出来，人家产品怎么看你这个模型，你这会来解释什么工人信用比较好都没什么用了。这是一个不恰当的比喻哈，毕竟众生平等嘛。今天的代码我没在我的工作中用过，因为本身我的基层变量已经很多，除非我走投无路，不然我不会一次性生成这么多哑变量。因为生成评分卡那个代码我的粉丝疯涨，我好怕粉丝后面发现我就是个弱鸡。

%macropub_gg(data,id,var,out);

proc sort data=&data.(where=(&var.^='')) out=data1(keep=&id.&var.) nodupkey; by &var.;

run;

data &out.;

set &data.;

keep appl_id &var.;

run;

data data1_1;

set data1(keep=&var.);

prefix_&var.=compress("&var."||&var.);

run;

data _null_;

set data1_1;

call symput (compress("var"||left(_n_)),compress(prefix_&var.));

call symput(compress("n"),compress(_n_));

run;

%put&var1. &var2.;

%doi=1%to&n.;

data data2;

set RONG_ZX_1

if &var.="&&var&i."then &&var&i.=1;

else &&var&i.=0;

keep &id.&&var&i.;

run;

proc sort data=data2; by &id.;run;

proc sort data=&out.; by &id.;run;

data &out.;

merge &out.(in=a) data2(in=b);

by &id.;

if a;

run;

%end;

%mend;

pub_gg(data=,id=, var=,out=);

data：填入你的原始数据集

id:填入数据的主键

var:填入你要变成哑变量的主变量。

Out:输出数据集

结果数据集：

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

sas信用评分卡之番外哑变量的生成

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据分析核心技能体系：从工具落地到业 ...

【CDA干货】企业价值市场法价值比率与线性回归分析 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

CDA持证人专访：赵君研谈金融行业数据分析与运营岗 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载