sas信用评分之不用检查异常值的最优分组-CDA数据分析师官网

热线电话：13121318867

sas信用评分之不用检查异常值的最优分组

2017-05-29

sas信用评分之不用检查异常值的最优分组

今天的更新比以往晚了一天，假期综合症第一天，我到现在已经喝了第三杯咖啡，实现上周的预告，这种更新一个不用检查异常值的数值变量最优分组。其实这代码我本来不想拿出来，我觉得这代码估计能卖点钱，但是介于我是一个不敢赚你们钱的博主，所以还是拿出来吧。本篇文章最后有惊喜。

首先我们先说下，这的代码的思路，为什么不用检查异常值呢。其实是这样子的，我把等量分组和最优分组结合起来了，即保证了最小组的数量也保证了不要因为某些异常值导致分组的过拟合。也少去人工的手动分组。

譬如，有一个年龄的分组，那么我会先用等量分组先分成20组，这时候注意了，就是前后会有极小极大值，就算是异常值，这时候因为你分成了20组，所以极小值以及极大值就被包含在第一组以及最后一组中，以1和20代替了。我相信我这么说你应该可以理解。

至于这等量分组的代码用的是proc rank过程去分的，具体可以参考：proc rank过程

等量分组的代码在这篇文章中：sas信用评分之手动对数值变量分组

然后将产出的结果映射到原数据中再丢进去最优分组，最优分组的代码在这篇文章中：sas信用评分之第二步变量筛选。再丢进去最优分组的代码的时候，需要将等量分组映射到原数据集中，映射代码如下：

/*这个宏是在%data_split后面的执行的，所以这里需要的数据集有%data_split中产生的以"_iv"为后缀的，"_RANK"的数据集*/

data：填入原数据集

id:填入主键

ddvar:因变量

%macro map(data,id,ddvar);

proc sql noprint;

select col_name into: varlist separated by ' ' from &data._IV;

%let nVar=&SQLOBS;

quit;/*从细分后的字典表中得到待填充的变量*/

%put &varlist.;

data &data._woe;

set &data.(keep=&id. &ddvar.);

run;/*首先获取相应的识别标识及Y值*/

data &data._1(drop=i);

set &data.;

array arr1{*} _NUMERIC_;

do i = 1 to dim(arr1);

if missing(arr1(i)) then do;

arr1(i)=-999;

end;

run;

%do i=1 %to &nVar;

%let var = %scan(&varlist, &i);

data V ;

set &data._1(keep=&id. &var.);

run;/*找出待填充变量的取值，将空值填充为1000000000*/

data rank;

set &data._RANK;

where col_name="&var.";

run;/*找出待填充变量的配置表相关信息*/

proc sql noprint;

create table WOE AS

select I.&id., B.clus as &var.

from V AS I

left join rank AS B

ON I.&var. > b.low AND I.&var. <= B.up

;

quit;/*通过上、下界进行填充*/

proc sort data=WOE;

by &id.;

run;

proc sort data=&data._woe;

by &id.;

run;

data &data._woe;

merge &data._woe woe;

by &id.;

run;/*合并所有的变量woe*/

%end;

%mend;

我希望你们真心想用这部分代码分组的，你们要自己看懂代码，学习这种东西不是问出来，都是要自己动手琢磨的。我自认为我不是一个聪明的人，但我是喜欢的东西，我会很乐于去探索，所以你也可以。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

异常值过拟合 SQL

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

sas信用评分之不用检查异常值的最优分组

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：宋利宝谈电销行业数据运营与数据分 ...

【CDA干货】ARIMA时间序列分析方法：核心原理、建模 ...

从“通用基石”到“场景利器”：CDA数据分析师视角 ...

【CDA干货】SQL Server 提示“实例已在使用”：常见 ...

【CDA干货】Excel数据透视表两列相乘：正确计算方法 ...

从“模糊需求”到“精确标尺”：CDA数据分析师视角 ...

CDA持证人专访：冯卓基谈大数据平台搭建与行业数字 ...

【CDA干货】基于月度数据的送货率提升专项数据分析 ...

从“样本均值”到“总体真相”：CDA数据分析师视角 ...

【CDA干货】指标：量化业务的核心衡量标准与设计指 ...

【CDA干货】Excel透视表计算字段：先乘法后求和汇总 ...

从“杂乱”到“有序”：CDA数据分析师视角下的数据 ...

CDA持证人专访：崔爱军谈地产行业数据治理与数据中 ...

【CDA干货】显著水平与P值的核心区别、关联关系及实 ...

为什么统计是数据分析师的“底层语言”？ ...

【CDA干货】数据分析核心技能体系：从工具落地到业 ...

【CDA干货】企业价值市场法价值比率与线性回归分析 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

CDA持证人专访：赵君研谈金融行业数据分析与运营岗 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载