SAS信用评分之番外篇异常值的识别-CDA数据分析师官网

热线电话：13121318867

SAS信用评分之番外篇异常值的识别

2017-06-26

SAS信用评分之番外篇异常值的识别

今天想分享给大家的是我早期建模的时候一个识别异常值的办法，也许你在“信用风险评分卡研究”看过，但是代码只能识别一个变量，我将这个代码作了改良，但是我在这里必须声明一点，就是假设你身处的公司数据并不多的话，我不建议你使用这个代码，因为我是简单粗暴的将异常值直接剔除了。

就因为我的数据不多，所以我之前在做建模的时候使用的是先等量分组再最优分段的方式来使变量不用识别异常值，说道这里，我又需要跟大家提醒一下就是关于最优分段的代码，说有过拟合的现象。这里跟大家解释一下就是关于最优分段过拟合，因为最优分段的基础是建立在等量分组的基础上，所以重点就是在等量分组上，假设你领导能接受的最小一组的总数据量的1/20，那么你就在等量分组中分20组，保证在后面的产出至少一组都是1/20以上，以此类推。

进入正题，我来讲这个识别异常值的代码，首先，这个代码只针对连续变量，而且是正态分布或者是接近正态分布的变量，若是双峰或者左偏单峰，或者右偏单峰都不适用这个代码的识别。其实这个代码有很多局限性，所以我写出来之后也不是经常的用到，所以叫做番外篇。

接下来的这个代码分为两部分，第一就是针对缺失值大于30%的变量在业务上可以解释的通的，那这个变量做异常值处理的时候就会去除缺失值做异常值处理。对于缺失值小于30%,就让其变量的缺失值跟其他值一起做异常值处理。第二就是针对判定为异常值观测不会就直接删掉，而是先输出该观测，等到全部的变量做完了异常值检查之后，再判断这个观测出现了几次的异常。这时候你定一个伐值，假设是5次就删掉，那就是只要一个观测在这批变量中出现过5次判断为异常的那就会删掉。基本思路就是这样子啦。那就上代码吧。

/*使用标准差挑出异常数，每个变量单独挑出在三倍标准差的异常值,这里是在5各变量中都显示异常的观测则剔除*/

*%Extremes(DSin, VarX, IDVar, NSigmas, DSout);

*DSin 填入原数据集;

*VarX 要检查异常的变量;

*IDVar 数据集的主键，用于标识是那条观测;

*NSigmas 在几倍标准差内属于异常值，在后续的执行代码中，我写的是3;

*DSout输出的数据集;

%macro Extremes(DSin, VarX, IDVar, NSigmas, DSout);

proc sort data=&DSin. out=temp(keep= &VarX. &IDVar.);by &IDVar;

run;

proc univariate data=temp noprint;

var &VarX;

output out=temp_u   STD=VSTD   Mean=VMean;

run;

data _null_;

set temp_u;

call symput('STD', VSTD);

call symput('Mean', VMean);

run;

%let ULimit=%sysevalf(&Mean + &NSigmas * &STD);

%let LLimit=%sysevalf(&Mean - &NSigmas * &STD);

data &DSout;

set temp;

if &VarX < &Llimit or &VarX > &ULimit;

run;

proc datasets library=work nodetails nolist ;

delete temp temp_u;

quit;

%mend;

%macro Extremes1(DSin, VarX, IDVar, NSigmas, DSout);

proc sort data=&DSin. out=temp(keep= &VarX. &IDVar.);by &IDVar;

run;

proc univariate data=temp noprint;

var &VarX;

output out=temp_u   STD=VSTD   Mean=VMean;

run;

data _null_;

set temp_u;

call symput('STD', VSTD);

call symput('Mean', VMean);

run;

%let ULimit=%sysevalf(&Mean + &NSigmas * &STD);

%let LLimit=%sysevalf(&Mean - &NSigmas * &STD);

data &DSout;

set temp(where=(&VarX.^=.));

if &VarX < &Llimit or &VarX > &ULimit;

run;

proc datasets library=work nodetails nolist ;

delete temp temp_u;

quit;

%mend;

/*这个宏是产生一个变量列表。这的宏在这里的过程是，因为字符变量前期我已经定义完全，没有异常值，所以只检查在

原数据集中的数值变量是否有异常值*/

*var_namelist(data=,coltype=,tarvar=);

*data 填入原始数据集;

*coltype 变量的类型，数值是“num”,字符是“char”;

*tarvar 填入你不要做异常值检验的变量，这里只能填一个，理论上填的是主键;

*dsor 输出的数据集;

%macro var_namelist(data=,coltype=,tarvar=,dsor=);

    %let lib=%upcase(%scan(&data.,1,'.'));

    %let dname=%upcase(%scan(&data.,2,'.'));

    %global var_list var_num;

    proc sql ;

      create table &dsor. as

        select name

        from sashelp.VCOLUMN

        where left(libname)="&lib." and left(memname)="&dname." and type="&coltype." and lowcase(name)^=lowcase("&tarvar.");

    quit;

%mend;

/*这个宏是上面两个宏的总宏，之前的两个宏是服务于这个宏。这个宏就是最后输出异常值的汇总的appl_id的数据集*/

*a 填入数据集的名字即可;

%macro ivar(data,tar_var,id);

proc datasets lib=work;

delete kk;

run;

   %var_namelist(data=&data.,coltype=num,tarvar="&tar_var.",dsor=score_total_list_1)

data _null_;

   set score_total_list_1;

   call symput (compress("var"||left(_n_)),compress(name));

   call symput(compress("n"),compress(_n_));

   run;

     %do i= 2 %to &n.;

        proc sql;

        select count(case when &&Var&i=. then 1 else 0 end)/count(*) into:num&i.

        from &data.;

      quit;

     %if &&num&i.<0.3 %then %do;

      %Extremes(DSin=&data., VarX=&&Var&i., IDVar=appl_id, NSigmas=4, DSout=aa_&i.);

       %end;

       %else %do;

      %Extremes1(DSin=&data., VarX=&&Var&i., IDVar=appl_id, NSigmas=4, DSout=aa_&i.);

     %end;

        proc append base=kk data=aa_&i.(keep=&id.);

       run;

        proc datasets lib=work;

      delete aa_&i.;

      run;

        %end;

%mend;

ivar(data,tar_var,id);