sas信用评分卡之衍生变量-CDA数据分析师官网

热线电话：13121318867

sas信用评分卡之衍生变量

2017-06-26

sas信用评分卡之衍生变量

在建模中，最基础就是变量，花费时间最多也是变量，变量要做三方面的事情，首先是衍生，其次是数据清洗，最后是数据处理。至于为什么要衍生，数据挖掘嘛，挖掘嘛，就是要把变量尽量挖到东西嘛。其实还有一个问题，就是如果停留在原先的变量的基础上，一直按照这些变量分析，假设某天这些变量效果不显著，毕竟客户会迁移的嘛，那这就尴尬了。所以无论在建模还是分析上，衍生变量都是开拓分析维度的好方法。今天的内容就是总结几个在做衍生变量上的方法，我也是在领导的悉心指导才摸索到衍生变量的方法，所以没事跟领导聊聊业务是好事。

那就以逻辑回归中的四类变量：1、二分类变量。2、无序多分类变量。3、有序多分类变量。4、连续变量。分享下小编的衍生变量。

1二分类变量

类似这种变量基层变量已经有了，譬如，是否有车，是否有房类似这种。在衍生的时候，会按照申请资料与其他资料交叉验证产生，譬如婚姻状况是否一致。这是比较容易想到的，其次对于一些大类的变量也可以，譬如是否有过担保，是否逾期，是否有过民事纠纷类似这种变量，变量本身就只有两种情况，一旦变量的两种情况逾期率或者说woe有大的跳跃的涨幅，变量的预测力指标都会相对大一些。

2无序多分类变量

无序多分类变量就是譬如，行业啊，城市这类变量。这些变量在基层数据中情况往往是很多的，毕竟行业也不可能是4种行业而已，所以对于这种变量的运用，第一步是先分类。至于怎么分，可以用bad rate把相似的归在一组，也可以用我之前在公众号发过的字符变量的最优分组。以上是对于情况比较多的无序多分类变量。另外一种是情况较少，譬如学历，你可能说学历是有序的，但是为了社会的发展与和谐，我还是认为学历是一个无序多分类变量，这类变量的哈，可以衍生出哑变量。是否为本科啊，是否高中生，转了一圈又是二分类了。

3有序多分类变量

这类变量其实跟上一类的变量很相似，都是字符变量，只是多了个顺序，譬如，一线城市，二线城市，三线城市，四线城市，无线城市。同样的还是可以衍生为哑变量。但是我我一直强调，哑变量都要在业务解释得过去的情况下使用。

4连续变量

这个变量我就不说什么，大部分的变量都是连续变量。这部分的衍生变量因为可以有很多种情况，我就不说了。

以上是根据变量类型简单的讲了一下一些你估计都知道的衍生变量的方式。接下来以几种数据类型分享下衍生变量的产生。

1、流水数据

这是我在网上随便找的一个类似的图，加入这是客户名下的一个收支数据。估计也拿不到这么详细的每天的数据，你就把天想成月就可以了。那么这里假设是最近7个月的收支情况。比较容易可以想到的是，总的支出，总的存入，以及平均的支出或者收入啊。其次呢，就是跟时间变量结合，最近一个月的支出，最近两个月的支出，最近一个月的收入，最近一个月的收入。我呢，还会衍生一类，最近一个月的收入占最近7个月的收入，最近一个月的支出占最近7个月的支出。我在上篇文章也说过，要是你有能耐，你还可以做最近7个月一个收支的标准差，检查客户收支情况的稳定性。因为客户的收支水平相差还是较多。假设现在这个数据是查询记录的话，还可以衍生出最近3次查询所花的时间这类变量。

2、贷款信用卡资料。

查过自己简版征信的数据的可以看到，里面有你名下所有的信用卡以及贷款信息，就是说你几年前不还钱的事情，都在简版征信上告诉全世界，你之前欠钱拉，欠了多久都有说。

对于这部分数据，二分类的变量提及，是否有逾期，这是比较容易实现的。其次还有客户的额度的衍生变量，额度的平均值啊，额度的最大值，这时候在统计学上学到的所有能在数列上的指标就全部用上吧。然后呢，就是占比，最近一张卡的占全部额度的比例，当前一个月的使用额除以额度比率。最后，就是类似上一点说的查询记录那种，开了三张卡花了多少时间。

3、申请资料

关于申请资料，我比较热衷于组合变量的衍生变量，这部分数据维度说多不多，说少不少，真的要组合还是需要时间，所以为了效率的问题，挑选在业务上可以解释的变量组合。譬如婚姻状况和年纪组合，婚姻状况与房产组合啊类似这种。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；