京公网安备 11010802034615号
经营许可证编号:京B2-20210330
sas信用评分卡之衍生变量
在建模中,最基础就是变量,花费时间最多也是变量,变量要做三方面的事情,首先是衍生,其次是数据清洗,最后是数据处理。至于为什么要衍生,数据挖掘嘛,挖掘嘛,就是要把变量尽量挖到东西嘛。其实还有一个问题,就是如果停留在原先的变量的基础上,一直按照这些变量分析,假设某天这些变量效果不显著,毕竟客户会迁移的嘛,那这就尴尬了。所以无论在建模还是分析上,衍生变量都是开拓分析维度的好方法。今天的内容就是总结几个在做衍生变量上的方法,我也是在领导的悉心指导才摸索到衍生变量的方法,所以没事跟领导聊聊业务是好事。
那就以逻辑回归中的四类变量:1、二分类变量。2、无序多分类变量。3、有序多分类变量。4、连续变量。分享下小编的衍生变量。
1二分类变量
类似这种变量基层变量已经有了,譬如,是否有车,是否有房类似这种。在衍生的时候,会按照申请资料与其他资料交叉验证产生,譬如婚姻状况是否一致。这是比较容易想到的,其次对于一些大类的变量也可以,譬如是否有过担保,是否逾期,是否有过民事纠纷类似这种变量,变量本身就只有两种情况,一旦变量的两种情况逾期率或者说woe有大的跳跃的涨幅,变量的预测力指标都会相对大一些。
2无序多分类变量
无序多分类变量就是譬如,行业啊,城市这类变量。这些变量在基层数据中情况往往是很多的,毕竟行业也不可能是4种行业而已,所以对于这种变量的运用,第一步是先分类。至于怎么分,可以用bad rate把相似的归在一组,也可以用我之前在公众号发过的字符变量的最优分组。以上是对于情况比较多的无序多分类变量。另外一种是情况较少,譬如学历,你可能说学历是有序的,但是为了社会的发展与和谐,我还是认为学历是一个无序多分类变量,这类变量的哈,可以衍生出哑变量。是否为本科啊,是否高中生,转了一圈又是二分类了。
3有序多分类变量
这类变量其实跟上一类的变量很相似,都是字符变量,只是多了个顺序,譬如,一线城市,二线城市,三线城市,四线城市,无线城市。同样的还是可以衍生为哑变量。但是我我一直强调,哑变量都要在业务解释得过去的情况下使用。
4连续变量
这个变量我就不说什么,大部分的变量都是连续变量。这部分的衍生变量因为可以有很多种情况,我就不说了。
以上是根据变量类型简单的讲了一下一些你估计都知道的衍生变量的方式。接下来以几种数据类型分享下衍生变量的产生。
1、流水数据
这是我在网上随便找的一个类似的图,加入这是客户名下的一个收支数据。估计也拿不到这么详细的每天的数据,你就把天想成月就可以了。那么这里假设是最近7个月的收支情况。比较容易可以想到的是,总的支出,总的存入,以及平均的支出或者收入啊。其次呢,就是跟时间变量结合,最近一个月的支出,最近两个月的支出,最近一个月的收入,最近一个月的收入。我呢,还会衍生一类,最近一个月的收入占最近7个月的收入,最近一个月的支出占最近7个月的支出。我在上篇文章也说过,要是你有能耐,你还可以做最近7个月一个收支的标准差,检查客户收支情况的稳定性。因为客户的收支水平相差还是较多。假设现在这个数据是查询记录的话,还可以衍生出最近3次查询所花的时间这类变量。
2、 贷款信用卡资料。
查过自己简版征信的数据的可以看到,里面有你名下所有的信用卡以及贷款信息,就是说你几年前不还钱的事情,都在简版征信上告诉全世界,你之前欠钱拉,欠了多久都有说。
对于这部分数据,二分类的变量提及,是否有逾期,这是比较容易实现的。其次还有客户的额度的衍生变量,额度的平均值啊,额度的最大值,这时候在统计学上学到的所有能在数列上的指标就全部用上吧。然后呢,就是占比,最近一张卡的占全部额度的比例,当前一个月的使用额除以额度比率。最后,就是类似上一点说的查询记录那种,开了三张卡花了多少时间。
3、申请资料
关于申请资料,我比较热衷于组合变量的衍生变量,这部分数据维度说多不多,说少不少,真的要组合还是需要时间,所以为了效率的问题,挑选在业务上可以解释的变量组合。譬如婚姻状况和年纪组合,婚姻状况与房产组合啊类似这种。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、市场研究、用户画像构建、学术研究等场景中,我们常常会遇到多维度、多指标的数据难题:比如调研用户消费行为时,收 ...
2026-03-25在流量红利见顶、获客成本持续攀升的当下,营销正从“广撒网”的经验主义,转向“精耕细作”的数据驱动主义。数据不再是营销的辅 ...
2026-03-25在CDA(Certified Data Analyst)数据分析师的全流程工作中,无论是前期的数据探索、影响因素排查,还是中期的特征筛选、模型搭 ...
2026-03-25在当下数据驱动决策的职场环境中,A/B测试早已成为互联网产品、运营、营销乃至产品迭代优化的核心手段,小到一个按钮的颜色、文 ...
2026-03-24在统计学数据分析中,尤其是分类数据的分析场景里,卡方检验和显著性检验是两个高频出现的概念,很多初学者甚至有一定统计基础的 ...
2026-03-24在CDA(Certified Data Analyst)数据分析师的日常业务分析与统计建模工作中,多组数据差异对比是高频且核心的分析场景。比如验 ...
2026-03-24日常用Excel做数据管理、台账维护、报表整理时,添加备注列是高频操作——用来标注异常、说明业务背景、记录处理进度、补充关键 ...
2026-03-23作为业内主流的自助式数据可视化工具,Tableau凭借拖拽式操作、强大的数据联动能力、灵活的仪表板搭建,成为数据分析师、业务人 ...
2026-03-23在CDA(Certified Data Analyst)数据分析师的日常工作与认证考核中,分类变量的关联分析是高频核心场景。用户性别是否影响商品 ...
2026-03-23在数据工作的全流程中,数据清洗是最基础、最耗时,同时也是最关键的核心环节,无论后续是做常规数据分析、可视化报表,还是开展 ...
2026-03-20在大数据与数据驱动决策的当下,“数据分析”与“数据挖掘”是高频出现的两个核心概念,也是很多职场人、入门学习者容易混淆的术 ...
2026-03-20在CDA(Certified Data Analyst)数据分析师的全流程工作闭环中,统计制图是连接严谨统计分析与高效业务沟通的关键纽带,更是CDA ...
2026-03-20在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19在数据分析与建模领域,流传着一句行业共识:“数据决定上限,特征决定下限”。对CDA(Certified Data Analyst)数据分析师而言 ...
2026-03-19机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17