
sas信用评分之变量筛选
今天介绍变量初步选择。这部分的内容我就只介绍information –value,我这次做的模型用的逻辑回归,后面会更新以基尼系数或者信息熵基础的筛选变量,期待我把。
Iv值的介绍你们已经很熟悉了,我这次就简单粗暴的说下变量iv值到那个数就可以用的啦。
(1):
在很多书上说要达到0.1-0.3才是中等相关,达到0.3是强相关,但是这里必须提及,变量的iv值本来就是变量多个分段的iv值的相加。所以我们做这部分工作的时候就发现,一个变量我要是变态一点,分成1000分,他可以达到1.5,iv值是很高啊,这个变量你一旦用下聚类或者是决策树分下类,就发现iv值其实是很低的,所以这个iv值的计算我们需要大概的给个分多少段。
(2):
在第一点中提到分几份,但是分几份是针对连续变量,对于字符变量的。我建议可以先使用最优分段分下组再进行计算iv值。但是如果字符变量的分类在4-10类的话还是可以直接计算iv值的。
(3):
对于在日常的建模中,其实并不是iv值大于0.1才会被筛选出来,我就在建模中碰见一个问题,就是iv值大于0.1都是同类变量,相关性极高,这些变量虽然iv值很高,但是丢进逻辑回归中是不会被全部选中的,因为我们都知道共线性强的变量对于我们模型其实是不好的。讲了这么多就是为了说,变量初步选择的时候我一般是大于iv值0.02我会筛选出来,不为什么,宁可错杀一千,不可放过一个,我对变量就是这么残暴。在这里我考虑到一点,就是可能一个变量单独对因变量的预测力不是很强,但是跟其他变量结合的时候,可能会产生不一样的结果哈。
例如哈,我举一个很不恰当的例子哈,不恰当的例子哈,不要喷我。譬如婚姻状况和年纪,可能这两个变量单独对因变量没什么明显的体现,但是结合在一起呢,譬如25岁下离婚的人是不是会比25岁以上离婚不一样呢。你们顺着这个思路想下去就可以啦,我再说下去25岁以下离婚怎么怎么样,我就要被喷了。毕竟我还是怕键盘侠。
这篇文章的代码我之前是发过的。路径在这里:sas输出变量的基尼系数以及iv值。在这篇文章中我介绍下结果:
代码的使用在上面路径中有介绍,点下去就可以看了。介绍下结果,score2是分组后的变量就是譬如说年龄中52岁分组后是第3组,那么他观测的值就是3。score3输出基尼系数,这部分的内容之后用到基尼系数再说哈。我们着重说下score4以及score5.
Score4的表格是长这样子的:
你看到的var_name这一列的变量是每个变量名价格前缀“p_”如果是字符变量就不加前缀“p_”,_freq_这一变量是分组数,我这边设定的是分成5组,你问我为什么上面写着6,因为我这批数据中有缺失,缺失不参与分组,就是第6组啦。最后一列就是iv值啦,我刚才说的同类变量iv值都很高啦,就是这个图,q_开头的都是同类的变量,iv值基本相近,假设说这些都进去模型的,模型也不会全都要了。
score5的表格是长这样子的:
这图可能在这里比较小,但是你单独点开还是可以看的。
score5是score4的具体每段的iv值的分布,其中m就是观测缺失的组别。后面的start end这两个变量是这个组别的区间。这里的woe值其实我不建议使用,因为我这边的分区是全部都是等分的5份,但是某些变量有更好的分法,后面对于筛选出来的变量也会进行进一次的最优分段再计算woe值,这里的woe只是为计算iv,顺便显示在数据集中。
其实到了这里,iv值的代码以及iv值运用,我也都讲完了。但是在业务上,还会做这样子一个步骤,就是对于iv值极高的变量会单独拿出来再分析。下面分享一个其中的一个的分析例子,这部分的工作可能不是全部公司都会做,因为很耗费时间。
这是建模中我的一个次数变量至于代表是什么变量因为公司的保密性质,所以我就不说了。分区是计算iv值时分段出来的。假设这个是拨打贷款公司的电话的次数,当他打的次数是3次以下的时候,批核率以及逾期率是比较高的,但是当达到13次以上的时候,批核率不仅降了9%左右,而且逾期率也高了4%,那么这个变量就可以跟领导讨论一下,将这条规则做到前端,让审批审核人员多了一个可以参考的条件,当然这个变量的体现可能相对于其他变量来说是很明显的。但是真正做成规则或者说人工审批的决策还可能不能。具体的情况还是要看自己公司的数据,我这里也只是分享我工作中的一个小小的经验。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
PyTorch 核心机制:损失函数与反向传播如何驱动模型进化 在深度学习的世界里,模型从 “一无所知” 到 “精准预测” 的蜕变,离 ...
2025-07-252025 年 CDA 数据分析师考纲焕新,引领行业人才新标准 在数字化浪潮奔涌向前的当下,数据已成为驱动各行业发展的核心要素。作为 ...
2025-07-25从数据到决策:CDA 数据分析师如何重塑职场竞争力与行业价值 在数字经济席卷全球的今天,数据已从 “辅助工具” 升级为 “核心资 ...
2025-07-25用 Power BI 制作地图热力图:基于经纬度数据的实践指南 在数据可视化领域,地图热力图凭借直观呈现地理数据分布密度的优势,成 ...
2025-07-24解析 insert into select 是否会锁表:原理、场景与应对策略 在数据库操作中,insert into select 是一种常用的批量数据插入语句 ...
2025-07-24CDA 数据分析师的工作范围解析 在数字化时代的浪潮下,数据已成为企业发展的核心资产之一。CDA(Certified Data Analyst)数据分 ...
2025-07-24从 CDA LEVEL II 考试题型看 Python 数据分析要点 在数据科学领域蓬勃发展的当下,CDA(Certified Data Analyst)认证成为众多从 ...
2025-07-23用 Python 开启数据分析之旅:从基础到实践的完整指南 在数据驱动决策的时代,数据分析已成为各行业不可或缺的核心能力。而 Pyt ...
2025-07-23鸢尾花判别分析:机器学习中的经典实践案例 在机器学习的世界里,有一个经典的数据集如同引路明灯,为无数初学者打开了模式识别 ...
2025-07-23解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-07-22解析神经网络中 Softmax 函数的核心作用 在神经网络的发展历程中,激活函数扮演着至关重要的角色,它们为网络赋予了非线性能力, ...
2025-07-22CDA数据分析师证书考取全攻略 一、了解 CDA 数据分析师认证 CDA 数据分析师认证是一套科学化、专业化、国际化的人才考核标准, ...
2025-07-22左偏态分布转正态分布:方法、原理与实践 左偏态分布转正态分布:方法、原理与实践 在统计分析、数据建模和科学研究中,正态分 ...
2025-07-22你是不是也经常刷到别人涨粉百万、带货千万,心里痒痒的,想着“我也试试”,结果三个月过去,粉丝不到1000,播放量惨不忍睹? ...
2025-07-21我是陈辉,一个创业十多年的企业主,前半段人生和“文字”紧紧绑在一起。从广告公司文案到品牌策划,再到自己开策划机构,我靠 ...
2025-07-21CDA 数据分析师的职业生涯规划:从入门到卓越的成长之路 在数字经济蓬勃发展的当下,数据已成为企业核心竞争力的重要来源,而 CD ...
2025-07-21MySQL执行计划中rows的计算逻辑:从原理到实践 MySQL 执行计划中 rows 的计算逻辑:从原理到实践 在 MySQL 数据库的查询优化中 ...
2025-07-21在AI渗透率超85%的2025年,企业生存之战就是数据之战,CDA认证已成为决定企业存续的生死线!据麦肯锡全球研究院数据显示,AI驱 ...
2025-07-2035岁焦虑像一把高悬的利刃,裁员潮、晋升无望、技能过时……当职场中年危机与数字化浪潮正面交锋,你是否发现: 简历投了10 ...
2025-07-20CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-18