shauna570392

2020-03-14   阅读量: 4353

Python数据分析

评分卡的IV是C4.5的信息增益率里面那个iv吗

扫码加入数据分析学习群

是的。

我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢?

挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。但是,其中最主要和最直接的衡量标准是变量的预测能力。

“变量的预测能力”这个说法很笼统,很主观,非量化,在筛选变量的时候我们总不能说:“我觉得这个变量预测能力很强,所以他要进入模型”吧?我们需要一些具体的量化指标来衡量每自变量的预测能力,并根据这些量化指标的大小,来确定哪些变量进入模型。IV就是这样一种指标,他可以用来衡量自变量的预测能力。类似的指标还有信息增益、基尼系数等等。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
28.5714 1 7 关注作者 收藏

评论(2)

ermutuxia
2020-03-15
http://www.pinggu.com/post/details/5e6c9fe12865f90610e95b3b 这也是相关链接
0.0000 0 0 回复
ermutuxia
2020-03-15
http://www.pinggu.com/post/details/5e6c9db22865f90610e95b35 这是iv计算公式的链接
0.0000 0 0 回复

推荐课程

推荐帖子