读童话的狼

2021-02-18   阅读量: 22

Python

WOE如果是这样的非线性分布是不是不太适合拿来做逻辑回归模型

建立评分卡模型时需要跨数据集检验WOE分箱的单调性。如果在训练集上保持单调,但在验证集和测试集上发生翻转而不单调,那么说明分箱并不合理,需要再次调整。


如果自变量x与因变量y之间存在非线性关系,也就是说x越大,不能保证预测为好人/坏人的概率也越大。比如:随着x增大,P(Y=1|X)先增大,后变小。

此时可通过WOE变换,同时保持WOE曲线具备单调性,那么带来的好处在于:

1. 若WOE中Odds定义为好坏比(good/bad),那么woe(x)越大,y预测为好人的概率越高;

2. 若WOE中Odds定义为坏好比(bad/good),那么woe(x)越大,y预测为坏人的概率越高;

这就保证新的自变量x' = woe(x)与y之间具备正(负)相关,更加符合我们的习惯——随着x'增大,P(Y=1|X')也单调增大。

另一方面,LR这些线性模型的基本假设是x与y之间存在线性关系。


81.2730 2 0 关注作者 收藏

评论(0)


暂无数据

推荐课程