热线电话:13121318867

登录
2020-03-13 阅读量: 1128
评分卡要分箱的原因具体有哪些

一般在建立分类模型时,需要对连续变量离散化,特征离散化后,模型会更稳定,降低了模型过拟合的风险。比如在建立申请评分卡模型时用logsitic作为基模型就需要对连续变量进行离散化,离散化通常采用分箱法。

1、离散特征的增加和减少都很容易,易于模型的迭代优化;

2、稀疏变量内积乘法运算速度快,计算结果方便存储,容易扩展;

3、离散化后的特征对异常数据有很像的鲁棒性:例如年龄大于50特征是1,否则就是0.如果没有离散化,年龄300这个异常值就会多模型有很大干扰;

4、逻辑回归属于广义线性模型,表达能力受限;单变量离散化后未N个,每个变量都有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合;

5、离散后可以进行特征交叉,有M+N个变量变为m*n个变量,进一步引入非线性,提升表达能力;

6、离散后特征会更稳定,比如20-30岁之间,是一类,用户不会因为长大了一岁就变成一个完全不一样的人;

7、特征离散后,起到了简化逻辑回归模型的作用,降低了模型过拟合的风险;

8、可以将缺失作为独立的一列带入模型;

9、所有的确实都作为独立的一类带入模型;

15.0462
5
关注作者
收藏
评论(0)

发表评论

暂无数据