2020-03-13
阅读量:
1128
评分卡要分箱的原因具体有哪些
一般在建立分类模型时,需要对连续变量离散化,特征离散化后,模型会更稳定,降低了模型过拟合的风险。比如在建立申请评分卡模型时用logsitic作为基模型就需要对连续变量进行离散化,离散化通常采用分箱法。
1、离散特征的增加和减少都很容易,易于模型的迭代优化;
2、稀疏变量内积乘法运算速度快,计算结果方便存储,容易扩展;
3、离散化后的特征对异常数据有很像的鲁棒性:例如年龄大于50特征是1,否则就是0.如果没有离散化,年龄300这个异常值就会多模型有很大干扰;
4、逻辑回归属于广义线性模型,表达能力受限;单变量离散化后未N个,每个变量都有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合;
5、离散后可以进行特征交叉,有M+N个变量变为m*n个变量,进一步引入非线性,提升表达能力;
6、离散后特征会更稳定,比如20-30岁之间,是一类,用户不会因为长大了一岁就变成一个完全不一样的人;
7、特征离散后,起到了简化逻辑回归模型的作用,降低了模型过拟合的风险;
8、可以将缺失作为独立的一列带入模型;
9、所有的确实都作为独立的一类带入模型;






评论(0)


暂无数据
推荐帖子
2条评论
5条评论
6条评论