2020-03-22
阅读量:
1129
决策树为什么要对文本型变量进行编码?
Sklearn只能用one hot,因为它不支持直接操作categorical feature
在使用 sklearn 或 XGBoost 等不支持类别特征的最优切分工具时,可以用这个方法。
具体处理方法
label encoding
特征存在内在顺序 (ordinal feature)
one hot encoding
特征无内在顺序,category数量 < 4
target encoding (mean encoding, likelihood encoding, impact encoding)
特征无内在顺序,category数量 > 4
beta target encoding
特征无内在顺序,category数量 > 4, K-fold cross validation
不做处理(模型自动编码)
CatBoost(leave-one-out统计label均值),lightgbm(最优切分点)






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论