热线电话:13121318867

登录
2020-03-22 阅读量: 1129
决策树为什么要对文本型变量进行编码?

Sklearn只能用one hot,因为它不支持直接操作categorical feature

在使用 sklearn 或 XGBoost 等不支持类别特征的最优切分工具时,可以用这个方法。

具体处理方法

label encoding

特征存在内在顺序 (ordinal feature)

one hot encoding

特征无内在顺序,category数量 < 4

target encoding (mean encoding, likelihood encoding, impact encoding)

特征无内在顺序,category数量 > 4

beta target encoding

特征无内在顺序,category数量 > 4, K-fold cross validation

不做处理(模型自动编码)

CatBoost(leave-one-out统计label均值),lightgbm(最优切分点)

4.7587
2
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子