2020-04-04
阅读量:
1170
gbdt是怎么填充的缺失值?
在决策树学习的初始阶段,根节点各样本的初始权重都为1
若样本x在划分属性a上的取值未知,则将x划入所有子节点,同时调整该样本x的权重值为rv*wx,其中rv为无缺失值样本在属性a上取值为av的样本所占的比例,计算错误率的时候,需要考虑到样本权重
训练完成,给测试集样本分类,有缺失值怎么办?
- 如果有单独的缺失分支,使用此分支。
- 把待分类的样本的属性a值分配一个最常出现的a的属性值,然后进行分支预测。
- 根据其他属性为该待分类样本填充一个属性a值,然后进行分支处理。
- 在决策树中属性a节点的分支上,遍历属性a节点的所有分支,探索可能所有的分类结果,然后把这些分类结果结合起来一起考虑,按照概率决定一个分类。
- 待分类样本在到达属性a节点时就终止分类,然后根据此时a节点所覆盖的叶子节点类别状况为其分配一个发生概率最高的类。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论