2020-02-25
阅读量:
878
怎样有效地找到组合特征?
怎样有效地找到组合特征?
答:以点击预测问题为例,假设原始输入特征包含年龄、性别、用户类型(试用期、付费)、物品类型(护肤、食品等)4个方面的信息,并且根据原始输入和标签(点击/未点击)构造出了决策树,如图所示:

于是,每一条从根节点到叶节点的路径都可以看成一种特征组合的方式。具
体来说,就有以下4种特征组合的方式。
(1)“年龄<=35”且“性别=女”。
(2)“年龄<=35”且“物品类别=护肤”。
(3)“用户类型=付费”且“物品类型=食品”。
(4)“用户类型=付费”且“年龄<=40”。
下图是两个样本信息,那么第1个样本按照上述4个特征组合就可以编码为(1, 1, 0, 0),因为同时满足(1)(2),但不满足(3)(4)。同理,第2个样本可以编码为(0, 0, 1, 1),因为它同时满足(3)(4),但不满足(1)(2)。

给定原始输入该如何有效地构造决策树呢?可以采用梯度提升决策树,该方法的思想是每次都在之前构建的决策树的残差上构建下一棵决策树。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论