2020-07-16
阅读量:
1473
python:决策树中怎么处理连续型变量
问题:决策树中怎么处理连续型变量
解答:很多时候,特征值常常是连续的,比如身高,金额等等。这时候不能直接采用上面的特征分割方法,首先需要将连续属性离散化,最简单的方法是二分法,就是设置一个阈值,小于这个值的为一类,大于这个值的为另外一类。
给定样本集D和连续属性a,假定a在D上出现了n个不同的取值,将其从小到大排序,即为(a1,a2,a3…an)。然后可以计算出n-1个潜在划分点Ti。
即将每两个相邻元素的中间点可以看做潜在分裂点,这样一来,以潜在分裂点为界,就可以将连续数据当作离散的来处理了。但是连续特征的信息增益略有不同,如下
其中,表示以特征a上不大于潜在分裂点t的所有样本集合,
表示以特征a上大于潜在分裂点t的所有样本集合。上述公式计算了连续特征的信息增益大小。需要注意的是,采用该方法最多只会产生两个分支,并且与离散数据不同的是,当其下属分支继续划分时,仍可以使用当前划分的连续特征。(因为离散特征划分后一个分支内的样本数据在该特征上不可能出现多于一种的值,而采用二分法选取的连续特征显然不具备这一条件。)






评论(0)


暂无数据
推荐帖子
2条评论
0条评论
2条评论