2019-01-16
阅读量:
1406
决策树ID3、C4.5、C5.0以及CART算法之间的比较
ID3:
ID3算法使用信息熵和信息增益来抉择树的节点,但是无法处理连续的数据。对于连续型的数据,需要先进行连续值处理(离散化)http://note.youdao.com/noteshare?id=4531890d4c4db58751a302fd8bb90d22&sub=9156CE9BDCFE48FABA6F64EEBF1E91A6
不能处理缺省值。
C4.5:
C4.5算法是使用信息增益率来抉择树的节点。对于连续的数据,可以如下处理:
给出一段样本点:{65, 70, 70, 70, 75, 78, 80, 80, 80, 85, 90, 90, 95, 96}。
先进行去重复值排序处理:{65, 70, 75, 78, 80, 85, 90, 95, 96}
然后分别求每个数字拆分的信息增益(比如用65做拆分:用≤65和>65做拆分),
最后选择信息增益率最大的一个为节点。
C5.0:
C5.0算法为C4.5的进阶版,具体详情:
http://http://cse-wiki.unl.edu/wiki/index.php/Decision_Trees,_Overfitting,_and_Occam%27s_Razor#C5.0
CART:
是一种典型的二叉分类树。同C4.5相似,支持处理连续的值。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
1条评论