热线电话:13121318867

登录
2019-01-16 阅读量: 1406
决策树ID3、C4.5、C5.0以及CART算法之间的比较

ID3:

ID3算法使用信息熵和信息增益来抉择树的节点,但是无法处理连续的数据。对于连续型的数据,需要先进行连续值处理(离散化)http://note.youdao.com/noteshare?id=4531890d4c4db58751a302fd8bb90d22&sub=9156CE9BDCFE48FABA6F64EEBF1E91A6

不能处理缺省值。

C4.5:

C4.5算法是使用信息增益率来抉择树的节点。对于连续的数据,可以如下处理:

给出一段样本点:{65, 70, 70, 70, 75, 78, 80, 80, 80, 85, 90, 90, 95, 96}。

先进行去重复值排序处理:{65, 70, 75, 78, 80, 85, 90, 95, 96}

然后分别求每个数字拆分的信息增益(比如用65做拆分:用≤65和>65做拆分),

最后选择信息增益率最大的一个为节点。

C5.0:

C5.0算法为C4.5的进阶版,具体详情:

http://http://cse-wiki.unl.edu/wiki/index.php/Decision_Trees,_Overfitting,_and_Occam%27s_Razor#C5.0

CART:

是一种典型的二叉分类树。同C4.5相似,支持处理连续的值。

17.6465
0
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子