决策树算法基础：ID3与C4.5-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读决策树算法基础：ID3与C4.5

决策树算法基础：ID3与C4.5

2018-08-07

决策树算法基础：ID3与C4.5

设X是一个取有限个值得离散随机变量，其概率分布为P(X=xi)=pi, i=1,2,…,n。则随机变量X的信息熵为

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。H(Y|X)的计算公式为

所以决策树分支后信息总熵H(D|A)=P1*H1+P2*H2+...+Pn*Hn,(特征A条件下D的经验条件熵)

所以信息增益ΔH=H(D)-H(D|A)

H(D|A)越小，ΔH越大，该特征A越适合作为当前的决策节点。

选取最佳特征伪代码：

计算信息总熵H(D)

遍历每一个特征下的关于D的经验条件熵H(D|A)

计算每一个特征的信息增益ΔH

将信息增益ΔH最大的特征作为最佳特征选为当前决策节点

ID3算法伪代码：

如果第一个标签的数量等于所有的标签数量，说明这是一个单节点树，返回这个标签作为该节点类

如果特征只有一个，说明这是一个单节点树，用多数表决法投票选出标签返回作为该节点类

否则，按信息增益最大的特征A作为当前决策节点，即决策树父节点

如果该特征的信息增益ΔH小于阈值，则用多数表决法投票选出标签返回作为该节点类

否则，对于该特征A的每一个可能值ai，将原空间D分割为若干个子空间Di

对于若干个非空子集Di，将每个Di中实例数最大的类作为标记，构建子节点

以Di为训练空间，递归调用上述步骤

由于信息增益存在偏向于选择取值较多的特征的问题，而C4.5算法中，将ID3算法里的信息增益换成信息增益比，较好地解决了这个问题。

决策树的优点在于计算量简单，适合有缺失属性值的样本，适合处理不相关的特征。而缺点是容易过拟合，可以通过剪枝来简化模型，另外随机森林也解决了这个问题。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

特征决策树 D3 随机森林过拟合

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇Python里disconnect UDP套接字的方法

下一篇零基础学习大数据的四个步骤

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

决策树算法基础：ID3与C4.5

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据分析赋能价值创造：国内外知名经典 ...

【CDA干货】Python爬取163网易财经上市公司财务报表 ...

CDA数据分析师：数字化时代，数据思维的核心步骤与 ...

【CDA干货】线性回归拟合性判断实战指南：从指标解 ...

【CDA干货】安装SQL Server后提示“服务名无效”： ...

CDA数据分析师实操指南：指标体系搭建的方法与完整 ...

【CDA干货】销售额预测实战：基于时间序列与回归分 ...

【CDA干货】金融数据分析：为什么异常值处理是必做 ...

CDA数据分析师必备：指标与指标体系管理基础指南 ...

【CDA干货】数据呈现与数据分析：核心区别+实操边界 ...

【CDA干货】Pandas读取dat文件：提取第一行数据并转 ...

CDA数据分析师核心能力：数据建模实操指南，让数据 ...

【CDA干货】MySQL课时排序累加全指南：3种方法+实操 ...

【CDA干货】Tableau环比计算全指南：3种方法+实操步 ...

CDA数据分析师实操指南：从0到1开展数据治理，激活 ...

【CDA干货】方法验证核心统计：重复性用卡方分析， ...

【CDA干货】两组数据的单因素方差分析：什么时候用 ...

CDA数据分析师：深耕数据治理体系，激活数据资产核 ...

【CDA干货】转置卷积后需要激活函数吗？深度学习实 ...

【CDA干货】搞懂算术平均与几何平均：什么时候用？ ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载