如何计算决策树的各特征重要程度？-CDA数据分析师官网

热线电话：13121318867

首页大数据时代如何计算决策树的各特征重要程度？

如何计算决策树的各特征重要程度？

2023-04-07

决策树是一种常用的机器学习算法，它可以对数据进行分类和预测。在决策树中，特征（或属性）重要性是指每个特征对模型准确性的贡献程度。因此，了解如何计算特征重要性是非常有用的，可以帮助我们选择最相关的特征，进而提高模型的性能。

本文将介绍三种计算特征重要性的方法：基于信息增益、基于基尼不纯度和基于平均减少不纯度。这些方法都可以用来计算特征重要性，并且在实践中都取得了很好的效果。

基于信息增益

信息增益是一种用来评估一个特征对决策树分类能力的重要性的指标。它的定义是：特征A对样本集D的信息增益（Gain(D, A)）等于样本集D的经验熵（H(D)）与特征A条件下的经验熵（H(D|A)）之差，即：

Gain(D, A) = H(D) - H(D|A)

其中，经验熵（H(D)）衡量了样本集D的不确定性，经验熵越大，样本集的不确定性就越高；特征A条件下的经验熵（H(D|A)）衡量的是在特征A给定的情况下，样本集D的不确定性。如果特征A对分类任务有帮助，则H(D|A)会比H(D)小，因此信息增益越大，特征对分类能力的贡献就越大。

在计算信息增益时，我们需要先计算经验熵和条件经验熵。然后，通过计算信息增益来确定每个特征的重要性，从而选择最相关的特征。

基于基尼不纯度

基尼不纯度是另一种评估特征重要性的方法。它衡量的是从样本中随机选择两个样本，其类别不一致的概率。这个概率越低，说明样本的纯度越高，也就是说该特征对分类任务的贡献越大。

具体来说，假设样本集合D中第k类样本所占的比例为pk，则D的基尼指数定义为：

Gini(D) = 1 - ∑(pk)^2

对于样本集合D来说，假设使用特征A对其进行划分，得到了m个子集Di，其中第i个子集的样本数为Di，并且属于第k类的样本在Di中所占的比例为pki，则特征A的基尼指数定义为：

Gini(D, A) = ∑(Di / D) × (1 - ∑(pki)^2)

特征A的重要性可以通过计算基尼指数的减少量来确定。具体来说，我们可以计算使用特征A进行划分前后的基尼指数，然后计算两者之差，即：

ΔGini(D, A) = Gini(D) - Gini(D, A)

如果ΔGini越大，说明特征A对分类任务的贡献越大，因此特征A的重要性就越高。

基于平均减少不纯度

平均减少不纯度（Mean Decrease Impurity，MDI）是一种计算特征重要性的方法，它对应的是决策树算法中的 CART

算法。该方法通过计算每个特征在决策树中被用作分裂标准的次数和该特征分裂所带来的平均减少不纯度，来评估特征的重要程度。

具体来说，对于某个特征A，我们可以计算它在所有节点上的分裂次数和每次分裂所带来的平均减少不纯度（Impurity Decrease，ID）。然后将每个节点的ID加权求和即可得到特征A的MDI。

CART算法使用的是基尼不纯度来评估节点的不纯度，因此其计算方法与基于基尼不纯度的特征重要性计算方法类似。

总结

本文介绍了三种常用的特征重要性计算方法：基于信息增益、基于基尼不纯度和基于平均减少不纯度。这些方法都可以用来计算特征的重要性，并且在实践中都取得了很好的效果。选择哪种方法取决于具体情况和数据集的特点。在实际应用中，我们可以结合多种方法来评估特征的重要性，以获得更全面的结果。

相信读完上文，你对算法已经有了全面认识。若想进一步探索机器学习的前沿知识，强烈推荐机器学习之半监督学习课程。

学习入口：https://edu.cda.cn/goods/show/3826?targetId=6730&preview=0
涵盖核心算法，结合多领域实战案例，还会持续更新，无论是新手入门还是高手进阶都很合适。赶紧点击链接开启学习吧！

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

特征决策树机器学习半监督学习半监督监督学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇为什么NLP模型训练1~3个epoch就可以收敛，但是CV模型很多需要训练十几甚至上百个epoch？

下一篇卷积神经网络图像处理卷积时，为啥要旋转180°？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

如何计算决策树的各特征重要程度？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】Power BI函数大全：分类、实操与实战全 ...

【CDA干货】次日留存率计算公式：原理、实操与应用 ...

指标的基本概念：CDA数据分析师的实操根基与洞察抓 ...

【CDA干货】随机森林特征重要性：原理、实操与应用 ...

【CDA干货】MySQL按日期分组：保证每天都有数据，无 ...

描述性统计：CDA数据分析师的入门必修课，让数据特 ...

【马年宠粉｜集赞0元领】转发CDA真题海报，水杯/颈 ...

【CDA干货】Anaconda下载库慢？3种实操方法，彻底解 ...

【CDA干货】Tableau两表未连接部分显示0而非Null： ...

统计基本概念：CDA数据分析师的实操根基与价值落地 ...

【CDA干货】一文读懂如何规避数据滥用风险：全流程 ...

【CDA干货】小样本配对数据：Wilcoxon检验与配对样 ...

透视分析方法：CDA数据分析师的核心实操工具与价值 ...

【CDA干货】一文搞定SQL字段varchar转double：语法 ...

【CDA干货】一文搞定数据透视表两列相互计算：从基 ...

表结构数据的获取、加工与使用：CDA数据分析师的核 ...

【CDA干货】AARRR用户增长漏斗模型全解析：从理论到 ...

【CDA干货】随机森林特征重要性分析全解析：从原理 ...

CDA数据分析师：精通表格结构数据核心功能，解锁高 ...

【CDA干货】一文读懂Excel箱线图含义：用简单图表解 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载