feature importance函数的简要介绍！-CDA数据分析师官网

热线电话：13121318867

feature importance函数的简要介绍！

2020-05-19

feature importance指特征重要性，在特征选择的许多方法中，我们可以使用随机森林模型中的特征重要属性来筛选特征，并得到其与分类的相关性。

由于随机森林存在的固有随机性，该模型可能每次给予特征不同的重要性权重。但是通过多次训练该模型，即每次通过选取一定量的特征与上次特征中的交集进行保留，以此循环一定次数，从而我们最后可以得到一定量对分类任务的影响有重要贡献的特征。

具体来说，在随机森林中某个特征X的重要性的计算方法如下：

1：对于随机森林中的每一颗决策树,使用相应的OOB(袋外数据)数据来计算它的袋外数据误差,记为errOOB1.

2: 随机地对袋外数据OOB所有样本的特征X加入噪声干扰(就可以随机的改变样本在特征X处的值),再次计算它的袋外数据误差,记为errOOB2.

3：假设随机森林中有Ntree棵树,那么对于特征X的重要性=∑(errOOB2-errOOB1)/Ntree,之所以可以用这个表达式来作为相应特征的重要性的度量值是因为：若给某个特征随机加入噪声之后,袋外的准确率大幅度降低,则说明这个特征对于样本的分类结果影响很大,也就是说它的重要程度比较高。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；