feature importance,根据含义就能理解,也就是特征重要性,在预测建模项目中起着非常重要作用,能够提供对数据、模型的见解,和如何进行降维和选择特征,并以此来提高预测模型的的效率和有效性。今天小编为大家带来的是如何理解随机森林中的feature importance,希望对大家有所帮助。
一、简单了解feature importance
实际情况中,一个数据集中往往包含数以万计个特征,如何在其中选择出,结果影响最大的几个特征,并通过这种方法缩减建立模型时的特征数,这是我们最为关心的问题。今天要介绍的是:用随机森林来对进行特征筛选。
用随机森林进行特征重要性评估的思想其实非常简单,简单来说,就是观察每个特征在随机森林中的每颗树上做了多少贡献,然后取平均值,最后对比特征之间的贡献大小。
总结一下就是:特征重要性是指,在全部单颗树上此特征重要性的一个平均值,而单颗树上特征重要性计算方法事:根据该特征进行分裂后平方损失的减少量的求和。
二、feature importance评分作用
1.特征重要性分可以凸显出特征与目标的相关相关程度,能够帮助我们了解数据集
2.特征重要性得分可以帮助了解模型
特征重要性得分通常是通过数据集拟合出的预测模型计算的。查看重要性得分能够洞悉此特定模型,以及知道在进行预测时特征的重要程度。
3.特征重要性能够用于改进预测模型
我们可以通过特征重要性得分来选择要删除的特征(即得分最低的特征)或者需要保留的特征(即得分最高的特征)。这其实是一种特征选择,能够简化正在建模的问题,加快建模过程,在某些情况下,还能够改善模型的性能。
三、python实现随机森林feature importances
import xlrd import csv import numpy as np import pandas as pd import matplotlib.pyplot as plt from scipy.interpolate import spline #设置路径 path='/Users/kqq/Documents/postgraduate/烟叶原始光谱2017.4.7数字产地.csv' #读取文件 df = pd.read_csv(path, header = 0) #df.info() #训练随机森林模型 from sklearn.cross_validation import train_test_split from sklearn.ensemble import RandomForestClassifier x, y = df.iloc[:, 1:].values, df.iloc[:, 0].values x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, random_state = 0) feat_labels = df.columns[1:] forest = RandomForestClassifier(n_estimators=10000, random_state=0, n_jobs=-1) forest.fit(x_train, y_train) #打印特征重要性评分 importances = forest.feature_importances_ #indices = np.argsort(importances)[::-1] imp=[] for f in range(x_train.shape[1]): print(f + 1, feat_labels[f], importances[f]) #将打印的重要性评分copy到featureScore.xlsx中;plot特征重要性 #设置路径 path='/Users/kqq/Documents/postgraduate/实验分析图/featureScore.xlsx' #打开文件 myBook=xlrd.open_workbook(path) #查询工作表 sheet_1_by_index=myBook.sheet_by_index(0) data=[] for i in range(0,sheet_1_by_index.nrows): data.append(sheet_1_by_index.row_values(i)) data=np.array(data) X=data[:1,].ravel() y=data[1:,] plt.figure(1,figsize=(8, 4)) i=0 print(len(y)) while i<len(y): #power_smooth = spline(X,y[i],xnew) #plt.grid(True) plt.legend(loc='best') plt.plot(X,y[i],linewidth=1) plt.ylabel('Log(1/R)') plt.xlabel('wavelength(nm)') i=i+1 plt.legend(loc='best') plt.savefig('/Users/kqq/Documents/postgraduate/实验图/featureScore', dpi=200) plt.show()
数据分析咨询请扫描二维码
CDA数据分析师在中国航信高科技产业园进行了面向测试度量的数据分析培训课程,培训人数近2 ...
2024-05-01CDA数据分析师走进深圳迈瑞生物医疗电子股份有限公司,在迈瑞总部展开了为期两天的培训,本次课程参训人员线上及线下近百人, ...
2024-05-01CDA数据分析师在合肥市对合肥阳光新能源科技有限公司开展了为期8天的企业内训。 合肥阳光新能源科技 ...
2024-05-01CDA数据分析师走进海尔大学,进行了《数据治理与数据中台建设的道与术》专题培训,培训现场爆满,近百人参加了此次培训。 ...
2024-05-01在中国银行苏州分行培训中心开始数据分析师培训,此次培训课程共10天内容,包括Excel、MySQL、概率论与数理统计、SPSS等内容, ...
2024-05-01从实际的业务需求出发,结合行业的典型应用特点,围绕实际的商业问题,探讨数据挖掘、机器学习模型在金融领域的应用,包括获客、信用评分、细分画像、交叉销售、反欺诈、违规识别、时序预测、运筹优化、流程挖掘九个方面,形成 ...
2024-05-01本次培训课程为线上+线下的模式,由于学员编程能力不一、部分学员没有编程基础,故提供统计学、python基 ...
2024-05-01华夏银行信用卡中心-机器学习培训 1、课程亮点 取材于业界一流企业和顶级咨询公司的行业实践;已经被证明是人人 ...
2024-05-01主 题:数据中台建设及数据分析应用主题分享 1. 数据中台市场洞察 2. 主流数据中台产品比较 3. 某企业数据中 ...
2024-05-01围绕“数据驱动”战略,全力打造我行 300 人数字化人才梯队,着力培养数字化管理人才、大数据专业团队 ...
2024-05-01在当今数据驱动的商业环境中,数据分析成为了企业决策的重要依据。通过对大量数据的收集、处理和分析,企业能够更好地理解市场 ...
2024-04-29在人工智能(AI)的世界里,提示词(Prompt)是一种强大的工具,它能够引导AI按照用户的需求产生特定的输出。本文将深入探讨AI ...
2024-04-29CDA立足未来职场,拓展前沿视野——对外经贸大学保险学院举办“三全育人大讲堂”分享行业最新动态。 ...
2024-04-294月2日,CDA数据分析师创始发起人兼协会理事长赵坚毅博士受邀在浙江万里学院举办了一场以“数字化能力在职场中的作用” ...
2024-04-29随机森林(Random Forests)现在机器学习中比较火的一个算法,是一种基于Bagging的集成学习方法,能够很好地处理分类和回归的问 ...
2022-12-23方差分析是数据分析中常用的一种统计分析方法,接下来让我们简单了解一下方差分析的基本思想和原理吧。 方差分析(Analysis ...
2022-12-23来源:关于数据分析与可视化 关于streamlit-aggrid 数据排序 表格样式的调整 数据 ...
2022-08-03作者:麦叔 定义 「把上面晦涩的概念汇成一句话就是:」 ❝ 回调函数就是一个被作为参 ...
2022-08-03现今,高学历人群日益增多,物以稀为贵的高学历光环淡去。无论本科生还是研究生,甚至博士生,求职竞争力都大不如前,就业压力越来越大。
2022-06-01某家企业10个人面试,有9个本科生……如何脱颖而出,除得体的举止和良好的沟通力外,证书成重要筹码,这也是很多人考证的关键所在。
2022-04-14