feature importance,根据含义就能理解,也就是特征重要性,在预测建模项目中起着非常重要作用,能够提供对数据、模型的见解,和如何进行降维和选择特征,并以此来提高预测模型的的效率和有效性。今天小编为大家带来的是如何理解随机森林中的feature importance,希望对大家有所帮助。
一、简单了解feature importance
实际情况中,一个数据集中往往包含数以万计个特征,如何在其中选择出,结果影响最大的几个特征,并通过这种方法缩减建立模型时的特征数,这是我们最为关心的问题。今天要介绍的是:用随机森林来对进行特征筛选。
用随机森林进行特征重要性评估的思想其实非常简单,简单来说,就是观察每个特征在随机森林中的每颗树上做了多少贡献,然后取平均值,最后对比特征之间的贡献大小。
总结一下就是:特征重要性是指,在全部单颗树上此特征重要性的一个平均值,而单颗树上特征重要性计算方法事:根据该特征进行分裂后平方损失的减少量的求和。
二、feature importance评分作用
1.特征重要性分可以凸显出特征与目标的相关相关程度,能够帮助我们了解数据集
2.特征重要性得分可以帮助了解模型
特征重要性得分通常是通过数据集拟合出的预测模型计算的。查看重要性得分能够洞悉此特定模型,以及知道在进行预测时特征的重要程度。
3.特征重要性能够用于改进预测模型
我们可以通过特征重要性得分来选择要删除的特征(即得分最低的特征)或者需要保留的特征(即得分最高的特征)。这其实是一种特征选择,能够简化正在建模的问题,加快建模过程,在某些情况下,还能够改善模型的性能。
三、python实现随机森林feature importances
import xlrd import csv import numpy as np import pandas as pd import matplotlib.pyplot as plt from scipy.interpolate import spline #设置路径 path='/Users/kqq/Documents/postgraduate/烟叶原始光谱2017.4.7数字产地.csv' #读取文件 df = pd.read_csv(path, header = 0) #df.info() #训练随机森林模型 from sklearn.cross_validation import train_test_split from sklearn.ensemble import RandomForestClassifier x, y = df.iloc[:, 1:].values, df.iloc[:, 0].values x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, random_state = 0) feat_labels = df.columns[1:] forest = RandomForestClassifier(n_estimators=10000, random_state=0, n_jobs=-1) forest.fit(x_train, y_train) #打印特征重要性评分 importances = forest.feature_importances_ #indices = np.argsort(importances)[::-1] imp=[] for f in range(x_train.shape[1]): print(f + 1, feat_labels[f], importances[f]) #将打印的重要性评分copy到featureScore.xlsx中;plot特征重要性 #设置路径 path='/Users/kqq/Documents/postgraduate/实验分析图/featureScore.xlsx' #打开文件 myBook=xlrd.open_workbook(path) #查询工作表 sheet_1_by_index=myBook.sheet_by_index(0) data=[] for i in range(0,sheet_1_by_index.nrows): data.append(sheet_1_by_index.row_values(i)) data=np.array(data) X=data[:1,].ravel() y=data[1:,] plt.figure(1,figsize=(8, 4)) i=0 print(len(y)) while i<len(y): #power_smooth = spline(X,y[i],xnew) #plt.grid(True) plt.legend(loc='best') plt.plot(X,y[i],linewidth=1) plt.ylabel('Log(1/R)') plt.xlabel('wavelength(nm)') i=i+1 plt.legend(loc='best') plt.savefig('/Users/kqq/Documents/postgraduate/实验图/featureScore', dpi=200) plt.show()
数据分析咨询请扫描二维码
在现代信息技术的广阔世界中,大数据架构师扮演着至关重要的角色。他们不仅引领着企业的数据战略,还通过技术创新推动业务的不断 ...
2024-11-04在当今数字化时代,数据分析师已成为企业关键角色,帮助决策者通过数据驱动的洞察实现业务目标。成为一名成功的数据分析师,需要 ...
2024-11-03在当今数字化的世界中,数据分析已经成为推动商业决策的关键因素。随着公司和组织越来越依赖数据来驱动业务战略,对数据分析专 ...
2024-11-03《Python数据分析极简入门》 第2节 2 Pandas数据类型 Pandas 有两种自己独有的基本数据结构。需要注意的是,它固然有着两种数据 ...
2024-11-01《Python数据分析极简入门》 第2节 1 Pandas简介 说好开始学Python,怎么到了Pandas? 前面说过,既然定义为极简入门,我们只抓 ...
2024-10-31在当今数据驱动的世界中,数据科学与工程专业的重要性愈发凸显。无论是推动技术进步,还是在商业决策中提供精准分析,这一专业都 ...
2024-10-30在当今信息爆炸的时代,数据已成为企业决策和战略制定的核心资源。爬虫工程师因此成为数据获取和挖掘的关键角色。本文将详细介绍 ...
2024-10-30在当今数据驱动的世界中,数据分析是揭示商业洞察和推动决策的核心力量。选择合适的数据分析工具对于数据专业人士而言至关重要。 ...
2024-10-30能源企业在全球经济和环境保护双重压力下,正面临前所未有的挑战与机遇。数字化转型作为应对这些挑战的关键手段,正在深刻变革传 ...
2024-10-30近年来,随着数据科学的逐步发展,Python语言的使用率也越来越高,不仅可以做数据处理,网页开发,更是数据科学、机器学习、深度 ...
2024-10-30大数据分析师证书 针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。 ...
2024-10-30《Python数据分析极简入门》 附:Anaconda安装教程 注:分Windows系统下安装和MacOS系统安装 1. Windows系统下安装 第一步清华大 ...
2024-10-29拥抱数据分析的世界 - 成为一名数据分析工程师是一个充满挑战和机遇的职业选择。要成功地进入这个领域,你需要掌握一系列关键技 ...
2024-10-28降本增效:管理战略的关键 企业管理中的降本增效不仅是一项重要的战略举措,更是激发竞争力、提高盈利能力的关键。这一理念在当 ...
2024-10-28企业数字化是指利用数字技术和信息化手段,对企业的各个方面进行改造和优化,以提升生产效率、服务质量和市场竞争力的过程。实现 ...
2024-10-28数据科学专业毕业后,毕业生可以选择从事多种不同的岗位和领域。数据科学是一个快速发展且广泛应用的领域,毕业生在企业、学术界 ...
2024-10-28学习数据科学与大数据技术是当今职业发展中至关重要的一环。从基础到高级,以下是一些建议的课程路径: 基础课程: Python编程 ...
2024-10-28在信息技术和数据科学领域,数据架构师扮演着至关重要的角色。他们负责设计和管理企业中复杂的数据基础设施,以支持数据驱动的决 ...
2024-10-28进入21世纪以来,随着信息技术的迅猛发展,大数据已经成为全球最具影响力的技术之一,并成为企业数字化转型的核心驱动力。大数据 ...
2024-10-28随着科技的迅猛发展,数字化转型已成为现代企业保持竞争力和推动增长的关键战略之一。数字化不仅仅是技术的应用,它代表着一种全 ...
2024-10-28