五、导包
1、画图包
import matplotlib.pyplot as plt #画图软件
plt.style.use('ggplot')#画图的风格
%matplotlib inline #在线显示
plt.rcParams["font.sans-serif"]=["SimHei"] #解决中文乱码问题 plt.rcParams["axes.unicode_minus"]=False #解决坐标轴刻度负号乱码
2、导入模型的包
from scipy.stats import ttest_ind as ttest, levene#导入t分布和方差齐性检验的包
from statsmodels.stats.anova import anova_lm #anova方差分析
from sklearn.neighbors import KNeighborsClassifier #knn分类
from sklearn.neighbors import KNeighborsRegressor#Knn回归
from sklearn.model_selection import train_test_split #模型拆分训练与测试集
from sklearn.preprocessing import StandardScaler # 数据标准化
from sklearn.linear_model import Ridge, Lasso #回归里的L1范式 L2范式
from sklearn.linear_model import RidgeCV # 带交叉验证的岭回归
from sklearn.naive_bayes import GaussianNB #朴素贝叶斯模型
from sklearn.linear_model import LogisticRegression # 逻辑回归模型
from sklearn import tree # 决策树 tree.DecisionTreeClassifier()
分类树采用了基尼指数(Gini Index)最小化原则,而回归树选择了平方损失函数
最小化原则
1、 模型处理运算包
from sklearn.datasets import load_数据 #导入sklearn中内置的数据集
from sklearn.decomposition import PCA #导入PCA降维算法
import warnings: warnings.filterwarnings('ignore') #忽略警告
from sklearn.preprocessing import LabelEncoder:标准化标签,将标签值统一转换成range(标签值个数-1)范围内,即0、1、2、3……
4、模型评估的包
from sklearn import metrics #模型评估
sklearn.metrics中的评估方法
(accuracy_score,recall_score,roc_curve,roc_auc_score,confusion_matrix)
accuracy_score:精确率=分类准确率分数是指所有分类正确的百分比
recall_score:召回率 =提取出的正确信息条数 /样本中的信息条数
roc_curve :ROC曲线,以真正例率(也就是灵敏度)为纵坐标,假正例率(1-特
效性)为横坐标绘制的曲线。
roc_auc_score:直接根据真实值(必须是二值)、预测值(可以是0/1,也可以是proba
值)计算出auc值,中间过程的roc计算省略。
confusion_matrix:混淆矩阵
from sklearn.metrics import classification_report, confusion_matrix
#混淆矩阵、分类报告等自动生成
from sklearn.model_selection import GridSearchCV #网格搜索,查找最优参
from sklearn.model_selection import cross_val_ score as CVS #交叉验证
5、导出数据
1、import pandas_profiling #快速把python的代码页面变成网页版查看数据
profile = pandas_profiling.ProfileReport(data)
profile.to_file(outputfile = "output_file.html")
2、import graphviz #决策树的导出文件








暂无数据