热线电话:13121318867

登录
2020-08-08 阅读量: 1034
机器学习小结8.8

一、机器学习的分类

①监督学习(supervised learning):

线性回归,逻辑回归,KNN,神经网络,决策树,集成学习,SVM,贝叶斯,协同过滤,LDA

②无监督学习(unsupervised learning):

聚类、关联规则,PCA降维

③半监督学习(semi-supervised learning ):

半监督分类,半监督回归,半监督聚类,半监督降维

④强化学习(reinforcement learning):

Model-Free RL,Model-Based RL等


二、机器学习中主要解决问题

①分类,②回归,③聚类,④降维


三、机器学习流程(有监督学习)

①业务理解:

业务的背景,业务场景,需要解决的问题,业务目标,需要什么数据...

②数据获取:

综合考虑数据获取难度,准确率,覆盖率;

如何获取(数据库,爬虫,调查问卷);

③数据预处理:

a训练集和测试集划分

b数据查看:

数据读取,数据的前几行,后几行,shape,

缺失值情况,数据类型,统计描述性信息(数值型,类别型)

c数据的清洗: 删除无效字段,删除缺失值,填充缺失值,删除重复,异常值处理

d数据探索性分析: 挖掘特征和目标的关系,挖掘、提取新特征,输出各种图和表格

e无量纲化: 标准化,归一化,正则化

f特征选择:筛选特征

g降维:对数据做变换

h特征编码:

h1 序号编码:label encode,特征取值有大小或者逻辑关系

h2 哑编码:特征的取值独立,特征的数量会变多,产生稀疏矩阵,编码后可以降维操作

④模型训练:

模型选择:分类,回归,线性,非线性

模型训练

模型的优化:训练集(网格搜索交叉验证),测试集

⑤模型的评估

⑥模型应用


四、机器学习中的模型误差

①数据误差:尽量避免

②偏差:描述模型的拟合能力,拟合能力弱偏差大,拟合能力强偏差小,模型处于欠拟合偏差大

③方差:描述训练数据集扰动对模型的影响,描述的是模型的稳定性,稳定好方差小,不稳定方差大,模型处于过拟合方差大

④拟合

欠拟合:偏差大,方差小

过拟合:偏差小,方差大

欠拟合和过拟合的判断

模型的过拟合和欠拟合及解决思路:

a欠拟合:选择更好的特征,增加特征

b过拟合:

数据角度:减少特征,增大样本数目,交叉验证

算法角度:正则化,剪枝策略,集成学习


五、机器学习模型的评价指标

①分类问题:混淆矩阵,准确率,精确率,召回率,特异度,F1参数,TPR,FPR,ROC曲线,AUC面积

②回归问题:MSE,RMSE,MAE,R2系数


六、机器学习算法

  1. KNN:

有监督,分类(看k个最近邻居中的大多数)和回归(返回的k个邻居的均值)

距离度量:欧氏距离,曼哈顿距离,马氏距离,夹角余弦

对数据形式敏感:标准化归一化的操作

Sklearn:

from sklearn.neighbors import KNeighborsClassifier:分类,n_neighbors,weights参数

from sklearn.neighbors import.KNeighborsRegressor:回归,n_neighbors,weights参数

案例:①电影的分类(动作片,爱情片)②海伦女士约会:数据的归一化③手写数字识别:二维图片转换为一维向量

KNN优缺点:

①一种非参数、惰性学习方法,导致预测时速度慢

②当训练样本集较大时,会导致其计算开销高

③样本不平衡的时候, 对稀有类别的预测准确率低

④KNN模型的可解释性不强

2、决策树:

有监督,分类(大多数原则)和回归(叶子上所有样本点的均值)

三类:

①ID3:多叉树,解决的是分类问题,最大信息增益原则选择特征,要求输入特征离散

②C4.5:多叉树,解决是分类问题,最大信息增益率原则选择特征,输入特征可以为离散或连续值(离散化处理)

③CART:二叉决策树,分类和回归,输入特征可以为离散或连续值(离散化处理)

分类:基尼系数最小化

回归:平方误差最小化

优点:模型简单,可视化方便,解释性强,对输入数据不敏感

缺点:容易过拟合,模型不太稳定


Sklearn:

tree.DecisionTreeClassifier():分类

tree.DecisionTreeRegressor():回归

案例:①鸢尾花分类(分类)②波士顿房价预测(回归)

3、聚类:

无监督

聚类思想:同组相似度最大,不同组相似最小

聚类与分类的区别:有监督,无监督

K-Means:

均值聚类,简单高效,簇类形状圆形或球状,凸数据集

对初始质心选择比较敏感:多次随机,初始点互相离得远

K值的选择:肘部法则,轮廓系数

算法收敛慢:Mini Batch K-Means


DBSCAN:密度聚类,非凸数据集,密度相连的稠密数据集,能够发现数据集中的噪声

两个参数:E,minpoint

优点:无需定义类的数量,可识别出局外点和噪声点、可以对任意形状的数据进行聚类

不足:数据密度变化剧烈时,不同类别的密度阈值点和领域半径会产生很大的变化

31.3758
3
关注作者
收藏
评论(0)

发表评论

暂无数据