机器学习小结8.8_CDA答疑社区

一、机器学习的分类

①监督学习（supervised learning）：

线性回归，逻辑回归，KNN，神经网络，决策树，集成学习，SVM，贝叶斯，协同过滤，LDA

②无监督学习（unsupervised learning）：

聚类、关联规则，PCA降维

③半监督学习（semi-supervised learning ）：

半监督分类，半监督回归，半监督聚类，半监督降维

④强化学习（reinforcement learning）：

Model-Free RL，Model-Based RL等

二、机器学习中主要解决问题

①分类，②回归，③聚类，④降维

三、机器学习流程（有监督学习）

①业务理解：

业务的背景，业务场景，需要解决的问题，业务目标，需要什么数据...

②数据获取：

综合考虑数据获取难度，准确率，覆盖率；

如何获取（数据库，爬虫，调查问卷）；

③数据预处理：

a训练集和测试集划分

b数据查看：

数据读取，数据的前几行，后几行，shape，

缺失值情况，数据类型，统计描述性信息（数值型，类别型）

c数据的清洗：删除无效字段，删除缺失值，填充缺失值，删除重复，异常值处理

d数据探索性分析：挖掘特征和目标的关系，挖掘、提取新特征，输出各种图和表格

e无量纲化：标准化，归一化，正则化

f特征选择：筛选特征

g降维：对数据做变换

h特征编码：

h1 序号编码：label encode，特征取值有大小或者逻辑关系

h2 哑编码：特征的取值独立，特征的数量会变多，产生稀疏矩阵，编码后可以降维操作

④模型训练：

模型选择：分类，回归，线性，非线性

模型训练

模型的优化：训练集（网格搜索交叉验证），测试集

⑤模型的评估

⑥模型应用

四、机器学习中的模型误差

①数据误差：尽量避免

②偏差：描述模型的拟合能力，拟合能力弱偏差大，拟合能力强偏差小，模型处于欠拟合偏差大

③方差：描述训练数据集扰动对模型的影响，描述的是模型的稳定性，稳定好方差小，不稳定方差大，模型处于过拟合方差大

④拟合

欠拟合：偏差大，方差小

过拟合：偏差小，方差大

欠拟合和过拟合的判断

模型的过拟合和欠拟合及解决思路：

a欠拟合：选择更好的特征，增加特征

b过拟合：

数据角度：减少特征，增大样本数目，交叉验证

算法角度：正则化，剪枝策略，集成学习

五、机器学习模型的评价指标

①分类问题：混淆矩阵，准确率，精确率，召回率，特异度，F1参数，TPR，FPR，ROC曲线，AUC面积

②回归问题：MSE，RMSE，MAE，R2系数

六、机器学习算法

KNN：

有监督，分类（看k个最近邻居中的大多数）和回归（返回的k个邻居的均值）

距离度量：欧氏距离，曼哈顿距离，马氏距离，夹角余弦

对数据形式敏感：标准化归一化的操作

Sklearn：

from sklearn.neighbors import KNeighborsClassifier：分类，n_neighbors，weights参数

from sklearn.neighbors import.KNeighborsRegressor：回归，n_neighbors，weights参数

案例：①电影的分类（动作片，爱情片）②海伦女士约会：数据的归一化③手写数字识别：二维图片转换为一维向量

KNN优缺点：

①一种非参数、惰性学习方法，导致预测时速度慢

②当训练样本集较大时,会导致其计算开销高

③样本不平衡的时候，对稀有类别的预测准确率低

④KNN模型的可解释性不强

2、决策树：

有监督，分类（大多数原则）和回归（叶子上所有样本点的均值）

三类：

①ID3:多叉树，解决的是分类问题，最大信息增益原则选择特征，要求输入特征离散

②C4.5:多叉树，解决是分类问题，最大信息增益率原则选择特征，输入特征可以为离散或连续值（离散化处理）

③CART:二叉决策树，分类和回归，输入特征可以为离散或连续值（离散化处理）

分类：基尼系数最小化

回归：平方误差最小化

优点：模型简单，可视化方便，解释性强，对输入数据不敏感

缺点：容易过拟合，模型不太稳定

Sklearn：

tree.DecisionTreeClassifier()：分类

tree.DecisionTreeRegressor()：回归

案例：①鸢尾花分类（分类）②波士顿房价预测（回归）

3、聚类：

无监督

聚类思想：同组相似度最大，不同组相似最小

聚类与分类的区别：有监督，无监督

K-Means：

均值聚类，简单高效，簇类形状圆形或球状，凸数据集

对初始质心选择比较敏感：多次随机，初始点互相离得远

K值的选择：肘部法则，轮廓系数

算法收敛慢：Mini Batch K-Means

DBSCAN：密度聚类，非凸数据集，密度相连的稠密数据集，能够发现数据集中的噪声

两个参数：E，minpoint

优点：无需定义类的数量，可识别出局外点和噪声点、可以对任意形状的数据进行聚类

不足：数据密度变化剧烈时，不同类别的密度阈值点和领域半径会产生很大的变化