一、机器学习的分类
①监督学习(supervised learning):
线性回归,逻辑回归,KNN,神经网络,决策树,集成学习,SVM,贝叶斯,协同过滤,LDA
②无监督学习(unsupervised learning):
聚类、关联规则,PCA降维
③半监督学习(semi-supervised learning ):
半监督分类,半监督回归,半监督聚类,半监督降维
④强化学习(reinforcement learning):
Model-Free RL,Model-Based RL等
二、机器学习中主要解决问题
①分类,②回归,③聚类,④降维
三、机器学习流程(有监督学习)
①业务理解:
业务的背景,业务场景,需要解决的问题,业务目标,需要什么数据...
②数据获取:
综合考虑数据获取难度,准确率,覆盖率;
如何获取(数据库,爬虫,调查问卷);
③数据预处理:
a训练集和测试集划分
b数据查看:
数据读取,数据的前几行,后几行,shape,
缺失值情况,数据类型,统计描述性信息(数值型,类别型)
c数据的清洗: 删除无效字段,删除缺失值,填充缺失值,删除重复,异常值处理
d数据探索性分析: 挖掘特征和目标的关系,挖掘、提取新特征,输出各种图和表格
e无量纲化: 标准化,归一化,正则化
f特征选择:筛选特征
g降维:对数据做变换
h特征编码:
h1 序号编码:label encode,特征取值有大小或者逻辑关系
h2 哑编码:特征的取值独立,特征的数量会变多,产生稀疏矩阵,编码后可以降维操作
④模型训练:
模型选择:分类,回归,线性,非线性
模型训练
模型的优化:训练集(网格搜索交叉验证),测试集
⑤模型的评估
⑥模型应用
四、机器学习中的模型误差
①数据误差:尽量避免
②偏差:描述模型的拟合能力,拟合能力弱偏差大,拟合能力强偏差小,模型处于欠拟合偏差大
③方差:描述训练数据集扰动对模型的影响,描述的是模型的稳定性,稳定好方差小,不稳定方差大,模型处于过拟合方差大
④拟合
欠拟合:偏差大,方差小
过拟合:偏差小,方差大
欠拟合和过拟合的判断
模型的过拟合和欠拟合及解决思路:
a欠拟合:选择更好的特征,增加特征
b过拟合:
数据角度:减少特征,增大样本数目,交叉验证
算法角度:正则化,剪枝策略,集成学习
五、机器学习模型的评价指标
①分类问题:混淆矩阵,准确率,精确率,召回率,特异度,F1参数,TPR,FPR,ROC曲线,AUC面积
②回归问题:MSE,RMSE,MAE,R2系数
六、机器学习算法
KNN:
有监督,分类(看k个最近邻居中的大多数)和回归(返回的k个邻居的均值)
距离度量:欧氏距离,曼哈顿距离,马氏距离,夹角余弦
对数据形式敏感:标准化归一化的操作
Sklearn:
from sklearn.neighbors import KNeighborsClassifier:分类,n_neighbors,weights参数
from sklearn.neighbors import.KNeighborsRegressor:回归,n_neighbors,weights参数
案例:①电影的分类(动作片,爱情片)②海伦女士约会:数据的归一化③手写数字识别:二维图片转换为一维向量
KNN优缺点:
①一种非参数、惰性学习方法,导致预测时速度慢
②当训练样本集较大时,会导致其计算开销高
③样本不平衡的时候, 对稀有类别的预测准确率低
④KNN模型的可解释性不强
2、决策树:
有监督,分类(大多数原则)和回归(叶子上所有样本点的均值)
三类:
①ID3:多叉树,解决的是分类问题,最大信息增益原则选择特征,要求输入特征离散
②C4.5:多叉树,解决是分类问题,最大信息增益率原则选择特征,输入特征可以为离散或连续值(离散化处理)
③CART:二叉决策树,分类和回归,输入特征可以为离散或连续值(离散化处理)
分类:基尼系数最小化
回归:平方误差最小化
优点:模型简单,可视化方便,解释性强,对输入数据不敏感
缺点:容易过拟合,模型不太稳定
Sklearn:
tree.DecisionTreeClassifier():分类
tree.DecisionTreeRegressor():回归
案例:①鸢尾花分类(分类)②波士顿房价预测(回归)
3、聚类:
无监督
聚类思想:同组相似度最大,不同组相似最小
聚类与分类的区别:有监督,无监督
K-Means:
均值聚类,简单高效,簇类形状圆形或球状,凸数据集
对初始质心选择比较敏感:多次随机,初始点互相离得远
K值的选择:肘部法则,轮廓系数
算法收敛慢:Mini Batch K-Means
DBSCAN:密度聚类,非凸数据集,密度相连的稠密数据集,能够发现数据集中的噪声
两个参数:E,minpoint
优点:无需定义类的数量,可识别出局外点和噪声点、可以对任意形状的数据进行聚类
不足:数据密度变化剧烈时,不同类别的密度阈值点和领域半径会产生很大的变化








暂无数据