8月4日_CDA答疑社区

机器学习的分类:
监督学习
无监督学习
半监督学习
强化学习(用的不多)

监督学习:
(告诉模型什么是对的,什么是错的)
泛化能力----机器学习算法对新鲜样本的适应能力,学到数据背后的规律.

无监督学习.
没有正确和错误之分,类似学生从书本或网络自学的过程.
(主要不是做预测,用来发现新东西)
典型聚类,预测

半监督学习

以垃圾邮件分类
1.对1万的有标签的数据进行分类建模
2.对10万个无标签的数据进行分类预测
3.1万+5万训练集 ---> 从新训练模型
前提
1.数据越多越好
2.数据必须是正确的

强化学习:
核心是试错,无标签,自己对结果进行评价.不停试错.

机器学习任务
有监督学习分类(判断有限个类别中哪一个,大多是一个概率值,离散的)
回归(连续的值)
机器学习无监督学习聚类(挖掘)

机器学习流程:数据预处理,模型学习,模型评估,新样本预测
建模相对简单,难点在于提高模型效果.

基本术语:
每一条记录为:一个实例或样本
数据集:所有记录的集合
训练集:含有参考答案的数据,学生的课本
验证集:调参数,类似于作业
测试集:考试

超参数:通过验证集来确定最优,同时约束(y=kx+b)中的k和b

分类方法一:
训练数据(90%作为真正训练,10%验证) 70%
测试数据 30%
交叉验证:
训练数据(k折交叉验证,一般k为10)
70%
测试数据 30%

模型误差
模型误差 = 偏差(与模型有关,期望与真实偏离程度) + 方差(与模型有关,数据扰动对,模型过于拟合) + 数据本身的误差(不可避免)

总误差里面包含偏差与方差,但很难定量超参数用于调整偏差与方差之比.

偏差:避免欠拟合
欠拟合(比较好解决)
寻找更好的特征 -- 具有代表性
用更多的特征 ----增大输入向量的维度
方差:避免过拟合
增大数据集合
减少数据特征
正则化方法
交叉验证法

机器学习评价标准
分类问题
混淆矩阵

训练集不高，测试集不高，是欠拟合，测试集只能进行一次，那怎么返回去调整超参数调整欠拟合或者过拟合呢？
1.特征没有代表性,从新选择特征值,换算法
2.特征过多

准确率(Accuracy):预测正确的样本占所有样本的比例

精确率:所有被分类为正例的样本中,真正是正例的比例

ROC曲线:

1.算法原理:推导过程
2.算法的实现:手写算法
3.sklearn
4.算法的应用

K最近邻算法
k为超参数(需要优化,k=1为过拟合(k过小),k过大为欠拟合)
服从正态分布用标准化,均匀分布用归一化,但也不一定,可以都试一试,看效果哪个好

查找最优超参数,防止参数在边缘,可能参数范围不够