logistic回归
1.模型长成什么样? log(p/1-p)=β0+β1x+ε
a.y是分类数据
b.R^2与线性回归的R^完全不同(P,R,f,准确率)
c.数据分区(可以处理数据过拟合)
2.损失函数(成本函数)长成什么样?
a.大概记住损失函数是什么样子?
3.更新函数长成什么样?
a.更新函数的内容都一样,在机器学习中的形式可能不一样
b.python包中参数怎么选?参数搜索功能
分区
测试集test 20% / 训练集train 70% / 验证集vaild 10% | 得分集score[真实数据]
验证集是用来避免漏测试题的
是否过拟合?
1.训练集的R^2是否过高
2.测试集与训练集的R^2差差多少??
相差15%为大幅度下降,模型不可用
5%以内 显著差异,可以接受
5-15% 过拟合
逻辑回归模型好不好不能只看R^2,逻辑回归的R^2与线性回归的不同
逻辑回归出来的得分不是R^2,而是准确率
当y=0和1平衡的时候才能参考准确率,就是y=0有50%左右,y=1有50%,但是真实中,0和1是经常不平衡的,所以有以下:
横预估y尖
0 1
纵实际y
0 a b
1 c d
recall 召回率R:一个都不能少,一个都不能漏掉!所有人都纳进来,要花费大量的人力识别[一般用于很严重的情况]
R=d/c+d(预测准确的/所有的实际量)
precision 精准率P:一个都不能错[范围比较小,误差比较大]
p=d/c+b(预测准确的/所有的预估量)
召回率与精准率是反关系,召回率高,精准率低;反之同理
由上句话可知,在总体量不变的情况下[很重要的前提条件],我们是无法同时提高R和P,
因此我们需要在R和P之间取一个平衡,取最优值
所以把召回率R和精准率P进行整合,形成一个新的指标'谐波平均',用来取R和P平衡的最优值!
加权平均强调大权重变量的影响程度
谐波平均f强调小权重变量的影响程度,权重比较小的变量的贡献
一般来说f越大,说明逻辑回归模型越好
如何解释逻辑回归系数?
or值=exp(β1)
or值以1做起点,范围(0,1)负相关,(1,正无穷)正相关
or值是
交叉验证CV
1.分区-判断是否过拟合(交叉验证也可以做这件事)
2.CV适合用于支持向量机SVM,决策树
列数
<15 正常
>15 大于15就推荐用支持向量机
>100 高维
>500 超高维
列数>行数(大部分方法都不能用!)
参数
1.可调性参数 [可以按照经验值来调]
2.不可调性参数 [需要按照测试来调]
3.全局参数








暂无数据