登录
首页精彩阅读Logisitc Explain
Logisitc Explain
2017-06-28
收藏

Logisitc Explain

Logistic回归系列之原理

Logisitc模型是广义线性模型中的一类。常用于分类。在业界有相关广泛的应用。常见的如信用评分模型,用于判定某个人的违约概率。

动机——logit变换

在现实生活中,有时候需要探究某一事件A发生的概率P

与某些因素X=(X1,X2,...,Xp)′之间的关系。考虑到很多情况下,在P=0或P=1附近,P对X的变化并不敏感,即这附近,X需要发生很大的变化才能引起P的微弱改变。如,“农药的剂量为X的情况下,杀死害虫的概率P”之间,就具有这种关系。因此,我们要构造这么一个关于P的函数θ(P),使得它在P=0或P=1附近,P的微小变化对应θ(P)的较大改变,同时,θ(P)

要尽可能简单。于是,自然有了如下构造的特性

于是

theta(P)就是传说中的Logit变换。

模型——Logistic回归

为了建立因变量P

与自变量X之间的合理变动关系,一个很自然的假设就是线性关系。即但是正如前面所说的,某些情况下,在P=0或P=1附近,P对X的变化并不敏感,即这附近,X需要发生很大的变化才能引起P的微弱改变。这个时候,我们构造的θ(P)就派上用场了,于是有了

于是上式等价于

这就是Logistic

回归模型。

来个例子。

#logistic example
library(ggplot2)
x<- seq(from = 0, to = 20, 0.01)
p<- exp(-5+0.5*x)/(1+exp(-5+0.5*x))
mydata<-data.frame(x =x , p = p)
ggplot(mydata)+
  geom_line(aes(x = x, y = p))+
  ggtitle("The does Vs the probability of insect dying")

应用场景

到这里,我们对Logistic

回归的应用场景就比较明了了。它多用于分类——因变量为定类尺度。在运用模型时,需要注意是否满足隐含假设:在P=0或P=1附近,P对X的变化并不敏感。

数据分析咨询请扫描二维码

客服在线
立即咨询