热线电话:13121318867

登录
2018-11-16 阅读量: 999
简单介绍什么是Logistic回归?

很多时候,因变量不是正态分布的情况会出现; 即,违反了正常性的假设。 例如,在因变量为二进制(男/女)时考虑问题。 你还会使用多元回归吗? 当然不是!

直到1972年,人们才知道如何分析因变量中具有非正态误差分布的数据。 然后,在1972年, John NelderRobert Wedderburn广义线性模型的形式取得了突破。

广义线性模型是线性模型框架的扩展,其中包括非正态的因变量。 一般来说,它们具有三个特征:

  1. 这些模型包含输入特征的线性组合。
  2. 响应变量的平均值通过链接函数与输入要素的线性组合相关。
  3. 响应变量被认为具有属于指数分布族的基础概率分布,例如二项分布,泊松分布或高斯分布。 实际上,当响应变量是二进制时,使用二项分布。 当响应变量表示计数时,使用泊松分布。 并且,当响应变量是连续的时,使用高斯分布。

Logistic回归属于广义线性模型族。 它是一种二进制分类算法,当响应变量为二分(1或0)时使用。 固有地,它返回目标类的概率集。 但是,我们也可以使用概率阈值获得响应标签。 以下是Logistic回归的假设:

  1. 响应变量必须遵循二项分布。
  2. Logistic回归假设自变量和链接函数(logit)之间存在线性关系。
  3. 因变量应具有相互排斥和详尽的类别。

在R中,我们使用glm()函数来应用Logistic回归。 在Python中,我们使用sklearn.linear_model函数来导入和使用Logistic回归。

注意:我们不使用线性回归进行二元分类,因为它的线性函数会导致[0,1]区间之外的概率,从而使它们成为无效的预测

0.0000
2
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子