机器学习实现与分析之四(广义线性模型)
指数分布族
首先需要提及下指数分布族,它是指一系列的分布,只要其概率密度函数可以写成下面这样的形式:
一般的很多分布(如高斯分布,泊松分布,二项式分布,伽马分布等)都属于指数分布族。
广义线性模型构建假设
广义线性模型主要基于以下假设:
1.的分布属于指数分布族
2.预测值为,因此模型就是
3.模型线性性,即
线性回归中,假设服从高斯分布,则将其写成指数分布族形式如下:
注意这里ηη和T(y)T(y)可以有多种取法满足上面这个式子,但根据上面假设的第二条,由于我们需要预测的是yy,则T(y)=yT(y)=y,从而就有
从而:
这里σ2σ2是一个常数,则上式可写为:
此即为线性回归中使用的线性模型的来源。同理,对于逻辑回归,有
则
由此可得:
故而有
此即为逻辑回归使用的模型。
同理,对于其他分布,我们也可以写出对应的回归模型。上面给出了线性回归和逻辑回归的模型,通过最大似然估计与梯度下降法,即可求出参数。
问题与思考
1.构建GLM的三条假设,其中假设一在此模型构建中起了什么作用,目前还未理解。假如分布不属于指数分布族,那是否也可以构建其他形式的线性模型?有理解的同学望不吝赐教。
2.假设三即是模型的线性假设,这也能说明了逻辑回归只能处理线性可分情况。
数据分析咨询请扫描二维码