Logistic Regression的理解与推导

LR

Posted by 柳阳飞 on June 11, 2020
线性模型

线性模型的一般向量形式为 线性回归的学习目标是使得模型的输出接近真实$f(x_i)\simeq y_i$

损失函数为均方误差 通过最小二乘法求解。

广义线性模型
Logistic Regression

当$g(x) = \frac{1}{1+e^{-x}}$ 时,对应的线性模型形式为 将$\eqref{eq4}$看作正类的概率,我们可以通过极大似然估计来求解参数$w,b$ 。

LR服从伯努利分布,因此 合并为一个式子为 因此极大似然函数为 转化为对数似然函数 把$\eqref{eq5}$ 代入$\eqref{eq8}$ 中得到损失函数 $\eqref{eq9}$ 式中$\beta=(w;b)$

为了防止过拟合,还会加上正则项 使用L2正则项的模型称为岭(Ridge)回归,使用L1正则项称为Lasso回归。采用梯度下降法求解

优缺点
  • 优点
    • 数据线性可分时表现好
    • 用途广法,不需要太多计算资源,可解释强,输入不需要归一化,输出可以指示概率
    • 当删除掉无用的特征或者相似特征时,表现更好
  • 缺点
    • 无法处理非线性问题
    • 数据有缺失或者相关性大时效果不好