8.2 逻辑回归与广义线性模型:连接函数与最大似然估计
逻辑回归是机器学习领域最基础且应用最广泛的分类算法之一。尽管其名称中包含“回归”,但它本质上是一种用于处理二分类问题的线性模型。理解逻辑回归不能仅停留于其函数形式,而应将其置于广义线性模型的统一理论框架之下。本节将系统阐述逻辑回归的数学模型、参数估计方法,并以此为例深入剖析广义线性模型的核心组件——连接函数与最大似然估计的原理。
8.2.1 逻辑回归:从线性预测到概率输出
逻辑回归的目标是建模二分类结果y∈{ 0,1}y \in \{0, 1\}y∈{0,1}与特征向量x∈Rd\mathbf{x} \in \mathbb{R}^dx∈Rd之间的关系。与直接预测0或1不同,逻辑回归预测的是样本属于正类(y=1y=1y=1)的条件概率P(y=1∣x)P(y=1|\mathbf{x})P(y=1∣x)。
8.2.1.1 基本模型与Sigmoid函数
直接使用线性组合wTx+b\mathbf{w}^T\mathbf{x} + bwTx+b来拟合概率p=P(y=1∣x)p = P(y=1|\mathbf{x})p=P(y=1∣x)是不合适的,因为线性函数的输出值域为(−∞,+∞)(-\infty, +\infty)(−∞,+∞),而概率值域要求为[0,1][0, 1][0,1]。逻辑回归通过sigmoid函数(亦称逻辑函数)将线性预测值映射到(0,1)(0, 1)(0,1)区间内。
σ(z)=11+e−z \sigma(z) = \frac{1}{1 + e^{-z}}σ(z)=1+e−z1
其中z=wTx+bz = \mathbf{w}^T\mathbf{x} + bz=wTx+b。因此,逻辑回归模型定义为:
P(y=1∣x;w,b)=σ(wTx+b)=11+e−(wTx+b) P(y=1|\mathbf{x}; \mathbf{w}, b) = \sigma(\mathbf{w}^T\mathbf{x} + b) = \frac{1}{1 + e^{-(\mathbf{w}^T\mathbf{x} + b)}}P(y=1∣x;w,b)=σ(wTx+b)=1+e−(wTx+b)1
sigmoid函数具有S形曲线、连续可导、且其导数σ′(z)=σ(z)(1−σ(z))\sigma'(z) = \sigma(z)(1-\sigma(z))σ′(z)=σ(z)(1−σ(z))易于计算,这些性质对后续的参数优化至关重要。
8.2.1.2 对数几率解释
逻辑回归具有一个清晰的概率解释。定义几率为事件发生概率与不发生概率之比,即odds=p1−podds = \frac{p}{1-p}odds=1−pp。对几率取自然对数,得到对数几率(logit)。
逻辑回归的线性部分实际上是在拟合对数几率:
log(P(y=1∣x)1−P(y=1∣x))=wTx+b \log \left( \frac{P(y=1|\mathbf{x})}{1 - P(y=1|\mathbf{x})} \right) = \mathbf{w}^T\mathbf{x} + blog(1−P(y=1∣x)P(y=1∣x))=wTx+b
这意味着,逻辑回归假定对数几率与特征呈线性关系。权重wjw_jwj的解释为:保持其他特征不变,特征xjx_jxj每增加一个单位,对数几率增加wjw_jwj,即几率乘以ewje^{w_j}ewj[1]。
8.2.2 参数估计:最大似然估计与梯度下降
逻辑回归模型的参数θ=(w,b)\boldsymbol{\theta} = (\mathbf{w}, b)θ=(w,b)通过最大似然估计(MLE)来学习。
8.2.2.1 似然函数
对于单个样本(xi,yi)(\mathbf{x}_i, y_i)(xi,y