广义线性模型（generalized linear model）

什么是广义线性模型

广义线性模型（generalized linear model, GLM）是线性回归的分布扩展。普通线性回归默认响应变量近似服从 Gaussian 分布，并且条件均值直接等于线性预测子；GLM 则允许响应变量来自指数族分布，并通过连接函数（link function）把条件均值与线性预测子联系起来。

给定样本 $(y_i,\mathbf x_i)$ ，其中 $\mathbf x_i\in\mathbb R^p$ 。GLM 由三部分组成：第一，随机部分要求 $Y_i\mid\mathbf x_i$ 来自指数族分布；第二，系统部分定义线性预测子 $\eta_i=\mathbf x_i^T\beta$ ；第三，连接函数满足 $g(\mu_i)=\eta_i$ ，其中 $\mu_i=\mathbb E(Y_i\mid\mathbf x_i)$ 。

因此，GLM 的基本模型可以写成

Y_i\mid\mathbf x_i\sim \text{ExponentialFamily}(\mu_i,\phi), \qquad g(\mu_i)=\eta_i=\mathbf x_i^T\beta.

这里 $\beta\in\mathbb R^p$ 是待估参数， $\phi$ 是离差参数（dispersion parameter）。当 $g$ 为恒等函数且 $Y_i$ 为 Gaussian 响应时，GLM 退化为普通线性回归。

GLM 与指数族的关系

GLM 通常建立在指数离差族（exponential dispersion family）上。其密度或概率质量函数可写为

p(y\mid\theta,\phi) = \exp\left\{\frac{y\theta-b(\theta)}{a(\phi)}+c(y,\phi)\right\}.

其中 $\theta$ 是自然参数（natural parameter）， $b(\theta)$ 是 log-partition function， $a(\phi)$ 与离差参数有关。指数族的基本性质是 $\mathbb E(Y\mid\theta)=b'(\theta)$ ，且 $\operatorname{Var}(Y\mid\theta)=a(\phi)b''(\theta)$ 。因此，均值 $\mu$ 与自然参数 $\theta$ 之间满足 $\mu=b'(\theta)$ 。

GLM 的连接函数 $g$ 把 $\mu$ 映射到线性预测子 $\eta=\mathbf x^T\beta$ 。若选择规范连接函数（canonical link），则令 $\theta=\eta$ 。此时模型和似然的形式最简单，score 与 Hessian 也有较干净的表达。

三个基本例子

Gaussian：线性回归

若 $Y_i\mid\mathbf x_i\sim N(\mu_i,\sigma^2)$ ，常用连接函数为恒等连接 $g(\mu)=\mu$ ，因此 $\mu_i=\eta_i=\mathbf x_i^T\beta$ 。此时负对数似然与平方损失等价，估计问题为 $\min_\beta\frac12\sum_i(y_i-\mathbf x_i^T\beta)^2$ 。这就是普通最小二乘。

从指数族角度看，若固定 $\sigma^2$ ，Gaussian 模型可写为 $\theta_i=\mu_i$ 、 $b(\theta)=\theta^2/2$ 、 $a(\phi)=\sigma^2$ 。规范连接也是恒等连接。

Poisson：计数回归

若 $Y_i\mid\mathbf x_i\sim\operatorname{Poisson}(\mu_i)$ ，则 $\mu_i>0$ 。常用连接函数为 log link，即 $g(\mu)=\log\mu$ ，所以 $\mu_i=\exp(\mathbf x_i^T\beta)$ 。该模型适合计数型响应，例如事件次数、到达次数或频数数据。

Poisson 分布的指数族形式满足 $\theta_i=\log\mu_i$ 、 $b(\theta)=e^\theta$ ，并且 $\mathbb E(Y_i\mid\theta_i)=e^{\theta_i}$ 、 $\operatorname{Var}(Y_i\mid\theta_i)=e^{\theta_i}$ 。因此 log link 是 Poisson GLM 的规范连接。

Binary：Logistic 回归

若 $Y_i\in\{0,1\}$ ，可设 $Y_i\mid\mathbf x_i\sim\operatorname{Bernoulli}(\pi_i)$ ，其中 $\pi_i=\mathbb P(Y_i=1\mid\mathbf x_i)$ 。最常见的连接函数是 logit link，即 $g(\pi)=\log\{\pi/(1-\pi)\}$ ，因此 $\pi_i=\{1+\exp(-\mathbf x_i^T\beta)\}^{-1}$ 。

Bernoulli 分布的指数族形式满足 $\theta_i=\log\{\pi_i/(1-\pi_i)\}$ 、 $b(\theta)=\log(1+e^\theta)$ ，并且 $b'(\theta)=e^\theta/(1+e^\theta)$ 。因此 logit link 是 Bernoulli GLM 的规范连接。

一般对数似然函数

设观测相互独立。给定 $\beta$ ，令 $\eta_i=\mathbf x_i^T\beta$ ，并通过连接函数确定 $\mu_i$ 与自然参数 $\theta_i$ 。一般对数似然为

\ell(\beta,\phi) = \sum_{i=1}^n \left\{ \frac{y_i\theta_i-b(\theta_i)}{a(\phi)} +c(y_i,\phi) \right\}.

若使用规范连接，则 $\theta_i=\eta_i=\mathbf x_i^T\beta$ 。在这种情况下，忽略与 $\beta$ 无关的项后，负对数似然为 $\mathcal L(\beta)=\sum_i\{b(\mathbf x_i^T\beta)-y_i\mathbf x_i^T\beta\}/a(\phi)$ 。其梯度和 Hessian 分别为

\nabla\mathcal L(\beta) = \frac{1}{a(\phi)}\mathbf X^T(\mu-\mathbf y), \qquad \nabla^2\mathcal L(\beta) = \frac{1}{a(\phi)}\mathbf X^T\mathbf W\mathbf X,

其中 $\mu_i=b'(\mathbf x_i^T\beta)$ ， $\mathbf W=\operatorname{diag}(b''(\mathbf x_i^T\beta))$ 。由于 $b$ 是凸函数，规范连接下的负对数似然通常是凸函数；若设计矩阵 $\mathbf X$ 满秩且曲率不退化，则可得到唯一的极大似然估计。

怎么优化模型参数

GLM 的参数估计通常使用极大似然估计，即最大化 $\ell(\beta,\phi)$ ，或等价地最小化负对数似然 $\mathcal L(\beta)$ 。Gaussian 恒等连接下有闭式解 $\hat\beta=(\mathbf X^T\mathbf X)^{-1}\mathbf X^T\mathbf y$ ，但 Poisson 与 logistic 等模型一般没有闭式解，需要迭代优化。

最常见的方法是 Newton-Raphson。对负对数似然，它的更新为 $\beta^{t+1}=\beta^t-\{\nabla^2\mathcal L(\beta^t)\}^{-1}\nabla\mathcal L(\beta^t)$ 。在规范连接下，这等价于求解一个加权最小二乘问题，因此也称为 Fisher scoring 或迭代重加权最小二乘（iteratively reweighted least squares, IRLS）。

IRLS 的核心形式是：在第 $t$ 步构造工作响应 $z_i^t=\eta_i^t+(y_i-\mu_i^t)\frac{d\eta_i}{d\mu_i}\big|_{\mu_i^t}$ 和权重 $w_i^t=\{(d\eta_i/d\mu_i)^2\operatorname{Var}(Y_i\mid\mathbf x_i)\}^{-1}$ ，然后求解加权最小二乘 $\min_\beta\sum_i w_i^t(z_i^t-\mathbf x_i^T\beta)^2$ 。重复该过程直到参数、似然或梯度收敛。

在大规模数据中，也可以使用梯度下降、拟牛顿法（如 BFGS / L-BFGS）、随机梯度法，或加入正则化项后求解 $\min_\beta\mathcal L(\beta)+\lambda\|\beta\|_1$ 、 $\min_\beta\mathcal L(\beta)+\frac{\lambda}{2}\|\beta\|_2^2$ 等问题。 $\ell_1$ 正则化对应稀疏 GLM，常用坐标下降或近端梯度； $\ell_2$ 正则化对应 ridge 型 GLM，常用 Newton、L-BFGS 或随机优化。

几个容易混淆的点

GLM 不是简单地“对 $y$ 做变换后线性回归”。连接函数作用于条件均值 $\mu_i=\mathbb E(Y_i\mid\mathbf x_i)$ ，不是直接作用于观测值 $y_i$ 。
规范连接不是唯一选择。它使 $\theta_i=\eta_i$ ，计算和理论更简洁，但具体建模时仍可选择其他连接函数。
Poisson GLM 默认 $\operatorname{Var}(Y_i\mid\mathbf x_i)=\mathbb E(Y_i\mid\mathbf x_i)$ 。若数据存在过度离散，需要考虑 quasi-Poisson、negative binomial 或稳健标准误。
Logistic 回归是 GLM，不是普通线性回归后的截断。它直接建模 $\mathbb P(Y_i=1\mid\mathbf x_i)$ ，并通过 logit link 保证概率位于 $(0,1)$ 。
极大似然估计依赖模型分布假设；若分布指定错误，均值模型可能仍有预测价值，但标准误和推断需要额外处理。

一句话总结

广义线性模型用指数族分布描述响应变量，用线性预测子 $\eta_i=\mathbf x_i^T\beta$ 表示协变量效应，并通过连接函数 $g(\mu_i)=\eta_i$ 连接条件均值与线性结构；其参数通常通过极大似然估计，并用 Newton、Fisher scoring、IRLS 或现代一阶优化方法求解。

References

P. McCullagh and J. A. Nelder, Generalized Linear Models, 2nd edition, Chapman and Hall, 1989.
T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning, 2nd edition, Springer, 2009.
A. Agresti, Categorical Data Analysis, 3rd edition, Wiley, 2013.