什么是广义线性模型
广义线性模型(generalized linear model, GLM)是线性回归的分布扩展。普通线性回归默认响应变量近似服从 Gaussian 分布,并且条件均值直接等于线性预测子;GLM 则允许响应变量来自指数族分布,并通过连接函数(link function)把条件均值与线性预测子联系起来。
给定样本 (yi,xi),其中 xi∈Rp。GLM 由三部分组成:第一,随机部分要求 Yi∣xi 来自指数族分布;第二,系统部分定义线性预测子 ηi=xiTβ;第三,连接函数满足 g(μi)=ηi,其中 μi=E(Yi∣xi)。
因此,GLM 的基本模型可以写成
Yi∣xi∼ExponentialFamily(μi,ϕ),g(μi)=ηi=xiTβ.
这里 β∈Rp 是待估参数,ϕ 是离差参数(dispersion parameter)。当 g 为恒等函数且 Yi 为 Gaussian 响应时,GLM 退化为普通线性回归。
GLM 与指数族的关系
GLM 通常建立在指数离差族(exponential dispersion family)上。其密度或概率质量函数可写为
p(y∣θ,ϕ)=exp{a(ϕ)yθ−b(θ)+c(y,ϕ)}.
其中 θ 是自然参数(natural parameter),b(θ) 是 log-partition function,a(ϕ) 与离差参数有关。指数族的基本性质是 E(Y∣θ)=b′(θ),且 Var(Y∣θ)=a(ϕ)b′′(θ)。因此,均值 μ 与自然参数 θ 之间满足 μ=b′(θ)。
GLM 的连接函数 g 把 μ 映射到线性预测子 η=xTβ。若选择规范连接函数(canonical link),则令 θ=η。此时模型和似然的形式最简单,score 与 Hessian 也有较干净的表达。
三个基本例子
Gaussian:线性回归
若 Yi∣xi∼N(μi,σ2),常用连接函数为恒等连接 g(μ)=μ,因此 μi=ηi=xiTβ。此时负对数似然与平方损失等价,估计问题为 minβ21∑i(yi−xiTβ)2。这就是普通最小二乘。
从指数族角度看,若固定 σ2,Gaussian 模型可写为 θi=μi、b(θ)=θ2/2、a(ϕ)=σ2。规范连接也是恒等连接。
Poisson:计数回归
若 Yi∣xi∼Poisson(μi),则 μi>0。常用连接函数为 log link,即 g(μ)=logμ,所以 μi=exp(xiTβ)。该模型适合计数型响应,例如事件次数、到达次数或频数数据。
Poisson 分布的指数族形式满足 θi=logμi、b(θ)=eθ,并且 E(Yi∣θi)=eθi、Var(Yi∣θi)=eθi。因此 log link 是 Poisson GLM 的规范连接。
Binary:Logistic 回归
若 Yi∈{0,1},可设 Yi∣xi∼Bernoulli(πi),其中 πi=P(Yi=1∣xi)。最常见的连接函数是 logit link,即 g(π)=log{π/(1−π)},因此 πi={1+exp(−xiTβ)}−1。
Bernoulli 分布的指数族形式满足 θi=log{πi/(1−πi)}、b(θ)=log(1+eθ),并且 b′(θ)=eθ/(1+eθ)。因此 logit link 是 Bernoulli GLM 的规范连接。
一般对数似然函数
设观测相互独立。给定 β,令 ηi=xiTβ,并通过连接函数确定 μi 与自然参数 θi。一般对数似然为
ℓ(β,ϕ)=i=1∑n{a(ϕ)yiθi−b(θi)+c(yi,ϕ)}.
若使用规范连接,则 θi=ηi=xiTβ。在这种情况下,忽略与 β 无关的项后,负对数似然为 L(β)=∑i{b(xiTβ)−yixiTβ}/a(ϕ)。其梯度和 Hessian 分别为
∇L(β)=a(ϕ)1XT(μ−y),∇2L(β)=a(ϕ)1XTWX,
其中 μi=b′(xiTβ),W=diag(b′′(xiTβ))。由于 b 是凸函数,规范连接下的负对数似然通常是凸函数;若设计矩阵 X 满秩且曲率不退化,则可得到唯一的极大似然估计。
怎么优化模型参数
GLM 的参数估计通常使用极大似然估计,即最大化 ℓ(β,ϕ),或等价地最小化负对数似然 L(β)。Gaussian 恒等连接下有闭式解 β^=(XTX)−1XTy,但 Poisson 与 logistic 等模型一般没有闭式解,需要迭代优化。
最常见的方法是 Newton-Raphson。对负对数似然,它的更新为 βt+1=βt−{∇2L(βt)}−1∇L(βt)。在规范连接下,这等价于求解一个加权最小二乘问题,因此也称为 Fisher scoring 或迭代重加权最小二乘(iteratively reweighted least squares, IRLS)。
IRLS 的核心形式是:在第 t 步构造工作响应 zit=ηit+(yi−μit)dμidηiμit 和权重 wit={(dηi/dμi)2Var(Yi∣xi)}−1,然后求解加权最小二乘 minβ∑iwit(zit−xiTβ)2。重复该过程直到参数、似然或梯度收敛。
在大规模数据中,也可以使用梯度下降、拟牛顿法(如 BFGS / L-BFGS)、随机梯度法,或加入正则化项后求解 minβL(β)+λ∥β∥1、minβL(β)+2λ∥β∥22 等问题。ℓ1 正则化对应稀疏 GLM,常用坐标下降或近端梯度;ℓ2 正则化对应 ridge 型 GLM,常用 Newton、L-BFGS 或随机优化。
几个容易混淆的点
- GLM 不是简单地“对 y 做变换后线性回归”。连接函数作用于条件均值 μi=E(Yi∣xi),不是直接作用于观测值 yi。
- 规范连接不是唯一选择。它使 θi=ηi,计算和理论更简洁,但具体建模时仍可选择其他连接函数。
- Poisson GLM 默认 Var(Yi∣xi)=E(Yi∣xi)。若数据存在过度离散,需要考虑 quasi-Poisson、negative binomial 或稳健标准误。
- Logistic 回归是 GLM,不是普通线性回归后的截断。它直接建模 P(Yi=1∣xi),并通过 logit link 保证概率位于 (0,1)。
- 极大似然估计依赖模型分布假设;若分布指定错误,均值模型可能仍有预测价值,但标准误和推断需要额外处理。
一句话总结
广义线性模型用指数族分布描述响应变量,用线性预测子 ηi=xiTβ 表示协变量效应,并通过连接函数 g(μi)=ηi 连接条件均值与线性结构;其参数通常通过极大似然估计,并用 Newton、Fisher scoring、IRLS 或现代一阶优化方法求解。
References
- P. McCullagh and J. A. Nelder, Generalized Linear Models, 2nd edition, Chapman and Hall, 1989.
- T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning, 2nd edition, Springer, 2009.
- A. Agresti, Categorical Data Analysis, 3rd edition, Wiley, 2013.