笔记 / 详情

锐角定理

2026.03.30
方法备忘
1378 字数

定理表述

CRnC \subset \mathbb R^n 是一个开有界集,F:CRnF:\overline C \to \mathbb R^n 连续。若存在某个内点 x0Cx^0 \in C,使得对所有边界点 xCx \in \partial C 都有

(xx0)TF(x)0,(x-x^0)^T F(x)\ge 0,

则方程

F(x)=0F(x)=0

至少在 CC 中存在一个解。

上面的符号\ge可以变为\leq,结论一样的成立

这句话在说什么

可以把 F(x)F(x) 看成定义在区域 C\overline C 上的梯度。条件

(xx0)TF(x)0(x-x^0)^T F(x)\ge 0

表示当 xx 落在边界 C\partial C 上时,向量 F(x)F(x) 与从固定内点 x0x^0 指向边界点 xx 的方向之间夹角不超过 9090^\circ。 也就是说,F(x)F(x) 在边界上不会整体“朝回指向”中心点 x0x^0

一个直观理解

想象一下我们存在一口开口朝上放置的炒菜的铁锅,对于铁锅边缘的点,所有点的梯度都指向内部(对应0\leq 0的情况),那么在铁锅内部一定存在最小值。也即是梯度为0的点。

这个定理本质上是一个存在性结论。它并不直接告诉我们解在哪里,但它告诉我们:边界行为已经足够强,可以逼出内部零点。由于连续函数在有界闭集上一定可以取到最值,又因为在边界上的所有梯度都指向内部或者外部,那么最大值或最小值一定可以在集合内取到,也即可以找到梯度为0的点。

很多教材会把这个结果看作 Brouwer 不动点定理、拓扑度理论或变分不等式存在性证明中的一个标准工具。

实际应用

锐角定理在证明存在性结论时非常有用。一个常见场景是:我们希望证明算法得到的估计量 θ^\hat\theta 落在真实参数 θ\theta^* 的某个邻域内,并且满足一阶条件。

这时通常把

F(θ)=s(θ)F(\theta)=s(\theta)

取为损失函数的 score function(或更一般的 M estimating equation),然后在 θ\theta^* 附近构造一个小邻域

C={θ:θθ<r}.C=\{\theta:\|\theta-\theta^*\|<r\}.

接下来只要能在边界 C\partial C 上验证

(θθ)Ts(θ)0(θθ)Ts(θ)0,(\theta-\theta^*)^T s(\theta)\ge 0 \quad\text{或}\quad (\theta-\theta^*)^T s(\theta)\le 0,

也就是说,这个内积在整个边界上始终保持同号,那么由锐角定理就可以推出:存在某个

θ^C\hat\theta\in C

使得

s(θ^)=0.s(\hat\theta)=0.

这说明在真实参数 θ\theta^* 的附近,至少存在一个满足 score 方程的解。若进一步有

s(θ)=θL(θ),s(\theta)=\nabla_\theta L(\theta),

那么这就表示损失函数 L(θ)L(\theta) 在该邻域内至少存在一个驻点。再结合局部凸性、局部凹性或 Hessian 的符号条件,才能进一步判断这个驻点是局部极小值、局部极大值,还是其他类型的临界点。