这篇笔记想解决什么
设
M~=M+Δ.
我们想知道:当矩阵受到一个小扰动(perturbation)Δ 时,特征值(eigenvalues)和特征向量(eigenvectors)到底会变多少。
一个基本事实是:
- 特征值通常比较稳定。
- 特征向量本身往往不稳定,真正稳定的是对应的不变子空间(invariant subspace)。
这也是 Davis-Kahan 定理最核心的出发点。
对称矩阵的特征子空间分解
设 M∈Rn×n 是对称矩阵(symmetric matrix),其特征值分解(eigenvalue decomposition, EVD)写成
M=UΛUT,
其中 U∈Rn×n 是正交矩阵(orthogonal matrix),Λ=diag(λ1,…,λn)。
给定整数 r<n,可将前 r 个特征方向与剩余方向拆成两块:
M=[U1U2][Λ100Λ2][U1TU2T],
其中
Λ1=diag(λ1,…,λr),Λ2=diag(λr+1,…,λn).
U1,U2 都是半正交矩阵(semi-orthogonal matrix),满足
U1TU1=Ir,U2TU2=In−r.
对应的正交投影(orthogonal projection)分别是
PU1=U1U1T,PU2=U2U2T.
而且
PU1+PU2=In,
所以这两个子空间互为正交补(orthogonal complement)。
这里可以把 U1U1Tx 理解成:先用 U1Tx 取出 x 在各个正交基方向上的系数,再用 U1 把这些系数重组成子空间里的投影向量。若基底不是正交的,一般投影矩阵应写成 A(ATA)−1AT。
Weyl 定理:特征值是稳定的
设
M~=M+Δ=U~Λ~U~T=[U~1U~2][Λ~100Λ~2][U~1TU~2T].
Weyl 定理(Weyl theorem)告诉我们:
∥Λ~−Λ∥2≤∥Δ∥2.
这表示特征值的整体漂移(spectral shift)至多和扰动的谱范数(spectral norm)同一个量级。也就是说,只要 ∥Δ∥2 小,特征值通常不会跑太远。
为什么要比较子空间,而不是直接比较特征向量
和特征值不同,特征向量可能非常不稳定。尤其当特征值彼此很接近时,哪怕扰动很小,特征向量也可能发生明显旋转(rotation)。
因此,直接比较
∥U~1−U1∥F
往往不是最好的做法,因为这个量会把“同一个子空间内部仅仅换了一组基底”也当成差异。
更合理的对象是:
- U1 张成的子空间;
- U~1 张成的子空间。
也就是说,真正该比较的是子空间距离(subspace distance)。
主角(principal angles)与子空间距离
设 A,B∈Rn×r 都有正交列,分别张成子空间 A,B。主角(principal angles)θ1,…,θr 定义为:cosθ1,…,cosθr 正好是 ATB 的奇异值(singular values)。
等价地,
ATB=Udiag(cosθ1,…,cosθr)VT=UcosΘVT,
其中 Θ=diag(θ1,…,θr)。
若 Bˉ 表示 B 的正交补基底,即
BBT+BˉBˉT=In,
则可以推出
ATBˉ=UsinΘVˉT
对某个半正交矩阵 Vˉ 成立。
于是,子空间距离可以定义为
d(A,B):=∥sinΘ∥F=21∥PA−PB∥F=∥ATBˉ∥F.
这个定义很重要,因为它把“夹角大小”“投影矩阵差异”“正交补上的泄漏量”三件事统一了起来。
若 r=1,主角就退化成两个向量之间的普通夹角;若 r>1,它描述的是两个子空间整体之间的相对位置,而不是某一个特征向量的逐点差。
正交 Procrustes 问题
如果我们允许对基底做一个最优旋转(optimal rotation),就会得到正交 Procrustes 问题(orthogonal Procrustes problem):
R∈Rr×r: RTR=Irmin∥AR−B∥F2.
令
C=ATB=UcosΘVT,
则最优解为
R^=UVT=C(CTC)−1/2.
此时
∥AR^−B∥F2=2r−2i=1∑rcosθi=4i=1∑rsin22θi≤2i=1∑rsin2θi=2d2(A,B).
这说明:如果先允许基底做最优旋转,那么“基底矩阵的差”其实可以被子空间距离控制住。
Davis-Kahan 正弦定理
现在回到扰动问题。我们希望控制
sinΘ(U~1,U1)=∥U~2TU1∥F.
注意
U~2TΔU1=U~2T(M~−M)U1=Λ~2U~2TU1−U~2TU1Λ1.
若记
H=U~2TU1,
则上式可写成
U~2TΔU1=Λ~2H−HΛ1.
进一步可得
∥U~2TΔU1∥F≥δ∥H∥F,
其中 eigengap 定义为
δ:=1≤i≤r, r+1≤j≤nmin∣λi−λ~j∣.
于是得到 Davis-Kahan 定理(Davis-Kahan theorem):
∥sinΘ(U~1,U1)∥F≤δ∥ΔU1∥F.
这条不等式最值得记住的地方是:
- 分子是扰动大小;
- 分母是谱分离(eigengap)。
所以 eigengap 越小,子空间就越不稳定;eigengap 越大,特征子空间就越稳。
一个常用的充分条件(sufficient but not necessary condition)是
0<∥Δ∥2<1≤i≤r, r+1≤j≤nmin∣λi−λj∣.
这个条件的意思是:原矩阵两块谱之间本来就分得开,而且扰动还没有大到把它们“挤穿”。
Wedin 定理:非对称情形的推广
当矩阵不再对称时,更自然的对象是奇异值分解(singular value decomposition, SVD)。
设
M=[U1U2][Σ100Σ2][V1TV2T],
以及
M~=M+Δ=[U~1U~2][Σ~100Σ~2][V~1TV~2T].
若
δ=min{1≤i≤r, r+1≤j≤nmin∣σi−σ~j∣, 1≤i≤rminσi}>0,
则 Wedin 定理(Wedin theorem)给出
∥sinΘ(U~1,U1)∥F2+∥sinΘ(V~1,V1)∥F2≤δ2∥U1TΔ∥F2+∥ΔV1∥F2.
这可以看成 Davis-Kahan 在一般矩阵上的版本:它同时控制左奇异子空间(left singular subspace)和右奇异子空间(right singular subspace)的偏移。
相应地,一个常见充分条件是
σr>0且0<∥Δ∥2<1≤i≤r, r+1≤j≤nmin∣σi−σj∣.
一句话总结
矩阵扰动理论(matrix perturbation theory)里,一个很值得记住的结构是:
- Weyl 定理控制特征值或奇异值的漂移。
- 主角(principal angles)和投影矩阵差异用来刻画子空间偏移。
- Davis-Kahan 定理处理对称矩阵的特征子空间扰动。
- Wedin 定理处理一般矩阵的奇异子空间扰动。
真正决定特征向量或奇异向量稳不稳定的,往往不是“扰动小不小”这一件事,而是“扰动大小”和“谱间隔(spectral gap)”之间的相对关系。
References
- C. Davis and W. M. Kahan, The Rotation of Eigenvectors by a Perturbation. III, SIAM Journal on Numerical Analysis, 7(1), 1970.
- P.-Å. Wedin, Perturbation Bounds in Connection with Singular Value Decomposition, BIT Numerical Mathematics, 12(1), 1972.