为什么要区分这两种收敛
对于普通数列(sequence),我们说
1 , 1 2 , 1 3 , ⋯ → 0 1,\ \frac12,\ \frac13,\ \cdots \to 0 1 , 2 1 , 3 1 , ⋯ → 0
是因为每一项都是实数,极限也是实数。
而函数列(sequence of functions)的情形是,每一项都是一个函数。例如
1 , 1 + x , 1 + x + x 2 2 ! , 1 + x + x 2 2 ! + x 3 3 ! , ⋯ 1,\ 1+x,\ 1+x+\frac{x^2}{2!},\ 1+x+\frac{x^2}{2!}+\frac{x^3}{3!},\ \cdots 1 , 1 + x , 1 + x + 2 ! x 2 , 1 + x + 2 ! x 2 + 3 ! x 3 , ⋯
在每个固定的 x x x 上都趋向于 e x e^x e x 。但函数列的收敛并不只有一种理解方式,这就引出了点态收敛(pointwise convergence)与一致收敛(uniform convergence)。
精确定义
设 I I I 是一个定义域(domain),{ f n } \{f_n\} { f n } 是定义在 I I I 上的函数列,f f f 是定义在 I I I 上的极限函数(limit function)。
点态收敛(pointwise convergence)
如果对每个固定的 x ∈ I x\in I x ∈ I ,都有
lim n → ∞ f n ( x ) = f ( x ) , \lim_{n\to\infty} f_n(x)=f(x), n → ∞ lim f n ( x ) = f ( x ) ,
则称 f n f_n f n 在 I I I 上点态收敛到 f f f 。点态收敛也常被口语地叫作“点点收敛”。
等价地,它可以写成
∀ x ∈ I , ∀ ε > 0 , ∃ N = N ( ε , x ) ∈ N , n ≥ N ⟹ ∣ f n ( x ) − f ( x ) ∣ < ε . \forall x\in I,\ \forall \varepsilon>0,\ \exists N=N(\varepsilon,x)\in\mathbb N,
\quad n\ge N \Longrightarrow |f_n(x)-f(x)|<\varepsilon. ∀ x ∈ I , ∀ ε > 0 , ∃ N = N ( ε , x ) ∈ N , n ≥ N ⟹ ∣ f n ( x ) − f ( x ) ∣ < ε .
这里最关键的是:N N N 可以依赖于 x x x 。
如果对任意 ε > 0 \varepsilon>0 ε > 0 ,存在一个只依赖于 ε \varepsilon ε 的整数 N N N ,使得对所有 x ∈ I x\in I x ∈ I 同时都有
∣ f n ( x ) − f ( x ) ∣ < ε ( n ≥ N ) , |f_n(x)-f(x)|<\varepsilon \qquad (n\ge N), ∣ f n ( x ) − f ( x ) ∣ < ε ( n ≥ N ) ,
则称 f n f_n f n 在 I I I 上一致收敛到 f f f 。等价地,
∀ ε > 0 , ∃ N = N ( ε ) ∈ N , ∀ x ∈ I , n ≥ N ⟹ ∣ f n ( x ) − f ( x ) ∣ < ε . \forall \varepsilon>0,\ \exists N=N(\varepsilon)\in\mathbb N,\ \forall x\in I,
\quad n\ge N \Longrightarrow |f_n(x)-f(x)|<\varepsilon. ∀ ε > 0 , ∃ N = N ( ε ) ∈ N , ∀ x ∈ I , n ≥ N ⟹ ∣ f n ( x ) − f ( x ) ∣ < ε .
这里最关键的是:N N N 不能依赖于 x x x ,它必须同时控制整个定义域上的误差(error)。
最核心的区别
点态收敛里,N N N 可以随着点 x x x 改变;一致收敛里,N N N 只能依赖于 ε \varepsilon ε ,不能依赖于 x x x 。
所以可以把它们记成一句很直观的话:
点态收敛(pointwise convergence):一个点一个点地收敛。
一致收敛(uniform convergence):整条曲线一起收敛。
图像理解:epsilon 带(epsilon band)
把极限函数 f f f 的图像上下各平移 ε \varepsilon ε ,就得到一个宽度为 2 ε 2\varepsilon 2 ε 的条带:
f ( x ) − ε < f n ( x ) < f ( x ) + ε . f(x)-\varepsilon < f_n(x) < f(x)+\varepsilon. f ( x ) − ε < f n ( x ) < f ( x ) + ε .
如果当 n n n 足够大时,整条曲线 f n f_n f n 都能完全落入这个条带,并且对所有 x ∈ I x\in I x ∈ I 同时成立,那么这就是一致收敛。
图 1:一致收敛强调的是“整条曲线最终一起进入 epsilon 带”,而不是只在每个固定点上分别收敛。
例子 1:一个一致收敛的函数列
考虑
f n ( x ) = x 2 + 1 x + n , x ∈ [ 0 , 2 ] . f_n(x)=x^2+\frac{1}{x+n}, \qquad x\in[0,2]. f n ( x ) = x 2 + x + n 1 , x ∈ [ 0 , 2 ] .
对每个固定的 x x x ,显然有
f n ( x ) → x 2 = : f ( x ) . f_n(x)\to x^2=:f(x). f n ( x ) → x 2 =: f ( x ) .
更重要的是
∣ f n ( x ) − f ( x ) ∣ = 1 x + n ≤ 1 n , |f_n(x)-f(x)|=\frac{1}{x+n}\le \frac{1}{n}, ∣ f n ( x ) − f ( x ) ∣ = x + n 1 ≤ n 1 ,
于是
sup x ∈ [ 0 , 2 ] ∣ f n ( x ) − f ( x ) ∣ = 1 n → 0. \sup_{x\in[0,2]} |f_n(x)-f(x)|=\frac{1}{n}\to 0. x ∈ [ 0 , 2 ] sup ∣ f n ( x ) − f ( x ) ∣ = n 1 → 0.
所以 f n f_n f n 在 [ 0 , 2 ] [0,2] [ 0 , 2 ] 上一致收敛到 f ( x ) = x 2 f(x)=x^2 f ( x ) = x 2 。这个例子的关键在于:不仅每个点上的误差会变小,而且整段区间上的最大误差(maximum error)也被同一个上界 1 n \frac1n n 1 控住了。
例子 2:点态收敛但不一致收敛的经典反例
考虑经典函数列
f n ( x ) = x n , x ∈ [ 0 , 1 ] . f_n(x)=x^n,\qquad x\in[0,1]. f n ( x ) = x n , x ∈ [ 0 , 1 ] .
对每个固定的 x ∈ [ 0 , 1 ) x\in[0,1) x ∈ [ 0 , 1 ) ,有 x n → 0 x^n\to 0 x n → 0 ;但在 x = 1 x=1 x = 1 处,始终有 f n ( 1 ) = 1 f_n(1)=1 f n ( 1 ) = 1 。因此点态极限函数是
f ( x ) = { 0 , 0 ≤ x < 1 , 1 , x = 1. f(x)=
\begin{cases}
0, & 0\le x<1,\\
1, & x=1.
\end{cases} f ( x ) = { 0 , 1 , 0 ≤ x < 1 , x = 1.
也就是说,f n f_n f n 在 [ 0 , 1 ] [0,1] [ 0 , 1 ] 上点态收敛到 f f f 。但是它不是一致收敛,因为
sup x ∈ [ 0 , 1 ] ∣ f n ( x ) − f ( x ) ∣ = 1 \sup_{x\in[0,1]} |f_n(x)-f(x)|=1 x ∈ [ 0 , 1 ] sup ∣ f n ( x ) − f ( x ) ∣ = 1
对所有 n n n 都成立,根本不会趋于 0 0 0 。直观地说,在远离 1 1 1 的地方,曲线确实越来越靠近 0 0 0 ;但只要靠近 x = 1 x=1 x = 1 ,就总还能找到一些点,使得函数值明显偏离极限函数。
图 2:在大部分位置上看起来越来越接近 0,但靠近 x=1 时仍然会冲出同一个 epsilon 带,所以这里没有一致收敛。
这个反例还顺带说明:连续函数列(continuous functions)的点态极限,不一定仍然连续。
等价刻画:上确界(supremum)
在很多场合,我们把两个函数之间的距离定义为最大偏差,也就是上确界范数(supremum norm)
d ( f n , f ) : = sup x ∈ I ∣ f n ( x ) − f ( x ) ∣ . d(f_n,f):=\sup_{x\in I}|f_n(x)-f(x)|. d ( f n , f ) := x ∈ I sup ∣ f n ( x ) − f ( x ) ∣.
那么一致收敛就等价于
d ( f n , f ) → 0 , d(f_n,f)\to 0, d ( f n , f ) → 0 ,
也就是
sup x ∈ I ∣ f n ( x ) − f ( x ) ∣ → 0. \sup_{x\in I}|f_n(x)-f(x)|\to 0. x ∈ I sup ∣ f n ( x ) − f ( x ) ∣ → 0.
这给出了一个非常实用的判别方法:只要你能证明整段定义域上的最大误差趋于 0 0 0 ,就已经证明了一致收敛。
为什么一致收敛更重要
点态收敛太弱,很多“好性质”在取极限时会丢失;一致收敛则强得多。
若每个 f n f_n f n 都连续(continuous),且 f n → f f_n\to f f n → f 一致收敛,那么极限函数 f f f 仍然连续。
一致收敛常常允许我们交换极限(limit)与积分(integral)。
对求导(differentiation)而言,仅有一致收敛通常还不够,往往还需要导函数列的一致收敛等更强条件。
一个补充提醒
函数列 x n x^n x n 在 [ 0 , 1 ] [0,1] [ 0 , 1 ] 上不一致收敛,但在任意更小的区间 [ 0 , a ] [0,a] [ 0 , a ] (其中 0 ≤ a < 1 0\le a<1 0 ≤ a < 1 )上却是一致收敛到 0 0 0 的,因为
sup x ∈ [ 0 , a ] x n = a n → 0. \sup_{x\in[0,a]} x^n = a^n \to 0. x ∈ [ 0 , a ] sup x n = a n → 0.
这说明“一致收敛是否成立”与定义域本身密切相关。很多时候,问题并不在函数列本身,而在于你把它放在哪个区间上来看。
一句话总结
点态收敛(pointwise convergence)关心的是“每个点最终会不会收敛”,一致收敛(uniform convergence)关心的是“能不能用同一个误差界同时控制整个定义域”。
如果你希望保住连续性、交换极限与积分,或者得到更稳定的极限性质,那么一致收敛通常才是更值得优先检查的条件。
一个练习(exercise)
Find a sequence of fixed (nonrandom) functions M n : R → R M_n:\mathbb R\to\mathbb R M n : R → R that converges pointwise to a limit M 0 M_0 M 0 and such that each M n M_n M n has a unique maximum at a point θ n \theta_n θ n , but the sequence θ n \theta_n θ n does not converge to θ 0 \theta_0 θ 0 . Can you also find a sequence M n M_n M n that converges uniformly?
极简解答
点态收敛(pointwise convergence):取
M n ( x ) = { − x 2 , x ≠ n , 1 , x = n . M_n(x)=
\begin{cases}
-x^2, & x\neq n,\\
1, & x=n.
\end{cases} M n ( x ) = { − x 2 , 1 , x = n , x = n .
则 M n ( x ) → M 0 ( x ) : = − x 2 M_n(x)\to M_0(x):=-x^2 M n ( x ) → M 0 ( x ) := − x 2 点态收敛,M 0 M_0 M 0 的唯一极大点(unique maximizer)是 θ 0 = 0 \theta_0=0 θ 0 = 0 ,而每个 M n M_n M n 的唯一极大点是 θ n = n \theta_n=n θ n = n ,所以 θ n ↛ θ 0 \theta_n\nrightarrow \theta_0 θ n ↛ θ 0 。
一致收敛(uniform convergence):取
M 0 ( x ) = − x 2 1 + x 4 , M n ( x ) = − x 2 1 + x 4 + 2 n e − ( x − n ) 2 . M_0(x)=-\frac{x^2}{1+x^4},
\qquad
M_n(x)=-\frac{x^2}{1+x^4}+\frac{2}{n}e^{-(x-n)^2}. M 0 ( x ) = − 1 + x 4 x 2 , M n ( x ) = − 1 + x 4 x 2 + n 2 e − ( x − n ) 2 .
则
sup x ∈ R ∣ M n ( x ) − M 0 ( x ) ∣ = sup x ∈ R 2 n e − ( x − n ) 2 = 2 n → 0 , \sup_{x\in\mathbb R}|M_n(x)-M_0(x)|
=
\sup_{x\in\mathbb R}\frac{2}{n}e^{-(x-n)^2}
=
\frac{2}{n}\to 0, x ∈ R sup ∣ M n ( x ) − M 0 ( x ) ∣ = x ∈ R sup n 2 e − ( x − n ) 2 = n 2 → 0 ,
所以是一致收敛。又因为 M 0 ( x ) ≤ 0 M_0(x)\le 0 M 0 ( x ) ≤ 0 且只在 x = 0 x=0 x = 0 取到最大值,而
M n ( 0 ) = 2 n e − n 2 , M n ( n ) = − n 2 1 + n 4 + 2 n ≈ 2 n , M_n(0)=\frac{2}{n}e^{-n^2},
\qquad
M_n(n)=-\frac{n^2}{1+n^4}+\frac{2}{n}\approx \frac{2}{n}, M n ( 0 ) = n 2 e − n 2 , M n ( n ) = − 1 + n 4 n 2 + n 2 ≈ n 2 ,
所以对充分大的 n n n ,极大点会落在靠近 n n n 的某个 θ n \theta_n θ n 上,而不可能收敛到 θ 0 = 0 \theta_0=0 θ 0 = 0 。