Glivenko-Cantelli 定理

机器算法验证 可能性 收敛
2022-03-30 13:32:24

Glivenko -Cantelli 定理指出,如果F是分布函数,X1,,XnF, 和F^n是经验分布函数,则

(1)supxR|F^n(x)F(x)|a.s.0.

这与简单地陈述以下内容有何不同?

(2)F^n(x)a.s.F(x)

几乎可以肯定地使用收敛的定义,从(1):

P(limn|supxR|F^n(x)F(x)||=0)=1(1a)P(limnsupxR|F^n(x)F(x)|=0)=1

几乎可以肯定地使用收敛的定义,从(2):

(2a)P(limn|F^n(x)F(x)|=0)=1

对我来说,似乎 (1a) 和 (2a) 是等价的陈述,因为上界最小,因此 (1) 和 (2) 是等价的陈述。但我有一种感觉,我错过了一个微妙的区别,否则我会认为这个定理只会用更简单的方式来表述(等式(2))。

2个回答

不同之处在于一致收敛。1 是说对于所有 x 都有一个 n 使得误差小于 epsilon (uniform)。另一种说法是,对于每个 x,n 都足够大,以至于误差小于 epsilon(逐点)。来自维基百科的逐点但不均匀收敛的例子是fn(x)=xn0x1. 当你越来越接近时,你需要越来越大的 nx=1.

值得注意的是,逐点收敛F^n(x)F(x)已经意味着一致收敛,其中F是连续的(因为 cdf 是有界且单调的)更准确地说,如果[a,b]是一个不包含任何不连续性的区间F, 收敛是一致的[a,b]——这仍然适用于a=或者b=.

Glivenko-Cantelli 定理的结论更强:即使在不连续处收敛也是一致的,这很重要。相比之下,如果F^n是来自分布的一系列经验 CDFFn分布收敛到F,我们有逐点收敛F^n(x)F(x),并且在没有间断的区间上一致收敛,但不是处处一致收敛。