分布之间 Kolmogorov 距离的动机

机器算法验证 分布 可能性 假设检验 数理统计
2022-02-14 09:40:12

有很多方法可以衡量两个概率分布的相似程度。流行的方法(在不同的圈子中)包括:

  1. Kolmogorov距离:分布函数之间的超距离;

  2. Kantorovich-Rubinstein 距离:Lipschitz 常数的两个函数分布的期望值之间的最大差异1,这也证明是大号1分布函数之间的距离;

  3. 有界-Lipschitz 距离:与 KR 距离类似,但也要求函数最多具有绝对值1.

这些有不同的优点和缺点。只有 3. 意义上的收敛实际上正好对应于分布的收敛;一般而言,1. 或 2. 意义上的收敛性稍强。(特别是,如果Xn=1n有概率1, 然后Xn收敛到0在分布中,但不在 Kolmogorov 距离中。但是,如果极限分布是连续的,则不会发生这种情况。)

从初等概率或测度论的角度来看,1. 非常自然,因为它比较了存在于某个集合中的概率。另一方面,更复杂的概率观点倾向于更多地关注期望而不是概率。此外,从泛函分析的角度来看,像 2. 或 3. 这样的基于对偶函数空间的距离非常有吸引力,因为有大量的数学工具可以处理这些事情。

但是,我的印象(如果我错了,请纠正我!)是在统计学中,Kolmogorov 距离是测量分布相似性的通常首选方法。我可以猜到一个原因:如果其中一个分布是离散的,支持有限——特别是,如果它是一些真实世界数据的分布——那么到模型分布的 Kolmogorov 距离很容易计算。(KR 距离会稍微难以计算,而 BL 距离实际上可能是不可能的。)

所以我的问题(最后)是,出于统计目的,是否还有其他实际或理论上的理由支持 Kolmogorov 距离(或其他距离)?

4个回答

标记,

我知道使用 KS 的主要原因是因为它自然产生于单变量经验过程中的 Glivenko-Cantelli 定理。我推荐的一个参考是 AWvan der Vaart "Asymptotic Statistics", ch。19. 更高级的专着是 Wellner 和 van der Vaart 的“Weak Convergence and Empirical Processes”。

我要添加两个快速说明:

  1. 单变量分布中常用的另一种距离度量是 Cramer-von Mises 距离,它是 L^2 距离;
  2. 一般来说,向量空间采用不同的距离;许多论文中感兴趣的空间是波兰语。一个很好的介绍是比林斯利的“概率测度收敛”。

如果我不能更具体,我很抱歉。我希望这有帮助。

总而言之,我的回答是:如果您有明确的表达方式或可以弄清楚您的距离是如何测量的(它赋予了哪些“差异”),那么您可以说出它更适合什么。分析和比较此类测试的另一种补充方法是极小极大理论。

最后,一些测试将有利于一些替代品和一些替代品。对于给定的一组替代方案,有时可能会显示您的测试在最坏情况下是否具有最佳属性:这就是极小极大理论。


一些细节

因此,您可以通过比较它们的“最佳检测边界” http:// projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492

让我一个接一个地走:

  1. KS 距离是通过计算经验 cdf 和 cdf 之间的差异的上限值获得的。作为一个 suppremum,它将对局部替代方案(cdf 中的局部变化)高度敏感,但对全局变化不敏感(至少使用 cdf 之间的 L2 距离将不那么局部(我打开门了吗?))。但是,最重要的是使用 cdf。这意味着不对称:您更加重视分布尾部的变化。

  2. Wassertein 度量(Kantorovitch Rubinstein 是什么意思?) http://en.wikipedia.org/wiki/Wasserstein_metric无处不在,因此难以比较。

    • 对于 W2 的特定情况,它已在http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1017938923中使用 ,它与 L2 到 cdf 的倒数的距离有关。我的理解是它给了尾巴更多的重量,但我认为你应该阅读这篇论文以了解更多信息。
    • 对于密度函数之间的 L1 距离的情况,它在很大程度上取决于您如何从数据中估计您的密度函数……但除此之外,它似乎是一个“平衡测试”,不重视尾部。

回顾和扩展我完成答案的评论:

我知道您并不是要详尽无遗,但您可以添加 Anderson 亲爱的统计数据(请参阅http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test)。这让我想起了 Jager 和 Wellner 的一篇论文(参见http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721),它扩展/概括了安德森宠儿的统计数据(特别包括对 Tukey 的更高批评)。更高的批评已经被证明是广泛的选择的极小值,Jager 和 Wellner 也对它们的扩展做了同样的事情。我认为 Kolmogorov 测试没有显示极小极大属性。无论如何,了解您的测试是极小极大的替代类型可以帮助您了解它的优势在哪里,因此您应该阅读上面的论文。

计算问题是我听到过的最有力的论点。Kolmogorov 距离的最大优势在于,对于几乎任何 CDF 都非常容易进行分析计算。除了有时在高斯情况下,大多数其他距离度量没有封闭形式的表达式。

在给定 CDF 的情况下,样本的 Kolmogorov 距离也有一个已知的采样分布(我认为大多数其他的都没有),这最终与维纳过程有关。这是 Kolmogorov-Smirnoff 检验的基础,用于将样本与分布或两个样本相互比较。

在更功能分析的注释中, sup 范数很好(正如你提到的)它基本上定义了一致收敛。这为您留下了暗示逐点收敛的范数收敛,因此,如果您对如何定义函数序列很聪明,您可以在 RKHS 中工作并使用它提供的所有好工具。

我认为您必须考虑不同距离概念的理论与应用优势。数学上的自然对象不一定能很好地转化为应用程序。Kolmogorov-Smirnov 是最著名的应用程序,并且在测试拟合优度方面根深蒂固。我想造成这种情况的原因之一是当底层分布F是连续的,统计量的分布独立于F. 另一个是它可以很容易地反转以给出 CDF 的置信区间。

但它通常以不同的方式使用F估计为F^, 检验统计量的形式为

支持X|Fn(X)-F^(X)|.
兴趣在于看看有多好F^拟合数据并表现得好像F^=F,即使渐近理论不一定适用。