有很多方法可以衡量两个概率分布的相似程度。流行的方法(在不同的圈子中)包括:
Kolmogorov距离:分布函数之间的超距离;
Kantorovich-Rubinstein 距离:Lipschitz 常数的两个函数分布的期望值之间的最大差异,这也证明是分布函数之间的距离;
有界-Lipschitz 距离:与 KR 距离类似,但也要求函数最多具有绝对值.
这些有不同的优点和缺点。只有 3. 意义上的收敛实际上正好对应于分布的收敛;一般而言,1. 或 2. 意义上的收敛性稍强。(特别是,如果有概率, 然后收敛到在分布中,但不在 Kolmogorov 距离中。但是,如果极限分布是连续的,则不会发生这种情况。)
从初等概率或测度论的角度来看,1. 非常自然,因为它比较了存在于某个集合中的概率。另一方面,更复杂的概率观点倾向于更多地关注期望而不是概率。此外,从泛函分析的角度来看,像 2. 或 3. 这样的基于对偶函数空间的距离非常有吸引力,因为有大量的数学工具可以处理这些事情。
但是,我的印象(如果我错了,请纠正我!)是在统计学中,Kolmogorov 距离是测量分布相似性的通常首选方法。我可以猜到一个原因:如果其中一个分布是离散的,支持有限——特别是,如果它是一些真实世界数据的分布——那么到模型分布的 Kolmogorov 距离很容易计算。(KR 距离会稍微难以计算,而 BL 距离实际上可能是不可能的。)
所以我的问题(最后)是,出于统计目的,是否还有其他实际或理论上的理由支持 Kolmogorov 距离(或其他距离)?