为什么使用累积分布来计算距离更好?

机器算法验证 密度函数 距离 累积分布函数
2022-03-20 09:53:32

这个问题的评论中,有人指出,在比较两个分布时,使用累积分布(CDF)而不是分布(PDF)更自然、更普遍。

问题是,为什么?即使用 CDF 而不是 PDF 的优点(和/或缺点)是什么,使其更“更自然和通用”?

2个回答

我们都知道高斯分布的 PDF 方程,对吧?

fX(x|μ,σ2)=12πσ2exp[12(xμσ)2]

然而,这也是高斯分布的 PDF 的有效方程。

gX(x|μ,σ2)={12πσ2exp[12(xμσ)2],x00,x=0 

两者仅在这一点上有所不同,,这意味着它们的积分相等。这些代表相同的分布。x=0

积分是 CDF。

此外,并非每个 CDF 都有相应的 PDF。数学最终有点异国情调,但可以构建这样的 CDF。一个标准的例子是康托尔分布

(正如评论中提到的,在某种意义上,“几乎所有”CDF 都以这种方式运行并且缺少相应的 PDF。)

因此,对于随机变量,CDF 是唯一且始终定义的,而 PDF 如果完全定义,则定义不明确!这使得 CDF 成为自然的操作场所。想象一下,尝试在我的上进行类似 Kolmogorov-Smirnov (KS) 的测试。对于处的垂直距离会相差,这听起来很多,即使它们对应于相同的分布。XfX(x)gX(x)μ=0σ2=0fg0.399x=0

其他人已经指出,可以在一组概率测量为零上任意修改 PDF,这仍然为随机变量提供了有效的 PDF。这是真的,但这有点人为地回答你的问题。在这种情况下,对于我们在实践中处理的几乎所有随机变量,仍然存在我们通常使用的“自然”PDF(例如,连续的)。这些理论上可以作为查看随机变量之间“距离”的一种方法进行比较,所以你的问题是一个合理的问题。


因此,让我们将注意力限制在比较具有连续 PDF 的随机变量的情况,让我们将连续 PDF 作为用于比较的“自然”版本。 即使有这个限制,仍然可以在 PDF 中创建一个“尖峰”,它可以任意大而不会对 CDF 产生实质性影响。要看到这一点,请考虑一个随机变量X并假设我们形成混合随机变量:

YIG+(1I)XGN(x0,ϵ2)IBern(ϵ).

使用这种混合分布的效果ϵ小是分布Y看起来与分布大致成比例X,除了它有一个集中在值周围的连续“尖峰”x0. 服用ϵ0概率收敛YX并收敛于相应的分布(即,FYFX)。但是,当我们采用此限制时,PDF 中的“尖峰”Y变得任意大,因此该点的 PDF 之间的距离x0发散到无穷大。

所以,就距离而言XY, 如果ϵ小,你在这里做什么?直观地说,随机变量彼此非常接近(如ϵ0它们会聚)所以“距离”应该很小。但是,如果我们从 PDF 来判断事物,我们会看到这些 PDF 在某个点上无限增长,所以这也许意味着“距离”应该很大?

此示例表明,如果您使用 PDF 来确定随机变量之间的“距离”,您将不得不找到解决此类情况的方法。如果您认为这些随机变量之间的距离很小,那么在 PDF 上构建的距离度量应该反映这一点,这意味着即使 PDFS 在一个点(或者实际上,在任何可计数的点处)无限增长,距离仍然很小)。我将留给您考虑如何构建这样的度量。