如何测量两个累积分布函数 (CDF) 之间的偏移?

机器算法验证 累积分布函数 功能
2022-03-01 03:01:40

如何测量两个累积分布函数 (CDF) 之间的偏移?具体来说,在下图中,阴影区域的意义如何?它应该测量绿色和红色 CDF 之间的偏移。在 x 轴上,变量的值以任意单位给出,而在 y 轴上,它是累积密度。我担心的是,考虑到它都是累积的,左下角的差异会继续对该区域产生更大的影响,因此对于 x 轴上最左边的值之间的差异有更大的权重,即累积开始的地方. 我对吗?我错了吗?如果是这样,我的误解在哪里?

换档区

2个回答

这个区域的绝对值是 这说明——至少对于连续分布——正好等于 在一个维度中,后者是1- Wasserstein 距离、1-Kantorovich 距离或“地球移动距离”。概率分布之间的距离是相当合理的,一维分布之间的距离很容易根据它们的 cdfs 计算出来。

x=|F(x)G(x)|dx,
x=|F1(x)G1(x)|dx.

对于多变量分布,有一个自然扩展(不是基于 CDF,它变得难以使用),最常见的定义是基于最佳传输你可以这样想:把每个密度函数想象成一堆泥土。将一种密度转换为另一种密度所需移动的污垢量正是这个距离。这导致了“推土机的距离”的名称。

起初,这个距离对应于 CDF 之间的面积差异并不完全明显。但是想象一下,对于两个点质量分布,一个在处,一个在处这样做;它们的 CDF 之间的区域是一个矩形,面积为,正是移动“污垢”所需的量。然后你可以设想对一组点质量做同样的事情,得到一系列你相加的矩形。当你在极限中进行连续分布时,你会得到上面写的积分,希望它们是同一件事是有意义的。xx1×|xx|

估计与样本的距离的传统方法是使用线性程序直接计算这个运输问题,尽管最近有更多的快速近似

美丽的 Kantorovich-Rubinstein 对偶也适用于这个距离这种关系今年引起了深度学习社区对 Wasserstein 距离的兴趣爆炸式增长,这篇论文将其用于生成建模。几十年来,距离在计算机视觉应用中也很流行。

想想 CDF 在概率方面代表什么。将 x 轴上的变量称为并将 y 轴值称为根据定义,累积分布函数显示变量小于或等于的概率。更具体地说,如果您查看CDF 告诉您的每条曲线的xyxx=0Pred(X0)0.5Pgreen(X0)0.7

你的问题有点模糊,所以我分两部分回答。

在特定点上的差异有多大意义?:假设表示与平均测试分数的差值(负值表示低于平均水平,正值表示高于平均水平)。让绿色曲线代表男孩,红色曲线代表女孩。现在,告诉我们男孩得分低于平均水平的概率更高比一个女孩得分低于平均水平的概率。如果我们将 CDF 视为整体(绿色始终高于红色),这表明在您的样本人群中,女孩的得分高于男孩。这一结果是否具有统计学意义尚待确定。XPred(X0)0.5Pgreen(X0)0.7

总体差异有多大意义?(编辑为对@whuber 的回应):这取决于您如何使用它。例如,如果绿色 CDF 代表某个参考分布的 CDF,而红色 CDF 是经验样本分布,则可以在Kolmogorov-Smirnov 检验中使用逐点垂直差异来检验两个分布之间的相等性。

绿色“引导”红色并且两条曲线形状相似的事实有助于绿色始终高于红色这一事实,但这不一定是这种情况。考虑到您的人口不是来自相同的基础分布。在这种情况下,CDF 的形状会有所不同,并且绿色“领先”红色这一事实不一定会导致绿色始终高于红色。例如,这里是逻辑分布的各种 CDF(来自 Wikipedia

逻辑分布的 CDF

请注意,上图中的红色曲线“领先”(从非零值开始)在其余曲线之前,但最终在 x 值接近 x=20 时位于大多数曲线下方。