测量工作日分布的均匀性

机器算法验证 可能性 分布 随机变量 均匀分布 测量
2022-02-28 18:25:57

我有一个与这里提出的问题类似的问题:

如何衡量分布的不均匀性?

我有一组一周中的几天的概率分布。我想测量每个分布与 (1/7,1/7,...,1/7) 的接近程度。

目前我正在使用上述问题的答案;一个 L2 范数,当分布在某一天的质量为 1 时,其值为 1,并在 (1/7,1/7,...,1/7) 时最小化。我对此进行线性缩放,使其位于 0 和 1 之间,然后将其翻转,因此 0 表示完全不均匀,1 表示完全均匀。

这很好用,但我有一个问题;它将每个工作日视为 7-Dim 空间中的一个维度,因此它不考虑日子的临近;换句话说,它甚至给 (1/2,1/2,0,0,0,0,0) 和 (1/2,0,0,1/2,0,0,0) 赋予相同的分数虽然在某种意义上后者更“分散”和统一,理想情况下应该得到更高的分数。显然,天的顺序是循环的,这增加了复杂性。

我怎样才能改变这个启发式来解释日子的临近?

1个回答

推土机距离也称为 Wasserstein 度量,测量两个直方图之间的距离。本质上,它将一个直方图视为一堆泥土,然后评估一个需要移动多少泥土,以及将这个直方图变成另一个直方图的距离(!)。您将在一周中的几天内测量您的分布与统一分布之间的距离。

这当然说明了日子的临近——从周一到周二移动“污垢”比从周一到周四更容易,所以 (1/2,0,0,1/2,0,0,0) 会有与集中在星期一和星期二的直方图相比,与均匀分布的距离更低。

这没有考虑一周的“循环”,即周六和周日与周日和周一一样靠近。为此,您需要寻找在圆形概率质量分布上定义的推土机距离这应该可以使用合适的优化方法来实现。


编辑:在 R 中,emd计算直方图之间的推土机距离。

您可以以一种相当简单(尽管是临时)的方式解决“循环性”问题。

  • 计算周一至周日您的分布与均匀分布之间的d1
  • 计算周二到周一对均匀分布的距离d2
  • 计算周三到周二与均匀分布的距离d3
  • ...
  • 最后,作为最终距离,使用的平均值。d1,,d7

这以牺牲一些额外的计算为代价来处理循环性。

第二次编辑:这不是圆形推土机距离本身。为此,您需要浏览一些搜索会出现的文献。如果在几天之间移动污垢的最佳方法是从星期六到星期一移动两天,这将出现在七个中的五个中,但不会出现在其余两个中(污垢需要移动五天)。di

但是,我仍然认为这是一种可能有用的方法,至少可以以某种方式考虑循环性 - 当然比仅使用单个直方图并将一周定义为从周日到周六或以其他任意方式更好。另外,虽然上面的一些链接出现了圆形推土机距离的实现,但我不知道 R 的实现,这可能是这里最常用的语言。