机器算法验证 - 如何衡量分布的不均匀性？ - 吾爱随笔录

如何衡量分布的不均匀性？

机器算法验证分布方差随机变量均匀分布

2022-01-15 18:47:56

我正在尝试为我正在运行的实验提出一个衡量分布不均匀性的指标。我有一个在大多数情况下应该均匀分布的随机变量，并且我希望能够识别（并可能测量程度）变量在一定范围内不均匀分布的数据集示例。

三个数据系列的示例，每个数据系列有 10 个测量值，代表我正在测量的事物发生的频率，可能是这样的：

a: [10% 11% 10%  9%  9% 11% 10% 10% 12%  8%]
b: [10% 10% 10%  8% 10% 10%  9%  9% 12%  8%]
c: [ 3%  2% 60%  2%  3%  7%  6%  5%  5%  7%]   <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]

我希望能够将 c 等分布与 a 和 b 等分布区分开来，并测量 c 与均匀分布的偏差。同样，如果有一个衡量分布均匀程度的指标（标准偏差接近于零？），我也许可以用它来区分具有高方差的那些。但是，我的数据可能只有一两个异常值，例如上面的 c 示例，并且不确定是否可以通过这种方式轻松检测到。

我可以在软件中破解一些东西来做到这一点，但我正在寻找统计方法/方法来正式证明这一点。我几年前上过一门课，但统计数据不是我的领域。这似乎应该有一个众所周知的方法。抱歉，如果其中任何一个完全愚蠢。提前致谢！

4个回答

如果您不仅有频率而且有实际计数，则可以对每个数据系列使用拟合优度检验。特别是，您希望将测试用于离散均匀分布。这为您提供了一个很好的测试，它可以让您找出哪些数据系列可能不是由均匀分布生成的，但不能提供均匀性的度量。 $\chi^2$

还有其他可能的方法，例如计算每个系列的熵- 均匀分布使熵最大化，因此如果熵低得可疑，您会得出结论，您可能没有均匀分布。在某种意义上，这可以作为均匀性的衡量标准。

另一个建议是使用像Kullback-Leibler 散度这样的度量，它度量两个分布的相似性。

除了@MansT 的好主意之外，您还可以提出其他措施，但这取决于您所说的“非均匀性”是什么意思。为简单起见，让我们看一下 4 个级别。完美的均匀性很容易定义：

25 25 25 25

但以下哪个更不统一？

20 20 30 30 或 20 20 25 35

还是它们同样不统一？

如果您认为它们同样不均匀，则可以使用基于偏离正常值的绝对值总和的度量，并按可能的最大值缩放。那么第一个是 5 + 5 + 5 + 5 = 20，第二个是 5 + 5 + 0 + 10 = 20。但是如果你认为第二个更不均匀，你可以使用基于平方偏差的东西，在这种情况下第一个得到 25 + 25 + 25 + 25 = 100，第二个得到 25 + 25 + 0 + 100 = 150。

这是一个简单的启发式方法：如果您假设任何向量中的元素总和为（或简单地用总和对每个元素进行归一化以实现这一点），那么均匀性可以用 L2 范数表示，其范围为到，其中是向量的维数。 $1$ $\frac{1}{\sqrt d}$ $1$ $d$

下界对应于均匀性，上界对应于 -hot 向量。 $\frac{1}{\sqrt d}$ $1$

要将其缩放到和之间的分数，您可以使用，其中是 L2 范数。 $0$ $1$ $\frac{n*\sqrt d - 1}{\sqrt d - 1}$ $n$

为简单起见，从您的示例中修改了元素总和为且所有向量具有相同维度的示例： $1$

0.10    0.11    0.10    0.09    0.09    0.11    0.10    0.10    0.12    0.08
0.10    0.10    0.10    0.08    0.12    0.12    0.09    0.09    0.12    0.08
0.03    0.02    0.61    0.02    0.03    0.07    0.06    0.05    0.06    0.05

以下将为行产生、和： $0.0028$ $0.0051$ $0.4529$

d=size(m,2); 
for i=1:size(m); 
    disp( (norm(m(i,:))*sqrt(d)-1) / (sqrt(d)-1) ); 
end

据我所知，最近偶然发现了这一点，并添加到@ user495285的答案中：

当值被归一化并总和为 1 时，均匀分布是范数计算的是使用距离测量的单位球体的偏差给定中与几何距离测量的均匀分布的偏差。 $\mathbb{R}^n$ $L_p$ $p$ $\mathbb{R}^n$ $p$

范数对在任何给定维度上与单位球体的大偏差赋予较高的权重，而较小的值对大偏差赋予较小的权重。 $L_2$ $p$

当基础分布是单位球体时，分子在以下等式中为零：其中是范数，是向量长度。

\frac{n \sqrt{d} - 1}{\sqrt{d} - 1}

$\frac{n\sqrt{d} - 1}{\sqrt{d} - 1}$

n

$n$

L_{2}

$L_2$

d

$d$

我相信几何测量的有用性适用于假设所描述的空间的每个位置（维度）是在等效尺度上测量的，例如所有可能相等分布的计数。像 PCA/SVD 这样的碱基变化的相同假设在这里可能是相似的。但话又说回来，我不是数学家，所以我会把它留给更知情的人。

其它你可能感兴趣的问题

上一篇我的意大利儿子将要上小学这一事实是否会改变他班上预期的意大利儿童人数？下一篇R中的“评论”功能有什么好处？