我正在尝试为我正在运行的实验提出一个衡量分布不均匀性的指标。我有一个在大多数情况下应该均匀分布的随机变量,并且我希望能够识别(并可能测量程度)变量在一定范围内不均匀分布的数据集示例。
三个数据系列的示例,每个数据系列有 10 个测量值,代表我正在测量的事物发生的频率,可能是这样的:
a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%]
b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%]
c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]
我希望能够将 c 等分布与 a 和 b 等分布区分开来,并测量 c 与均匀分布的偏差。同样,如果有一个衡量分布均匀程度的指标(标准偏差接近于零?),我也许可以用它来区分具有高方差的那些。但是,我的数据可能只有一两个异常值,例如上面的 c 示例,并且不确定是否可以通过这种方式轻松检测到。
我可以在软件中破解一些东西来做到这一点,但我正在寻找统计方法/方法来正式证明这一点。我几年前上过一门课,但统计数据不是我的领域。这似乎应该有一个众所周知的方法。抱歉,如果其中任何一个完全愚蠢。提前致谢!