这种“现象”叫什么?

机器算法验证 分布 正态分布 密度函数 术语 直方图
2022-03-20 11:16:07

下面是一些数据的直方图,bin 是整数,其他参数无关紧要。

重叠分布

如您所见,奇数和偶数似乎有两个独立但重叠的正态分布。

成为偶数的概率是 1/3,同样是奇数的 2/3。

老实说,我不知道它的实际统计意义,所以我试图找出它甚至是为了了解更多信息,但我找不到任何东西,我已经尝试了很多搜索词来找到这个,甚至反向图像搜索,但我得到的只是有关多模态分布等的信息,我找不到任何关于多模态分布何时以这种方式重叠的信息

有这个名字吗?

对于那些感兴趣的人,数据来自使用 matlab 脚本的 1,000,000 个 goofspiel (N=13) 随机游戏

N = 1000000;
random = zeros(1,N);
for i = 1 : N
    pc = randperm(13);
    p1 = randperm(13);
    p2 = randperm(13);
    random(i) = sum(pc.*sign(p1-p2));
end
histogram(random,'BinMethod','integer')

一个更一般的(虽然是人为的)示例如下

a = [1:50 50:-1:1];
b = normpdf(linspace(-2,2),0,0.5).*50;
c = a;
rng('default') %For reproducibility
d = logical(randi([0,1],1,length(a)));
for i = 1:length(c) %There's gotta be a way to do this without an explicit loop
    if(d(i)) 
        c(i) = b(i);
    end
end
bar(c)

一般示例

像第一个例子一样,有两个分布重叠(三角形和正态),但在这种情况下,不是在每个点交替,而是随机的。

我知道这是一个夸大的例子(甚至不是直方图),但必须有这样的例子实际发生在统计数据上,对吧?那么也许不是,或者它完全无关紧要?

实际问题有两个:
一般问题 -这种类型的“东西”叫什么,如果有的话?- 以便我(或任何其他可能遇到它的人)可以了解更多关于它的信息以及是否需要进行任何调整。
这个问题与我的第一个数据集特别相关 - 我应该将奇数和偶数值分开还是将正态分布拟合到整个数据集?

2个回答

此答案不是您问题的直接答案,因为它与模式的不同原因有关。

但它确实与相同的图形外观有关,因此我将其作为答案而不是评论发布(在阅读您的 Matlab 脚本之前,我实际上认为您的直方图中的模式是由于这种不同的原因造成的)。


你的问题让我重新审视了我在回答最近一个问题时绘制的直方图。

旧插图

我使用 binsize 1,而(离散)结果之间的距离为 0.538。偶尔使用单个值的计数而不是两个值的计数绘制直方图的条形图。

调整 bin 大小后,直方图看起来更典型

新插图

在这种情况下,我们可以将图案称为莫尔图案,这是由于两个离散尺度的错位而出现的人造光带和暗带。

但是,在您的情况下,周期性模式不是直方图中的人为效应,而是概率质量函数中的真正周期性行为。无论如何,我认为提及这个相关的莫尔图案很有用。

对不起,我不知道一个既定的名字,但要解决你的第二个问题:

我应该将奇数和偶数值分开还是将正态分布拟合到整个集合?

我认为你应该把它们分开。您的分析发现,最重要的因素/预测因素是输入是奇数还是偶数,因此合并它们将模糊这两个分布,并使它们不太有用(*)。

*:当然,这真的取决于你对有用的定义。我是从您有一些输入并想要建立一个模型来预测一些输出的角度来接近它的。一旦我们知道它很重要,我想给模型一个提示,即一个/一些输入的奇偶性很重要。

顺便说一句,就像 Martijn Weterings 的回答一样,当我以前有过这样的锯齿状直方图时,它与 bin 大小的选择有关。这让我意识到,对 bin 大小的实验是 Lying With Stats 工具箱中的另一个工具 :-)