彩票开奖概率不等的解释

机器算法验证 可能性
2022-02-01 13:41:21

在此处输入图像描述

用 12 个编号为 1 到 12 的球的彩票机抽奖 220 次,结果如下:

ball no.     1  2  3  4  5  6  7  8  9 10 11 12
frequency   23 18 21 15 24 17 20 16 21 13 19 13

分布图

如您所见,奇数比偶数更频繁地被抽出,而较小的数字比较高的数字更频繁地被抽出。

这是小样本量的产物,还是对这种不均匀分布有一些合理的解释?


笔记。

  1. 这些是从真实彩票中的真实机器中抽取的真实数字。
  2. 使用的机器不是图中的机器,但与其相似,即手动操作的球形笼子(不是玻璃球,也不是自动机)。
  3. 我调查了这个彩票,因为在德国国家彩票(“ 6 aus 49 ”)中,从一个包含 49 个数字的瓮中抽出 6 个数字,自 1955 年以来,在 5000 个左右的抽奖中,这些数字的抽签频率不同(以及数次更改彩票机),其中 6 是最频繁的号码(抽奖 611 次),而 13 是最不频繁的号码(492 次)。可以在此处(德语)找到有关德国国家彩票的更详细和复杂(描述性)的统计数据。我对目前的彩票很感兴趣,因为它是由一个我信任和支持的非营利组织提供的,并且很好奇他们的机制或过程是否会产生无意的偏见。我不怀疑欺诈。
4个回答

为了确定结果是否似乎表明一些恶作剧正在发生,我们可以对其进行测试!

首先,我们需要指定我们的零假设是什么。我将在这里花点时间强调(正如后续答案更详细地指出的那样)在查看我们将用于检验该假设的数据之前形成假设的重要性。例如,您观察到奇数和低值数字出现得更频繁,但我们的假设应该在查看数据之前形成。因此,查看数据是错误的,请注意奇数在数据中出现的频率更高,然后根据相同的数据测试该假设(正如@Him 指出的那样,收集新数据进行测试当然是合理的这个假设)。

根据您的写作,过去的数据似乎使您相信可能会发生不一致,因此自然测试将是抽签是否来自(离散)均匀分布(零假设),或者抽签是否来自某些其他分布,因此表明偏向某些数字(替代假设)。

这个假设的一个简单检验是卡方检验在零假设下,每个数字都有相同的机会被抽中(即对于每次抽奖,的机会被抽中 - 随后的答案也显示了卡方检验如何与不同的假设,例如奇/偶差)。乘以每个号码的总抽奖次数来计算每个号码应该有多少次抽奖。1/121/12

该测试主要通过观察到的抽奖与零下的预期抽奖数量的差异来衡量。使用您观察到的数字并执行此测试(请参见下面的代码),我们发现 p 值为,因此我们无法拒绝抽签来自公平过程的空值。因此,我们不能断定抽签来自有偏见的抽样过程。p=0.71

>obs = c(23,18,21,15,24,17,20,16,21,13,19,13) 
>p = rep(1/length(obs),length(obs)) 
>chisq.test(obs,p=p)
    
Chi-squared test for given probabilities
    
data:  obs X-squared = 8, df = 11, p-value = 0.7133

至于问题的第二部分,假设我们确实得出结论,平局来自不等概率(我们没有这样做)。有很多合理的解释来解释为什么会这样。列出两个:

  1. 一个有足够技能的骗子可能很容易让这个过程看起来很公平,如果它不公平,要么通过以一致的方式转动机器,以确保在完成转动杠杆后从底部开始的数字,或者通过只需在他转动球时跟随球。

  2. 你说是真正的彩票,但你真的观察过这个过程吗?如果不是,那么很容易说这些是由于公平的彩票,即使它们不是。

在 @doubled 的 (+1) 卡方检验之后,剩下的问题是机器的 220 次抽签是否足以检测到实际的小偏差。也许奇数的球更重、更轻或更圆,这样它们就更有可能被抽中。也许真正的概率分布是(6,4,6,4,6,4,6,4,6,4,6,4)/60.基于 220 次抽签的卡方检验检测到这种偏向于奇数的概率是多少?

基于此分布,可以模拟m=100000每次抽签 220 次,每次做卡方检验,看看抽到的分数是多少msession 拒绝了抽奖是公平的零假设。这很好地近似了卡方检验检测指定不公平程度的能力。

首先,让我们看一个这样的模拟会话——恰好没有检测到不公平性(P 值 > 5%)。[使用 R.]

# one session
set.seed(411) # for reproducibility 
pr = c(6,4,6,4, 6,4,6,4, 6,4,6,4)/60
x = sample(1:12, 220, rep=T, p = pr)
TB = tabulate(x);  TB
[1] 23 11 17 20 20 16 19 19 20 17 21 17
chisq.test(TB)$p.val
[1] 0.898677

现在,通过模拟m届会n=220每次抽签,我们发现我们检测到这种不公平程度的机会只有不到 50:50。在模拟运行向量结束时pvmP 值,并mean(pv <= 0.05)给出拒绝的比例。[给出正确计数nbins=12tabulate力参数tabulate,即使会话缺少一些更高的数字。]

# 100,000 sessions
set.seed(2021)
pr = c(6,4,6,4, 6,4,6,4, 6,4,6,4)/60
m = 10^5;  pv = numeric(m)
for(i in 1:m) {
 x = sample(1:12, 220, rep=T, p = pr)
 TB = tabulate(x, nbins=12)
 pv[i] = chisq.test(TB)$p.val
 }
mean(pv <= 0.05)
[1] 0.45349

此外,运行程序n=500每次会话抽奖 [未显示] 提供几乎 90% 的功率,并且运行n=650功率略高于 95%。

注意:在这些简单的情况下,没有必要进行模拟来近似卡方检验的功效H0:Fair反对替代向量pr,使用n画。

5% 临界值c=19.6751拥有P(Q>c|H0)=0.05.而“效果大小”是 λ=n(pai1/12)21/12=8.8.那么确切的功率0.4602使用带度数的卡方分布找到ν=121=11和非中心性参数λ.

c = qchisq(.95, 11);  c
[1] 19.67514
lam = 220*sum((pr-1/12)^2/(1/12)); lam
[1] 8.8
1 - pchisq(c,11,lam)
[1] 0.4602406

相比之下n=650,我们有λ=26和权力0.9574.

lam = 650*sum((pr-1/12)^2/(1/12)); lam
[1] 26
1 - pchisq(c,11,lam)
[1] 0.9573635

也许请参阅此问答及其参考资料。

你提到了奇偶模式,所以让我们调查一下。

类别 观测到的 预期的 # 预期的
奇怪的 92 110 50%
甚至 128 110 50%

并仅使用这两个类别进行测试....

Chi squared equals 5.891 with 1 degrees of freedom.
The two-tailed P value equals 0.0152

这通常被认为是重要 的。这种结果千分之十五只发生。这是否意味着我们有一个可发布的结果?

二项式检验(当有两个类别时更准确)得出 p = 0.0062,也很显着。

这里有几个问题。首先,我们选择在收集数据后专注于数据的一个方面我们忽略了其他人。例如,我们可以测试 3 的倍数,或素数/非素数或......许多其他选择是可能的。几乎所有其他选择都认为“不重要”。这是p -hacking绿色软糖谬误,由 xkcd 说明通过对数据进行细分或分组,通常可以找到重要的结果。正确的反应是进一步调查。如果这是一个真实的效果,它应该会成为具有更多数据的更强大的结果。如果它只是“绿色软糖”,那么它将无法重复。

而且(虽然不是同一个实验)德国 6-aus-49 彩票没有奇偶模式。

其次,我们有一个强大的“先验”:我们检查机器和球,并没有发现任何似乎有问题的地方。根据我们对此类机器的一般经验,我们知道它们通常是相当公平的。在实验之前,您估计机器或操作员严重不公平的概率是多少?显然这里有一些判断,但假设我们说 0.001(千分之一的机会) 现在,鉴于这个结果,机器基本上不公平的可能性有多大。好吧,这将带您进入贝叶斯统计。我们需要量化“基本上不公平”,但如果不公平的机器总是会给出这样的结果 [P(X²>5.891 |不公平)=1],那么在我们观察到 X²>5.891 的情况下,机器不公平的概率是仅 0.001/0.0152 =0.06。因此,我们将机器不公平的估计值从 0.001 更新为 0.06。我们仍然认为这台机器不太可能是不公平的。

作为其他答案的补充,让我为您提供一种直观的方式来检查预期频率和观察到的频率之间的差异:A (hanging) rootogram,由 John Tukey 发明(另见Kleiber & Zeileis (2016))。在下图中,预期计数的平方根显示为红点。观察到的频率的平方根像直方图一样悬挂在这些点上。因此,如果预期和观察到的频率相似,则条形图的底部都接近于零。低于预期频率的条位于零线上方,反之亦然。该图可以很容易地看到任一方向的偏离。

在解释方面,回想一下,对于大多数值,计数的平方根与其期望值相差不到一个单位。您的所有十二个数据都是这种情况。因此,正如其他答案已经解释的那样,几乎没有证据表明系统性地偏离了一致性。平方根在这里很有用,因为它是泊松分布的方差稳定函数。n=220,p=1/12,泊松分布是二项式的合理近似。最后,对于相当大的λs,泊松分布的平方根的方差约为1/4所以 68-95-99.7 规则表明大多数值都在2×1/4=1的平均值。人们可以考虑二项式的反正弦变换,但在这种情况下它实际上没有任何区别。

根图

另外,请记住,在这种情况下,如果您只查看数据是因为它们让您产生怀疑,那么在这种情况下使用正式的假设检验可能是可疑的(这称为HARKing:已知结果后的假设)。在您的情况下,您根据其他数据形成了假设,这对我来说似乎很好。