为一个说他可以影响掷骰子的通灵者设计一个测试

机器算法验证 可能性 实验设计 骰子
2022-03-28 02:57:54

假设我有一个朋友(我们称他为“乔治”),他说他可以用他的思想控制掷骰子(即,使骰子更有可能落在他正在考虑的特定数字上)。

我如何设计一个科学严谨的测试来确定他是否真的可以做到这一点?(我真的不认为他可以,当然,但我希望他在测试开始前同意测试的细节,Amazing Randi 风格。)我想减少(很可能)测试后的借口他会想出的。

这是我到目前为止所拥有的:

  1. 确定物理掷骰子技术(哪个骰子、摇杯、落地面等)

  2. 定义一个“测试会话”,由X掷骰子组成。这需要小到足以一次完成,但要大到足以在 95%-99% 的置信度内确定(经过分析)骰子是公平的还是偏向一侧

  3. 在所选骰子上运行Y会话(不受乔治的影响),作为“控制”以确保骰子自己显示“公平”结果

  4. 与乔治一起运行Z会话。在每个之前,掷一个单独的骰子来确定乔治在整个会话期间将“专注”的数字。

  5. 编译并分析结果。

  6. 乔治为自己糟糕的表现找了些借口。

所以我的问题是:

  • 我的整体方法有任何缺陷或问题吗?乔治可能会反对什么?

  • 我应该使用 D6 吗?还是D20?有关系吗?具有更多面的模具是否需要更多的滚动才能产生同样自信的结果?还是相反?出于实际考虑,我更喜欢更少的卷而不是更多:)

  • XYZ的合理值是多少?它们并非完全无关;如果我选择的X值仅允许单个会话的 95% 置信度,那么即使没有 George 的影响,每 20 个会话中有 1 个可能“失败”

  • 如何定义单个会话的“成功”或“失败”?(我确实发现这个问题涉及卡方检验的细节,所以我认为这是我的评估方法,但什么是合理的置信度阈值?)

  • 如何定义整体测试的“成功”或“失败”?乔治可能完全有机会“赢得”一次测试,但他必须通过多少次Z测试才能通过整个测试?

我可能会在 MS Excel 电子表格中分析这些结果,如果这有什么不同的话。

2个回答

我建议通过以下方式进行分析:

将 George 成功预测结果的每个角色计算为成功,将其他每个角色计算为失败。然后,您可以轻松计算 George 的成功概率以及 95% 或 99% 的置信区间。他是否声称他可以像随机掷骰子一样预测结果“两倍”?然后:

H0: p >= 1/3

H1:p < 1/3

(假设一个 6 面模具)。

从那里开始,进行假设检验非常简单。此外,您可以很容易地先验计算功率(即使在 Excel 之类的东西中)。选择一些卷(比如 10 个),然后制作一个表格,将可能的成功作为行 (0-10)。然后,对于每次成功,计算他获得那么多成功的概率(如果他只是在猜测,这就是我们假设他正在做的事情)。此外,对于每个值,确定它是否会导致拒绝或接受空值。然后,要找到幂,您可以简单地将所有可能拒绝空值的概率相加。

如果您需要运行卡方检验,D20 将需要更多的滚动次数才能确定乔治成功的相同显着性水平。不过,我认为您不需要运行完整的卡方检验。您只需要检查骰子是否比机会更频繁地滚动“选择”数字。我只会使用二项式的 cdf来计算滚动所选数字的 p 值,而不是机会θ=16作为 D6 的二项式参数。我认为很容易确定数量X基于乔治成功所需的 p 值。我什至不确定您是否需要 Z 会话。为什么不只为模具的每一面运行一个会话。随机化选择的一方对你感兴趣的假设是否重要?