机器算法验证 - 为一个说他可以影响掷骰子的通灵者设计一个测试 - 吾爱随笔录

为一个说他可以影响掷骰子的通灵者设计一个测试

机器算法验证可能性实验设计骰子

2022-03-28 02:57:54

假设我有一个朋友（我们称他为“乔治”），他说他可以用他的思想控制掷骰子（即，使骰子更有可能落在他正在考虑的特定数字上）。

我如何设计一个科学严谨的测试来确定他是否真的可以做到这一点？（我真的不认为他可以，当然，但我希望他在测试开始前同意测试的细节，Amazing Randi 风格。）我想减少（很可能）测试后的借口他会想出的。

这是我到目前为止所拥有的：

确定物理掷骰子技术（哪个骰子、摇杯、落地面等）
定义一个“测试会话”，由X掷骰子组成。这需要小到足以一次完成，但要大到足以在 95%-99% 的置信度内确定（经过分析）骰子是公平的还是偏向一侧
在所选骰子上运行Y会话（不受乔治的影响），作为“控制”以确保骰子自己显示“公平”结果
与乔治一起运行Z会话。在每个之前，掷一个单独的骰子来确定乔治在整个会话期间将“专注”的数字。
编译并分析结果。
乔治为自己糟糕的表现找了些借口。

所以我的问题是：

我的整体方法有任何缺陷或问题吗？乔治可能会反对什么？
我应该使用 D6 吗？还是D20？有关系吗？具有更多面的模具是否需要更多的滚动才能产生同样自信的结果？还是相反？出于实际考虑，我更喜欢更少的卷而不是更多:)
X、Y和Z的合理值是多少？它们并非完全无关；如果我选择的X值仅允许单个会话的 95% 置信度，那么即使没有 George 的影响，每 20 个会话中有 1 个可能“失败”
如何定义单个会话的“成功”或“失败”？（我确实发现这个问题涉及卡方检验的细节，所以我认为这是我的评估方法，但什么是合理的置信度阈值？）
如何定义整体测试的“成功”或“失败”？乔治可能完全有机会“赢得”一次测试，但他必须通过多少次Z测试才能通过整个测试？

我可能会在 MS Excel 电子表格中分析这些结果，如果这有什么不同的话。

2个回答

我建议通过以下方式进行分析：

将 George 成功预测结果的每个角色计算为成功，将其他每个角色计算为失败。然后，您可以轻松计算 George 的成功概率以及 95% 或 99% 的置信区间。他是否声称他可以像随机掷骰子一样预测结果“两倍”？然后：

H0: p >= 1/3

H1：p < 1/3

（假设一个 6 面模具）。

从那里开始，进行假设检验非常简单。此外，您可以很容易地先验计算功率（即使在 Excel 之类的东西中）。选择一些卷（比如 10 个），然后制作一个表格，将可能的成功作为行 (0-10)。然后，对于每次成功，计算他获得那么多成功的概率（如果他只是在猜测，这就是我们假设他正在做的事情）。此外，对于每个值，确定它是否会导致拒绝或接受空值。然后，要找到幂，您可以简单地将所有可能拒绝空值的概率相加。

如果您需要运行卡方检验，D20 将需要更多的滚动次数才能确定乔治成功的相同显着性水平。不过，我认为您不需要运行完整的卡方检验。您只需要检查骰子是否比机会更频繁地滚动“选择”数字。我只会使用二项式的 cdf来计算滚动所选数字的 p 值，而不是机会 $\theta=\frac{1}{6}$ 作为 D6 的二项式参数。我认为很容易确定数量 $X$ 基于乔治成功所需的 p 值。我什至不确定您是否需要 Z 会话。为什么不只为模具的每一面运行一个会话。随机化选择的一方对你感兴趣的假设是否重要？

其它你可能感兴趣的问题

上一篇为什么人们使用“证据权重”一词，它与“逐点互信息”有何不同？下一篇聚类分析和判别分析