回归均值与赌徒谬误

机器算法验证 回归 意思是 游戏 谬论 回归均值
2022-02-09 15:12:50

一方面,我有回归均值,另一方面我有赌徒谬误

赌徒谬误被 Miller 和 Sanjurjo (2019) 定义为“错误地认为随机序列具有系统性的逆转趋势,即类似结果的条纹更有可能结束而不是继续。” 例如,连续多次正面朝上的硬币将被认为在下一次试验中反面的可能性不成比例。

我在上一场比赛中表现不错,根据回归均值,下一场比赛我的表现可能会更差。

但根据赌徒谬误:考虑以下两个概率,假设硬币公平

  1. 20 个正面的概率,那么 1 个尾巴 =0.520×0.5=0.521
  2. 20 个正面的概率,那么 1 个正面 =0.520×0.5=0.521

然后...

考虑一个简单的例子:一个班级的学生对一个主题进行 100 项真/假测试。假设所有学生在所有问题上随机选择。然后,每个学生的分数将是一组独立且同分布的随机变量中的一个的实现,预期平均值为 50。

当然,有些学生的分数会大大高于 50,而有些学生的分数会大大低于 50,这只是偶然。如果只选择得分最高的 10% 的学生并给他们第二次测试,他们再次在所有项目上随机选择,则平均分数将再次接近 50。

因此,这些学生的平均值将一直“回归”到所有参加原始测试的学生的平均值。无论学生在最初的考试中得分多少,他们在第二次考试中得分的最佳预测是 50。

特别是如果一个人只选择得分最高的 10% 的学生并给他们第二次测试,他们再次在所有项目上随机选择,平均分数将再次接近 50。

根据赌徒的谬误,难道不应该期望得分的概率相同,而不一定更可能接近 50?

Miller, JB 和 Sanjurjo, A. (2019)。当样本量被忽略时,经验如何证实赌徒的谬误。

4个回答

我认为可以通过考虑“回归均值”的概念实际上与过去无关来解决混淆。这只是同义反复的观察,在实验的每次迭代中,我们都期望平均结果。因此,如果我们之前的结果高于平均水平,那么我们预计结果会更差,或者如果我们的结果低于平均水平,我们预计会有更好的结果。关键是期望本身并不像赌徒谬误那样依赖于任何先前的历史。

如果你发现自己处于这样的位置,作为一个理性的人(并假设硬币公平),你最好的选择就是猜测。如果您发现自己处于迷信赌徒的境地,最好的办法是查看之前的事件并尝试证明您对过去的推理是正确的 - 例如“哇,头脑很热,是时候下注了!” 或“我们不可能再看到另一个正面 - 这种连续出现的可能性非常低!”。

赌徒的谬误是没有意识到每一串 20 枚硬币都非常不可能抛给我们- 例如,它不太可能先翻转 10 个正面然后 10 个反面,不太可能翻转正面和反面交替,不太可能分裂成 4 个,等等. 甚至不太可能翻转 HHTHHTTTHT.. 因为对于任何字符串,只有一种方法可以在许多不同的结果中发生这种情况因此,将这些中的任何一个混为“可能”或“不太可能”是一种谬误,因为它们都是等概率的。

回归均值是有根据的信念,即从长远来看,您的观察结果应该收敛到一个有限的期望值。例如 - 我打赌 20 次抛硬币中的 10 次是一个很好的选择,因为实现它的方法有很多。投注 20 个中的 15 个的可能性要小得多,因为达到最终计数的字符串要少得多。值得注意的是,如果你坐在那里并翻转(公平)硬币足够长的时间,你最终会得到大约 50/50 的东西 - 但你不会得到没有“条纹”或其他不可能的东西其中的事件。这就是这两个概念之间差异的核心。

TL;DR:回归均值表明,随着时间的推移,您最终会得到一个反映任何实验中预期的分布。赌徒谬误(错误地)说,每次抛硬币都有关于先前结果的记忆,这应该会影响下一个独立结果。

这是一个简单的例子:你决定总共扔 200 个硬币。到目前为止,你已经扔了 100 个,而且你已经非常幸运:100% 出现正面(难以置信,我知道,但让我们保持简单)。

以前 100 次投掷中有 100 次正面为条件,您预计在游戏结束时总共有 150 次正面。赌徒谬误的一个极端例子是,即使在前 100 次投掷中获得 100 次后,您仍然只期望总共 100 次正面(即开始游戏前的预期值)。赌徒错误地认为接下来的 100 次投掷一定是反面。回归平均值的一个例子(在这种情况下)是,当你完成游戏时,你的 100% 的头部率预计会下降到 150/200 = 75%(即接近 50% 的平均值)。

我总是试图记住,向均值回归并不是观察异常值的补偿机制。

有一个出色的赌博运行,然后去 50-50 之间没有因果关系。这只是一种有用的方式来记住,当您从分布中采样时,您最有可能看到接近均值的值(想想切比雪夫不等式在这里所说的)。