“思考,快与慢”中的均值回归

机器算法验证 标准差 回归系数 回归均值
2022-03-07 21:32:57

Thinking, Fast and Slow中,Daniel Kahneman 提出了以下假设性问题:

(P. 186) Julie 目前是一所州立大学的大四学生。她四岁时就能流利地阅读。她的平均绩点 (GPA) 是多少?

他的目的是说明在对某些统计数据进行预测时,我们经常无法解释均值回归。在随后的讨论中,他建议:

(P. 190) 回想一下,两个衡量标准之间的相关性——在本案例中是阅读年龄和 GPA——等于其决定因素之间共享因素的比例。你对这个比例的最佳猜测是什么?我最乐观的猜测是大约 30%。假设这个估计值,我们就拥有了产生无偏预测所需的一切。以下是如何通过四个简单步骤到达那里的说明:

  1. 从平均 GPA 的估计开始。
  2. 确定与您对证据的印象相匹配的 GPA。
  3. 估计阅读早熟与 GPA 之间的相关性。
  4. 如果相关性为 0.30,则将 30% 的距离从平均值移动到匹配的 GPA。

我对他的建议的解释如下:

  1. 使用“她四岁时能流利阅读”来建立朱莉阅读早熟的标准分数。
  2. 确定具有相应标准分数的 GPA。(如果GPA 和阅读早熟之间的相关性是完美的,那么预测的合理 GPA 将对应于这个标准分数。)
  3. 估计 GPA 变化的百分比可以通过阅读早熟的变化来解释。(我假设他在这种情况下指的是具有“相关性”的决定系数?)
  4. 因为朱莉阅读早熟的标准分数只有 30% 可以用同样可以解释她 GPA 标准分数的因素来解释,所以我们只能有理由预测朱莉的 GPA 标准分数将是它的 30%在完全相关的情况下。

我对卡尼曼程序的解释是否正确?如果是这样,他的程序是否有更正式的数学证明,尤其是第 4 步?一般来说,两个变量之间的相关性与其标准分数的变化/差异之间的关系是什么?

2个回答

你的数字顺序与卡尼曼的报价不匹配。因此,您似乎可能错过了整体观点。

卡尼曼的第一点是最重要的。这意味着从字面上估计每个人的平均 GPA。这个建议背后的要点是它是你的锚。你给出的任何预测都应该参考这个锚点周围的变化。我不确定我是否在您的任何观点中看到了这一步!

Kahneman 使用首字母缩略词 WYSIATI,所见即所得。这是人类高估当前可用信息重要性的倾向。对于很多人来说,阅读能力的信息会让人觉得朱莉很聪明,所以人们会猜测一个聪明人的GPA。

但是,四岁孩子的行为包含很少与成人行为相关的信息。在进行预测时,您最好忽略它。它应该只会让你从你的锚点上摇晃一点。此外,人们对聪明人 GPA 的第一次猜测可能非常不准确。由于选择,大多数大学毕业生的智力高于平均水平。

不过,除了朱莉四岁时的阅读能力之外,这个问题实际上还有一些其他隐藏的信息。

  • 朱莉很可能是个女性名字
  • 她正在就读州立大学
  • 她是高级

我怀疑与整体学生人数相比,所有这三个特征都会略微提高平均 GPA。例如,我敢打赌,高年级学生的 GPA 可能比大二学生的高,因为 GPA 非常差的学生会辍学。

所以卡尼曼的程序(作为假设)会像这样。

  1. 州立大学女高中生的平均 GPA 为 3.1。
  2. 我猜根据朱莉 4 岁时的高级阅读能力,她的 GPA 是 3.8
  3. 我猜 4 岁时的阅读能力与 GPA 的相关性为 0.3
  4. 那么 3.1 和 3.8 之间的 30% 是 3.3(即3.1 + (3.8-3.1)*0.3

所以在这个假设中,朱莉的 GPA 的最终猜测是 3.3。

卡尼曼方法中的均值回归是,第 2 步可能严重高估了可用信息的重要性。因此,更好的策略是将我们的预测回归到整体平均值。第 3 步和第 4 步是(临时)估计要回归多少的方法。

我对卡尼曼程序的解释是否正确?

这有点难说,因为卡尼曼的第 2 步并没有非常精确地表述:“确定与你对证据的印象相匹配的 GPA”——这究竟是什么意思?如果某人的印象得到了很好的校准,那么就不需要向平均值进行校正。如果某人的印象非常糟糕,那么他们宁愿纠正得更厉害。

所以我同意@AndyW 的观点,即 Kahneman 的建议只是一个经验法则。

也就是说,如果您按照您在解释步骤##1--2 中的解释来解释卡尼曼的第 2 步:即您以相同的方式获得 GPAz- 得分为z- 将早熟阅读为“符合您对证据的印象”的分数,那么您的程序在数学上完全正确,而不是经验法则。

[...] 他的程序是否有更正式的数学证明,尤其是第 4 步?一般来说,两个变量之间的相关性与其标准分数的变化/差异之间的关系是什么?

如果你预测yx并且两者都转换为z-分数,即均值和单位方差为零,并且具有相关性ρ相互之间,那么可以很容易地证明回归方程将是

y=ρx,
即回归系数将等于相关系数。

从这里可以立即得出,如果您知道x(例如你知道阅读早熟的标准分数),那么预测值y(GPA的标准分数)将是ρ次。

这正是所谓的“回归均值”。您可以在 Wikipedia 上的讨论中看到一些公式和推导