在Thinking, Fast and Slow中,Daniel Kahneman 提出了以下假设性问题:
(P. 186) Julie 目前是一所州立大学的大四学生。她四岁时就能流利地阅读。她的平均绩点 (GPA) 是多少?
他的目的是说明在对某些统计数据进行预测时,我们经常无法解释均值回归。在随后的讨论中,他建议:
(P. 190) 回想一下,两个衡量标准之间的相关性——在本案例中是阅读年龄和 GPA——等于其决定因素之间共享因素的比例。你对这个比例的最佳猜测是什么?我最乐观的猜测是大约 30%。假设这个估计值,我们就拥有了产生无偏预测所需的一切。以下是如何通过四个简单步骤到达那里的说明:
- 从平均 GPA 的估计开始。
- 确定与您对证据的印象相匹配的 GPA。
- 估计阅读早熟与 GPA 之间的相关性。
- 如果相关性为 0.30,则将 30% 的距离从平均值移动到匹配的 GPA。
我对他的建议的解释如下:
- 使用“她四岁时能流利阅读”来建立朱莉阅读早熟的标准分数。
- 确定具有相应标准分数的 GPA。(如果GPA 和阅读早熟之间的相关性是完美的,那么预测的合理 GPA 将对应于这个标准分数。)
- 估计 GPA 变化的百分比可以通过阅读早熟的变化来解释。(我假设他在这种情况下指的是具有“相关性”的决定系数?)
- 因为朱莉阅读早熟的标准分数只有 30% 可以用同样可以解释她 GPA 标准分数的因素来解释,所以我们只能有理由预测朱莉的 GPA 标准分数将是它的 30%在完全相关的情况下。
我对卡尼曼程序的解释是否正确?如果是这样,他的程序是否有更正式的数学证明,尤其是第 4 步?一般来说,两个变量之间的相关性与其标准分数的变化/差异之间的关系是什么?