回归到均值谜题

机器算法验证 回归
2022-03-02 12:40:57

在丹尼尔·卡尼曼(Daniel Kahneman)的《思考,快与慢》的“回归均值”一章中,给出了一个例子,要求读者根据整体销售预测和上一年的销售数字来预测个别商店的销售情况. 例如(本书的示例有 4 个商店,为简单起见,我在这里使用 2 个):

Store    2011    2012
1        100      ?
2        500      ?
Total    600     660

1 号店和 2 号店的天真预测分别为 110 家和 550 家,每家增加 10%。然而,作者声称这种幼稚的方法是错误的。表现较差的商店更有可能增加超过 10%,而表现较好的商店增加(甚至减少)不到 10%。因此,也许 115(增长 15%)和 535(增长 7%)的预测会比天真的预测“更正确”。

我不明白的是,我们如何得出结论,商店 1 的销售额为 100 必然是表现较差的商店?可能因为位置的不同,1号店和2号店的真实时间序列均值分别是10和550,1号店2011年是超级的一年,2011年店2号是灾难年。那岂不是说得通预测商店 1 的减少和商店 2 的增加?

我知道原始示例中没有给出时间序列信息,但我的印象是“回归均值”是指横截面均值,因此时间序列信息无关紧要。我有什么误解?

3个回答

我碰巧在看那本书。您没有充分转录关键信息。它说:“所有商店的规模和商品选择都相似,但由于位置、竞争和随机因素,它们的销售额不同。” 这是关键,尤其是最后一点。随机因素对于回归均值是必要的(如果销售额增长固定数量,那么平均分散在商店中的 10% 收益将是正确的)。

由于数据点如此之少,答案几乎完全由先验(或隐含的等价物)决定。如果作者以前看过很多此类数据,考虑到他们过去的观察,他们很可能有充分的理由认为他们的答案更有可能是正确的。我认为建议这是回归均值的一个例子有点牵强,至少在没有指定更多信息的情况下是这样。例如,商店是否在可比较的位置?如果它们是并且商店之间没有其他明显差异,那么我们可能认为他们是可比人群的一部分是合理的,我们可以考虑回归均值。如果商店之间的明显差异可以解释销售的系统性差异,那么这样做就变得不明智了。

我认为更好的(假设的)插图可能是这样的:

Store    2011    2012
1        100      ?
2        180      ?
3        190      ?
4        210      ?
5        235      ?
6        300      ?

除非有系统原因,否则我们预计表现最差的人(随机原因)不会再次如此。对于表现最好的人也是如此。

因此,平均增长率为 10%,我预计 #1 的表现会好于 110,而 #6 的表现会低于 330。

我觉得不确定的部分是假设。恕我直言,落后者真的只是偶然的侥幸,而不是某种潜在的异质性,这是非常罕见的。