在丹尼尔·卡尼曼(Daniel Kahneman)的《思考,快与慢》的“回归均值”一章中,给出了一个例子,要求读者根据整体销售预测和上一年的销售数字来预测个别商店的销售情况. 例如(本书的示例有 4 个商店,为简单起见,我在这里使用 2 个):
Store 2011 2012
1 100 ?
2 500 ?
Total 600 660
1 号店和 2 号店的天真预测分别为 110 家和 550 家,每家增加 10%。然而,作者声称这种幼稚的方法是错误的。表现较差的商店更有可能增加超过 10%,而表现较好的商店增加(甚至减少)不到 10%。因此,也许 115(增长 15%)和 535(增长 7%)的预测会比天真的预测“更正确”。
我不明白的是,我们如何得出结论,商店 1 的销售额为 100 必然是表现较差的商店?可能因为位置的不同,1号店和2号店的真实时间序列均值分别是10和550,1号店2011年是超级的一年,2011年店2号是灾难年。那岂不是说得通预测商店 1 的减少和商店 2 的增加?
我知道原始示例中没有给出时间序列信息,但我的印象是“回归均值”是指横截面均值,因此时间序列信息无关紧要。我有什么误解?