我一直在阅读多级建模,并注意到许多来源似乎将其视为使用集群稳健标准错误的“替代方案”。
我的问题:它们真的是替代品吗?
特别是,假设您有面板数据(例如,加利福尼亚州每个县的每个农场的产量——从 1999 年到今天每年测量一次)。此外,假设您正在尝试评估某些政府政策对产出的影响(该政策在县级推出,适用于一些县,但不是所有县)。
显然,将所有数据汇集到一个简单的回归中——
# Naive
Output ~ Policy
——会很糟糕。
特别是,您的标准误差将太小,因为误差可能会在给定县内大量相关。
也就是说,即使执行以下操作 -
# Better
Output ~ Policy + County
——不会很好。您已经消除了由县之间的差异引起的错误,但是您忽略了给定县内错误的潜在相关性。
那么,“解决方案”可能是运行“更好”回归,但对标准错误进行聚类(以考虑异方差/自相关)。也许你甚至会疯狂地在县和年份上进行双向聚类。(这假设您有足够的组来进行集群工作。)
现在,让我们回到原来的、有缺陷的回归:
Output ~ Policy
如果我包括县(或见鬼——县和年)的随机截距,我现在是否清楚,推理?
对我来说,似乎我基本上回到了我的第二次回归。我已经消除了县之间差异引起的错误,但我仍然忽略县内剩余的错误。因此,可能仍然需要对我的错误进行聚类,对吧?
我还没有看到很多关于这个的讨论,所以我可能错过了一些非常明显的东西:请原谅我的无知!