机器算法验证 - 即使使用多级模型，我是否应该对标准错误进行聚类？ - 吾爱随笔录

我一直在阅读多级建模，并注意到许多来源似乎将其视为使用集群稳健标准错误的“替代方案”。

我的问题：它们真的是替代品吗？

特别是，假设您有面板数据（例如，加利福尼亚州每个县的每个农场的产量——从 1999 年到今天每年测量一次）。此外，假设您正在尝试评估某些政府政策对产出的影响（该政策在县级推出，适用于一些县，但不是所有县）。

显然，将所有数据汇集到一个简单的回归中——

# Naive
Output ~ Policy

——会很糟糕。

特别是，您的标准误差将太小，因为误差可能会在给定县内大量相关。

也就是说，即使执行以下操作 -

# Better
Output ~ Policy + County

——不会很好。您已经消除了由县之间的差异引起的错误，但是您忽略了给定县内错误的潜在相关性。

那么，“解决方案”可能是运行“更好”回归，但对标准错误进行聚类（以考虑异方差/自相关）。也许你甚至会疯狂地在县和年份上进行双向聚类。（这假设您有足够的组来进行集群工作。）

现在，让我们回到原来的、有缺陷的回归：

Output ~ Policy

如果我包括县（或见鬼——县和年）的随机截距，我现在是否清楚，推理？

对我来说，似乎我基本上回到了我的第二次回归。我已经消除了县之间差异引起的错误，但我仍然忽略县内剩余的错误。因此，可能仍然需要对我的错误进行聚类，对吧？

我还没有看到很多关于这个的讨论，所以我可能错过了一些非常明显的东西：请原谅我的无知！