集群标准错误 - 为什么 SE 比 OLS 更小或更大取决于集群级别?

机器算法验证 回归 最小二乘 聚集标准错误
2022-03-23 07:40:48

我正在使用 OLS 模型分析一些数据。数据代表为美国城市工作的经理。在每个城市中,我们调查了不止一位经理(最多 5 位)。对每个州的多个城市进行了调查。

我想使用聚类标准误差来解释城市或州一级可能出现的聚类(州政策可能与我们的研究相关)。一些研究人员(例如,Cameron & Miller, 2015)建议在最高级别(在我的情况下为州级别)进行聚类。作为检查,我尝试在两个级别上估计集群 SE,并且:

  1. 当我在城市级别使用集群 SE 时,标准误差会稍微变大,但总体上它们与 OLS 结果非常相似。
  2. 当我在州级使用集群 SE 时,标准误差变得更小,导致与 OLS 模型完全不同的结果。

造成这种差异的可能原因是什么?我应该考虑哪些估计?当我查看状态级别时,标准错误变化更多的事实,这是否表明状态级别的聚类更重要?

我的样本包含 2250 个观测值,分组在 487 个城市(平均集群大小 = 4,但一些集群大小 = 1)和 49 个州(平均集群大小 = 30)。

2个回答

您观察到的情况可以通过集群内测量值的相关性来解释。即,当您选择不考虑这些相关性的分析(例如 OLS)时,您预计会高估集群内效应的标准误,而低估集群间效应的标准误。

您链接的 Cameron 和 Miller 论文中第六页上的方差膨胀方程 (6)(针对下面不相等的集群大小进行了调整)包含直觉。如果您在感兴趣的回归量或城市内的误差(这两个ρs),但在states之间存在负相关,这可以解释您所看到的模式。这可以通过不相等的集群大小乘以ρs 在两个聚类级别。您可以估计这些来确认这一点。

您没有提供设置的任何详细信息,因此很难举例说明在您的情况下如何发生这种情况。一个例子是,如果您的数据中有一种由当地繁荣驱动的从农村向城市迁移的模式。那么来自城市的所有观察结果都可能具有正相关的正残差,捕捉那里的繁荣,而农村地区由于萧条而具有正相关的负残差,但在州内,如果农村观察结果的残差与城市的残差呈负相关,则移民在州内移动。这里还有另一个例子,有更多解释。

此外,您应该尽可能使用更大和更多的聚合集群,直至并包括担心集群太少的程度。换句话说,您绝对不想总是聚集在最高级别(比如美国的四个人口普查地区)。不幸的是,“太少”没有明确的定义,但不到 50 人是人们开始担心的时候。