如果您对横截面数据运行 OLS 回归,您是否应该测试残差中的自相关?

机器算法验证 多重回归 最小二乘 自相关 残差 横截面
2022-03-16 18:52:02

我有一组独立于时间的观察结果。我想知道是否应该运行任何自相关测试?在我看来,这没有任何意义,因为我的数据中没有时间成分。但是,我实际上尝试了序列相关 LM 检验,它表明残差具有很强的自相关性。这有什么意义吗?我在想的是,我实际上可以以任何可能的顺序重新排列我的数据集中的观察结果,这会改变残差的自相关。所以问题是——在这种情况下我应该关心自相关吗?如果测试表明是这样,我应该使用 Newey-West 来调整 SE 吗?谢谢!

2个回答

数据之间的真正区别在于它们是否存在与现实世界结构相对应的自然排序,并且与手头的问题相关。

当然,最清晰(且无可争辩)的“自然顺序”是时间顺序,因此通常是“横截面/时间序列”的二分法。但正如评论中所指出的,我们可能有非时间序列数据,但它们仍然具有自然的空间顺序。在这种情况下,在时间序列分析的背景下开发的所有概念和工具在这里同样适用,因为您应该意识到存在有意义的空间排序,并且不仅要保留它,还要检查它可能意味着什么误差项的序列,以及与整个模型相关的其他内容(例如趋势的存在,这会使数据变得非平稳)。

对于一个(粗略的)示例,假设您收集了关于在特定日期(这是因变量)沿高速公路的各种停靠站停靠的汽车数量的数据。您的回归器测量每个停靠站提供的各种设施/服务,也许还有其他因素,例如与高速公路出口/入口的距离。这些场所自然是沿高速公路排列的……

但这有关系吗?我们是否应该保持顺序,甚至想知道误差项是否是自相关的?当然:假设 1 号机构的某些设施/服务在这一特定日子实际上无法正常工作(该事件将被错误术语捕获)。打算使用这些特定设施/服务的汽车仍然会停下来,因为他们不知道问题所在。但是他们会发现问题,所以,因为问题,他们也会停在下一个机构,2号,在哪里,如果他们想要的是提供的,他们会得到服务,他们不会停留在 3 号机构——但是 2 号机构有可能看起来很贵,所以他们毕竟也会尝试 3 号机构:这意味着三个成立的因变量可能不是独立的,这相当于说三个对应的误差项存在相关的可能性,而不是“相等”,而是取决于它们各自的位置。

因此要保留空间顺序,并且必须执行自相关测试——它们将是有意义的。

另一方面,如果对于特定数据集似乎不存在这种“自然”且有意义的排序,则不应将观察值之间的可能相关性指定为“自相关”,因为它会产生误导,并且专门为有序开发的工具数据不适用。但是相关性很可能存在,尽管在这种情况下,检测和估计它相当困难。

只需添加另一个示例(更常见),您可能会在横截面数据中发现自相关,并且当您有一组观察时。例如,如果你有 1000 个孩子的标准化考试的一个数学成绩,但这些孩子来自 100 所不同的学校,那么认为观察结果不是独立的是合适的,因为学校的整体数学成绩可能与学生的个人表现。

在这种情况下,如果您在模型中省略了学校 ID 术语,您将省略一个相关变量,这可能会使您的估计产生偏差。此外,如果在除均值(方差、偏度和峰度)之外观察到数学分数分布存在相关差异,您可能应该考虑在模型中使用稳健错误(或在学校级别对错误进行聚类)。这不会改变您的系数,但可能会显着改变模型的 t 检验和 f 检验统计数据,因为您现在正在考虑可能违反第四个 OLS 假设(恒定方差)的情况。

总而言之,如果您的横截面数据中有组,并且这些组很重要,那么观察结果不是独立的也是合理的。因此,您应该按组进行控制(例如,通过组的固定效应模型)并在组级别使用稳健的误差,以便对您的系数及其 p 值更有信心。