固定效应何时真正固定?

机器算法验证 固定效应模型 哲学的
2022-03-26 04:59:47

考虑以下类型的线性未观察效应模型: 其中是未观察到但时不变的特征,是误差,分别索引个人观察和时间。固定效应 (FE) 回归中的典型方法是通过个体假人 (LSDV)/去意义或通过一阶差分

yit=Xitβ+ci+eit
ceitci

我一直想知道:什么时候真正“固定”?ci

这似乎是一个微不足道的问题,但让我举两个例子说明我背后的原因。

  1. 假设我们今天采访了一个人并询问她的收入、体重等,所以我们得到了在接下来的 10 天里,我们每天都去同一个人重新采访她,所以我们有她的面板数据。我们是否应该将未观察到的特征视为这 10 天的固定时间段,而它们肯定会在未来的某个其他时间点发生变化?10天后,她的个人能力可能不会改变,但随着年龄的增长会改变。或者用更极端的方式问:如果我每天每小时采访这个人10个小时,她未被观察到的特征很可能会固定在这个“样本”中,但这有多大用处?X

  2. 现在假设我们改为每月采访一个人,从她生命的开始到结束,持续了 85 年左右。这段时间什么会保持不变?出生地、性别和眼睛颜色最有可能,但除此之外我几乎想不出其他任何东西。但更重要的是:如果她的生活中有一个特点在某一时刻发生了变化,但变化却是无穷小呢?那么它就不再是一个固定的效果了,因为它在实践中这个特性是准固定的。

从统计的角度来看,什么是固定效应是相对清楚的,但从直观的角度来看,我觉得这很难理解。也许其他人之前有过这些想法,并提出了一个关于固定效应何时真正成为固定效应的争论。我非常感谢关于这个主题的其他想法。

3个回答

如果您对这个用于因果推断的公式感兴趣β那么未知量表示为ci只需要在研究期间/固定效应的数据保持稳定,以确定相关的因果量。

如果您担心由ci即使在此期间也不稳定,那么固定效果将无法满足您的要求。然后您可以改用随机效应,尽管如果您期望随机数之间的相关性ciXi你想要条件ciX¯i在多级设置中。关注这种相关性通常是固定效应公式的动机之一,因为在许多(但不是全部)情况下,您不需要担心它。

简而言之,您对表示的数量变化的担忧ci是非常合理的,但主要是因为它会影响您所拥有的时期的数据,而不是您可能拥有的时期或您最终可能拥有但没有的时期的数据。

固定效应和随机效应之间的区别通常对估计没有影响(编辑:至少在简单的教科书不相关案例中),除了效率问题,但对测试有相当大的影响。

出于测试的目的,您应该问自己的问题是您的信号应该超过的噪声水平是多少?即,您想将您的发现推广到哪些人群?使用示例(1):应该是同一天的变异,更长的时期,还是不同个体的变异?

你推断出的方差分量越多,你的科学发现就越有说服力,复制的机会就越大。您可以要求的泛化量自然是有限制的,因为不仅噪声变得更强,而且信号(E(ci)) 变弱。看到这个,想象一下E(ci)是预期的效果Xi在体重上,但不是在单个受试者的某些生命周期内,而是在所有哺乳动物的体重上。

我一直在为类似的问题而苦苦挣扎,请参阅Lord 的 A Festschrift(博客文章)、他的悖论和 Novick 的预测,这是我最好的尝试(如果我错了,希望能得到更正)。如果我们放弃非随机冲击,Xitβ,从等式我们可以得到:

yit=ci+eit

这可以被视为通过更早的时间回溯的随机游走:

yit=ci+eityit1=ci+eit1yityit1=eiteit1

所以这只是对共轭先验答案“只需要在研究期间保持稳定”的重新构建——但我发现重新构建很有用。因此,在研究期间,是否有理由认为在没有感兴趣的治疗的情况下,Xitβ部分,结果是否会是随机游走,仅由随机外生冲击引导 -eit的?当然,除了琐碎的迂腐情况外,这不是真的。

这就是我的建议结束的地方。正如 gung 提到的 George Box 短语,“所有模型都是错误的,但有些模型是有用的”。你会比我更了解如何确定这种简化在特定研究设计中何时是合理的。可以假设我们无法观察到ci就像随机游走不是现实的准确表示一样——即使是一小段时间。

对于您的调查的特定示例,我可能会猜测,测量流量类型数据(例如收入、体重)的问题可能是合理的,因为在特别短的时间范围内随机游走。不过,股票类型的数据(例如你今天喝了多少咖啡)似乎有点不正当的假设。