固定和随机效应模型的直觉是什么?

机器算法验证 回归 混合模式 随机效应模型 固定效应模型
2022-03-09 10:32:25

现在我很难掌握回归模型的固定效应和随机效应之间的区别。我相信我理解如果您考虑斜率的异质性,当数据嵌套在层次结构之间等时,建议使用随机效应。

但问题来了。

  1. 如果我们想反映不同群体之间的变化效果,为什么不直接放调节变量(交互项)呢?例如,如果不同班级的学习时间对GPA的影响不同,那为什么不给班级变量做一个虚拟变量,加上一个交互项呢?我不明白这里有什么意义。

  2. 对随机效应模型的大假设的总体直觉是什么?可以穿透随机效应模型逻辑的主要思想是什么?我不想要任何数学或统计解释,我想在脑海中画出一些假设的画面。

3个回答

考虑固定效应与随机效应的一种方法是检查固定效应估计器与随机效应估计器相比的工作方式。

假设我有公司的面板数据。yi,t成为公司的股息i有时t. xi,t成为我们所关注的自由现金流。

想象我们的模型是:

yi,t=βxi,t+ui+ϵi,t

所以公司的股息i有时t是总和β乘以自由现金流加上公司特定效应ui和一个固定的、特定时间的误差项 ϵi,t. 现在让我们想象两个不同的估计器:

  • 估计量β仅使用每个公司内的时间序列变化来估计。
  • 估计量β仅使用不同公司之间的差异进行估计。(中间估计量是β从横截面回归y¯i=βx¯i+vi.)

内估计量固定效应估计量。它去掉了每组的平均值和唯一剩余的变量来估计β是每个公司内的时间序列变化。如果固定效果可以是任何东西,这就是你必须做的。

随机效应估计量是组估计量和组估计量的加权平均值如果影响ui是随机的且均值为零,则公司之间的变异还包含有关β并且between估计量也是一致的估计量。与其剔除公司间变异(如在固定效应估计器中发生的那样),公司间变异在随机效应估计器中被赋予了一些权重β.

你可以从这个线程开始。正如fcop在评论中已经指出的那样,使用随机效应的一个例子是,你有多个级别的变量(教室),估计这么多参数需要大量数据和巨大的计算能力。在这种情况下,您通常不会对课堂效果本身感兴趣,而是对它们的总体影响感兴趣,您会假设它们有所不同,但可以使用常见分布进行汇总。也可能是您只有一个教室样本,而特定教室本身并不有趣,但用于了解与教室相关的一般可变性。因此,您使用随机效应对精确估计变量的参数不感兴趣,但您希望通过估计其水平可能影响的分布来考虑此类变量的影响。

关于虚拟变量,如果变量具有有限数量的值(例如您的情况下的教室),则有效,但当值数量众多时则无效,这就是诀窍;如果你有大量的值,那么你会得到大量的截距(或斜率),因此会有很多假人,然后你就不能很好地估计模型(你会失去很多自由度,因为你有很多解释变量) .

在这种情况下,您可以使用随机效果;即您假设截距是正态分布的,然后您的假人数量在正态分布中被“汇总”。后者只有两个参数(均值和标准差),因此无需估计大量的系数(即每个假人一个),您只需估计两个参数(均值和标准差)并且您知道分布拦截。这节省了很多自由度。