Gelman & Hill 在纵向数据背景下的“不”、“完整”和“部分”池化

机器算法验证 回归 混合模式 面板数据 多层次分析 汇集
2022-03-18 03:23:05

在 Gelman 和 Hill 的Data Analysis Using Regression and Multilevel/Hierarchical Models中,他们提出了一个非常有说服力的“随机”效应的想法,在无池化之间提供了一种折衷(即包括每个组变量的指标并估计每个组变量的不同截距) ) 和完整的池化(不包括任何组级别的预测变量,因此强制组具有相同的截距)。他们说,包括一个“随机”截距项(即允许截距项有自己的概率分布)是一种理想的折衷方案——因为当组级数据稀缺或嘈杂时,它可以将组级效应缩小到总体水平平均值.

然而,“随机截距”模型的一个常见用途是在纵向研究中,对同一个体进行多次测量。在这种情况下,每个组都是一个单独的个体。在这里,我看不到如何估计组级截距的方差-“部分汇集”的想法对我来说不再有意义。任何人都可以澄清这两种情况下理解随机截距的区别吗?如果纵向研究中在多个时间点测量受试者的随机截距模型不能理解为“部分汇集”,那么应该如何更好地理解它们?

1个回答

从多级模型的方程开始会很有帮助,该方程适用于数据是横截面(多级)还是人周期(纵向):

在级别 1(集群内):yij=β0j+eij,eijN(0,σe2)

在第 2 级(集群之间):β0j=γ00+u0j,u0jN(0,σu2)

在纵向上下文中,是从所有观察到的数据点估计的总平均值 - 结果 y 的平均值。如果不是所有个体都被测量相同的次数,那么这将成为结果的加权平均值。随机截距是每个人的平均结果值偏离大均值的程度。人的平均偏差在周围的分布可以通过方差估计 ( ) 来概括。γ00u0jγ00σu2

部分合并由重复观察的数量以及 1 级和 2 级方差(本质上是个人级别的总变异量)决定。因此,如果 A 有两次结果数据,B 有 5 次结果数据,则 A 的预测将比 B 的预测u0jγ00

在多层次(群体作为集群)和纵向(个人作为集群)案例之间来回转换这些想法需要时间和精力,但这是充分理解混合效应模型的关键部分。如果还有什么不清楚的,请发表评论。