使用面板/纵向数据在回归中标准化您的数据是一种好习惯吗?

机器算法验证 r 回归 标准化
2022-01-21 23:40:56

一般来说,我在回归中标准化我的自变量,以便正确比较系数(这样它们就有相同的单位:标准差)。但是,对于面板/纵向数据,我不确定我应该如何标准化我的数据,特别是如果我估计一个层次模型。

要了解为什么它可能是一个潜在问题,假设您有个沿个周期测量的个体,并且您测量了一个因变量和一个自变量如果您运行完整的池化回归,则可以以这种方式标准化您的数据:,因为它不会改变 t-统计。另一方面,如果您拟合一个未合并的回归,即每个人的一个回归,那么您应该仅按个人标准化您的数据,而不是整个数据集(在 R 代码中):i=1,,nt=1,,Tyi,txi,tx.z=(xmean(x))/sd(x)

for (i in 1:n) {
  for ( t in 1:T) x.z[i] =  (x[i,t] - mean(x[i,]))/sd(x[i,]) 
}

但是,如果您拟合一个简单的分层模型,其中个体截距不同,那么您正在使用收缩估计器,即,您正在估计合并和非合并回归之间的模型。我应该如何标准化我的数据?像汇总回归一样使用整个数据?仅使用个人,例如在未合并的情况下?

2个回答

我看不出标准化在普通回归或纵向模型中是一个好主意。它使预测更难获得,并且通常不能解决需要解决的问题。如果模型中有怎么办。你如何标准化如果模型中有一个连续变量和一个二元变量怎么办?你如何标准化二进制变量?当然不是通过它的标准偏差,这将导致低流行变量具有更大的重要性。xx2x2

一般来说,最好在的原始尺度上解释模型效果。x

除了标准化之外,还有另一种方法可以将用不同尺度测量的变量带到相同的度量标准。它被称为最大缩放比例 (POMS),它不会像 z 变换那样与多元分布混淆。

Todd Little 在他关于纵向结构方程建模的书中明确推荐 POMS 优于 z 标准化。Z 变换在处理纵向数据时会带来额外的问题,请参见此处:https ://www.ncbi.nlm.nih.gov/pmc/articles/PMC4569815/