当重复测量研究中某些时间点的反应严重偏斜而某些时间点没有时该怎么办?

机器算法验证 重复测量 数据转换 偏度
2022-03-16 11:32:09

通常,当一个人在纵向设计中遇到连续但有偏差的结果测量(例如,具有一个受试者间效应)时,常见的方法是将结果转换为正常值。如果情况很极端,例如截断观察,人们可能会喜欢并使用 Tobit 增长曲线模型或类似的模型。

但是当我看到结果在某些时间点呈正态分布,然后在其他时间点严重倾斜时,我感到茫然;转型可能会堵塞一个泄漏,但会弹出另一个泄漏。在这种情况下,您有什么建议?是否有我不知道的混合效应模型的“非参数”版本?

注意:一个应用示例是一系列教育干预之前/之后的知识测试分数。分数开始正常,但后来聚集在量表的高端。

2个回答

假设问题出现在您的残差中(因为结果变量本身的分布通常不是问题),我将寻求调查问题的原因,而不是试图通过转换或应用来“修复”它非参数模型。

如果似乎有一种趋势(例如,逐渐变得或多或少正常),或者从正常到不正常之间有明显的中断,那么它表明某种“政权更迭”在您的数据(即数据生成机制随时间而变化)或某种类型的缺失变量问题。

如果没有明显的模式(例如,时间段 1 和 3 看起来正常,时间段 2 和 4 不正常),我会非常仔细地寻找数据完整性问题。

检查您是否确实有制度变化的一种简单方法是仅使用“正常”时间段来估计模型,然后使用其他时间段重新估计,看看会发生什么差异。一种更复杂的方法是使用潜在类模型,也许将时间作为伴随变量。

至于你关于非参数混合效应模型的问题,它有点取决于你所说的非参数是什么意思。如果您的意思是不假设数字因变量的模型,那么有很多这样的模型(例如,LIMDEP 有很多)。另外,请记住,如果您的样本量很小,那么从推理的角度来看,违反正态性假设可能只会有问题。对此进行调查的一种方法是尝试其他评论和答案中讨论的各种转换,看看它是否会对您的结论产生很大影响。

Box-Cox 变换将变量提升到幂 lambda,其中 lambda 包含在模型参数估计中。我不熟悉Tukey的折叠电源变换,所以我不知道我们说的是不是同一件事。为了估计 lambda,您需要拟合多个点。您是否想在每个时间点拟合不同的分布,其中分布是在每个时间点参加测试的一组受试者上定义的?即使是这种情况,如果您知道某些时间点应该具有相同的分布,您可能希望将它们组合成一个拟合。

另一种非参数且不涉及转换为正态性的方法是在每个时间点或每个组合的时间点集应用引导程序。