如何分析具有天花板效应的数据?

机器算法验证 偏度
2022-04-19 14:40:26

我们从 2 组 4 个时间点评估的人样本中生成了重复测量数据。我们希望随着时间的推移比较这些组。存在显着的缺失值。问卷非常不敏感,分数范围从 1 到 30,但绝大多数人的分数是 29 或 30。数字以指数方式下降到 29 以下。诚然,在第一次进行的测量中存在更多的向下传播时间点。对数转换(也不是任何转换)没有任何区别。尽管实际的问卷有明显的垃圾,但人们以前是否遇到过这种情况?目前,我们只是使用 29 作为分类分析的截止值。有什么更优雅的可以做的吗?

1个回答

是不是每个人的分数都是由30个二元问题的总和组成的?如果是这样,那么您应该分析原始数据(每个人的每个问题为 1 或 0)通用加性混合效应模型,将个体视为随机效应,并指定二项式链接。例如(在 R 中):

library(lme4)
fit1 = lmer(
    data = my_raw_data
    , formula = accuracy ~ (1|individual)
    , family = binomial
)

这将适合只有截距的模型。如果您在名为“A”的变量中编码了个体间操作,则可以通过以下方式评估 A 影响的证据数量:

fit2 = lmer(
    data = my_raw_data
    , formula = accuracy ~ (1|individual) + A
    , family = binomial
)
(AIC(fit1)-AIC(fit2))*log2(exp(1)) #bits of evidence for an effect of A

其中“证据位”是指以 log-base-2 标度表示的似然比。负位表示反对 A 影响的证据。

ez 包中的ezMixed()函数自动计算此类证据度量,并且函数有助于获取和可视化效果。ezPredict()ezPlot2()

如果我错了并且分数不代表 30 个二元问题的总和,而是一些较少数量的李克特编码问题的总和,您可以按照我在此处的建议重新编码对二项式的李克特响应,然后按上述方法进行。