上下文与我有兴趣了解班级规模是否能预测测试结果的情况有关。我有每个人的测试结果,以及每个人的班级人数。我被警告不要简单地计算每个类的测试结果(因此创建一个新变量 class_test_average,然后使用 class_size 来预测 class_test_average。我被告知,如果我这样做,我可能会遇到“聚合偏差”的问题和“生态谬误”。然而,这些概念向我表达的方式有点摇摆不定。我已经掌握了生态谬误与宏观层面的关系将转化为微观层面的相同关系的推论有关。然而,我根本不了解聚合偏差。
这对我来说实际上并不是一个严重的问题,因为无论如何我都计划进行多级建模,我想这将避免聚合偏差和生态谬误。但是,我很好奇聚合偏差的真正含义。没有维基百科文章谈到这个问题,谷歌搜索会出现各种定义。但是,我认为该领域的经典引文是James (1982)。
对我来说,偏差一词表明,通过聚合,我应该系统地推动结果,要么高估要么低估关系的规模。但是,我不清楚这是否真的发生了。
詹姆斯,LR (1982)。感知一致性估计中的聚合偏差。应用心理学杂志,67(2),219。