什么是聚合偏差,它与生态谬误有何关系?

机器算法验证 聚合
2022-04-13 00:18:11

上下文与我有兴趣了解班级规模是否能预测测试结果的情况有关。我有每个人的测试结果,以及每个人的班级人数。我被警告不要简单地计算每个类的测试结果(因此创建一个新变量 class_test_average,然后使用 class_size 来预测 class_test_average。我被告知,如果我这样做,我可能会遇到“聚合偏差”的问题和“生态谬误”。然而,这些概念向我表达的方式有点摇摆不定。我已经掌握了生态谬误与宏观层面的关系将转化为微观层面的相同关系的推论有关。然而,我根本不了解聚合偏差。

这对我来说实际上并不是一个严重的问题,因为无论如何我都计划进行多级建模,我想这将避免聚合偏差和生态谬误。但是,我很好奇聚合偏差的真正含义。没有维基百科文章谈到这个问题,谷歌搜索会出现各种定义。但是,我认为该领域的经典引文是James (1982)

对我来说,偏差一词表明,通过聚合,我应该系统地推动结果,要么高估要么低估关系的规模。但是,我不清楚这是否真的发生了。

詹姆斯,LR (1982)。感知一致性估计中的聚合偏差。应用心理学杂志,67(2),219。

1个回答

来自克拉克和艾弗里(1976):

人们早就知道,使用汇总数据可能会产生相关系数,其在个体层面的值之上会表现出相当大的偏差 [10, 21];Blalock [2] 表明回归系数也可能存在偏差。众所周知,假设存在于一个分析层次上的关系必然会在另一个层次上表现出相同的强度是不正确的。从汇总数据得出的估计值仅对所采用的特定观测单位系统有效。就从统计分析中得出的因果推论而言,使用相关性和回归系数的潜在偏差估计来替代“真实”微观水平估计的后果是最严重的

稍后在论文中,关于聚合偏差和生态谬误如何相关(粗体是我的):

使用聚合数据最严重的缺点可能是基于单一分析水平进行有效的多层次推理的内在困难[1]。Alker 已经确定了三种类型的错误推论,如果研究人员试图从一个调查水平推广到另一个调查水平,这些推论可能会出现。个人主义谬误是试图从微观(个体)关系中推断宏观(聚合)关系。这是经济学家首先研究的经典聚合问题,根据 Hannan [15, p. 5] 它涉及对“行为单位”的观察进行分组的尝试,以调查部门或整个经济体的经济关系。” 跨层谬误当一个人在同一分析水平上从一个亚群推论到另一个亚群时,就会发生这种情况。生态谬误,从 Robinson [18] 的工作中得名,与个人主义谬误相反,涉及从较高的分析水平到较低的分析水平。罗宾逊证明了个体和生态相关性之间不一定存在对应关系,并且通常后者会大于前者。尽管生态谬误已被广泛讨论和宣传,但它仍然是涉及因果推理的研究中的常见错误。

华盛顿州克拉克和吉隆坡艾弗里(1976 年)。数据聚合在统计分析中的影响。地理分析,8(4),428-438。

该论文在 Google Scholar 上以 PDF 格式提供(未链接,因为链接中断)