与分类数据相比,使用汇总数据“更合适”:解释?

机器算法验证 回归 多项分布 聚合
2022-04-08 14:25:45

我已经将多项回归模型拟合到两个不同的数据集,但来自同一个国家,对应于同一个事件。

数据集 A 是一个聚合数据集(在国家层面),将 6 级响应量表与解释变量 V 相关联。样本量为 41,样本中的每个单独点代表给定值的每个响应级别的实例计数五。

数据集 B 是城市级别(1 个城市)的分解数据集,将相同的 6 级响应尺度与数据集 A 相同的 V 相关联。样本中的每个单独点是一对(V,响应级别)。样本量为 265。

我预计,考虑到数据集 A 聚合导致的信息丢失,模型的拟合会比将模型拟合到 B 时更差。但是,我观察到相反的情况:使用 A 产生明显更好的观察结果。预期概率比使用 B.

为什么会这样?

使用小样本的汇总数据是否仍然不如使用大样本的分类数据,但仅通过检查观察到的和预期的概率是无法检测到的?

1个回答

聚合数据之间的相关性或其他关系通常比单个数据或未聚合数据显示出更强的关系。基本上,如果两者之间存在线性关系xy并且您还有一个与以下相关的分组变量x和/或y然后仅查看组的平均值(或其他聚合)将消除组内的大部分变化,同时保持关系,使关系在总体上看起来更强。

这是一些 R 代码来模拟一些数据并将原始数据与聚合数据进行比较,查看图表以查看较低的变化和较高的相关性:

library(MASS)

tmp.s <- matrix(0.7, nrow=3, ncol=3)
diag(tmp.s) <- 1

set.seed(0)
tmp <- mvrnorm(100, mu=rep(10, 3), tmp.s)

x <- tmp[, 1]
y <- tmp[, 2]
g <- as.numeric(cut(tmp[, 3], quantile(tmp[, 3], (0:10) / 10), 
    include.lowest=TRUE))

plot(x, y, col=g, pch=g)

x2 <- tapply(x, factor(g), FUN=mean)
y2 <- tapply(y, factor(g), FUN=mean)
points(x2, y2, col=g, pch=g, cex=3)

图一

图 2

cor(x, y)
# [1] 0.6511773
cor(x2, y2)
[1] 0.9498334

一个相关的概念是生态谬误极端情况是辛普森悖论,聚合数据可以显示与个人数据相反的关系。