不平衡不一定是一个问题,但你如何到达那里可能是一个问题。将抽样策略建立在目标变量上是不合理的。因为这个变量在你的回归模型中包含了随机性,如果你基于这个进行抽样,你在进行任何类型的推理时都会遇到很大的问题。我怀疑是否有可能“撤销”这些问题。
您可以根据预测变量合理地过采样或过采样。在这种情况下,如果您仔细检查模型假设是否有效(例如,在这种情况下想到的同方差性很重要,如果您对通常的假设进行“普通”回归),我认为您不需要预测时撤消过采样。您的案例现在类似于一个分析师,他明确地设计了一个实验来获得平衡的预测变量范围。
编辑-添加-扩展为什么基于 Y 采样不好
在拟合标准回归模型,预计 e 服从正态分布,均值为零,并且独立同分布。如果您根据 y 的值(包括和的贡献)选择样本,则 e 将不再具有零均值或同分布。例如,可能包括非常低的 e 值的低 y 值可能不太可能被选择。这会破坏任何基于拟合此类模型的常用方法的推断。可以进行类似于计量经济学中用于拟合截断模型的校正,但它们很痛苦并且需要额外的假设,并且只能在别无选择时使用。y=Xb+eeeXb
考虑下面的极端例子。如果您在响应变量的任意值处截断数据,则会引入非常显着的偏差。如果将其截断为解释变量,则不一定有问题。您会看到绿线基于因其预测值而选择的子集,非常接近真实拟合线;蓝线不能这样说,仅基于蓝点。
这延伸到欠采样或过采样的不太严重的情况(因为截断可以被视为达到其逻辑极端的欠采样)。
# generate data
x <- rnorm(100)
y <- 3 + 2*x + rnorm(100)
# demonstrate
plot(x,y, bty="l")
abline(v=0, col="grey70")
abline(h=4, col="grey70")
abline(3,2, col=1)
abline(lm(y~x), col=2)
abline(lm(y[x>0] ~ x[x>0]), col=3)
abline(lm(y[y>4] ~ x[y>4]), col=4)
points(x[y>4], y[y>4], pch=19, col=4)
points(x[x>0], y[x>0], pch=1, cex=1.5, col=3)
legend(-2.5,8, legend=c("True line", "Fitted - all data", "Fitted - subset based on x",
"Fitted - subset based on y"), lty=1, col=1:4, bty="n")