在 OLS 中,两个变量的回归的是否可能高于单个变量的两个回归
编辑:呃,这很简单;这就是我尝试解决我在健身房时想到的问题所得到的。抱歉又浪费时间了。答案显然是肯定的。
,很明显。但是的极限应该是 0,而的极限应该是 0.5。
在 OLS 中,两个变量的回归的是否可能高于单个变量的两个回归
编辑:呃,这很简单;这就是我尝试解决我在健身房时想到的问题所得到的。抱歉又浪费时间了。答案显然是肯定的。
,很明显。但是的极限应该是 0,而的极限应该是 0.5。
这是 R 的一点点,它设置了一个随机种子,这将产生一个显示它的数据集。
set.seed(103)
d <- data.frame(y=rnorm(20, 0, 1),
a=rnorm(20, 0, 1),
b=rnorm(20, 0, 1))
m1 <- lm(y~a, data=d)
m2 <- lm(y~b, data=d)
m3 <- lm(y~a+b, data=d)
r2.a <- summary(m1)[["r.squared"]]
r2.b <- summary(m2)[["r.squared"]]
r2.sum <- summary(m3)[["r.squared"]]
r2.sum > r2.a + r2.b
不仅是可能的(正如你已经分析过的那样),它并不难做到。给定 3 个正态分布变量,它似乎有 40% 的时间发生。
这是不可能的。此外,如果 A 和 B 完全相关(如果它们的r不为零),则两者的回归 rsq 将小于它们各自回归的 rsq 之和。
请注意,即使 A 和 B 完全不相关,调整后的 rsq(对较低的案例与预测比率进行惩罚)可能在两种解决方案之间略有不同。
也许您想分享更多关于让您感到困惑的经验证据。