众所周知,添加更多回归量只能提高 。观察次数呢?假设您有一个大小为的样本,并且您绘制了一个大小为的随机子样本。原则上, 应该如何变化?
有两件事相当直观:
子样本大小越接近全样本,方差越小,平均值越接近全样本。自然,一旦样本相同,平均的分布就会退化为全样本的分布。
子样本越小,越接近1。实际上,当观测数等于变量数时,。
因此,问题的答案似乎遵循以下关系
其中是回归器的数量。关系的曲率可能取决于多种因素。
我在 R 中进行了尝试,上面的内容得到了证实。 = 790)的个子样本的密度图,三个不同的子样本大小分别等于。您可以看到离全样本(蓝线)越远,越小。
那么,如何取决于样本量?你知道关于这个的定理吗?
# Import data
library(data.table)
mydata <- fread('http://www.stats.ox.ac.uk/pub/datasets/csb/ch1a.dat')
# Compute benchmark R2 - all sample
fit <- lm(V3 ~ V2 + V4 + V5, data=mydata)
R2_benchmark <- summary(fit)$r.squared
# Compute R2 for M subsamples of size n
set.seed(263293) # obtained from www.random.org
M <- 10000
R2 <- numeric(M)
n <- 500
for(i in 1:M) {
mysample <- mydata[sample(1:nrow(mydata), n, replace=FALSE),]
fit <- lm(V3 ~ V2 + V4 + V5, data=mysample)
R2[i] <- summary(fit)$r.squared
}
# Compare
plot(density(R2))
abline(v = R2_benchmark, col="blue")
t.test(R2,mu = R2_benchmark, alternative="two.sided")