样本量对调整后的 R 平方值有什么影响?
随着样本量的增加,调整后的 R 平方会发生什么变化?
机器算法验证
样本量
r平方
2022-03-18 09:30:33
2个回答
调整后的 r 平方旨在作为使用总体回归方程解释的总体方差的无偏估计。调整后的 r 平方有几种不同的公式,并且解释了总体方差的各种定义(例如,固定与随机 x 假设)。最常见的是,统计软件会报告做出固定 x 假设的以西结公式。
一般来说,随着样本量的增加,
- 预期调整 r 平方和预期 r 平方之间的差异接近于零;从理论上讲,这是因为预期的 r 平方变得不那么有偏差。
- 调整后的 r-squared 的标准误差会变小,接近零。
因此,主要的带回家的信息是,如果您对解释的总体方差感兴趣,那么调整后的 r-squared 总是比 r-squared 更好的选择。也就是说,随着您的样本量变得非常大,r-squared 不会有那么大的偏差(请注意,对于具有大量预测变量的模型,样本量需要更大,r-squared 才能接近无偏)。
这是 R 中的一个简单函数,它模拟两个高斯变量并将它们复制到扩大样本量而不改变它们的相关性。它用 R^2处的线在增加的副本上绘制调整后。
Adj.R.Squared=function(Sample.Size=10,Max.Copies=30,Noise=1){Adj.R²=c();y=rnorm(Sample.Size)
x=y+Noise*rnorm(Sample.Size);Copies=1:Max.Copies;for(i in 1:Max.Copies)
{Adj.R²=append(Adj.R²,summary(lm(rep(y,i)~rep(x,i)))$adj.r.squared)}
plot(Copies,Adj.R²);abline(h=summary(lm(y~x))$r.squared,col='red');lines(Copies,Adj.R²)
legend('bottomright',c('Adj. R²','R²'),lty=1,col=c('black','red'),pch=c(1,NA))}
每次运行它都会生成新数据,但总是呈现或多或少相同的形状,如@JeromyAnglim 所描述的那样例如,使用:set.seed(1)

减少Noise(增加)将缩小和之间的差异随着的增加而减小,但不会改变样本量。增加会使调整后更慢地接近,但主要会缩小轴的比例。您可以增加以扩展Sample.SizeMax.Copies轴,或修改此函数以使用手动输入的数据或多个预测变量。我自己做了这个,但没有包含代码,因为它似乎并没有改变基本结论。这是对一个非常简单的问题的最简单的回答。因此,它的普遍性可能会受到限制。