样本量对 R 平方的影响

机器算法验证 回归 自习
2022-04-01 02:17:11

假设我生成了 2*n 个值X1,X2,...Xn,Y1,Y2...Yn从正态分布 N(10,15) 和 n = 10,100,1000,20000 并拟合回归线。这是一些结果

n=10,R2=0.03919n=100,R2=0.004381n=1000,R2=0.0001705n=20000,R2=2.386e06
从 n(样本量)开始增加的结果来看,R2开始变小。我该如何解释这种现象(提示会做)?谢谢

1个回答

我的猜测是你只运行了一次这些模拟。如果你运行它们几次,结果会有所不同。您可能会得到第一个较小的系数。但总的来说,这种模式的原因是因为基础总体的真正相关性为 0,并且您的模拟遵循大数定律