R2R2的回归预测噪声

机器算法验证 多重回归 r平方
2022-04-16 22:39:58

如果您使用 p 个预测变量估计多元回归

y=c0+c1x1+c2x2++cpxp+e

观察中,如果预测变量和响应具有零相关性的多元正态分布,作为平均是多少?对于我认为应该接近零,但我想知道这发生的速度有多快。nR2npn>>pR2

1个回答

根据这个问题,我们有 鉴于您假设错误正态性(结果回归量也不需要多元正态)。

R2Beta(p12,np2)

那里的答案还表明,这种分布的模式(您当然可能还想查看分布的均值或其他特征)是

modeR2=p121p12+np22=p3n5

为了使分布具有唯一且有限的模式,我们必须具有

p>3,n>k+2.

因此,我们看到,对于固定p, 模式下降到零Op(1/n), 但是对于“过度拟合”的模型来说,模式与零相差很大p相对于n.

n <- seq(10, 100, 10)
p <- seq(4, 30, 3)
modes <- outer(n, p, function(n, p) ifelse(n>p+2, (p-3)/(n-5), NA))

library(plotly) 
plot_ly(x=n, y=p, z=t(modes), type="surface") %>% layout(
    scene = list(
      xaxis = list(title = "n"),
      yaxis = list(title = "p"),
      zaxis = list(title = "R^2")))

在此处输入图像描述