什么是总体 R 平方的无偏估计?

机器算法验证 估计 多重回归 r平方 偏见
2022-02-09 12:42:25

我有兴趣得到一个公正的估计R2在多元线性回归中。

经过反思,我可以想到两个不同的值,它们的无偏估计R2可能正在尝试匹配。

  1. 样本外R2如果从样本中获得回归方程(即,β^) 应用于样本外部但来自相同数据生成过程的无限量数据。
  2. 人口R2如果获得无限样本并且模型拟合到该无限样本(即,β) 或者只是已知数据生成过程所隐含的 R 方。

我理解调整R2旨在补偿样本中观察到的过度拟合R2. 不过,是否调整尚不清楚R2实际上是一个无偏估计R2,如果是无偏估计,上述两个定义中的哪一个R2它的目的是估计。

因此,我的问题:

  • 我在上面所说的样本中的无偏估计是什么R2?
  • 什么是我所说的人口以上的无偏估计R2?
  • 是否有任何参考资料提供模拟或其他无偏见证明?
1个回答

对 R 平方的分析调整的评估

@ttnphns 向我推荐了 Yin and Fan (2001) 文章,该文章比较了不同的估计分析方法R2. 根据我的问题,他们区分了两种类型的估计器。他们使用以下术语:

  • ρ2:平方人口多重相关系数的估计量
  • ρc2:平方人口交叉有效性系数的估计量

他们的结果总结在摘要中:

作者进行了蒙特卡洛实验,以研究用于估计的分析公式的有效性R2收缩,具有 4 个完全交叉的因素(平方总体多重相关系数、预测变量的数量、样本大小和多重共线性程度)和每个单元格中的 500 次重复。结果表明,最广泛使用的 Wherry 公式(在 SAS 和 SPSS 中)可能不是用于估计的最有效的分析公式ρ2. 相反,普拉特公式和布朗公式在估计方面优于其他分析公式ρ2ρc2, 分别。

因此,文章暗示普拉特公式 (p.209) 是估计ρ2

R^2=1(N3)(1R2)(Np1)[1+2(1R2)Np2.3]

其中 N 是样本大小,p 是预测变量的数量。

R平方调整的经验估计

Kromrey 和 Hines (1995) 回顾了R2(例如,交叉验证方法)。他们表明这样的算法不适合估计ρ2. 这是有道理的,因为此类算法似乎旨在估计ρc2. 然而,读完这篇文章后,我仍然不确定某种形式的适当修正的经验估计是否仍能比分析估计在估计中表现得更好ρ2.

参考

  • Kromrey, JD, & Hines, CV (1995)。在多元回归中使用收缩的经验估计:一个谨慎。教育和心理测量,55(6),901-925。
  • 尹 P. 和范 X. (2001)。估计R2多元回归中的收缩:不同分析方法的比较。实验教育杂志,69(2),203-224。PDF格式