如何在不同的调整之间进行选择R2R2公式?

机器算法验证 回归 r平方
2022-02-12 11:25:49

我想到了由以下人提出的调整后的 R 平方公式:

  • Ezekiel (1930),我相信它是 SPSS 目前使用的。

    Radjusted2=1(N1)(Np1)(1R2)

  • 奥尔金和普拉特 (1958)

    Runbiased2=1(N3)(1R2)(Np1)2(N3)(1R2)2(Np1)(Np+1)

在什么情况下(如果有的话)我应该更喜欢“调整”而不是“不偏不倚”R2?

参考

  1. 以西结,M. (1930)。相关分析方法约翰威利父子,纽约。
  2. 奥尔金一世,普拉特 JW(1958 年)。某些相关系数的无偏估计。数理统计年鉴,29(1),201-211。
2个回答

的选择R2或调整R2取决于你想要做什么。在回归上下文中,正则R2用作模型拟合优度的度量。但是,假设您正在比较几个具有不同数量参数的模型。在所有条件相同的情况下,具有更多参数的模型将更符合您的观察。在极限情况下,您可以拥有一个模型,其中每个数据点的参数都只有一个;这将使您完美地适应您的观察结果,但对于新的预测将无用,因为它会捕获潜在的“信号”和任何相关的噪声。调整后R2是试图通过调整来解决这个问题R2根据模型中参数的数量取值。

因此,它们的用途略有不同。R2描述了不同数据集对模型的拟合程度。您可能会写类似“上述模型准确地预测了 A 部分的性能(r2=0.9),但不是小部件 B (r2=0.05) 在标准测试条件下。" 调整R2描述了不同模型对相同数据(或相似数据)的拟合程度。例如,“短期和长期问卷的结果对客户的年度支出的预测同样好(调整后的R2= 0.8 两者)。”

不想因@ttnphns 的回答而受到赞扬,我想将答案从评论中移出(特别是考虑到文章的链接已经失效)。马特克劳斯的回答提供了一个有用的讨论R2Radj2但它没有讨论哪个决定Radj2在任何给定情况下使用的公式。

正如我在这个答案中所讨论的那样,Yin and Fan (2001) 很好地概述了用于估计总体方差的许多不同公式。ρ2, 所有这些都可能被标记为一种调整过的R2.

他们执行模拟以评估在各种调整后的 r 平方公式中,哪些可以为不同的样本量提供最佳的无偏估计,ρ2, 和预测变量的相关性。他们认为普拉特公式可能是一个不错的选择,但我不认为这项研究对此事是确定的。

更新: Raju 等人 (1997) 注意到调整R2公式的不同取决于它们是否旨在估计调整后的R2假设固定 x 或随机 x 预测器。具体来说,Ezekial 公式旨在估计ρ2在固定 x 上下文中,Olkin-Pratt 和 Pratt 公式旨在估计ρ2在 random-x 上下文中。Olkin-Pratt 和 Pratt 公式之间没有太大区别。Fixed-x 假设与计划的实验一致,random-x 假设与您假设预测变量的值是可能值的样本(如观察性研究中的典型情况)一致。请参阅此答案以进行进一步讨论两种类型的公式之间也没有太大差异,因为样本量适中(参见此处了解差异大小的讨论)。

经验法则摘要

  • 如果您假设您对预测变量的观察是来自总体的随机样本,并且您想要估计ρ2对于预测变量和标准的全部人群(即随机 x 假设),然后使用 Olkin-Pratt 公式(或 Pratt 公式)。
  • 如果您假设您的观察结果是固定的,或者您不想泛化超出您观察到的预测变量水平,则估计ρ2用以西结公式。
  • 如果您想了解使用样本回归方程的样本外预测,那么您需要研究某种形式的交叉验证程序。

参考

  • Raju, NS, Bilgic, R., Edwards, JE, & Fleer, PF (1997)。方法审查:估计总体有效性和交叉有效性,以及在预测中使用相等的权重。应用心理测量,21(4),291-305。
  • 尹 P. 和范 X. (2001)。估计R2多元回归中的收缩:不同分析方法的比较。实验教育杂志,69(2),203-224。PDF格式