作为模型选择标准的理由和最优性R2一个_Ĵ 。Radj.2

机器算法验证 模型选择 r平方 最佳
2022-03-26 19:07:39

最近的一个线程中,在模型选择的上下文中提到了使用调整后的 (R2Radj.2

发明调整是为了解决由变量选择引起的问题

问题:是否有任何理由使用进行模型选择?也就是说,在模型选择的背景下是否具有任何最优性?Radj.2Radj.2

例如,AIC 是一个有效的标准,而 BIC 是一个一致的标准,但与它们中的任何一个都不重合,所以我想知道它是否可以在任何其他意义上是最优的。R2

3个回答

我不知道是否具有模型选择的任何最佳属性,但在这种情况下肯定会教授(或至少提到)它。一个原因可能是因为大多数学生很早就遇到了,所以有一些东西可以建立。Radj.2R2

一个例子是奥斯陆大学的以下试卷(参见问题 1。)该课程中使用的文本,生物统计学线性、逻辑、生存和重复测量模型中的回归方法第二版,作者:Eric Vittinghoff、David V. Glidden、Stephen C. Shiboski 和 Charles E. McCulloch 在他们关于变量选择的第 10 章早期提到了(例如,作为惩罚小于 AIC),但在他们的总结中既没有提到它也没有提到 AIC/建议 10.5。 Radj.2

所以它可能主要用于教学,作为模型选择问题的介绍,而不是因为任何最优属性。

第 1 部分的答案:

  1. 如果添加更多变量,即使是完全不显着的变量,R 2也只能上升。调整后的 R 2并非如此您可以尝试运行多元回归,然后添加随机变量,看看 R 2发生了什么以及调整后的 R 2发生了什么。

我会提出六个最优属性。

  1. 过拟合缓解
  2. 简单和简约
  3. 一般共识
  4. 半有效因子识别
  5. 对样本量变化的鲁棒性
  6. 解释性实用程序

过拟合缓解

什么样的模型是过拟合?在某种程度上,这取决于模型的用例。假设我们正在使用一个模型来测试是否存在假设的因子水平关系。在这种情况下,倾向于允许虚假关系的模型是过拟合的。

“调整后的 R2 的使用……试图解释当模型中添加额外的解释变量时,R2 会自动和虚假地增加的现象。” 维基百科

简单和简约

简约的价值在于规范和经济原理。奥卡姆剃刀是规范的一个例子,根据我们所说的“正当性”,它可能通过也可能失败。

简单和节俭的经济原理更难驳斥:

  1. 具有许多因素的复杂模型收集数据的成本很高。
  2. 复杂模型的执行成本可能更高。
  3. 复杂的模型很难沟通和思考。商业和法律风险可能由此产生,以及一个人与另一个人沟通所花费的时间。

给定两个具有相同解释力 (R2) 的模型,则 AR2 选择更简单、更简约的模型。

一般共识

称义涉及共同的理解。考虑一个同行评审的情况。如果审阅者和被审阅者缺乏对模型选择的共同理解,则可能会出现问题或拒绝。

R2 是一个基本的统计概念,那些只熟悉基本统计的人仍然普遍理解 R2 是可游戏的,基于上述原因,AR2 比 R2 更受欢迎。

当然,与 AIC 和 BIC 等 AR2 相比,可能有更好的选择,但如果审阅者不熟悉这些,那么它们的使用可能不会成功作为理由。更糟糕的是,审稿人可能对自己有一个误解,在不需要的时候需要AIC或BIC——这本身就是不合理的。

我有限的理解表明,AIC 现在被许多人认为是相当随意的——特别是公式中的 2。已建议首选 WAIC、DIC 和 LOO-CV,请参见此处

我希望我们所说的“证明”并不是指“不存在更好的参数”,因为在我看来,某些更好的参数可能总是存在于我们不知道的情况下,因此这种证明方式总是失败。相反,在我看来,“合理”应该意味着“满足手头的要求”。

半有效因子识别

警告:我编造了这个术语,我可能用错了:)

基本上,如果我们对识别真正的因子关系感兴趣,我们应该期望 p < 0.5,即 P(B) > P'(B)。AR2 最大化满足了这一点,因为添加一个 p >= 0.5 的因子将减少 AR2。现在这不是完全匹配,因为我认为 AR2 通常会惩罚 p > 0.35-ish。

的确,AIC 通常会受到更多惩罚,但如果目标是识别给定数据集中所有具有可识别关系(至少是定向关系)的观察到的特征,我不确定这是一件好事。

对样本量变化的鲁棒性

这篇文章的评论中,Scortchi - Reinstate Monica 指出,“比较适用于不同 nos 观察值的模型的可能性(或者因此是 AIC)是没有意义的”。相反,r-squared 和adjusted r-squared 是绝对度量,可以与样本数量的变化进行比较。

这对于包含一些可选问题和部分回答的调查问卷可能很有用。在这种情况下,注意诸如响应偏差之类的问题当然很重要。

解释性实用程序

在这里,我们被告知“R2 和 AIC 正在回答两个不同的问题……R2 正在说明您的模型对观察数据的解释程度……另一方面,AIC 试图解释该模型将根据新数据进行预测。”

因此,如果用例是非预测性的,例如在理论驱动的因子水平假设检验的情况下,AIC 可能被认为是不合适的。