当 AIC 和 Adjusted得出不同的结论时R2R2

机器算法验证 拟合优度 aic r平方
2022-03-23 08:07:51

我希望可以在这里提出理论上驱动的 R 问题。R 从我的“模型比赛”中给了我以下结果。除了 3 个基本控制变量外,所有模型都完全不同。我很清楚 Model 3(第三列)是表现最好的。我担心的是,尽管 AIC 较低,但您如何从理论上解释为什么模型具有低 AIC 但也低R2R2

其次,假设我将模型 4 中的变量添加到其他每个模型中,并注意 AIC 分数的降低。如果每个模型的 AIC 减少量不同,这意味着什么?

当插入到一个非常不同的理论模型中时,插入的变量是否应该做得更好?

4 个模型 - 投票行为

[有关信息,我咨询了其他线程,但决定创建自己的线程,因为我仍然不清楚拟合优度和解释力之间的区别。] 使用 AICc 选择的“最佳”模型的平方比完整/全球模式R2

4个回答

R2和 AIC 正在回答两个不同的问题。我想保持这种轻松和非数学的,所以我的陈述是非数学的。 说明了您的模型对观察到的数据的解释程度。如果模型是回归并且使用未调整的 R^2,那么这在鼻子上是正确的。 另一方面,AIC 正试图解释该模型对新数据的预测效果如何。也就是说,AIC 是衡量模型对新数据的拟合程度,而不是现有数据。较低的 AIC 意味着模型应该具有改进的预测。 经常添加更多变量会降低预测准确性,在这种情况下,具有更高R2

R2将有更高(更差)的 AIC。一个很好的例子是“R 统计学习简介”一章的回归模型,包括“最佳子集”和正则化。他们对“击球手”数据集进行了非常彻底的分析。也可以做一个思想实验。想象一下,有人试图根据一些已知变量来预测输出。在拟合中添加噪声变量会增加 R^2,但也会降低模型的预测能力。因此,具有噪声变量的模型将具有更高的和更高的 AIC。R2

哪个型号更好是

1) 未选择使用 AIC 作为 AIC 仅比较相同数据集的拟合函数。

2) 没有天真地例如,如果假设两个变量不相关,那么最小的属于更好的模型。R2R2

3)仅在满足 OLS(普通最小二乘法)和/或最大似然的条件时才适合使用(调整或不调整)。与其说明所有 OLS 条件是什么,因为有多组规则都会导致 OLS 条件,让我们说明它们不是什么,也就是说,如果 x 轴有非常不正常的远异常值变量和低值,值不值得写在纸上。在这种情况下,我们将 3a)修剪异常值或 3b)使用(Spearman 秩和相关),3c)不使用 OLS 或最大似然,而是使用 Theil MLR 回归或逆问题解决方案,而不是尝试使用r 值。R2R2R2rs2

4) 可以使用 4a) Pearson Chi-Squared,4b) x 轴直方图类别的 t 检验,或者如果由于残差的非正态性而需要:单边 Wilcoxon 检验,以及 4c) 也可以测试紧凑程度如果正态分布的残差测试足够好,则每组残差都是通过使用 Conover 的非参数方法(几乎在所有情况下)或 Levene 的检验来比较方差。类似地,可以使用具有每个拟合参数相关性的部分概率的 4d) ANOVA(自下而上)并通过包含所有可用参数来简化模型,然后通过将所有内容投入并消除不太可能起作用的参数来消除所有不必要的参数(顶部-向下)。自上而下和自下而上都需要最终决定哪种模型是“最好的”

在我们相信上述任何一项之前,我们应该检查我们的 x 轴和 y 轴变量和/或参数组合,以确保我们有“好的”测量结果。也就是说,我们应该查看线性与线性图、对数对数图、指数-指数图、倒数-倒数、平方根和平方根图以及上述和其他的所有混合:对数线性、线性对数,倒数指数等,以确定哪个将产生最正常的条件,最对称的残差模式,最同方差的残差等,然后只测试在“好”上下文中有意义的模型。

5)我遗漏或不知道的东西。

你会如何解释为什么一个模型的 AIC 低但 R2 也低?

这是因为它们是不同的措施。

  • R2是训练误差的度量。
  • AIC是对测试误差的估计,它考虑了偏差和方差。

回想一下这两个方程:

R2=1RSS/TSS
AIC=1nσ^2(RSS+2dσ^2)

*是模型中预测变量的数量。d

在偏差增加导致方差减少相对较小的情况下,您可以看到与具有低偏差的更复杂模型相比,值)的模型可能具有低和低偏差(的高值)和高dAICR2dR2


如果每个模型的 AIC 减少量不同,这意味着什么?

这表明某些预测变量或预测变量子集比其他变量更能RSS


当插入到不同的模型中时,插入的变量是否应该做得更好?

也许。您的预测变量之间可能存在共线性或多重共线性。

假设预测变量与响应有显着关系。我们还假设我们有 2 个模型:一个模型中该预测变量与其他模型之间存在共线性,另一个模型中该预测变量与其他变量之间不存在共线性。

将预测器插入到第一个模型中将产生比将其插入到第二个模型中更小的性能提升。这是因为第一个模型中的共线预测变量已经“解释”了一些插入的预测变量与响应的关系。

AIC 没有“绝对比例”:对于模型从数据拟合,模型 AIC 只计算到​​一个未知常数,即。其中是取决于观测值的未知常数。由于在适合相同数据集的模型之间很常见,我们可以只使用用于模型比较。如果您使用不同的数据集mixAICi=AICitrueCxCxxCxxΔij=AICiAICj=AICitrueCxAICjtrue+Cx=AICitrueAICjtruexx那么你有两个不同的,所以常数不会取消和没有意义。CxiCxjΔij=AICitrueCxiAICjtrue+Cxj

从这个观点来看,当相对于其他足够小时,我们可以预期较低。IIRC,与观察的可能性成正比,这是数据中每个观察的概率的乘积;我不认为你最小的 AIC 对应于最少的观察是偶然的。Ri2AICiCxiAIC_jCxjCxi