以下哪个线性回归模型更好?

数据挖掘 回归 线性回归
2022-02-22 06:03:33

考虑同一数据集上的 2 个回归模型。
型号 1:R2=90% ,R2(adjusted)=80%,R2(pred)=70%
模型 2: R2=60% ,R2(adjusted)=59%,R2(pred)=58%
在第一个模型中,所有值都非常高,但它们之间的差异也非常大。
在模型 2 中,值较低,但它们之间的差异较小。
上述 2 个模型中哪个更好,为什么?

1个回答

两种型号哪一种更好?

这取决于你关心什么。

为什么?

如果你只想要最高R2,Radj.或者Rpred,显然 Model 1 更好。事实上,在您的示例中,所有性能指标都会告诉您选择模型 1!但是选择模型还有其他方面......

许多人关心可解释性的密度(我提出了这个术语);将其视为由自由度数归一化的解释力(也称为模型的优雅)。如果这是您的偏好,那么 Model 2 看起来更有吸引力,因为其指标仅下降了 1% 和 1%,而 Model 1 下降了 10% 和 10%。

一些相关背景

有一个术语最小描述长度,它形式化了奥卡姆剃刀,说明:

给定数据集的最佳假设(模型及其参数)是导致数据最佳压缩的假设。

这可以通过评估每个模型的可解释性的密集程度来帮助确定两个模型中的哪一个是最好的。简单来说:假设模型产生 80% 的准确率,但使用了一个额外的参数,那么是更优雅的模型,因为它更有效地使用了它的输入。换句话说,它对信息的压缩程度更高。ABAB

这是一篇非常棒的博文(今天发布!),它解释了奥卡姆剃刀、贝叶斯和香农熵如何共同定义模型中的信息密度如何成为一个非常重要的标准。剧透:这三个都归结为同一个指导原则。

人们尝试确定哪种回归模型最好的另一种方法是使用另一种度量标准,例如Akaike 信息准则 (AIC)贝叶斯信息准则 (BIC),这两者都试图在模型的性能和使用的自由度数(即参数数)。我们选择得分最低的模型。例如,AIC 定义为:

AIC=2k2ln(L^),

在哪里k是参数的数量和L^是性能指标(这里隐含了最大似然)。所以用简单的英语来说,随着我们包含更多参数并且输出模型变得更加复杂,AIC 变得越来越大。但是,如果模型更准确地拟合每个参数的数据,则会将其减去,从而降低 AIC 值。BIC 基本上以相同的方式工作。我认为我们在这里尝试做的事情很直观。

概括

回到我的第一个答案:“这取决于你关心什么”——希望现在可以清楚地看到选择是主观的。如果您可以忍受高模型复杂性,那么您可能会选择最好的Rpred.模型 1 也是如此。另一方面,如果您喜欢具有高信息密度的优雅模型,那么您的三个指标之间 1% 的差异将导致您选择模型 2。

编辑

我一直在寻找的一个词又回到了我的脑海:简约简约模型是一种达到准确度期望的模型,并且使用尽可能少的参数来实现。这完全是关于最大的信息密度和解释效率。查看与您的问题相关的此线程