选择回归模型

机器算法验证 回归 预测 模型选择 预言
2022-03-25 15:09:23

如何客观地(阅读“算法”)选择合适的模型来进行具有两个变量的简单线性最小二乘回归?

例如,假设数据似乎显示出二次趋势,并且生成了一条与数据非常吻合的抛物线。我们如何证明将其作为回归是合理的?或者我们如何消除存在更好模型的可能性?

我真正担心的是:我们可以继续添加多项式项,直到我们完全适合数据集(点的插值),没有任何错误。但就预测或推断而言,这将毫无用处,因为没有理由认为“模型”实际上是合适的。那么如何平衡准确性和直观吸引力的需求呢?

(另外,如果以前有人问过这个问题,请提醒我,我以为会这样,但没有找到任何东西。)

4个回答

无论您拥有多少数据,您都可能无法找到构成关系正确描述的多项式。

这个问题可能会扩展到几乎任何类别的模型。

但是,通常我们感兴趣的是获得足以满足某些目的(模型)的良好描述,而不是发现(可能过于复杂)驱动观察的实际过程。

事实上,即使真实过程来自某个假设的潜在模型类别,发现真实模型也可能适得其反(例如,它可能是高阶的,但高阶项可能非常非常小)。对于我们的目的,一个更简单(即错误)的模型可能会更好。

例如,假设我们试图预测一个有点嘈杂的序列中的接下来的几个值。我们拟合的任何模型在参数估计中都有一些误差,并且该误差会被预测放大。与“真实”模型顺序相比,具有更好的均方预测误差(例如)性能的低阶模型(必然有偏差)并不需要太多。

评估模型性能的一种常用工具是样本外预测(不一定随着时间的推移)。交叉验证是选择模型或比较模型性能的一种常用方法。

Rob Hyndman在这里写了一个很好的小介绍

您可以查看 AIC、BIC 或任何其他类似的度量。

你可以用你的眼睛和场感。

或者你可以通过使用样条曲线来避免一些问题。

我会说,人们经常将自己与以下三种不同方法之一保持一致:

  • 常客,他们使用F 检验等测试
  • 贝叶斯,利用贝叶斯推理
  • 信息论专家,他们使用 BIC 和 AIC,就像上面引用的其他示例一样。

频率分析可能是最直接的,也是最因其缺点而受到批评的。另一方面,信息论最近经历了一次繁荣,随着时间的推移引起了越来越多的人的关注。我认为您应该尝试了解一下并从这三种方法中的每一种中汲取一些想法。如果你不知道数据应该包含什么,那么频率论者方法是一个很好的开始;另一方面,如果您对基础模型有一些信息,请查看贝叶斯推理。而且我会始终保持低自由参数的数量,这就是 AIC 和 BIC 试图平衡信息与参数的原因。

我会使用限制三次样条,它可以让你更好地逼近曲线。作为附加的改进,可以使用 AICc(或 BIC)来选择结数。