线性回归:如何支持不太“敏感”的参数?

机器算法验证 回归 交叉验证 过拟合 敏感性分析
2022-03-04 06:14:18

我有一个简单的回归模型(y = param1*x1 + param2*x2)。当我将模型拟合到我的数据时,我找到了两个很好的解决方案:

  • 解决方案 A,params=(2,7),在RMSE=2.5的训练集上最好

  • 但!当我进行交叉验证时,解决方案 B params=(24,20) 在验证集上大获全胜。

在此处输入图像描述 我怀疑这是因为:

  • 解决方案 A 被糟糕的解决方案包围。因此,当我使用解决方案 A 时,模型对数据变化更加敏感。

  • 解决方案 B 周围环绕着 OK 解决方案,因此它对数据的变化不太敏感。

这是我刚刚发明的全新理论,即具有好邻居的解决方案不会过度拟合吗?:))

是否有通用的优化方法可以帮助我支持解决方案 B,而不是解决方案 A?

帮助!

1个回答

获得具有两个局部最小值的 rmse 的唯一方法是模型和数据的残差是非线性的。由于其中一个模型是线性的(在 2D 中),另一个,即y对于数据的潜在趋势或该数据的噪声函数,或两者都必须是非线性的。

因此,一个更好的模型,一个非线性模型,将是研究数据的起点。此外,如果不了解有关数据的更多信息,则无法确定应该使用哪种回归方法。我可以提供 Tikhonov 正则化或相关的岭回归,这将是解决 OP 问题的好方法。然而,应该使用什么平滑因子将取决于一个人试图通过建模获得什么。这里的假设似乎是,由于我们没有回归目标(除了 OLS,它是最常用于在物理定义的回归目标甚至没有概念化时最常使用的“去”默认方法),因此最小 rmse 是最好的模型.

那么,请执行此回归的目的是什么?如果不定义该目的,就没有回归目标或目标,我们只是为了美观而寻找回归。