机器学习中的灵活和不灵活模型

机器算法验证 机器学习 模型
2022-03-26 08:57:00

我遇到了一个关于在不同场景下比较灵活模型(即样条)与不灵活模型(例如线性回归)的简单问题。问题是:

一般来说,在以下情况下,我们是否期望灵活的统计学习方法的性能比不灵活的方法更好或更差:

  1. 预测变量的数量非常大,而观察的数量很小? pn
  2. 误差项的方差,即σ2=Var(e)非常高?

我认为对于(1),当n很小时,不灵活的模型更好(不确定)。对于(2),我不知道哪个模型(相对)更好。

4个回答

在这两种情况下,灵活与不灵活模型的比较性能还取决于:

  • 是真正的关系 y=f(x) 接近线性或非常非线性;
  • 您在拟合“灵活”模型时是否调整/约束它的灵活性程度。

如果关系接近线性并且您不限制灵活性,那么线性模型在这两种情况下都应该提供更好的测试误差,因为灵活模型在这两种情况下都可能过拟合。

你可以这样看:

  • 在这两种情况下,数据都没有包含关于真实关系的足够信息(在第一种情况下,关系是高维的并且您没有足够的数据,在第二种情况下它被噪声破坏了)但是
    • 线性模型带来了一些关于真实关系的外部先验信息(将拟合关系的类约束为线性关系)和
    • 先前的信息证明是正确的(真正的关系接近线性)。
  • 虽然灵活模型不包含先验信息(它可以适合任何东西),但它适合噪声。

但是,如果真正的关系是非常非线性的,那么很难说谁会赢(两者都会输:))。

如果您调整/限制灵活性程度并以正确的方式进行(例如通过交叉验证),那么灵活模型应该在所有情况下都获胜。

当然,这取决于基础数据,在尝试拟合模型之前,您应该始终探索以找出它的一些特征,但我所学到的一般经验法则是:

  • 灵活的模型允许您充分利用大样本量(大 n)。
  • 需要一个灵活的模型来找到非线性效应。
  • 灵活的模型会导致您在问题中拟合过多的噪声(当误差项的方差很高时)。

好吧,对于第二部分,我认为更灵活的模型会尝试更努力地拟合模型并且训练数据包含高噪声,因此灵活模型也会尝试学习噪声并导致更多的测试错误。我知道这个问题的来源,因为我也在读同一本书:)

对于第一部分,我希望不灵活的模型在观察次数有限的情况下会表现得更好。当 n 非常小时,两种模型(无论是灵活的还是不灵活的)都不会产生足够好的预测。然而,灵活的模型往往会过度拟合数据,并且在涉及新测试集时表现会更差。

理想情况下,我会收集更多的观察结果来改进拟合,但如果不是这样,那么我会使用不灵活的模型,尝试使用新的测试集来最小化测试错误。