我遇到了一个关于在不同场景下比较灵活模型(即样条)与不灵活模型(例如线性回归)的简单问题。问题是:
一般来说,在以下情况下,我们是否期望灵活的统计学习方法的性能比不灵活的方法更好或更差:
- 预测变量的数量非常大,而观察的数量很小?
- 误差项的方差,即非常高?
我认为对于(1),当很小时,不灵活的模型更好(不确定)。对于(2),我不知道哪个模型(相对)更好。
我遇到了一个关于在不同场景下比较灵活模型(即样条)与不灵活模型(例如线性回归)的简单问题。问题是:
一般来说,在以下情况下,我们是否期望灵活的统计学习方法的性能比不灵活的方法更好或更差:
我认为对于(1),当很小时,不灵活的模型更好(不确定)。对于(2),我不知道哪个模型(相对)更好。
在这两种情况下,灵活与不灵活模型的比较性能还取决于:
如果关系接近线性并且您不限制灵活性,那么线性模型在这两种情况下都应该提供更好的测试误差,因为灵活模型在这两种情况下都可能过拟合。
你可以这样看:
但是,如果真正的关系是非常非线性的,那么很难说谁会赢(两者都会输:))。
如果您调整/限制灵活性程度并以正确的方式进行(例如通过交叉验证),那么灵活模型应该在所有情况下都获胜。
当然,这取决于基础数据,在尝试拟合模型之前,您应该始终探索以找出它的一些特征,但我所学到的一般经验法则是:
好吧,对于第二部分,我认为更灵活的模型会尝试更努力地拟合模型并且训练数据包含高噪声,因此灵活模型也会尝试学习噪声并导致更多的测试错误。我知道这个问题的来源,因为我也在读同一本书:)
对于第一部分,我希望不灵活的模型在观察次数有限的情况下会表现得更好。当 n 非常小时,两种模型(无论是灵活的还是不灵活的)都不会产生足够好的预测。然而,灵活的模型往往会过度拟合数据,并且在涉及新测试集时表现会更差。
理想情况下,我会收集更多的观察结果来改进拟合,但如果不是这样,那么我会使用不灵活的模型,尝试使用新的测试集来最小化测试错误。