我觉得我在 CrossValidated 上提出的每个问题都导致了我对每个变量的观察数量。我知道有很多经验法则取决于你的领域、你的预期效果大小等。这些回归到认识到太少的观察会导致过度拟合。
我了解在查看具有单个预测变量的回归模型时,过度拟合可能会成为一个问题。只有两个观察值会导致完美的答案,而使用最小二乘法来解决超定模型会导致泛化。但是,如果您有 20 个预测变量,例如 31 个观察值,我很难理解过度拟合仍然是一个问题。似乎您已经通过 10 个额外的观察缓解了这个问题,但我怀疑我在最小二乘法如何解决超定系统方面遗漏了一些东西。
如果系统过度拟合是真的,我假设接下来是由 beta 解释的预测变量之间的关系也不成立。
最后,如果过度拟合是由于观察不足而导致的问题,是否可以通过使用前向逐步回归来解决?还是由于最终达到预测变量过多而观察值不足的程度而丢失重要预测变量的可能性很大?
回顾一下:
有人可以解释为什么预测变量的数量为相当大(例如 )的情况仍然会过拟合吗?为什么不管预测变量的数量如何,您都不需要最少数量的观察?
使用前向逐步回归可以解决过度拟合吗?