多元回归最小观测值的解释

机器算法验证 回归 多重回归 数理统计
2022-04-05 07:56:22

我觉得我在 CrossValidated 上提出的每个问题都导致了我对每个变量的观察数量。我知道有很多经验法则取决于你的领域、你的预期效果大小等。这些回归到认识到太少的观察会导致过度拟合。

我了解在查看具有单个预测变量的回归模型时,过度拟合可能会成为一个问题。只有两个观察值会导致完美的答案,而使用最小二乘法来解决超定模型会导致泛化。但是,如果您有 20 个预测变量,例如 31 个观察值,我很难理解过度拟合仍然是一个问题。似乎您已经通过 10 个额外的观察缓解了这个问题,但我怀疑我在最小二乘法如何解决超定系统方面遗漏了一些东西。

如果系统过度拟合是真的,我假设接下来是由 beta 解释的预测变量之间的关系也不成立。

最后,如果过度拟合是由于观察不足而导致的问题,是否可以通过使用前向逐步回归来解决?还是由于最终达到预测变量过多而观察值不足的程度而丢失重要预测变量的可能性很大?

回顾一下:

  1. 有人可以解释为什么预测变量的数量为相当大(例如 )的情况仍然会过拟合吗?为什么不管预测变量的数量如何,您都不需要最少数量的观察?N1NN>10

  2. 使用前向逐步回归可以解决过度拟合吗?

3个回答

你错过了过度拟合的重点。这不是关于观察的数量,而是关于样本内和样本外的错误。正确构建的模型将具有大约等于样本外误差的样本内误差。过拟合模型的样本外误差会大于样本内误差。

建模的目的不是找到最适合您的数据的方法,而是找到能够预测关系的函数,当您获得未用于构建模型的新数据时。在这种情况下,目的不是最小化误差,而是最小化样本内和样本外误差之间的差异。

鉴于此页面的名称,我忍不住将您链接到Cross-Validation

并回答您的第二个问题:是的,向前选择可以解决问题,向后选择或逐步也可以;但这些并不是最好的方法。它们以引入偏差(通过忽略预测变量)为代价来减少预测的方差。他们背后并没有太多的原则可以让你相信他们得到了正确的平衡:在任意显着性水平上的不同数量的假设检验。请参阅Peter Flom 的论文和此处的“模型选择”标签。(不过,公平地说,我很少发现用这种方法拟合的模型像你想象的那样糟糕——它们确实做了大致正确的事情。)

关于你的第二个问题,“可以通过使用逐步选择来解决过度拟合”,我建议通过关注预测变量与因变量的个体关系,逐步选择很容易忽略变量之间的关系。此外,逐步选择(我相信)意味着输入预测变量的顺序是有影响的。

在执行回归分析之前,我总是详细检查每个因变量之间的关系,我还检查删除或添加对剩余变量的影响,并检查多重共线性等假设。通常,检查这些假设可以决定是否包含变量。

我的意思是,为了确定要包括哪些预测变量,我花了很多时间思考我的研究和检查变量。我很少只遵循关于最少观察次数的约定(实际上我比你的例子严格得多,并且通常要求子组内的最少观察次数),因为我的研究本质上是社会性的,并且通常需要很多控制变量。

我对您的示例的担忧是,除非您的队列非常相似(所有变量之间的差异很小),否则您将无法准确观察不常见子组的关系,因为在整个模型中没有足够的数据来支持这些关系,尽管我应该补充一点,我不知道你的自变量是什么。例如,如果我有一个小的整体样本,并且我有兴趣研究性别效应,但我只观察到少数女性,那么我会质疑是否应该包括性别。