使用比数据点更多的变量进行建模

机器算法验证 回归 机器学习 降维 正则化
2022-01-31 06:28:52

我对机器学习/建模还很陌生,我想了解一下这个问题的背景。我有一个数据集,其中观察次数是n<200但是变量的数量是p8000. 首先,考虑在这样的数据集上构建模型是否有意义,或者是否应该考虑从变量选择技术开始,例如岭回归或 Lasso?我读过这种情况可能导致过度拟合。是所有 ML 技术都属于这种情况,还是某些技术比其他技术处理得更好?没有太多的数学简单解释为什么数学开始崩溃p>n将不胜感激。

2个回答

当变量多于数据点时,当然可以拟合好的模型,但这必须小心。

当变量多于数据点时,除非进一步限制,否则问题可能没有唯一的解决方案。也就是说,可能有多个(可能无限多个)解决方案同样适合数据。这样的问题被称为“不适定”或“未确定”。例如,当变量多于数据点时,标准最小二乘回归有无限多的解决方案,可以在训练数据上实现零误差。

这样的模型肯定会过拟合,因为它对于训练数据量来说“太灵活”了。随着模型灵活性的增加(例如回归模型中的更多变量)和训练数据量的减少,模型越来越有可能通过拟合不代表训练数据的随机波动来实现低误差。真实的基础分布。因此,当模型在从同一分布中提取的未来数据上运行时,性能将很差。

不适定性和过拟合问题都可以通过施加约束来解决。这可以采取对参数的显式约束、惩罚/正则化项或贝叶斯先验的形式。然后,训练成为在拟合数据和满足约束之间的权衡。您提到了这种回归问题策略的两个示例:1)LASSO 约束或惩罚1权重范数,相当于强加一个拉普拉斯先验。2) 岭回归约束或惩罚2权重的范数,相当于强加一个高斯先验。

约束可以产生一个独特的解决方案,当我们想要解释模型以了解有关生成数据的过程的一些信息时,这是可取的。它们还可以通过限制模型的灵活性来产生更好的预测性能,从而减少过度拟合的趋势。

但是,简单地施加约束或保证存在唯一的解决方案并不意味着最终的解决方案是好的。约束只有在真正适合问题时才会产生好的解决方案。

几个杂点:

  • 多种解决方案的存在不一定是有问题的。例如,神经网络可以有许多可能的解决方案,它们彼此不同但几乎同样好。
  • 变量多于数据点的存在、多个解的存在以及过度拟合往往是重合的。但是,这些是不同的概念;每个都可以在没有其他的情况下发生。

项之和等于的有很多解33=731,3=123423451+22220, 例如。

如果没有额外的假设,就无法得到一个非常有意义的解决方案。在实践中,您可能会假设您没有两个以上的非零项(稀疏假设),并且您可以将它们限制为正数(积极性假设)。在这种情况下,您最终会得到有序的三元组,例如(3,0,0)或者(2,1,0),一个简化的集合,您可以将其探索为应测试的潜在“实用”解决方案。

这就是惩罚回归(如 lasso 或 ridge)的含义:找到“更简单”解决方案的可管理子集,在某种程度上可能更自然。他们使用简约法则或奥卡姆剃刀法则,如果两个模型解释具有相同精度的观察结果,那么在自由参数的数量等方面选择更紧凑的模型可能是最明智的。人们并没有真正“解释”具有过于复杂的模型的变量之间的有用关系。

约翰·冯·诺依曼 ( John von Neumann ) 的一句话说明了这种情况:

用四个参数我可以适应一头大象,用五个我可以让他摆动他的鼻子。