为了回归的目的减少预测变量的维数有什么好处?

机器算法验证 回归 机器学习 主成分分析 降维
2022-03-15 22:20:58

降维回归(DRR) 或监督降维(SDR) 技术相对于传统回归技术(没有任何降维)有哪些应用或优势?这类技术为回归问题找到了特征集的低维表示。此类技术的示例包括切片逆回归、主要 Hessian 方向、切片平均方差估计、内核切片逆回归、主成分回归等。

  1. 在交叉验证的 RMSE 方面,如果一个算法在没有任何降维的情况下在回归任务上表现更好,那么降维在回归中的真正用途是什么?我不明白这些技术的意义。

  2. 这些技术是否有机会用于降低回归的空间和时间复杂度?如果这是主要优势,那么在使用这种技术时,一些有关降低高维数据集复杂性的资源将很有帮助。我对此进行了辩论,因为运行 DRR 或 SDR 技术本身需要一些时间和空间。这个 SDR/DRR + Regression 在低维度数据集上是否比仅在高维度数据集上回归更快?

  3. 是否只是出于抽象兴趣而研究此设置,并且没有很好的实际应用?

作为一个侧面的想法:有时假设特征的联合分布X和回应Y位于歧管上。在这种情况下,从观察到的样本中学习流形来解决回归问题是有意义的。

2个回答

回归中降维的目的是正则化。

您列出的大多数技术都不是很为人所知。除了主成分回归(PCR)之外,我还没有听说过它们中的任何一个。所以我会回答关于 PCR 的问题,但希望这同样适用于其他技术。

这里的两个关键词是过拟合正则化对于长时间的处理和讨论,我将您推荐给 统计学习的要素,但非常简单地说,如果您有很多预测变量会发生什么(p) 和没有足够的样本 (n) 是标准回归会过度拟合数据,您将构建一个模型,该模型似乎在训练集上具有良好的性能,但实际上在任何测试集上的性能都很差。

在一个极端的例子中,当预测变量的数量超过样本数量时(人们将其称为p>n问题),您实际上可以完美拟合任何响应变量y,实现看似100%表现。这显然是无稽之谈。

为了处理过度拟合,必须使用正则化,并且有很多不同的正则化策略。在某些方法中,人们试图大幅减少预测变量的数量,将问题减少到pn情况,然后使用标准回归。这正是主成分回归所做的。请参阅元素,第 3.4--3.6 节。PCR 通常不是最理想的,在大多数情况下,其他一些正则化方法会表现得更好,但它很容易理解和解释。

请注意,PCR 也不是任意的(例如,随机保持p尺寸可能会表现得更差)。这样做的原因是 PCR 与岭回归密切相关,岭回归是一种标准的收缩正则化器,已知在各种情况下都能很好地工作。在这里查看我的答案以进行比较:岭回归和 PCA 回归之间的关系

要查看与标准回归相比的性能提升,您需要一个包含大量预测变量且样本不多的数据集,并且您肯定需要使用交叉验证或独立测试集。如果您没有看到任何性能提升,那么您的数据集可能没有足够的维度。

具有良好答案的相关主题:

根据流形假设,假设数据位于低维流形上,这意味着残差是噪声,因此如果您正确地进行降维,您应该通过对信号而不是噪声建模来提高性能。这不仅仅是空间和复杂性的问题。