套索与 PCA 的逻辑回归?

机器算法验证 回归 主成分分析 特征选择 套索 正则化
2022-03-31 00:53:14

套索与 PCA 的逻辑回归?

面试时被问到这个问题。我知道主要区别在于 Lasso 是一种正则化技术(添加变量以最小化大系数的影响),而 PCA 是特征选择技术(通过协方差矩阵分解)。

我回答说,PCA 允许您在拟合和变换之外进行特征选择,因此在超参数搜索中提供了更大的灵活性。而在套索中,“特征选择”是为您完成的,因此超参数优化的范围较小。

听起来对吗?

2个回答

我回答说,PCA 允许您在拟合和变换之外进行特征选择,因此在超参数搜索中提供了更大的灵活性。

如果您基于启发式删除主成分,PCA 可以用作降维技术,但它不提供特征选择,因为保留主成分而不是原始特征。但是,调整保留的主成分的数量应该比使用启发式方法更好,除非有许多低方差成分并且您只是对过滤它们感兴趣。

而在套索中,“特征选择”是为您完成的,因此超参数优化的范围较小。

套索 (1另一方面,正则化)本质上可以执行特征选择,因为预测变量的系数缩​​小到零。它仍然需要超参数调整,因为有一个正则化系数来衡量损失函数正则化的严重程度。


正如@MatthewDrury评论的那样,普通的 PCA 与目标变量无关,而 LASSO 回归则不是,因为它是回归模型的一部分。实际上,这是最重要的区别。

  • PCA 在减少特征数量的同时不关心类标签。它唯一关心的是保留最大方差,这对于分类任务可能并不总是最优的。

  • 另一方面,L1-Reg 将那些与类标签没有太大相关性的特征推向零。因此,L1-Reg 努力减少特征数量,同时获得良好的分类性能。

  • 为了避免欠拟合,我们总是可以进行超参数调整以找到最佳 lambda。