目前,我对 PCA 和正则化感到困惑。
我想知道 PCA 和正则化有什么区别:特别是套索(L1)回归?
似乎他们两个都可以进行特征选择。我不得不承认,我对降维和特征选择之间的区别并不熟悉。
目前,我对 PCA 和正则化感到困惑。
我想知道 PCA 和正则化有什么区别:特别是套索(L1)回归?
似乎他们两个都可以进行特征选择。我不得不承认,我对降维和特征选择之间的区别并不熟悉。
Lasso以向 OLS 损失函数添加惩罚的方式进行特征选择(见下图)。因此,您可以说具有低“影响”的功能将被惩罚项“缩小”(您“调节”功能)。由于 L1 惩罚,可以变为零(Ridge,L2 不是这种情况)。在 Lasso 案例中,当特征“缩小”为零时,您将“消除”该特征,并且您可以调用此特征选择。Lasso 可用于“高维”,即当您有许多特征(“列”)但没有那么多观察值(“行”)时。
主要组件以完全不同的方式工作。第一个主成分是[原始特征]的归一化线性组合,它具有最大的方差。因此,您可以将原始特征“转换”为主成分(这是从原始特征派生的“新特征”),尝试在一个主成分中捕获尽可能多的差异。
主成分不相关(正交)。当您进行线性回归时,这可能非常有用,其中特征之间的(高)相关性可能是一个真正的问题。我将 PCA 视为一种降维工具(不是太多的特征选择),因为您可以在(更少)数量的主成分中表达许多特征。
所以也许有点过于简短的总结:
有关详细信息,请参阅“统计学习简介”(可在线免费获取)。第 6.2.2 章介绍 Lasso,第 10.2.1 章介绍 PCA。