你怎么知道 PCA 会在你的数据集上工作?

数据挖掘 主成分分析
2022-02-14 21:58:52

根据我的理解,PCA 假设特征的冗余可以用线性关系来解释。它还可以找到正交基,因此当您的数据方差沿非正交方向最大化时,PCA 不会给您希望的结果。在我的经验中,虽然有限,但我从未在可以安全地假设上述两个条件成立的数据集上工作过。同时,在处理音频或视频时,它会产生惊人的效果。

允许这些假设成立的音频和视频是什么?在这些域之外工作时,您怎么知道 PCA 不只是给您随机的东西?

谢谢!

2个回答

PCA 不假设您的数据可以写为线性组合。它只是为您的数据找到一个正交基,以减少变化为导向。由于正交性,您还具有关联的线性组合。

如果您的数据具有低维度,则您需要更少的维度来描述它,或者至少对其进行近似。我想这就是你所说的“它有效”的意思。

与原始数据相比,来自音频和视频的数据通常具有较低的维度。这就是为什么经常工作的原因。

PCA 将为您的数据找到新的正交基和新特征,沿新特征/轴最大化方差。

此外,通过选择有限数量的最有用/最有意义的全新功能/轴,您将能够进行降维。

请注意,两个线性相关的特征(x1 和 x2)可能会被新基中的一个独特的新特征(xn)替换。因此,新特征 (xn) 可能与其他新特征没有/不太相关。

如果您在应用 PCA 并仅保留最相关的特征(尝试大约 50 或调整数量)之后训练/测试您的模型,您应该会提高效率,因为它会更快地训练并且也能更好地泛化。

所以在大多数情况下它应该“工作”。