PCA 之前或之后的数据缩放

数据挖掘 机器学习 特征缩放
2021-10-07 13:25:38

我见过高级数据科学家在应用 PCA 之前或之后进行数据扩展。

什么是更正确的做法,为什么?

3个回答

我曾经在一次会议演讲中听到一个数据科学家的说法:“基本上,你可以做你想做的事,只要你知道自己在做什么。”

这也适用于这里。统计上更合理的方法是在附加步骤(例如PCA或因子分析)之前转换所有变量。然后,您仍然知道变量的比例,并且可以在应用程序的上下文中解释重新缩放。如果您没有这样的解释,但是如果某些值接近于零而其他值非常大,则由于计算问题而重新调整主成分的充分理由,那么重新调整成分是有意义的。但是,扭转这个过程并仍然能够在您的上下文中解释重新缩放操作的效果几乎是不可能的。

绝对建议在执行 PCA 之前将数据居中,因为转换依赖于原点周围的数据。某些数据可能已经遵循均值为零且标准差为 1 的标准正态分布,因此不必在 PCA 之前进行缩放。

如果您获得多个功能的多个 PCA 组件,最好将它们缩放为具有不同大小的功能,您的算法可能会在没有任何真正原因的情况下将一个解释为比其他更重要。

“至少在准确性方面,平衡类而不是降低维数更重要;(ii)最好的选择似乎是应用 SMOTE,然后是 PCA。”

链接:https ://core.ac.uk/download/pdf/61408511.pdf