当 PCA 有这么多问题时,为什么人们还要使用它?

机器算法验证 自习 主成分分析 多元分析 解释 可重复研究
2022-03-23 06:10:13

(这是个软问题)最近在学主成分分析,貌似问题挺多的:

  1. 在应用 PCA 之前,您必须将数据转换为大致相同的比例,但未指定应如何执行特征缩放。标准化?缩放到单位长度?对数转换?Box-Cox 变换?我相信它们都以某种方式起作用,但是它们回答了不同的问题,并且在给定问题的情况下找出转换并非易事。
  2. 要执行 PCA,必须计算特征值和特征向量,但特征向量的符号是不确定的。乍一看,SVD 可能是一个很好的解决方案,因为它在不同的实现中给出了相同的结果。但是,据我了解,SVD 的结果仅仅是对特征向量的任意但可重复的选择。
  3. 主成分是变量的线性组合,但它们有意义吗?我的意思是,你不能把猴子的体温加到它尾巴长度的十倍,因为它们的单位不同。(说到单位,你应该使用哪个单位制是我第一点的另一个方面)
  4. 当试图解释主成分时,您应该检查第个主成分在第个元素上的负载(系数) ,还是它们的相关性Rencher (1992) 建议只看系数,但据我所知,在这个问题上没有达成共识。iyijXjcorr(yi,Xj)

总而言之,PCA 是一种统计(或可以说是数学)方法,对我来说看起来很不成熟,因为它在整个过程中引入了许多主观性和偏见。尽管如此,它仍然是最广泛使用的多变量分析方法之一。为什么?人们如何克服我提出的问题?他们甚至知道他们吗?

参考:

Rencher, AC “典型判别函数、典型变量和主成分的解释”。美国统计学家,46(1992),217–225。

1个回答

“符号任意性”只是我们如何表示 PCA 结果的人工制品。PCA 本身没有任意性:它所使用的特征空间被完美地定义。问题 (1) 和 (3) 是 PCA 的优势,因为它们允许人们适当地使用主题知识和分析目标。将此称为“不成熟”而忽略了统计分析的全部要点,恕我直言,即以创造性和原则性的方式解决实际问题(而不是将数据转储到黑匣子中)。

– 呼呼

我在这里没有看到的是,许多人使用 PCA 的方式与使用直方图、密度图或散点图的方式相同:一种快速检查数据的方法,而不是问题的最终解决方案。随着维度数量的增加,PCA 对此目的很有用,但如果在选择是否以及如何扩展时要小心,当然会提供更多信息。

——弗兰斯·罗登堡