(这是个软问题)最近在学主成分分析,貌似问题挺多的:
- 在应用 PCA 之前,您必须将数据转换为大致相同的比例,但未指定应如何执行特征缩放。标准化?缩放到单位长度?对数转换?Box-Cox 变换?我相信它们都以某种方式起作用,但是它们回答了不同的问题,并且在给定问题的情况下找出转换并非易事。
- 要执行 PCA,必须计算特征值和特征向量,但特征向量的符号是不确定的。乍一看,SVD 可能是一个很好的解决方案,因为它在不同的实现中给出了相同的结果。但是,据我了解,SVD 的结果仅仅是对特征向量的任意但可重复的选择。
- 主成分是变量的线性组合,但它们有意义吗?我的意思是,你不能把猴子的体温加到它尾巴长度的十倍,因为它们的单位不同。(说到单位,你应该使用哪个单位制是我第一点的另一个方面)
- 当试图解释主成分时,您应该检查第个主成分在第个元素上的负载(系数) ,还是它们的相关性?Rencher (1992) 建议只看系数,但据我所知,在这个问题上没有达成共识。
总而言之,PCA 是一种统计(或可以说是数学)方法,对我来说看起来很不成熟,因为它在整个过程中引入了许多主观性和偏见。尽管如此,它仍然是最广泛使用的多变量分析方法之一。为什么?人们如何克服我提出的问题?他们甚至知道他们吗?
参考:
Rencher, AC “典型判别函数、典型变量和主成分的解释”。美国统计学家,46(1992),217–225。