具有低方差的 PC“有用”的 PCA 示例

机器算法验证 主成分分析
2022-01-17 17:15:32

通常在主成分分析 (PCA) 中使用前几个 PC,而低方差 PC 被丢弃,因为它们不能解释数据中的大部分变化。

但是,是否存在低变异 PC 有用的示例(即在数据上下文中使用,有直观的解释等)并且不应丢弃?

4个回答

这是Jolliffe (1982)的一段很酷的摘录,我没有包含在我之前对非常相似的问题的回答中,“ PCA 中的低方差分量,它们真的只是噪声吗?有什么方法可以测试它吗? ”我发现它非常直观。

假设需要预测云底高度,这是机场的一个重要问题。测量各种气候变量,包括地表温度和地表露点这里,是地表空气会被水蒸气饱和的温度,差值是地表湿度的量度。现在一般是正相关的,所以气候变量的主成分分析会有一个与相似相关的低方差分量HTsTdTdTsTdTs,TdTs+TdTsTd. 但是与湿度有关,因此与相关,即与低方差而不是高方差分量有关,因此拒绝低方差分量的策略将对给出较差的预测。这个例子的讨论必然是模糊的,因为任何其他气候变量的未知影响也被测量并包含在分析中。然而,它显示了一个物理上合理的案例,其中一个因变量将与一个低方差分量相关,证实了文献中的三个经验例子。HTsTdH

此外,基于加的夫(威尔士)机场 1966-73 年期间的数据已对基于云的示例进行了测试,其中还包括一个额外的气候变量,即海面温度。结果基本上如上面预测的那样。最后一个主成分大约是 它只占总变异的 0·4%。最重要的预测因子[强调补充]TsTdH

第二段最后一句中提到的三个文献中的例子是我在回答相关问题时提到的三个。


参考
Jolliffe, IT (1982)。注意回归中主成分的使用。应用统计,31 (3), 300–303。取自http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf

crabs如果你有 R,那么MASS 包 中的数据就有一个很好的例子。

> library(MASS)
> data(crabs)
> head(crabs)

  sp sex index   FL  RW   CL   CW  BD
1  B   M     1  8.1 6.7 16.1 19.0 7.0
2  B   M     2  8.8 7.7 18.1 20.8 7.4
3  B   M     3  9.2 7.8 19.0 22.4 7.7
4  B   M     4  9.6 7.9 20.1 23.1 8.2
5  B   M     5  9.8 8.0 20.3 23.0 8.2
6  B   M     6 10.8 9.0 23.0 26.5 9.8

> crabs.n <- crabs[,4:8]
> pr1 <- prcomp(crabs.n, center=T, scale=T)
> cumsum(pr1$sdev^2)/sum(pr1$sdev^2)
[1] 0.9577670 0.9881040 0.9974306 0.9996577 1.0000000

前两台 PC “解释”了超过 98% 的方差,但事实上,如果你真的收集了这些测量值并正在研究它们,第三台 PC 就非常有趣,因为它与螃蟹的物种密切相关。但它被PC1(似乎与螃蟹的大小相对应)和PC2(似乎与螃蟹的性别相对应)淹没了。

在此处输入图像描述

在此处输入图像描述

以下是我经验中的两个例子(化学计量学、光学/振动/拉曼光谱):

  • 我最近有光谱数据,其中> 99%的原始数据总方差是由于背景光的变化(聚光灯在测量点上或多或少强烈,荧光灯打开/关闭,之前或多或少的云太阳)。在使用已知影响因素的光谱进行背景校正后(由 PCA 根据原始数据提取;为了覆盖这些变化而进行了额外测量),我们感兴趣的效果出现在 PC 4 和 5 中
    。PC 1 和 3 其中由于测量样品中的其他影响,PC 2 与测量期间仪器尖端升温相关。

  • 在另一次测量中,使用了没有对测量光谱范围进行颜色校正的镜头。色差导致光谱失真,占约。预处理数据总方差的 90%(主要在 PC 1 中捕获)。
    对于这些数据,我们花了很长时间才意识到到底发生了什么,但是切换到更好的目标解决了以后实验的问题。

(我无法显示详细信息,因为这些研究尚未发表)

我注意到,在底层数据以某种方式聚集或分组的协方差矩阵上执行 PCA 时,具有低方差的 PC 最有帮助。如果其中一个组的平均方差明显低于其他组,则最小的 PC 将由该组控制。但是,您可能有一些理由不想放弃该组的结果。

在金融领域,股票收益的年标准差约为 15-25%。从历史上看,债券收益率的变化标准差要低得多。如果对股票收益和债券收益率变化的协方差矩阵进行主成分分析,那么最大的 PC 将反映股票的方差,而最小的 PC 将反映债券的方差。如果你扔掉解释债券的 PC,那么你可能会遇到一些麻烦。例如,债券可能具有与股票非常不同的分布特征(更细的尾巴、不同的时变方差属性、不同的均值回归、协整等)。根据具体情况,这些可能对建模非常重要。

如果您对相关矩阵执行 PCA,那么您可能会在顶部附近看到更多解释债券的 PC。