为了进行后续分析,PCA 是否需要捕获任何所需的方差量?

机器算法验证 方差 主成分分析
2022-01-31 07:59:04

我有一个包含 11 个变量的数据集,并且进行了 PCA(正交)以减少数据。根据我对主题和碎石图(见下文)的了解,决定要保留的组件数量很明显,两个主要组件 (PC) 足以解释数据,而其余组件的信息量较少。

在此处输入图像描述
具有并行分析的碎石图:观察到的特征值(绿色)和基于 100 次模拟的模拟特征值(红色)。碎石图建议使用 3 台 PC,而并行测试仅建议使用前两台 PC。

在此处输入图像描述

如您所见,前两台 PC 只能捕获 48%的方差。

绘制由前 2 台 PC 在第一个平面上进行的观察,揭示了使用层次凝聚聚类 (HAC) 和 K-means 聚类的三个不同集群。事实证明,这 3 个集群与所讨论的问题非常相关,并且也与其他发现一致。因此,除了仅捕获了 48% 的方差之外,其他一切都非常好。

我的两位审稿人中的一位说:不能过多地依赖这些发现,因为只有 48% 的方差可以解释,而且比要求的要少。

问题PCA应该捕获多少方差才有效
它不依赖于所使用的领域知识和方法吗?任何人都可以仅根据解释方差的值来判断整个分析的优点吗?

笔记

  • 数据是通过称为实时定量聚合酶链反应 (RT-qPCR) 的分子生物学中非常敏感的方法测量的 11 个基因变量。
  • 使用 R 进行分析。
  • 非常感谢数据分析师根据他们在微阵列分析、化学计量学、光谱分析等领域处理实际问题的个人经验提供的答案。
  • 请考虑尽可能用参考文献来支持您的回答。
1个回答

关于您的特定问题:

PCA 应该捕获多少方差才有效?

不,没有(据我所知)。我坚信没有可以使用的单一值;捕获的方差百分比没有神奇的阈值。Cangelosi 和 Goriely 的文章:主成分分析中的成分保留以及对 cDNA 微阵列数据的应用给出了一个相当不错的概述,对六种标准经验法则进行了很好的概述,以检测研究中的成分数量。(碎石图,解释的总方差比例,平均特征值规则,对数特征值图等)作为经验法则,我不会强烈依赖它们中的任何一个。

它不依赖于所使用的领域知识和方法吗?

理想情况下,它应该是依赖的,但你需要小心你的措辞和你的意思。

例如:在声学中有 Just Noticeable Difference ( JND ) 的概念。假设您正在分析声学样本,并且特定 PC 的物理尺度变化远低于该 JND 阈值。没有人会争辩说,对于 Acoustics 应用程序,您应该包含那台 PC。您将分析听不见的噪音。包含这台 PC 可能有一些原因,但这些原因需要呈现,而不是相反。它们的概念是否类似于用于 RT-qPCR 分析的 JND?

同样,如果一个组件看起来像 9 阶勒让德多项式,并且您有强有力的证据表明您的样本由单个高斯凸块组成,那么您有充分的理由相信您再次对不相关的变化进行建模。这些正交变化模式显示了什么?例如,在您的情况下,第三台 PC 有什么“错误”?

您说“这三个集群与所讨论的问题非常相关”这一事实并不是一个强有力的论据。您可能会进行简单的数据挖掘(这是一件坏事)。还有其他技术,例如。Isomaps和local -linear embedding也很酷,为什么不使用它们呢?您为什么特别选择 PCA?

你的发现与其他发现的一致性更为重要,特别是如果这些发现被认为是公认的。深入挖掘这一点。尝试查看您的结果是否与其他研究的 PCA 发现一致。

任何人都可以仅根据解释方差的值来判断整个分析的优点吗?

一般来说,不应该这样做。不要认为您的审稿人是混蛋或类似的东西;在没有合理理由的情况下保留 48% 确实是一个很小的比例。