我有一个包含 11 个变量的数据集,并且进行了 PCA(正交)以减少数据。根据我对主题和碎石图(见下文)的了解,决定要保留的组件数量很明显,两个主要组件 (PC) 足以解释数据,而其余组件的信息量较少。
具有并行分析的碎石图:观察到的特征值(绿色)和基于 100 次模拟的模拟特征值(红色)。碎石图建议使用 3 台 PC,而并行测试仅建议使用前两台 PC。
如您所见,前两台 PC 只能捕获 48%的方差。
绘制由前 2 台 PC 在第一个平面上进行的观察,揭示了使用层次凝聚聚类 (HAC) 和 K-means 聚类的三个不同集群。事实证明,这 3 个集群与所讨论的问题非常相关,并且也与其他发现一致。因此,除了仅捕获了 48% 的方差之外,其他一切都非常好。
我的两位审稿人中的一位说:不能过多地依赖这些发现,因为只有 48% 的方差可以解释,而且比要求的要少。
问题PCA应该捕获多少方差才有效
?它不依赖于所使用的领域知识和方法吗?任何人都可以仅根据解释方差的值来判断整个分析的优点吗?
笔记
- 数据是通过称为实时定量聚合酶链反应 (RT-qPCR) 的分子生物学中非常敏感的方法测量的 11 个基因变量。
- 使用 R 进行分析。
- 非常感谢数据分析师根据他们在微阵列分析、化学计量学、光谱分析等领域处理实际问题的个人经验提供的答案。
- 请考虑尽可能用参考文献来支持您的回答。