什么是评估主成分分析 (PCA) 质量的好指标?
我在数据集上执行了这个算法。我的目标是减少特征的数量(信息非常冗余)。我知道保留的方差百分比是我们保留多少信息的一个很好的指标,是否有其他信息指标可以用来确保我删除了冗余信息并且没有“丢失”这些信息?
什么是评估主成分分析 (PCA) 质量的好指标?
我在数据集上执行了这个算法。我的目标是减少特征的数量(信息非常冗余)。我知道保留的方差百分比是我们保留多少信息的一个很好的指标,是否有其他信息指标可以用来确保我删除了冗余信息并且没有“丢失”这些信息?
我假设这个问题的一部分是除了累积百分比方差(CPV)和类似的碎石图方法之外是否存在其他指标。答案是,是的,很多。
Valle 1999 是一篇关于某些选项的好论文:
Sergio Valle, Weihua Li, and S. Joe Qin, 工业与工程化学研究 1999 38 (11), 4389-4401
它涵盖了 CPV,还涵盖了并行分析、交叉验证、重构误差方差 (VRE)、基于信息标准的方法等。在比较和使用 VRE 之后,您可能会遵循论文提出的建议,但是基于 PRESS 的交叉验证在我的经验中也很有效,并且他们也得到了很好的结果。根据我的经验,CPV 既方便又简单,而且做得不错,但这两种方法通常更好。
如果您对数据有更多了解,还有其他方法可以评估您的 PCA 模型的好坏。一种方法是将估计的 PCA 负载与真实负载进行比较(如果您知道它们(在模拟中会这样做))。这可以通过计算估计负载与真实负载的偏差来完成。你的偏见越大,你的模型就越差。关于如何做到这一点,你可以查看这篇论文,他们使用这种方法来比较方法。但是,它在实际数据情况下不可用,因为您不知道真正的 PCA 负载。这说明您删除了多少组件,而不是说明由于异常观察的影响而导致的模型偏差,但它仍然可以作为模型质量指标。
还有一些基于信息论标准的措施,如
Rissanen 的 MDL(和变体)