除了已经关注数学特性的答案之外,我想从实验的角度发表评论。
摘要:数据生成过程通常以使数据适用于主成分 (PCR) 或偏最小二乘法 (PLS) 回归的方式进行优化。
我是分析化学家。当我设计一个实验/方法来测量(回归或分类)某些东西时,我会利用我对应用程序和可用仪器的了解来获取与手头任务相关的具有良好信噪比的数据。这意味着,我生成的数据旨在与感兴趣的属性具有很大的协方差。
这导致了一个方差结构,其中有趣的方差很大,而后面的 PC 将只携带(小)噪声。
我也更喜欢产生有关手头任务的冗余信息的方法,以便获得更强大或更精确的结果。PCA 将冗余测量通道集中到一台 PC 中,这会带来很大的差异,因此是最早的 PC 之一。
如果存在已知的混杂因素会导致与感兴趣的属性无关的大方差,我通常会在数据预处理期间尝试尽可能多地纠正这些混杂因素:在许多情况下,这些混杂因素是已知的物理或化学性质,并且这些知识提出了纠正混杂因素的适当方法。例如,我在显微镜下测量拉曼光谱。它们的强度取决于激光的强度以及我对显微镜的聚焦程度。两者都会导致可以通过归一化(例如,已知为常数的信号)来校正的变化。
因此,在数据进入 PCA 之前,可能已经消除了对解决方案没有贡献的大量方差贡献者,从而在第一批 PC 中留下了大部分有意义的方差。
最后但并非最不重要的一点是,这里有一个自我实现的预言:显然 PCR 是用数据完成的,其中信息携带方差很大的假设确实有意义。例如,如果我认为可能存在我不知道如何纠正的重要混杂因素,我会立即选择 PLS,它更擅长忽略对预测任务没有帮助的大贡献。