我有一个由 10 个变量组成的数据集。我运行偏最小二乘法 (PLS) 以通过这 10 个变量预测单个响应变量,提取 10 个 PLS 分量,然后计算每个分量的方差。在原始数据上,我取了所有变量的方差之和,即 702。
然后我将每个 PLS 分量的方差除以这个总和,得到 PLS 解释的方差百分比,令人惊讶的是,所有分量加起来只解释了原始方差的 44%。
对此有何解释?不应该是100%吗?
我有一个由 10 个变量组成的数据集。我运行偏最小二乘法 (PLS) 以通过这 10 个变量预测单个响应变量,提取 10 个 PLS 分量,然后计算每个分量的方差。在原始数据上,我取了所有变量的方差之和,即 702。
然后我将每个 PLS 分量的方差除以这个总和,得到 PLS 解释的方差百分比,令人惊讶的是,所有分量加起来只解释了原始方差的 44%。
对此有何解释?不应该是100%吗?
偏最小二乘法 (PLS) 有许多变体。您在这里使用的是单变量响应变量的PLS 回归到几个变量; 该算法传统上称为 PLS1(与其他变体相反,请参阅Rosipal & Kramer, 2006, Overview and Recent Advances in Partial Least Squares以获得简明概述)。PLS1 后来被证明等同于称为 SIMPLS 的更优雅的公式(参见 Rosipal & Kramer 中的付费墙Jong 1988)。SIMPLS 提供的视图有助于理解 PLS1 中发生了什么。
事实证明,PLS1 所做的,是找到一系列线性投影,这样:
请注意,权重向量不必(也不是)正交。
这意味着如果由组成变量,你发现PLS 组件,然后您找到了一个非正交基,基向量上具有不相关的投影。可以用数学方法证明,在这种情况下,所有这些预测的方差之和将小于总方差. 如果权重向量是正交的(例如在 PCA 中),它们将是相等的,但在 PLS 中情况并非如此。
我不知道有任何教科书或论文明确讨论过这个问题,但我之前已经在线性判别分析 (LDA) 的背景下对其进行了解释,该分析也会在非正交单位权重向量上产生许多不相关的投影,请参见此处: PCA 和 LDA 中解释方差的比例。