在偏最小二乘法的情况下均值居中与否

机器算法验证 回归 偏最小二乘法 定心 化学计量学
2022-04-09 04:31:51

在我目前的项目中,我正在对红外光谱 (FTIR) 使用 PLS 回归。为此,我使用 R 和plsr包中的 pls 函数。pls总是意味着输入数据和红外光谱的中心。使用拟合 PLS 模型进行预测时,将从数据中减去在估计过程中拟合的均值。

在一种特殊情况下,这对我来说不是一个理想的效果,因为每个 IR 波数的平均值在测量之间不是恒定的。这是因为穿过样品的光束的路径长度可能会发生变化,或者是因为特定机器的路径长度与用于拟合模型的机器不同,或者是因为路径长度会随着时间缓慢变化,因为测量单元的磨损。

通过不意味着使数据居中,该均值最终成为第一个 PLS 因子。这允许对平均值进行线性缩放,同时考虑到诸如细胞路径长度之类的线性效应。这使得模型在特定情况下更加健壮。我知道我们可以先校正红外光谱,然后使用拟合方法。但是,我们想把它放在拟合模型中。

我向 PLSR 包的维护者发送了一封电子邮件,说明为什么该包不支持关闭均值居中。回复是:

不,那是不可能的。从理论上讲,如果一个人不居中,则不是 PLSR。

光谱学领域中使用的其他工具(Grams、Unscrambler)确实允许关闭平均定心。在上述情况下,我觉得禁用均值居中有很大的优势。

现在我的具体问题:

没有均值居中的 PLS 仍然是 PLS,是否有任何理论或实践理由不这样做?

1个回答

PLSR主要有两种算法,即NIPALS和SIMPLS。

SIMPLS 算法通常速度更快但数值不稳定(在大多数情况下差异非常小)。SIMPLS 的原始文章提供了从 X 和 Y 均值居中开始的步骤。包的维护者可能依赖这些步骤。但是,直接引用文章:

在此处输入图像描述

使用 NIPALS 算法,在这篇非常重要的文章中,作者提到默认情况下均值居中是为了使计算更容易,并且没有提供其他具体信息。

最后,这篇文章直接质疑均值居中背后的推理,并提供了一些案例研究。作者准确地陈述了您所观察到的内容。在某些情况下,均值居中甚至会降低模型的预测能力。虽然它可以轻松计算截距项,但我相信省略居中是安全的。

由于所有算法基本上都是对涉及变量与其均值距离的协方差矩阵进行特征值分解,因此仍然称为PLS,没有均值居中。但是,这需要更改您的代码。

您提到的软件中的选项可能允许您跳过居中,但这些选项可能适用于已经居中的数据。换句话说,他们可能仍在使用

X' * Y

代替

(X - mean(x))' * (Y - mean(Y))

例如,用于计算协方差矩阵。

文章:

SIMPLS:德容,西门。“SIMPLS:偏最小二乘回归的另一种方法。” 化学计量学和智能实验室系统 18,没有。3 (1993): 251-263。哈佛

NIPALS 的 PLS 教程: Geladi、Paul 和 Bruce R. Kowalski。“偏最小二乘回归:教程”。Analytica chimica acta 185 (1986): 1-17。

PLS 中的均值居中: Seasholtz、Mary Beth 和 Bruce R. Kowalski。“多变量校准中均值中心对预测的影响。” 化学计量学杂志,第 6 期。2 (1992): 103-111。哈佛