机器算法验证 - 偏最小二乘法中的“偏”是什么？ - 吾爱随笔录

偏最小二乘法中的“偏”是什么？

机器算法验证多重回归最小二乘术语结构方程建模偏最小二乘法

2022-02-06 15:47:40

在偏最小二乘回归 (PLSR) 或偏最小二乘结构方程建模 (PLS-SEM) 中，术语“偏”指的是什么？

2个回答

我想从历史的角度来回答这个问题，这很有趣。发明偏最小二乘法 (PLS)方法的Herman Wold并没有立即开始使用术语PLS（甚至提到术语partial）。在最初的时期（1966-1969 年），他将这种方法称为NILES——他在 1966 年发表的关于迭代最小二乘法的非线性估计的最初论文的术语和标题的缩写。

正如我们所看到的，后来被称为部分的过程被称为迭代，专注于估计权重和潜在变量 (LV) 过程的迭代性质。“最小二乘”术语来自使用普通最小二乘 (OLS)回归来估计模型的其他未知参数 (Wold, 1980)。似乎“部分”一词源于 NILES 程序，该程序实现了“将模型的参数拆分为子集以便可以部分估计它们的想法”（Sanchez，2013 年，第 216 页；强调我的） .

PLS 一词的第一次使用出现在非线性迭代偏最小二乘 (NIPALS) 估计程序论文中，该论文的发表标志着 PLS 历史的下一个时期 - NIPALS 建模时期。1970 年代和 1980 年代成为软建模时期，受 Karl Joreskog 对 SEM 的 LISREL 方法的影响，Wold 将 NIPALS 方法转变为软建模，这基本上形成了现代 PLS 方法的核心（PLS 一词在 1970 年代末成为主流）。1990 年代是 PLS 历史上的下一个时期，Sanchez (2013) 称之为“差距”时期，其主要特点是其使用减少。幸运的是，从 2000 年代开始（巩固期)，PLS 作为一种非常流行的 SEM 分析方法获得了回报，尤其是在社会科学领域。

更新（回应变形虫的评论）：

也许，桑切斯的措辞在我引用的那句话中并不理想。我认为“部分估计”适用于潜在的变量 块。Wold (1980) 详细描述了这个概念。
没错，NIPALS 最初是为 PCA 开发的。混淆源于同时存在线性 PLS 和非线性 PLS 方法的事实。我认为 Rosipal (2011) 很好地解释了这些差异（至少，这是我迄今为止看到的最好的解释）。

更新2（进一步澄清）：

为了回应变形虫的回答中表达的担忧，我想澄清一些事情。在我看来，我们需要区分 NIPALS 和 PLS 之间“部分”一词的使用。这产生了两个单独的问题：1）NIPALS 中“部分”的含义和 2）PLS 中“部分”的含义（这是 Phil2014 的原始问题）。虽然我不确定前者，但我可以进一步澄清后者。

根据 Wold、Sjöström 和 Eriksson (2001) 的说法，

PLS 中的“部分”表示这是一个部分回归，因为......

换句话说，“部分”源于这样一个事实，即PLS 的 NIPALS 算法的数据分解可能不包括所有组件，因此是“部分”。如果可以在“部分”数据上使用算法，我怀疑同样的原因通常适用于 NIPALS。这将解释 NIPALS 中的“P”。

关于在 NIPALS 定义中使用“非线性”一词（不要与表示 PLS 方法的非线性变体的非线性 PLS混淆！），我认为它不是指算法本身，而是指非线性模型，可以是使用基于线性回归的 NIPALS 进行分析。

更新 3（赫尔曼沃尔德的解释）：

虽然 Herman Wold 1969 年的论文似乎是关于 NIPALS 的最早论文，但我已经设法找到另一篇关于该主题的最早论文。这是 Wold (1974) 的一篇论文，其中 PLS 的“父亲”提出了他在 NIPALS 定义中使用“部分”一词的理由（第 71 页）：

3.1.4。NIPALS 估计：迭代 OLS。如果模型的一个或多个变量是潜在的，则预测关系不仅涉及未知参数，还涉及未知变量，导致估计问题变为非线性。如 3.1 (iii) 所示，NIPALS 通过迭代过程解决此问题，例如步骤 s = 1, 2, ... 每个步骤 s 涉及有限数量的 OLS 回归，一个用于模型的每个预测变量关系。每个这样的回归都给出了未知参数和潜在变量子集的代理估计（因此称为偏最小二乘法），并且这些代理估计在程序的下一步中用于计算新的代理估计。

参考

罗西帕尔，R. (2011)。非线性偏最小二乘：概述。在 Lodhi H. 和 Yamanishi Y. (Eds.)，化学信息学和高级机器学习视角：复杂计算方法和协作技术，第 169-189 页。ACCM，IGI 全球。取自http://aiolos.um.savba.sk/~roman/Papers/npls_book11.pdf

桑切斯，G.（2013 年）。使用加利福尼亚州伯克利的 R.Berkeley进行 PLS 路径建模：Trowchez 版本。取自http://gastonsanchez.com/PLS_Path_Modeling_with_R.pdf

沃尔德，H.（1974 年）。具有潜在变量的因果流：根据 NIPALS 建模的方式分道扬镳。欧洲经济评论，5，67-86。北荷兰出版社。

沃尔德，H. (1980)。缺乏理论知识时的模型构建与评估：偏最小二乘的理论与应用。在 J. Kmenta 和 JB Ramsey (Eds.)，计量经济模型的评估，第 47-74 页。纽约：学术出版社。取自http://www.nber.org/chapters/c11693

Wold, S.、Sjöström, M. 和 Eriksson, L. (2001)。PLS-回归：化学计量学的基本工具。化学计量学和智能实验室系统，58，109-130。doi:10.1016/S0169-7439(01)00155-1 检索自http://www.libpls.net/publication/PLS_basic_2001.pdf

在 PLS 的现代论述中，没有任何“部分”：PLS 寻找变量之间的线性组合 $X$ 和变量之间 $Y$ 具有最大协方差。这是一个简单的特征向量问题。就是这样。参见统计学习的要素，第 3.5.2 节，或例如 Rosipal & Krämer，2005，概述和偏最小二乘的最新进展。

然而，从历史上看，正如@Aleksandr 很好地解释（+1），PLS 是由 Wold 引入的，他使用他的 NIPALS 算法来实现它；NIPALS 代表“非线性迭代偏最小二乘法”，因此 PLS 中的 P 显然是从 NIPALS 那里得到的。

此外，NIPALS（我记得在别处读过）最初并不是为 PLS 开发的。它是为 PCA 引入的。现在，用于 PCA 的 NIPALS 是一个非常简单的算法。我可以在这里展示它。设是一个居中的数据矩阵，观测值按行排列。目标是找到第一个主轴（协方差矩阵的特征向量）和第一个主分量（投影数据到）。我们随机初始化，然后迭代以下步骤直到收敛： $\newcommand{\X}{\mathbf X}\X$ $\newcommand{\v}{\mathbf v}\v$ $\newcommand{\p}{\mathbf p}\p$ $\v$ $\p$

$\v = \X^\top \p (\p^\top \p)^{-1}$
设置为。 $\|\v\|$ $1$
$\p = \X \v (\v^\top \v)^{-1}$

就是这样！所以真正的问题是为什么 Wold 称这个算法为“部分”？答案（正如我在@Aleksandr 进行第三次更新后终于理解的那样）是 Wold 将和视为两个 [set of] 参数，一起对数据矩阵建模。该算法按顺序更新这些参数（步骤#1 和#3），即一次只更新一部分参数！因此“部分”。 $\v$ $\p$ $\X$

（为什么他称它为“非线性”我仍然不明白。）

这个术语非常具有误导性，因为如果这是“部分的”，那么每个期望最大化算法也是“部分的”（事实上，NIPALS 可以被视为 EM 的原始形式，参见Roweis 1998）。我认为 PLS 是机器学习中最具误导性的术语竞赛的一个很好的候选者。唉，尽管 Wold Jr. 做出了努力，但它不太可能改变（见上面@Momo 的评论）。

其它你可能感兴趣的问题

上一篇神经网络中的瓶颈层是什么意思？下一篇如何计算经验概率密度之间的重叠？