偏最小二乘 (PLS) 回归的模型假设

机器算法验证 回归 假设 偏最小二乘法
2022-03-08 22:36:11

我正在尝试查找有关 PLS 回归假设的信息(单y)。我对 PLS 的假设与 OLS 回归的假设进行比较特别感兴趣。

我已经阅读/浏览了大量关于 PLS 主题的文献;Wold (Svante and Herman)、Abdi 和许多其他人的论文,但尚未找到令人满意的来源。

沃尔德等人。(2001) PLS 回归:化学计量学的基本工具确实提到了 PLS 的假设,但它只提到

  1. Xs 不必是独立的,
  2. 该系统是一些潜在潜在变量的函数,
  3. 该系统应在整个分析过程中表现出同质性,并且
  4. 测量误差X是可以接受的。

没有提及对观测数据或模型残差的任何要求。有谁知道解决这些问题的来源?考虑基础数学类似于 PCA(目标是最大化yX) 是多元正态性(y,X)一个假设?模型残差是否需要表现出方差同质性?

我也相信我在某处读到,观察不必是独立的;就重复测量研究而言,这意味着什么?

3个回答

当我们说标准 OLS 回归有一些假设时,我们的意思是需要这些假设来推导出 OLS 估计量的一些理想属性,例如它是最好的线性无偏估计量——参见高斯马尔可夫定理和一个很好的答案@mpiktas 在什么是线性回归的常用假设的完整列表?无需假设即可简单地回归yX. 假设仅出现在最优性陈述的上下文中。

更一般地说,“假设”是只有理论结果(定理)才能拥有的东西。

PLS 回归也是如此。总是可以使用 PLS 回归进行回归yX. 所以当你问 PLS 回归的假设是什么时,你想到的最优性陈述是什么?事实上,我什么都不知道。PLS 回归是收缩正则化的一种形式,有关上下文和概述,请参阅我在偏最小二乘回归背后的理论中的回答。正则化估计量是有偏的,所以没有多少假设可以证明无偏性。

此外,PLS 回归的实际结果取决于模型中包含多少 PLS 组件,它充当正则化参数。只有在完全指定了选择此参数的过程(通常不是)的情况下,谈论任何假设才有意义。所以我认为 PLS 根本没有任何最优结果,这意味着PLS 回归没有假设。我认为对于任何其他惩罚回归方法(例如主成分回归或岭回归)也是如此。

更新:我在回答什么是岭回归的假设以及如何测试它们?

当然,仍然有经验法则可以说明 PLS 回归何时可能有用,何时不可用。请参阅上面链接的我的答案以进行一些讨论;PLSR 的经验丰富的从业者(我不是其中之一)当然可以对此说更多。

显然,PLS 不会对变量的联合分布做出“硬”假设。这意味着您必须小心选择适当的测试统计数据(我假设这种对变量分布的依赖性不足将 PLS 归类为非参数技术)。我为适当的统计数据找到的建议是 1)对因潜在变量使用 r 平方和 2)重新采样方法来评估估计的稳定性。

OLS/MLS 和 PLS 之间的主要区别在于前者通常使用总体参数的最大似然估计来预测变量之间的关系,而 PLS 估计真实总体的变量值来预测变量组之间的关系(通过关联预测变量组/具有潜在变量的响应变量)。

我也对处理重复/重复实验感兴趣,特别是多因素实验,但是我不确定如何使用 PLS 来解决这个问题。

偏最小二乘手册:概念、方法和应用(第 659 页,第 28.4 节)

Wold, H. 2006。预测器规范。统计科学百科全书。9.

http://www.rug.nl/staff/tkdijkstra/latentvariablesandindices.pdf(第 4 和 5 页)

我发现了一个关于PLS中非正态性和小样本量影响的模拟研究;作者得出结论:“所有三种技术(包括 PLS)在适度偏离常态的情况下都非常稳健,同样如此。”

然而,对于资格:“似乎所有三种技术对于小到中等偏斜或峰度(高达偏斜 = 1.1 和峰度 = 1.6)都相当稳健。但是,对于更极端偏斜的数据(偏斜 = 1.8 和峰度 = 3.8) , 对于 n = 40 和 n = 90(我们测试的两个样本大小),所有三种技术都遭受了显着且统计学上显着的功效损失。例如,对于 n = 90 和中等效应大小,回归的功效为 76% 与正常数据,但对于极度偏斜的数据下降到 53%。在相同条件下,PLS 的功率从 75% 下降到 48%,而 LISREL 从 79% 下降到 50%。

(就个人而言,我会考虑那些与正常情况相当温和的偏离,并且权力会急剧下降。)

引文:Dale L. Goodhue、William Lewis 和 Ron Thompson。PLS 对小样本量或非正态数据有优势吗?管理信息系统 2012 年季刊;36(3):891-1001。