机器算法验证 - 偏最小二乘 (PLS) 回归的验证指标（R2 和 Q2） - 吾爱随笔录

偏最小二乘 (PLS) 回归的验证指标（R2 和 Q2）

机器算法验证回归交叉验证 Python scikit-学习偏最小二乘法

2022-04-04 09:11:11

我正在尝试验证我的偏最小二乘 (PLS) 回归模型。从有关 PLS 回归的文档和其他阅读资料中，我了解到通常有两个指标用于评估算法的性能。 $R^2$ 计算为 1 - 残差平方和 (RSS) 和总平方和 (TSS)：

R^{2} = 1 - R S S / T S S

$R^2 = 1 - RSS/TSS$

R S S = \sum (y - \hat{y})^{2}

$RSS =\sum(y-\hat{\mathbf{y}})^2$

T S S = \sum (y - \bar{y})^{2}

$\ TSS = \sum(y - \bar{\mathbf{y}})^2$ 尽管

Q^{2}

$Q^2$ 计算为 1 - 预测残差误差平方和 (PRESS)/TSS：

Q^{2} = 1 - P R E S S / T S S

$\ Q^2 = 1 - PRESS/TSS$

P R E S S = \sum (y - \hat{y})^{2}

$\ PRESS = \sum(y-\hat{\mathbf{y}})^2$

计算为 $R^2$ 和 $Q^2$ 几乎相同，唯一的区别是 RSS 是从训练算法的数据中计算出来的，而 PRESS 是从保留的数据中计算出来的。

我的问题：

从数据的训练/测试拆分来看，是否适合调用 $R^2$ 算法如何拟合训练数据的度量，以及 $Q^2$ 测试数据的算法性能指标？

附带问题：在 PLS 回归中以与 X 相同的方式缩放 Y 是否是一种好习惯？

1个回答

我也在寻找有关这些参数的信息，并在 Eriksson 等人的书中找到了一个很好的解释。多元和元变量数据分析原理和应用。

总的来说，我认为您的想法是正确的。根据 Eriksson 等人的说法，拟合告诉我们能够在数学上重现训练集数据的能力。这 $R^2$ 参数被称为“拟合优度”，或解释的变化。这 $Q^2$ 参数被称为“预测的优度”，或预测的变化。

强调以下几点：

在 PLS 中，术语 $R^2$ 和 $Q^2$ 通常指的是 Y 数据（即响应）的模型性能，而不是 X 数据（预测变量）的模型性能。
这两个参数随着模型复杂性的增加而变化。 $R^2$ 是膨胀的并且随着模型复杂性（模型参数的数量）的增加而迅速接近统一。因此，仅仅拥有高水平是不够的 $R^2$ . $Q^2$ 另一方面，它不是通货膨胀的，并且在一定程度上复杂性不会进一步提高然后退化。
拟合和预测能力之间存在权衡，因此我们希望在该区域中在良好拟合和预测能力之间取得平衡。

对于您的附带问题，我没有找到具体的建议，也没有特别的理由来缩放 Y 变量（我假设只有一个）。X 变量被缩放以使它们具有相同的方差，因此在模型中具有相同的权重。无论响应是否缩放，模型在数学上都应该是等效的。如果有多个 Y 变量，则更重要的问题是测试它们是否相关以及是否适合每个预测变量的一个模型或单独的模型。

其它你可能感兴趣的问题

上一篇逻辑回归的 AUC 分数小于 0.5 下一篇包含交互项时如何对模型系数进行置换检验？