机器算法验证 - 如何统计比较机器学习“回归”模型？ - 吾爱随笔录

如何统计比较机器学习“回归”模型？

机器算法验证机器学习假设检验统计学意义模型比较

2022-04-01 21:41:20

假设我想比较 XGBoost 与 NN，或 NN 与 NN，甚至是相同 NN 在不同时期的回归任务的性能。

所有算法都在完全相同的数据集上进行训练和评估。

我的想法是比较残差的分布，即：设置一个假设检验，例如 tha，或进行 t 检验，... $\mu_{xgb} > \mu_{nn}$

这是我正在研究的一个例子......

如您所见，两个模型相似，都是非正态分布的，但 NN 的方差更大。我不知道如何比较，所以我选择了配对 Wilcoxon Signed-rank 检验，因为它不假设正态分布。正如预期的那样，p 值非常低，XGBoost 的中位数小于 NN 的中位数。

我不知道这是否是犹太洁食——但我在网上找不到任何东西。

此外，我对这两种模型在数据最频繁的地区的偏差程度感到非常惊讶。就线性回归模型而言 - 它们都将被视为糟糕的模型。我认为 QQ-plots 将是比 ie 更好的衡量标准：如果我们假设，在 XGBoost 的情况下特征重要性

y = f (x, w) + ϵ

$y = f(x, w) + \epsilon$

其中是输入，是两个模型中的权重。 $x$ $w$

2个回答

因为我的最后一个答案被否决了，所以我将提供一个完整的例子。

你不想比较残差，你想比较损失。假设您的回归看起来像这样

让我们在 RMSE 上比较两个模型：线性模型和广义加性模型。显然，线性模型将具有较大的损失，因为它具有高偏差低方差。让我们看一下损失值的直方图。

我们有很多数据，所以我们可以使用中心极限定理来帮助我们进行推理。当我们有“足够”的数据时，平均值的抽样分布是正态的，期望等于总体平均值和标准差。 $\sigma/\sqrt{n}$

所以我们所要做的就是对损失值（而不是残差）进行测试，这将使我们能够确定哪个模型的预期损失更小。

使用我生成的数据

>> t.test(loss2, loss1)

    Welch Two Sample t-test

data:  loss2 and loss1
t = -7.8795, df = 1955, p-value = 5.408e-15
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.2717431 -0.1634306
sample estimates:
mean of x mean of y 
0.3761796 0.5937665

gam 模型的平均损失为 0.37，而线性模型的平均损失为 0.6。t 检验告诉我们，如果均值的抽样分布确实具有相同的期望（即，如果模型的损失相同），那么仅凭偶然性就不太可能观察到均值的差异。因此，我们拒绝空值。

配对方法可能会有所帮助，但通常我们拥有如此多的数据，以至于功率损失实际上不是问题。

这能澄清事情吗？

在机器学习中评估回归量的常用方法是评估与训练中使用的数据集不同的数据集上的误差。我将假设您的句子“所有算法都在完全相同的数据集上进行训练和评估”。意味着有 2 个不同的数据集，一个用于训练，一个用于测试，并且它们对于两个回归器（例如 XGBoost 和 NN）都是相同的。如果您只使用一个数据集进行训练和测试（这对于使用线性回归并谈论残差 QQ 图的人来说很常见），请不要。将您的单个数据集拆分为 80% 的训练和 20% 的测试。

测试集的残差分布（在机器学习中类似于错误 - 更多内容见下文）是无关紧要的。没有假设回归量的误差/残差是正常的，所以 QQ 图是不相关的。等等。

残差和误差之间的主要区别在于误差总是正的——从预测的角度来看，预测高于或低于正确值 5 的 y 同样是错误的。从残差到误差有两种常见的转换——用户 11852 引用的 MSE 和 MAE——MSE 取残差的平方，MAE 取绝对值。

现在您必须设置一组 ERRORS 度量（MAE 或 MSE 或其他），并且您希望回归量具有最小的均值或中值误差。误差很少呈正态分布，因此非参数测试是更规范的方法，但如果您的测试数据集中有数千个数据点，则适用 Demetri Pananos 引用的中心极限定理，因此您可以使用参数测试。

最后，有一点很重要。两组误差测量（对于每个回归器）是配对的——即一组中的每个测量在另一组上都有对应的测量。因此，您应该为此使用配对测试。

总结一下：a) 使用 2 个数据集，b) 从残差中计算误差 - 使用平方变换 - 它更常用，c) 选择中值误差最小的回归器和 d) 如果你想证明那个您选择的“确实”（或显着）优于另一个，然后使用 Wilcoxon 符号秩检验（Wilcoxon 秩和的配对版本）

其它你可能感兴趣的问题

上一篇在多级/分层建模中增加多重共线性？下一篇从 GAMLSS 中的系数和结创建样条