假设我想比较 XGBoost 与 NN,或 NN 与 NN,甚至是相同 NN 在不同时期的回归任务的性能。
所有算法都在完全相同的数据集上进行训练和评估。
我的想法是比较残差的分布,即:设置一个假设检验,例如 tha,或进行 t 检验,...
这是我正在研究的一个例子......
如您所见,两个模型相似,都是非正态分布的,但 NN 的方差更大。我不知道如何比较,所以我选择了配对 Wilcoxon Signed-rank 检验,因为它不假设正态分布。正如预期的那样,p 值非常低,XGBoost 的中位数小于 NN 的中位数。
我不知道这是否是犹太洁食——但我在网上找不到任何东西。
此外,我对这两种模型在数据最频繁的地区的偏差程度感到非常惊讶。就线性回归模型而言 - 它们都将被视为糟糕的模型。我认为 QQ-plots 将是比 ie 更好的衡量标准:如果我们假设,在 XGBoost 的情况下特征重要性
其中是输入,是两个模型中的权重。



