如何比较两个回归模型?

数据挖掘 机器学习 回归 交叉验证
2022-03-08 07:47:27

应该选择哪种测量来比较两个回归模型?

修改一个学习算法(具体来说,一个回归算法,我们称之为M1)生成另一个学习算法M2后,如何验证上述修改是否有效?

这就是我所做的(使用 10 倍交叉验证)

我选择MSE作为唯一的度量,在每次运行时,对于M1M2,计算训练集和测试集的MSE

结果表明:

  • 10 次运行的训练集的平均 MSE:M2 < M1
  • 10 次运行的测试集的平均 MSE:M2 < M1

问题:

根据上面的列表,我们是否可以得出M2优于M1的结论?因此,算法M1的修改是有效的(至少在这个数据集上)?

或者:

我错过了其他一些重要的测量吗?有比较两个回归模型的经验法则吗?

2个回答

有两点需要考虑:

  • 抽样偏差
  • 公制

抽样偏差问题是您的测试集可能不是您感兴趣的全部内容。所以,不,您不能简单地检查 MSE_1 < MSE_2 并得出结论,当它“只是”适合您的数据集案例。这就是显着性检验的用途。(虽然这种推理在机器学习中非常普遍,我自己已经做过了🙈)

然后是该指标是否适合您的应用程序的问题。典型的选择是:MSE、平均绝对误差、自定义成本函数

从测量的角度来看,在我看来没关系。但也有可能为 M1 选择的一组超参数不是有效的。如果您更改并设置正确的超参数,您可能会得到完全不同的计算。

我认为我们也应该考虑这个衡量标准。