应该选择哪种测量来比较两个回归模型?
修改一个学习算法(具体来说,一个回归算法,我们称之为M1)生成另一个学习算法M2后,如何验证上述修改是否有效?
这就是我所做的(使用 10 倍交叉验证)
我选择MSE作为唯一的度量,在每次运行时,对于M1和M2,计算训练集和测试集的MSE。
结果表明:
- 10 次运行的训练集的平均 MSE:M2 < M1
- 10 次运行的测试集的平均 MSE:M2 < M1
问题:
根据上面的列表,我们是否可以得出M2优于M1的结论?因此,算法M1的修改是有效的(至少在这个数据集上)?
或者:
我错过了其他一些重要的测量吗?有比较两个回归模型的经验法则吗?