交叉验证如何用于回归?

数据挖掘 机器学习 Python scikit-学习
2022-02-19 22:50:13

对于回归类型的问题,我们知道结果是一个连续值,那么如何交叉验证呢?在分类类型问题中,我们知道类标签很容易比较,但在回归类型问题中如何比较呢?

2个回答

交叉验证背后的想法是了解模型在未见过数据上的性能的某种度量的性能。这可以应用于大量不同的统计数据,而不仅仅是与准确度等分类相关的统计数据。回归模型保持性能的常用度量包括 MSE 和 MAPE,其中任何一个(或两者)都可以交叉验证。

在这两种情况下,我们都会选择一个或多个性能度量并基于它们验证模型。在分类中,可以选择使用accuracyprecisionrecallF-score在回归中,其他指标,如均方根误差 (RMSE)平均绝对误差 (MAE)R 平方分数 (R^2)可能有用。

在数据点的顺序很重要(例如时间序列)的回归/分类问题中,我们不能使用传统的交叉验证。相反,必须使用交叉验证过程的一些特殊变体来确保我们不会在当前样本上训练我们的模型并在过去的实例上进行验证。


ps 在回归问题中,标签不需要是“连续的”(正如我们在微积分函数的连续性中定义的那样)。它们可以是离散的但具有实值。