我经常听到通过提供测试集并在训练集上训练模型来评估分类模型的性能。然后创建 2 个向量,一个用于预测值,一个用于真实值。显然,进行比较可以通过 F-Score、Kappa Statistic、Precision & Recall、ROC 曲线等的预测能力来判断模型的性能。
这与评估回归等数值预测相比如何?我假设您可以在训练集上训练回归模型,用它来预测值,然后将这些预测值与测试集中的真实值进行比较。显然,性能衡量标准必须有所不同,因为这不是分类任务。通常的残差和统计数据是显而易见的衡量标准,但是否有更多/更好的方法来评估回归模型的性能?似乎分类有很多选择,但回归是留给和残差。