我是机器学习和统计学的新手,如果我说什么荒谬的话,请原谅我。
“测试集”是指我们评估最终假设然后报告最终结果(例如测试误差)的集合,它是对相应样本外结果(例如样本外误差)的无偏估计。
“验证集”是指我们用来进行模型选择或参数调整以选择最终假设的集合。根据定义,在验证集上找到的最佳结果是有偏差的(如果您只评估验证集上的一个假设,那么验证集就是测试集)。
对于上面两个冗长的段落,我很抱歉,因为我想确定我们在谈论同一件事。现在主要问题来了:
为什么要在测试集上计算 ROC 曲线?
在我阅读的许多其他资源中,他们在没有明确定义“测试集”的情况下计算了训练集或测试集的 ROC 曲线,所以如果我读错了,请原谅我。但是,我仍然很好奇,在我上面定义的测试集的情况下,计算 ROC 曲线的意义何在?不是在训练集(可能严重偏向乐观)或验证集(可能不太乐观)上选择阈值吗?如果我们对其进行阈值选择,测试集是否会成为验证集?
对我来说听起来很合理的过程是我们在验证集上计算 ROC 曲线,以根据 ROC 曲线进行模型选择/参数调整和阈值选择。