过拟合问题
数据挖掘
过拟合
2021-09-25 14:51:34
3个回答
不,这不是过度拟合。
首先,训练集和验证集之间的 AUC完全相同。损失可能有一个差距,但由于验证损失仍在下降(即使是缓慢下降),所以你没问题。
不,这不是过拟合的例子!如果有效损失开始增加而训练损失继续减少,那将是过度拟合。
编辑:第二个问题的答案 值得考虑如何计算 auc。我们有每个实例属于正类的概率。然后我们对这些概率进行排序。如果所有正例都出现在排序列表的第一部分,而所有负例都出现在第二部分,则 auc 为 1(根据 auc 观察,“完美表现”)。
现在让我们考虑损失计算。例如二元交叉熵。公式是 在哪里 - 真正的标签, - 概率 属于正类。我们可以预测每个负面观察的概率为 0.998,那么损失将是巨大的。但如果正面观察的预测概率为 0.999(高于负面观察),那么就 AUC 而言,我们将有完美的表现。
这就是为什么我猜,我们必须评估损失。