过拟合问题

数据挖掘 过拟合
2021-09-25 14:51:34

你会考虑过拟合吗?

在此处输入图像描述

3个回答

不,这不是过度拟合。

首先,训练集和验证集之间的 AUC完全相同。损失可能有一个差距,但由于验证损失仍在下降(即使是缓慢下降),所以你没问题。

不,这不是过拟合的例子!如果有效损失开始增加而训练损失继续减少,那将是过度拟合。

编辑:第二个问题的答案 值得考虑如何计算 auc。我们有每个实例属于正类的概率。然后我们对这些概率进行排序。如果所有正例都出现在排序列表的第一部分,而所有负例都出现在第二部分,则 auc 为 1(根据 auc 观察,“完美表现”)。

现在让我们考虑损失计算。例如二元交叉熵。公式是loss=1/Nyilog(p(yi))+(1yi)log(1p(yi)) 在哪里 yi - 真正的标签, p(yi) - 概率 yi属于正类。我们可以预测每个负面观察的概率为 0.998,那么损失将是巨大的。但如果正面观察的预测概率为 0.999(高于负面观察),那么就 AUC 而言,我们将有完美的表现。

这就是为什么我猜,我们必须评估损失。

这个如何?在这种情况下,验证损失在增加,但 AUC 并没有遵循相同的模式,哪个相信损失或性能?

在此处输入图像描述