假设我们为二进制分类任务开发了一个模型,该模型在验证(或训练)样本上达到了某个 Gini/AUROC 估计值等。这是一个整体良好的指标,通常用于评估模型将样本分为好坏等的能力。
此外,假设该模型是足够的,并将用于进一步收集具有一定截止值的新样本。新收集的样本的 Gini/AUC 估计值应该是多少?
从我注意到的情况来看,在训练样本中,模型能够以很大的概率区分和分离它的明显案例。另一方面,在应用截止值(例如,<50%)的情况下,新样本仅收集不可能进行此类明确分离的那些案例(因为如果可以,则可能不会收集这些案例)。使用这种方法,对我来说,新样本中的总体分离度会更低,从而导致开发期外的 Gini/AUC 更低,这似乎是合乎逻辑的。
这是正常生产环境中的预期行为吗?我理解正确吗?
注意:我知道还有其他简单的指标,例如敏感性/特异性、hoslem.test 等,允许测量和可视化真/假阳性。但是,我发现 Gini/AUC 通常是讨论和比较分类模型时的关键指标。