数据挖掘 - 将 Gini/AUC 指标理解为未开发绩效指标 - 吾爱随笔录

假设我们为二进制分类任务开发了一个模型，该模型在验证（或训练）样本上达到了某个 Gini/AUROC 估计值等。这是一个整体良好的指标，通常用于评估模型将样本分为好坏等的能力。

此外，假设该模型是足够的，并将用于进一步收集具有一定截止值的新样本。新收集的样本的 Gini/AUC 估计值应该是多少？

从我注意到的情况来看，在训练样本中，模型能够以很大的概率区分和分离它的明显案例。另一方面，在应用截止值（例如，<50%）的情况下，新样本仅收集不可能进行此类明确分离的那些案例（因为如果可以，则可能不会收集这些案例）。使用这种方法，对我来说，新样本中的总体分离度会更低，从而导致开发期外的 Gini/AUC 更低，这似乎是合乎逻辑的。

这是正常生产环境中的预期行为吗？我理解正确吗？

注意：我知道还有其他简单的指标，例如敏感性/特异性、hoslem.test 等，允许测量和可视化真/假阳性。但是，我发现 Gini/AUC 通常是讨论和比较分类模型时的关键指标。