将 Gini/AUC 指标理解为未开发绩效指标

数据挖掘 分类 公制
2022-02-20 02:24:38

假设我们为二进制分类任务开发了一个模型,该模型在验证(或训练)样本上达到了某个 Gini/AUROC 估计值等。这是一个整体良好的指标,通常用于评估模型将样本分为好坏等的能力。

此外,假设该模型是足够的,并将用于进一步收集具有一定截止值的新样本。新收集的样本的 Gini/AUC 估计值应该是多少?

从我注意到的情况来看,在训练样本中,模型能够以很大的概率区分和分离它的明显案例。另一方面,在应用截止值(例如,<50%)的情况下,新样本仅收集不可能进行此类明确分离的那些案例(因为如果可以,则可能不会收集这些案例)。使用这种方法,对我来说,新样本中的总体分离度会更低,从而导致开发期外的 Gini/AUC 更低,这似乎是合乎逻辑的。

这是正常生产环境中的预期行为吗?我理解正确吗?

注意:我知道还有其他简单的指标,例如敏感性/特异性、hoslem.test 等,允许测量和可视化真/假阳性。但是,我发现 Gini/AUC 通常是讨论和比较分类模型时的关键指标。

1个回答

训练/测试/验证数据集分离的优点是将数据集分为:

  • 您知道外生变量和输出的个人:培训
  • 您知道外生变量和输出的个人(但您假设您不知道输出是哪个):测试
  • 您知道外生变量但不知道输出的个人:验证

每个 DS 或 ML 模型都是这样制作的,因此它准备好在未来接收验证数据集,并尝试让每个指标几乎和训练数据集一样好。

测试数据集的目的是模拟有数据但没有输出的情况,然后你有输出来衡量行为并比较建模与实际输出。

因此,对于一个具体的答案:您应该从验证(或新收集的样本)中获得的行为与测试数据集相同。

鉴于潜在现象和采样技术保持不变。

欲了解更多信息: https ://towardsdatascience.com/train-validation-and-test-sets-72cb40cba9e7