极端不平衡数据集的模型评估

数据挖掘 分类 数据科学模型 阶级失衡
2022-03-11 19:17:18

我正在处理一个极其不平衡的数据集,每个正样本大约有 10,000 个负样本。我现在正在尝试对模型精度进行适当的测量,但似乎没有一个适合。对于不平衡数据集,许多地方推荐 PR 曲线优于 AUC 曲线(例如,不平衡数据集的信息量最大的曲线),但看起来所有这些建议都适用于不平衡数据集。

由于精度的分母考虑了误报的数量,因此数据集中更多的负样本意味着更小的精度值。

我注意到,只要我将正/负比率保持在 1/10-20 左右,我的 PR 曲线往往看起来不错且信息丰富,但随着考虑到更多负样本,曲线看起来越来越不像它应该的那样。

我的问题是是否有更好的方法来评估超级不平衡数据集的模型性能,或者我对 PR 曲线及其目的的解释可能遗漏了一些东西。

1个回答

我只会查看欠采样类(在您的情况下为正类)的精度/召回分数。

检查过采样类的表现似乎毫无意义,因为很容易获得很高的分数。

然后,平衡精度/召回率与F-beta分数将取决于您的具体用例。