数据挖掘 - 极端不平衡数据集的模型评估 - 吾爱随笔录

我正在处理一个极其不平衡的数据集，每个正样本大约有 10,000 个负样本。我现在正在尝试对模型精度进行适当的测量，但似乎没有一个适合。对于不平衡数据集，许多地方推荐 PR 曲线优于 AUC 曲线（例如，不平衡数据集的信息量最大的曲线），但看起来所有这些建议都适用于不平衡数据集。

由于精度的分母考虑了误报的数量，因此数据集中更多的负样本意味着更小的精度值。

我注意到，只要我将正/负比率保持在 1/10-20 左右，我的 PR 曲线往往看起来不错且信息丰富，但随着考虑到更多负样本，曲线看起来越来越不像它应该的那样。

我的问题是是否有更好的方法来评估超级不平衡数据集的模型性能，或者我对 PR 曲线及其目的的解释可能遗漏了一些东西。