我正在处理一个极其不平衡的数据集,每个正样本大约有 10,000 个负样本。我现在正在尝试对模型精度进行适当的测量,但似乎没有一个适合。对于不平衡数据集,许多地方推荐 PR 曲线优于 AUC 曲线(例如,不平衡数据集的信息量最大的曲线),但看起来所有这些建议都适用于不平衡数据集。
由于精度的分母考虑了误报的数量,因此数据集中更多的负样本意味着更小的精度值。
我注意到,只要我将正/负比率保持在 1/10-20 左右,我的 PR 曲线往往看起来不错且信息丰富,但随着考虑到更多负样本,曲线看起来越来越不像它应该的那样。
我的问题是是否有更好的方法来评估超级不平衡数据集的模型性能,或者我对 PR 曲线及其目的的解释可能遗漏了一些东西。