多类分类器的概率校准度量

机器算法验证 机器学习 可能性 多级 校准
2022-03-31 10:30:38

可以校准机器学习分类器,以便当数据点 i 属于 A 类的概率为 0.6 时,这在 60% 的情况下是正确的。

在二元类设置中,这可以通过可靠性曲线可视化,或使用平均校准误差等指标进行测量,这是校准图上预测概率和真实概率之间的加权均方根误差(参见此处)。

我的问题是,您如何将其扩展到多类设置。显然它无法可视化,但每个类别的可靠性曲线是否合适?还是这取决于所使用的分类器(例如,我正在使用带有 OVA 的 SVM)。Brier Score 或 Log-loss 是最好的方法(log-loss 的波动性让我有点反感),还是有可能(如何?)将平均校准误差扩展到多类(另一种可能性是 CAL,在此处定义)

1个回答

跟随郭等人。,我最终使用了预期的校准误差,定义为

m=1M|Bm|n|acc(Bm)conf(Bm)|

在将其扩展到多类时,可以采用每个预测的最大概率,或者在顶部取平均值n预测,如果需要的话。