可以校准机器学习分类器,以便当数据点 i 属于 A 类的概率为 0.6 时,这在 60% 的情况下是正确的。
在二元类设置中,这可以通过可靠性曲线可视化,或使用平均校准误差等指标进行测量,这是校准图上预测概率和真实概率之间的加权均方根误差(参见此处)。
我的问题是,您如何将其扩展到多类设置。显然它无法可视化,但每个类别的可靠性曲线是否合适?还是这取决于所使用的分类器(例如,我正在使用带有 OVA 的 SVM)。Brier Score 或 Log-loss 是最好的方法(log-loss 的波动性让我有点反感),还是有可能(如何?)将平均校准误差扩展到多类(另一种可能性是 CAL,在此处定义)