机器算法验证 - 多类分类器的概率校准度量 - 吾爱随笔录

可以校准机器学习分类器，以便当数据点 i 属于 A 类的概率为 0.6 时，这在 60% 的情况下是正确的。

在二元类设置中，这可以通过可靠性曲线可视化，或使用平均校准误差等指标进行测量，这是校准图上预测概率和真实概率之间的加权均方根误差（参见此处）。

我的问题是，您如何将其扩展到多类设置。显然它无法可视化，但每个类别的可靠性曲线是否合适？还是这取决于所使用的分类器（例如，我正在使用带有 OVA 的 SVM）。Brier Score 或 Log-loss 是最好的方法（log-loss 的波动性让我有点反感），还是有可能（如何？）将平均校准误差扩展到多类（另一种可能性是 CAL，在此处定义）