多标签分类 - Brier 分数或对数损失?

机器算法验证 机器学习 分类 Python scikit-学习 计分规则
2022-03-06 04:55:00

我正在使用带有 RandomForestClassifier 的 scikit 包,试图预测二进制或多标签分类。

我正在寻找一种方法来估计模型的可靠性,但真的不知道是使用 Brier 得分还是 Log Loss 得分器。

我知道两者都可以估计模型输出的概率的可靠性。

无论如何,可以澄清每种方法的优缺点,以及为什么/何时应该选择另一种方法?

3个回答

由于对数似然函数(如果使用贝叶斯建模,则与先验相结合)是黄金标准最优性标准,因此最好使用对数似然(对数准确性评分规则的线性转换)。这会自动扩展到序数和多项式(多态)Y. 在总结模型的预测值时,我只能想到三个不使用对数似然的原因:

  1. 您试图使用模型未优化的度量来描述模型性能(这不是一个坏主意;通常我们使用 Brier 分数的原因)
  2. 您有一个“错误”的预测概率为 1 或 0,从而为对数得分呈现无限值
  3. 通常很难知道指数的值“有多好”(对于 Brier 得分相同,对于c-index,即一致性概率或 AUROC)

这些措施中的任何一个都可能是合适的,具体取决于您想要关注的内容。

Brier 分数基本上是分类概率估计的平方误差之和。它将告知您模型的准确度以及模型的“自信”准确度。

您不希望使用 Brier 分数来对序数分类问题进行评分。例如,如果通过预测第 2 类而错过第 1 类比预测第 3 类更好。Brier 得分对所有失误的权重均等。

基本上,交叉熵(对数损失)将测量模型产生的类之间相对于真实类的相对不确定性。在过去十年左右的时间里,它已成为多类(和二元)分类问题的标准模型评分统计数据之一。

这篇论文好像有点说:http ://faculty.engr.utexas.edu/bickel/Papers/QSL_Comparison.pdf

我从这个答案中得到了它:证明和选择适当的评分规则