我正在使用带有 RandomForestClassifier 的 scikit 包,试图预测二进制或多标签分类。
我正在寻找一种方法来估计模型的可靠性,但真的不知道是使用 Brier 得分还是 Log Loss 得分器。
我知道两者都可以估计模型输出的概率的可靠性。
无论如何,可以澄清每种方法的优缺点,以及为什么/何时应该选择另一种方法?
我正在使用带有 RandomForestClassifier 的 scikit 包,试图预测二进制或多标签分类。
我正在寻找一种方法来估计模型的可靠性,但真的不知道是使用 Brier 得分还是 Log Loss 得分器。
我知道两者都可以估计模型输出的概率的可靠性。
无论如何,可以澄清每种方法的优缺点,以及为什么/何时应该选择另一种方法?
由于对数似然函数(如果使用贝叶斯建模,则与先验相结合)是黄金标准最优性标准,因此最好使用对数似然(对数准确性评分规则的线性转换)。这会自动扩展到序数和多项式(多态). 在总结模型的预测值时,我只能想到三个不使用对数似然的原因:
这些措施中的任何一个都可能是合适的,具体取决于您想要关注的内容。
Brier 分数基本上是分类概率估计的平方误差之和。它将告知您模型的准确度以及模型的“自信”准确度。
您不希望使用 Brier 分数来对序数分类问题进行评分。例如,如果通过预测第 2 类而错过第 1 类比预测第 3 类更好。Brier 得分对所有失误的权重均等。
基本上,交叉熵(对数损失)将测量模型产生的类之间相对于真实类的相对不确定性。在过去十年左右的时间里,它已成为多类(和二元)分类问题的标准模型评分统计数据之一。
这篇论文好像有点说:http ://faculty.engr.utexas.edu/bickel/Papers/QSL_Comparison.pdf
我从这个答案中得到了它:证明和选择适当的评分规则