如果我们没有假阳性和假阴性的先验成本函数,我们经常使用最大化F1 分数的分类阈值。
这平衡了对精确度和召回率的要求。如果其中一个为 0,则 F1 分数为 0;如果我们有一个完美的分类,那么 F1 分数就是 1。
另一方面,我很难找到一个总体上最大化 F1 的科学理由,或者是我们需要最大化 F1 的业务问题。
F1 不对称。如果我们有一个 60/40 的二元分布并选择 40% 的类作为正类,并且我们将所有内容归类为正类,那么对于 0.4 的 F1 分数,我们将获得 100% 的召回率和 40% 的准确率。(如果我们将所有内容归类为负面,则 F1=0)。如果我们选择 60% 的类别为正面,并将所有内容分类为正面,我们得到的 F1 分数为 0.6。
为什么不使用互信息,从而最大限度地减少预测与实际的意外?
当我们通过最小化对数损失来估计概率时,我们也在最小化信息论意义上的KL 散度或熵或惊喜。如果 50/50 概率预测包含 1 位熵或意外,则最小化对数损失可以最小化我们的预测与实际中的熵或意外位数。
而在信息论中,如果我们没有概率并且想要测量噪声信号传递的信息,我们使用互信息。
并且互信息是对称的,0代表全1或0的信号。在某种意义上预测所有的 1 或 0 不会提供有关响应变量的基本事实的信息。
在某种程度上,预测就像一个从现在到未来的嘈杂通道,而像互信息这样的信息论概念似乎是选择分类阈值的有根据的标准,而 F1 似乎是任意的。
有什么理由为什么 F1 比互信息更受欢迎?