机器算法验证 - 什么是 F1 最佳阈值？如何计算它？ - 吾爱随笔录

什么是 F1 最佳阈值？如何计算它？

机器算法验证临界点

2022-02-08 10:19:44

我在 R 中使用了 h2o.glm() 函数，它在结果中提供了一个列联表以及其他统计信息。列联表标题为“基于 F1 最优阈值的交叉表”

维基百科将 F1 分数或 F 分数定义为准确率和召回率的调和平均值。但是，仅当逻辑回归的预测值的结果（例如）使用截止值转换为二进制时才发现精度和召回率。

现在通过截止我记得，F1分数和最佳阈值之间有什么联系。如何计算最佳阈值？F1最优阈值是如何计算的？

抱歉，如果我错过了什么，我是这里的统计新手。

1个回答

实际上，我在这个主题上写了我的第一篇机器学习论文。在其中，我们确定，当您的分类器输出校准的概率（逻辑回归应该如此）时，最佳阈值大约是它所达到的 F1 分数的 1/2。这给了你一些直觉。最佳阈值永远不会超过 0.5。如果您的 F1 是 0.5 并且阈值是 0.5，那么您应该期望通过降低阈值来提高 F1。另一方面，如果 F1 为 0.5，阈值为 0.1，您可能应该提高阈值以提高 F1。

可以在此处找到包含所有详细信息和讨论为什么 F1 可能是或可能不是优化的好方法（在单标签和多标签情况下）的论文：

https://arxiv.org/abs/1402.1892

抱歉，这篇文章花了 9 个月的时间才引起我的注意。希望您仍然发现这些信息有用！

其它你可能感兴趣的问题

上一篇协方差函数或内核——它们到底是什么？下一篇广义线性混合模型中的随机效应等于 0