对于二元分类,我有一个包含 55% 负标签和 45% 正标签的数据集。
分类器的结果表明准确率低于f1-score。这是否意味着该模型在学习负面实例方面比正面实例好得多?
这是否有意义,精度低于 f1 分数?
对于二元分类,我有一个包含 55% 负标签和 45% 正标签的数据集。
分类器的结果表明准确率低于f1-score。这是否意味着该模型在学习负面实例方面比正面实例好得多?
这是否有意义,精度低于 f1 分数?
我将尝试用几个例子来回答这个问题:
假设我们有 100 个实例(55 个负例,45 个正例)。假设我们正确预测了 1/45 的正数和 55/55 的负数。那么我们的准确率是 0.56,但我们的 F1 分数是 0.0435。
现在假设我们预测一切都是积极的:我们得到 0.45 的准确度和 0.6207 的 F1 分数。
因此,准确度不必大于 F1 分数。
因为 F1 分数是准确率和召回率的调和平均值,所以直觉可能有些困难。我认为掌握等效Dice 系数要容易得多。
附带说明一下,F1 分数本质上是有偏差的,因为它没有考虑到真正的负面因素。也依赖于“正”和“负”的高层分类,所以也比较随意。这就是其他指标(例如Matthew 的相关系数)更好的原因。
查看准确率和 F1 分数的公式会很有帮助。
和
现在您处于准确度 < F1 的情况。一个简单的代数操作会给你. 因此,您的模型可以更好地预测正面的负面。这取决于其他因素,看看这是否很好,但对于你的情况(有点不平衡),我想这很好。