如何评估多标签图像检索模型

数据挖掘 图像分类 信息检索 评估
2022-03-02 10:20:31

我正在使用深度散列模型来搜索数据库中最相似的图像(与作为查询给出的图像最相似)。我在每个图像有多个标签的coco数据集上执行此操作。我想评估模型的性能,但我不确定这里应该使用哪种类型的指标。

如果每个图像只有一个标签,我会选择平均平均精度(给定狗的查询图像,检查系统检索到的狗图像数量,评估 MAP)。但这显然不能用于多标签任务(给定一个三类的查询图像,系统检索到的图像只有其中一个,它并不完全正确,但也不是不正确的)。那么有没有常用的指标来评估这类任务呢?如果是这样,请向我介绍他们。还是我必须想出一些自己的东西(也许是某种加权 MAP)?

1个回答
  • 首先考虑分析每个类的结果(具有正常的准确度/F 分数/其他) - 这样您就可以很好地了解算法在哪里做得很好以及可以改进的地方。
  • 只考虑完全匹配。如果算法得到了它应该有的确切标签,那就是“成功”。然后,您可以使用命中计数来计算精度、召回率和 F 分数。
  • Hamming Loss:根据我的经验,这是研究人员最喜欢的,它代表了总标签中有多少被错误分类

相关的Wikipedia 文章似乎同意我的观点,并将 Jaccard 索引添加到组合中。

介绍著名的分类器链方法(READ J. et al, Classifier Chains for Multi-label Classification, 2009)的论文使用了四种不同的评估方法:与 Jaccard 距离非常相似的准确度变化、类似变化的 F1 分数和对数损失函数。他们用来评估的第四种方法是 Precision-Recall 曲线下的面积,但我认为不应该使用这种方法(参见 Peter Flach 关于 Precision-Recall-Gain 曲线的工作)。