数据挖掘 - 如何评估多标签图像检索模型 - 吾爱随笔录

如何评估多标签图像检索模型

数据挖掘图像分类信息检索评估

2022-03-02 10:20:31

我正在使用深度散列模型来搜索数据库中最相似的图像（与作为查询给出的图像最相似）。我在每个图像有多个标签的coco数据集上执行此操作。我想评估模型的性能，但我不确定这里应该使用哪种类型的指标。

如果每个图像只有一个标签，我会选择平均平均精度（给定狗的查询图像，检查系统检索到的狗图像数量，评估 MAP）。但这显然不能用于多标签任务（给定一个三类的查询图像，系统检索到的图像只有其中一个，它并不完全正确，但也不是不正确的）。那么有没有常用的指标来评估这类任务呢？如果是这样，请向我介绍他们。还是我必须想出一些自己的东西（也许是某种加权 MAP）？

1个回答

首先考虑分析每个类的结果（具有正常的准确度/F 分数/其他） - 这样您就可以很好地了解算法在哪里做得很好以及可以改进的地方。
只考虑完全匹配。如果算法得到了它应该有的确切标签，那就是“成功”。然后，您可以使用命中计数来计算精度、召回率和 F 分数。
Hamming Loss：根据我的经验，这是研究人员最喜欢的，它代表了总标签中有多少被错误分类

相关的Wikipedia 文章似乎同意我的观点，并将 Jaccard 索引添加到组合中。

介绍著名的分类器链方法（READ J. et al, Classifier Chains for Multi-label Classification, 2009）的论文使用了四种不同的评估方法：与 Jaccard 距离非常相似的准确度变化、类似变化的 F1 分数和对数损失函数。他们用来评估的第四种方法是 Precision-Recall 曲线下的面积，但我认为不应该使用这种方法（参见 Peter Flach 关于 Precision-Recall-Gain 曲线的工作）。

其它你可能感兴趣的问题

上一篇没有平均的辍学下一篇推导 k-means 聚类中均值的更新规则