我正在使用深度散列模型来搜索数据库中最相似的图像(与作为查询给出的图像最相似)。我在每个图像有多个标签的coco数据集上执行此操作。我想评估模型的性能,但我不确定这里应该使用哪种类型的指标。
如果每个图像只有一个标签,我会选择平均平均精度(给定狗的查询图像,检查系统检索到的狗图像数量,评估 MAP)。但这显然不能用于多标签任务(给定一个三类的查询图像,系统检索到的图像只有其中一个,它并不完全正确,但也不是不正确的)。那么有没有常用的指标来评估这类任务呢?如果是这样,请向我介绍他们。还是我必须想出一些自己的东西(也许是某种加权 MAP)?