基于文本的图像检索和自然语言对象检索的区别

数据挖掘 机器学习 nlp 物体检测 3d 物体检测
2022-02-26 15:02:09

我正在创建一个模型,该模型使用自然语言查询在场景(2D 图像或 3D 场景)中定位对象。我遇到了一篇关于自然语言对象检索的论文,其中提到这项任务不同于基于文本的图像检索,因为自然语言对象检索需要了解图像中的对象、空间配置等。我无法看看这两个任务之间的区别。你能用一个例子解释一下吗?

1个回答

免责声明:我只能回答 NLP 部分,因为我不是图像处理专家。

我假设基于文本的图像检索是查找与专门描述对象的短文本相对应的图像(或图像的一部分)的任务。实际上,它意味着文本中的任何内容词(即不包括语法词,如限定词)直接指代对象:“a bike”、“a black cat”、“the red car”等。对于 ML 过程,这意味着文本中没有什么可分析的,每个单词都可以直接与图像的一个特征相关联。

相比之下,自然语言对象检索涉及分析文本。例如,“图片左侧的猫”与“猫左侧的图片”不同,即使单词相同。此外,可以有不同的方式来指代同一对象:“书架左侧的书”可能与“最左边的书”或“绿皮书旁边的书”相同。通常有很多方法可以用语言表达相同的含义,这使得任务变得更加复杂。此外,我假设将位置描述映射到图像特征可能很棘手:2D 图像中的“树后的人”或“第二座桥”需要模型“理解”深度。在一张有两只狗的照片中,“自然语言理解尚未解决(可能永远不会)。