为什么地标检索和面部识别文献如此不同?

人工智能 卷积神经网络 面部识别 基于内容的图像检索
2021-10-26 21:37:38

背景和细节

我一直在研究一个特定的图像检索问题,并且在文献中发现了两个流行的主题:

图像检索(通常以地标检索数据集为基准)

人脸识别/验证

我仍在浏览这些列表以及更多列表(我已经检查了我已经看过的那些),但我开始感觉到所使用的技术或集体火车没有太多重叠研究界的思想。以下是我认为两个社区应该相互借鉴的主要分歧点。

  • 面部识别似乎专注于通过使用损失函数和训练方法来使嵌入尽可能具有辨别力,而图像检索似乎更关心从 CNN 预训练的主干中提取特征描述符的方法(池操作的类型,特征映射看,等等..)。
  • 图像检索在获得嵌入后需要做什么方面有大量工作。例如:降维、白化+l2范数、数据库侧增强、查询扩展、重新排序等
  • 面部识别关心在不匹配的面部之间保持最小边距以避免不匹配,但我认为也应该在图像检索任务中强加(这是我第一点的子点)

综上所述:为什么面部识别侧重于生成判别嵌入,而地标检索侧重于生成丰富的“描述符”?为什么地标检索使用这个很酷的技巧进行数据库搜索,而面部识别只提到了 kNN?难道所有这些考虑因素不应该提高任一领域的性能吗?

1个回答

地标检索有您需要找出的地标照片。考虑这一点的自由度,地标可以有许多不同的颜色(比人脸更多),而且颜色范围遍布各处(地标可能是蓝色或白色或红色)。各种地标的形状也会有所不同。

现在,考虑人脸识别问题。所有人类的面孔在形态上看起来都相似。如果你看颜色,它不像地标识别那么多样。

由于这两个问题的内在数据,研究集中在不同的思路上。丰富的描述符对地标有好处,因为数据本身非常丰富并且充满变化。另一方面,判别特征更适合人脸识别,因为人脸更相似且变化较少,因此很难区分。

正是问题的需要引导着不同的研究方向。