背景和细节
我一直在研究一个特定的图像检索问题,并且在文献中发现了两个流行的主题:
图像检索(通常以地标检索数据集为基准)
- [x]用于图像检索的神经代码
- [x]使用 CNN 激活的积分最大池进行特定对象检索
- [ ]深度图像检索:学习图像搜索的全局表示
- [ ]用于图像检索的深度视觉表示的端到端学习
- [ ]具有细心深度局部特征的大规模图像检索
- [ ]微调 CNN 图像检索,无需人工注释
人脸识别/验证:
我仍在浏览这些列表以及更多列表(我已经检查了我已经看过的那些),但我开始感觉到所使用的技术或集体火车没有太多重叠研究界的思想。以下是我认为两个社区应该相互借鉴的主要分歧点。
- 面部识别似乎专注于通过使用损失函数和训练方法来使嵌入尽可能具有辨别力,而图像检索似乎更关心从 CNN 预训练的主干中提取特征描述符的方法(池操作的类型,特征映射看,等等..)。
- 图像检索在获得嵌入后需要做什么方面有大量工作。例如:降维、白化+l2范数、数据库侧增强、查询扩展、重新排序等
- 面部识别关心在不匹配的面部之间保持最小边距以避免不匹配,但我认为也应该在图像检索任务中强加(这是我第一点的子点)
综上所述:为什么面部识别侧重于生成判别嵌入,而地标检索侧重于生成丰富的“描述符”?为什么地标检索使用这个很酷的技巧进行数据库搜索,而面部识别只提到了 kNN?难道所有这些考虑因素不应该提高任一领域的性能吗?