我们正在做关于多模式检索的论文。它基本上是用其他方式搜索不同的方式(多媒体例如:文本、视频、图像......)。即使用文本查询搜索图像数据库。
对于任何模态,我们首先需要将其映射到具有恒定数量特征的空间,并且这些特征必须以某种方式表达数据。
对于图像,我们评估的论文使用 SIFT 特征提取,我们使用NUSWIDE评估不同的方法,它已经以 SIFT 格式存在,所以我们评估的大多数论文都使用这些现有的数据集。
我们试图通过使用 Inception 或 Resnet 来改进这种特征提取机制,并将恰好在 softmax 之前的层作为我们的特征。但是,它们的性能比 SIFT 差得多。我们使用tensorflow和 keras 来提取特征。
所以知道为什么 resnet/inception 的性能会比 SIFT 差吗?