我正在通过以下步骤实现视觉词袋:
- 使用 SIFT 查找兴趣点
- 计算 SIFT 描述符
- 通过 SIFT 描述符的 kmeans 聚类构建码本。
我如何可视化这些视觉词?例如在接下来的讲座中,他们如何获得这些补丁?
我正在通过以下步骤实现视觉词袋:
我如何可视化这些视觉词?例如在接下来的讲座中,他们如何获得这些补丁?
每个 SIFT 描述符对应于图像的一个区域。您从一堆图像中获取这些并将它们分组到一些集群中。我认为他在幻灯片中展示的只是每个集群中的几个样本,他在事后为集群选择了具有人类意义的名称。
对于任何可能对我的问题感兴趣的人,这就是创建补丁的方式:
1)对于每个码本,找到SIFT描述符最接近码本的最近兴趣点
2)只需打印出围绕该兴趣点的窗口。
作为对您的自我回答的回复,码本只是整个训练集的一个,它描述了一组视觉词,这些词可能有一些人类解释,但不能保证。
关于如何提取每个关键点的补丁,我想说您还必须考虑提取它的比例(如果使用比例不变描述符)或描述符本身的相关路径大小。
作为旁注,不要使用分配给视觉词的关键点的可视化作为 BoF 模型质量的衡量标准,有几个因素会影响它,并且计算机授予的类似内容可能不像之前所说的那样具有人类解释。