为什么必须在 sift 中实现八度音阶

信息处理 尺度空间
2022-02-16 11:43:55

两个星期以来,我一直在努力学习 sift。我找到了很多关于尺度空间的资料。很难深入理解尺度空间。

我发现和令人困惑的是

尺度空间中的“尺度”是指高斯函数的 sigma。'octave' 用于表示缩小的图像。

在 Lowe 的论文中,对于每个八度音阶,图像都被表示出来。没有必要吗?换句话说,只有尺度空间就足够了吗?

我已经看过很多网站以及这里,但是缩放空间非常困难。有谁能详细解释一下吗?

2个回答

我不知道我是否完全理解你的问题,但我会努力澄清尺度空间、多分辨率八度音以及它们为什么对 SIFT 很重要。

要了解尺度空间,考虑如何识别不同距离的图像会很有帮助(例如,在远处,您可能能够区分一个人的形状。随着该人靠近,更具体的细节可能会变得明显,因此您可能会识别它们)。因此,在尝试识别图像中的特征时,空间尺度很重要。

但是,当我们处理图像时,我们不知道识别的重要特征将出现的空间尺度。因此,通过使用高斯滤波器对图像进行模糊处理,每张图像都代表了不同的空间尺度。重要的是要注意,当一个独特的特征出现在给定的尺度上时,它会在用较小内核平滑的图像中持续存在。一个有趣的问题是,我们是否可以确定给定特征在哪个空间尺度上呈现。这可以通过取两个高斯滤波器的差异来完成。这被称为高斯差(DOG)。这正是 SIFT 算法所做的——并且被认为在某种程度上近似于人类视觉系统。SIFT 通过寻找跨不同空间频带的极值来实现尺度不变性。

正是在这里,多分辨率金字塔发挥了作用。因为模糊图像代表较低频率的信息,所以在每个频带缩小图像在计算上更简洁。这允许采用统一的方法来探索信息的空间尺度。请记住,SIFT 的目的是找到在不同尺度上尽可能不变的特征。因此,能够探索特征出现的空间尺度很重要。

我希望这有帮助。您可能还会发现http://www.aishack.in/2010/05/sift-scale-invariant-feature-transform/很有用。

是的,只有缩放空间就足够了,但是在某些时候,当你缩小它时,而不是创建新的高斯过滤器,只调整图像大小并使用相同/旧的过滤器会更有效(即,不需要保留增加 sigma,而是减小图像大小)这与仅增加比例具有相同的效果(σ^2 = 比例)