SIFT - 为什么每个八度有 s+3 个音阶?

信息处理 尺度空间
2022-01-13 08:26:01

我对 SIFT 有一个我不明白的问题。Lowe [1] 在他的工作中提出s=3,音阶的水平足够一个八度。之后,他提到你需要计算s+3关卡。

为什么需要 3 个而不是 2 个额外级别。我知道,由于您在相邻尺度中搜索极值,因此您需要在尺度上再增加一层,在尺度下再增加一层。

第三个额外的规模是多少?

非常感谢您!

[1] Distinctive Image Features from Scale-Invariant Keypoints
    D. G. Lowe
    Int. Journal of Computer Vision 60(2) (2004), pp. 91--110
2个回答

我们必须在每个八度音程的模糊图像堆栈中生成 s + 3 张图像,以便最终的极值检测覆盖一个完整的八度音程。

对于,这意味着您将拥有模糊图像(左图 1 中的论文中显示的高斯图像)。拥有高斯图像将产生DoG 图像(如右图 1 所示)。这将允许您在尺度上进行极值检测(使用图 2 中所示的方法)。s=3s+3=665s=3

我只能找到这是论文:

如该图所示,当每倍频程采样 3 个音阶时获得最高的可重复性,这也是本文中所有其他实验使用的音阶样本数。随着更多尺度的采样,重复性并没有继续提高,这似乎令人惊讶。原因是这会导致检测到更多的局部极值,但这些极值平均而言不太稳定,因此不太可能在变换后的图像中被检测到。

当他说 s+3 时,你指的是哪里?

我想这也取决于您使用的 DOG 过滤器的比例。我见过 DOGupper/DOGlower = 1.6,因为它非常稳定(D. Marr & E. Hildreth,“边缘检测理论”,1980 年)。这也接近 LOG 过滤器。