了解 SURF 特征计算过程

信息处理 图像处理 计算机视觉 多尺度分析
2021-12-30 11:47:10

所以,我正在阅读关于SURF 的论文(Bay,Ess,Tuytelaars,Van Gool:Speeded -Up Robust Features (SURF),我无法理解下面的这一段:

由于使用了箱形过滤器和积分图像,我们不必迭代地将相同的过滤器应用于先前过滤层的输出,而是可以直接在原始图像上以完全相同的速度应用任何大小的箱式过滤器,并且即使是并行的(尽管这里没有利用后者)。因此,通过放大滤波器大小而不是迭代减小图像大小来分析尺度空间,图 4。

This is figure 4 in question.

图 4

PS:论文有整体图像的解释,但论文的全部内容是基于上面的特定段落。如果有人读过这篇论文,你能简单介绍一下这里发生了什么吗?整个数学解释非常复杂,首先要很好地掌握,所以我需要一些帮助。谢谢。

编辑,几个问题:

1.

每个八度音阶被细分为恒定数量的音阶级别。由于积分图像的离散性,2 个后续尺度之间的最小尺度差取决于偏二阶导数在求导方向(x 或 y)上的正叶或负叶的长度 lo,设置为过滤器尺寸长度的三分之一。对于 9x9 滤波器,此长度 lo 为 3。对于两个连续的级别,我们必须将此大小至少增加 2 个像素(每边一个像素),以保持大小不均匀,从而确保中心像素的存在. 这导致掩码大小总共增加了 6 个像素(参见图 5)。

Figure 5

图 5

我无法理解给定上下文中的线条。

对于两个连续的级别,我们必须将此大小至少增加 2 个像素(每边一个像素),以保持大小不均匀,从而确保中心像素的存在。

我知道他们正试图对图像的长度做一些事情,如果它甚至试图让它变得奇怪,那么有一个中心像素将使他们能够计算像素梯度的最大值或最小值。我对它的上下文含义有点不确定。

2.

为了计算描述符,使用了 Haar 小波。

哈尔小波

中间区域的低但. dx |dx|

3.

另一个

有一个近似过滤器的必要性是什么?

4. 我对他们发现过滤器大小的方式没有意见。他们凭经验“做了”一些事情。但是,我对这条线有一些唠叨的问题

上一节介绍的 9x9 滤波器的输出被认为是初始尺度层,我们将其称为尺度 s = 1.2(用 σ= 1.2 逼近高斯导数)。

他们是如何发现 σ 的值的。此外,下图中显示的缩放计算是如何完成的。我之所以要说明此图像,是因为值s=1.2不断重复,但没有明确说明其来源。 缩放图像

5. Hessian Matrix 表示L为高斯滤波器的二阶梯度与图像的卷积。

然而,据说“近似”行列式仅包含涉及二阶高斯滤波器的项。

的值为w

我的问题为什么像上面那样计算行列式,以及近似 Hessian 和 Hessian 矩阵之间的关系是什么。

2个回答

什么是冲浪?

为了正确理解发生了什么,您还需要熟悉SIFT:SURF 基本上是 SIFT 的近似值。现在,真正的问题变成了:什么是 SIFT?.

SIFT 既是一个关键点检测器,也是一个关键点描述符在检测器部分,SIFT 本质上是经典角点检测器(如 Harris 角点)的多尺度变体,具有自动调整尺度的能力。然后,给定一个位置和一个补丁大小(从比例得出),它可以计算描述符部分。

SIFT 非常擅长匹配局部仿射图像,但它有一个缺点:计算成本高(即长)。大量时间用于计算高斯尺度空间(在检测器部分),然后用于计算梯度方向的直方图(用于描述符部分)。

SIFT 和 SURF 都可以看作是具有自动尺度(即高斯大小)选择的高斯差异。为此,您首先构建了一个比例空间,其中输入图像以不同的比例进行过滤。尺度空间可以看作是一个金字塔,其中两个连续的图像通过尺度变化(即高斯低通滤波器的大小发生了变化)相关联,然后尺度按倍频程分组(即一个很大的变化)高斯滤波器的大小)。

  • 在 SIFT 中,这是通过使用固定宽度的高斯反复过滤输入来完成的,直到达到下一个八度音阶的比例。
  • 在 SURF 中,由于使用了积分图像技巧,您不会因高斯滤波器的大小而遭受任何运行时损失。因此,您可以直接计算在每个比例下过滤的图像(不使用前一个比例的结果)。

近似部分

由于计算高斯尺度空间和梯度方向的直方图很长,所以用快速近似代替这些计算是一个好主意(由 SURF 的作者选择)。

作者指出,小高斯(如 SIFT 中使用的高斯)可以很好地近似为平方积分(也称为框模糊)。由于积分图像技巧,这些矩形平均值具有快速获得的良好特性。

此外,高斯尺度空间本身实际上并没有被使用,而是用来逼近高斯的拉普拉斯算子(你可以在 SIFT 论文中找到这个)。因此,您不仅需要高斯模糊图像,还需要它们的导数和差异。因此,您只需进一步推动通过框近似高斯的想法:首先根据需要多次导出高斯,然后用正确大小的框近似每个波瓣。您最终将获得一组 Haar 功能。

增加 2

正如您所猜测的,这只是一个实现工件。目标是有一个中心像素。特征描述符是相对于要描述的图像块的中心计算的。

中部地区

当从黑色光线变为白色光线时,您会得到类似东西。然后,从白色到黑色,你有相反的和:all pix in columnx=Aall pix in columnx=A. 因此,你有一个小x对于窗口,但幅度的总和更高。

幻数

第一个比例是通过应用模糊获得的σ=1.2(或某些论文中的 1.4)。这是因为可以将自然(真实)清晰图像视为理想(无混叠)图像与宽度模糊核的卷积结果σ=1.2. 我不太记得它是从哪里来的,但在郭申宇关于 A-SIFT 的工作中也有明确的研究,所以你可以查看这个页面

为了识别潜在的兴趣点,通常使用高斯差分函数(DOG)对图像进行处理,从而使其不受尺度和方向的影响。

sigma在 SIFT 中,图像金字塔是通过使用递增值的 DOG 过滤每一层并取差来建立的。

另一方面,SURF 使用高斯拉普拉斯算子 (LoG)和不同大小的方形滤波器 (9*9, 15*15, ...) 应用更快的二阶高斯偏导数逼近。计算成本与滤波器大小无关。金字塔中的更高级别没有下采样(更改sigma),但只有过滤器尺寸的放大,从而导致具有相同分辨率的图像。

编辑

[1 -2 1]附加说明:您论文中的作者使用内核、[1 -2 1]'[1 -1;-1 1]进一步简化了 4 个方向 (x,y,xy,yx) 的高斯二阶导数[-1 1;1 -1]当过滤器大小增加时,您只需扩展简化的内核区域即可实现更大的区域。并且它相当于不同尺度的DOG(LoG曲线与DOG的形状相同,过滤器大小使得它们的宽度也相等)。