以下来自 Lowe 2004 年的论文 ( http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf )。
一种明显的方法是以适当的比例对关键点周围的局部图像强度进行采样,并使用归一化相关性度量来匹配这些强度。然而,图像块的简单相关性对导致样本配准错误的变化高度敏感,例如仿射或 3D 视点变化或非刚性变形。Edelman、Intrator 和 Poggio (1997) 已经证明了一种更好的方法。他们提出的表示基于生物视觉模型,特别是初级视觉皮层中的复杂神经元。这些复杂的神经元对特定方向和空间频率的梯度作出反应,但梯度在视网膜上的位置被允许在一个小的感受野上移动,而不是被精确定位。爱德曼等人。假设这些复杂神经元的功能是允许从一系列视点匹配和识别 3D 对象。
我试图理解 SIFT 描述符。我了解前一阶段(关键点检测器)。
我不知道为什么它是这样实现的。我想知道故事背后的故事。