我读过一些关于距离测量的论文,如欧几里得、曼哈顿或卡方,用于匹配基于梯度的图像描述符,如从 SIFT 算法(128-D 向量)计算的那些。他们中的大多数人指出,一种或另一种措施更适合该任务,并且该决定取决于假设的噪声分布(如果假设高斯噪声,则 L2 适合,拉普拉斯噪声则适合 L1)。
所以我的问题是:我如何确定描述符的分布以及这如何影响距离度量的选择?
在一篇论文中,作者指出分布将是正确匹配关键点的 SIFT 描述符之间的距离。但这是否意味着这种分布会因距离度量本身的选择而产生偏差?!
我读过一些关于距离测量的论文,如欧几里得、曼哈顿或卡方,用于匹配基于梯度的图像描述符,如从 SIFT 算法(128-D 向量)计算的那些。他们中的大多数人指出,一种或另一种措施更适合该任务,并且该决定取决于假设的噪声分布(如果假设高斯噪声,则 L2 适合,拉普拉斯噪声则适合 L1)。
所以我的问题是:我如何确定描述符的分布以及这如何影响距离度量的选择?
在一篇论文中,作者指出分布将是正确匹配关键点的 SIFT 描述符之间的距离。但这是否意味着这种分布会因距离度量本身的选择而产生偏差?!
为了获得您的分布或模式,一种基本方法是对数据进行聚类。这当然会使分布偏向度量,或者换句话说,分布将与度量相关联。例如,可以通过使用词汇树来量化 SIFT 描述符以可视化单词,然后绘制单个单词的 1D 直方图。这只是从大量 SIFT 描述符中执行此操作的一种可能方法。另一种方法是使用非参数方法(Parzen Window、Meanshift...)。在任何一种情况下,分布都将依赖于数据并且非常复杂。
我认为这个问题也值得一提论文中的 Root Sift 方法,大家应该知道改进对象检索的三件事,作者建议使用 Hellinger 距离而不是 Euclidean。实现非常简单(只需一个 sqrt)并且结果不断得到改进。K-means 仍然可以使用。显然,对于 SIFT,Hellinger 是比 Euclidean 更好的度量。