图像检测中的词袋 (BoW) 模型

人工智能 机器学习 分类
2021-11-11 09:07:41

图像检索中的词袋(BoW)模型有什么好的例子吗?我想要一个简单的例子来了解BoW的整个过程。

1个回答

这是整个过程的插图,没有任何方程式,因此您可以了解全局。

从图像中提取特征。让我们以 SIFT 等非常常见的特征为例。对于图像的许多关键点(甚至每个像素),计算一个 128 维的 SIFT 特征。如果处理大量图像,则特征的数量会变得非常大。

一种更紧凑地表示图像集的方法是使用词袋(或视觉词袋)技术。这个想法是找到 k 个单词(即 k 个 SIFT 特征),每个图像都将从中表示出来。我们称这组 k 个单词为字典。

然后,每个 SIFT 特征将被分配给字典的最近词(例如,相对于欧几里得距离最近的 SIFT 特征)。您可以将其视为字典,其中“go”、“going”和“gone”等词都将由“go”一词表示)。

最后,每个图像仅由 k 个值表示(计算分配给字典中每个单词的单词/特征的数量)。这是一个直方图,您可以对其进行归一化以获得表示图像的单个比例向量。