我有一个关于物体识别的问题,尤其是识别汽车模型!我正在开始一项关于在不同图像中识别相同汽车模型的工作。目前,我认为 3D 对象识别的最佳算法之一是 SIFT,但在玩了一些演示实现之后,我有一种奇怪的感觉,这种算法在汽车等闪亮的金属物体上存在一些问题,特别是如果它们有不同的颜色。
有谁知道这方面的一些工作,一般来说有一些合适的算法可以在不同的图像中找到相同的汽车模型?
在此先感谢您的帮助!
我有一个关于物体识别的问题,尤其是识别汽车模型!我正在开始一项关于在不同图像中识别相同汽车模型的工作。目前,我认为 3D 对象识别的最佳算法之一是 SIFT,但在玩了一些演示实现之后,我有一种奇怪的感觉,这种算法在汽车等闪亮的金属物体上存在一些问题,特别是如果它们有不同的颜色。
有谁知道这方面的一些工作,一般来说有一些合适的算法可以在不同的图像中找到相同的汽车模型?
在此先感谢您的帮助!
我会看看所谓的“词袋”或“视觉词”方法。它越来越多地用于图像分类和识别。该算法通常从检测图像中的鲁棒点(例如 SIFT 点)开始。使用这些找到的点周围的区域(在您的情况下为 128 位 SIFT 描述符)。
在最简单的形式中,可以从所有图像的所有描述符中收集所有数据并将它们聚类,例如使用 k-means。然后,每个原始图像都有描述符,这些描述符有助于许多集群。这些簇的质心,即视觉词,可以用作图像的新描述符。基本上,您希望其描述符所贡献的图像集群能够指示图像类别。
同样,在最简单的情况下,您有一个集群列表,并且每个图像,您计算这些集群中的哪些包含来自该图像的描述符以及有多少。这类似于文本检索中使用的词频/逆文档频率 (TD/IFD) 方法。请参阅这个快速而肮脏的Matlab脚本。
这种方法正在积极研究中,并且周围有许多更高级的算法。
VLfeat 网站包含一个关于这种方法的更高级的演示,对 caltech 101 数据集进行分类。同样值得注意的是加州理工学院本身的结果和软件。