我希望这是主题,我通过这里的提案找到了这个: https ://area51.meta.stackexchange.com/questions/320/shall-we-unite-computational-science-proposals
BOW 的一个很好的视觉描述:
但是,我不太了解此处某些步骤的意义。我知道特征提取从图像中获取某种形式的独特特征。但就是这样。
编码似乎是某种形式的 kd-tree 操作,但似乎最常见的方法是直方图编码。只需通过编码阶段,我就可以进行对象识别,因为通过编码,我可以直接搜索匹配特征列。
但是标准模型还在继续,这就是我完全迷失的地方。
我不知道什么是池化。但我感兴趣的池化步骤是使用金字塔匹配内核进行最大或总和池化。汇集的意义何在?
最后,通过分类,使用某种形式的 SVM 将输入图像分类器与其他分类器进行比较。我有点理解这个过程,但它似乎没有必要,除非我需要找到一个对象属于哪个类,而不是识别一个对象本身。
那么忽略分类部分,编码和池化是如何工作的呢?如果我可以通过提取特征并将其与转换为 kd-tree 的特征数据库进行比较来实现对象识别,为什么还需要池化?