在评估 Nvidia-Deep Object Pose Estimation 时,我遇到了这些术语,信念图和亲和力图。关于这些术语的含义,我无法在网上找到令人满意的答案。
什么是“信念图”和“亲和图”?
数据挖掘
深度学习
英伟达
2022-03-05 21:58:19
1个回答
在计算机视觉中,姿态估计是对物体方向和定位的检测。
信念图
来自 Nvidia 的一个团队提出了“ Deep Object Pose Estimation ”,它有两个主要组成部分:
检测图像中的对象并生成 2D 关键点映射
将 2D 映射到 6D
据我所知,“信念图”是由他们系统的第一个组件生成的,并描述了 2D关键点映射的元素,然后由第二个组件投影到 6D。从文章:
前馈网络将大小为 w×h×3 的 RGB 图像作为输入,并产生两个不同的输出,即信念图和向量场。有九个信念图,一个用于 3D 边界框的投影 8 个顶点中的每一个,一个用于质心。类似地,有 8 个向量场指示从 8 个顶点中的每一个到相应质心的方向……以实现对同一类型对象的多个实例的检测。
亲和场
我没有遇到过相似度图,但是上面提到了相似度场作为他们姿势估计方法的灵感,特别是在“ Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields ”中。那篇文章旨在解决如何在包含多人的视频中将肢体归因于人的问题。
亲和图是“关键点关联的显式非参数表示,它编码人体肢体的位置和方向”,您可以在他们的视频中看到演示(非常酷)。
所以回到第一篇文章,亲和力场类似于上面提到的向量场。它们用于将身体部位与5中的特定人相关联,或者将信念图的顶点与表示4中的对象的质心相关联。
因此,信念图表示由其深层 CNN 提取的特征,而向量/亲和场有助于将这些顶点与已检测到的项目相关联。
其它你可能感兴趣的问题