例如,假设我们正在构建一个基于人的图片的年龄估计器。下面我们有两个西装革履的人,但第一个显然比第二个年轻。
(来源:tinytux.com)
有很多特征暗示了这一点,例如面部结构。然而,最有说服力的特征是头部尺寸与身体尺寸的比例:
(来源:wikimedia.org)
所以假设我们已经训练了一个 CNN 回归来预测这个人的年龄。在我尝试过的许多年龄预测器中,上面这个孩子的形象似乎愚弄了预测,让他们认为他年纪大了,因为西装,很可能是因为他们主要依赖于脸:
我想知道一个普通的 CNN 架构能在多大程度上推断出头部与躯干的比例?
与能够在身体和头部获得边界框的区域 RCNN 相比,香草 CNN 的性能是否总是更差?
就在 vanilla CNN 中的 global flattening 之前(即在所有卷积之后),每个输出都有一个相应的感受野,它应该具有规模感。我知道更快的 RCNN 通过在这个阶段准确地提出边界框建议来利用这一点,以便所有先前的卷积滤波器自动训练到所有尺度。
那么,我认为香草 CNN 应该能够推断出头部与躯干大小的比例?这是正确的吗?如果是这样,使用更快的 RCNN 框架来利用可能已经在检测人员方面进行预训练的事实的唯一好处是什么?