来自 Wang et al (2015) “Visual Tracking with Fully Convolutional Networks”:
顶层编码更多的语义特征并用作类别检测器,而较低的层携带更多的判别信息,可以更好地将目标与具有相似特征的干扰物区分开来。
我不太明白这个说法:这是否意味着算法首先识别对象所属的语义组,然后尝试区分它们?此外,是否还有其他出版物证明了层角色的差异?
来自 Wang et al (2015) “Visual Tracking with Fully Convolutional Networks”:
顶层编码更多的语义特征并用作类别检测器,而较低的层携带更多的判别信息,可以更好地将目标与具有相似特征的干扰物区分开来。
我不太明白这个说法:这是否意味着算法首先识别对象所属的语义组,然后尝试区分它们?此外,是否还有其他出版物证明了层角色的差异?
这是卷积网络的基本属性。第一层识别简单的特征,随着你在 CNN 中深入,每一层都使用前一层的特征来构建更复杂的特征。
我想说关于这方面的最新文章是Matthew D. Zeiler 和 Rob Fergus的Visualizing and Understanding Convolutional Networks。你可以在这里下载