我正在阅读此处提供的 Faster R-CNN 论文。在第 6 页左下角的第 3.2 节中,作者描述了他们所说的区域提议网络之间的 4 步交替训练,用于获取用于对象检测的 Fast R-CNN 方法中的区域提议。他们写:
在本文中,我们采用实用的 4 步训练算法通过交替优化来学习共享特征。第一步,我们按照 3.1.3 节的描述训练 RPN。该网络使用 ImageNet 预训练模型进行初始化,并针对区域提议任务进行端到端微调。在第二步中,我们使用由 step-1 RPN 生成的建议,通过 Fast R-CNN 训练一个单独的检测网络。该检测网络也由 ImageNet 预训练模型初始化。此时两个网络不共享卷积层。第三步,我们使用检测器网络来初始化 RPN 训练,但是我们修复了共享的卷积层,并且只微调了 RPN 特有的层。现在这两个网络共享卷积层。最后,保持共享卷积层固定,我们微调 Fast R-CNN 的独特层。因此,两个网络共享相同的卷积层并形成一个统一的网络。
我不明白的是第三步。他们说他们使用检测器网络来初始化 RPN 训练。我不确定这意味着什么。检测器网络为给定图像中的对象输出边界框和类标签。
考虑特定于 RPN 的层。我们有一定数量的卷积层,然后是带有锚框的滑动窗口,用于回归和分类(类标签层)。作者是说最初训练的卷积层现在被 RPN 丢弃,并在第 2 步中被 Fast R-CNN 训练的卷积层替换吗?或者他们的意思是别的什么。