我正在使用 Inception V3 上的迁移学习制作自定义图像分类器。我有 3 类图像,每类图像约 6K 图像。网络的输入维度为 500X500,网络的输出维度为 14X14x2048。我使用了全局平均池化,最终得到了一个大小为 2048 的向量。
为了得到一个基线模型,我最初在这个特征向量上训练了一个线性 SVM 分类器,(PS:网络没有针对这个数据集进行训练,现在我只是在 Imagenet 权重上使用前向传递)。
线性 SVM 分类器的准确率为 81%。(这有点令人惊讶,但我猜预训练的权重能够在这些图像中捕捉到很多区别)。
最后,为了至少使用神经网络复制结果,我使直到 2048 个特征向量的所有层都无法训练,并立即将其映射到 3 个输出的 softmax 激活输出层(这是唯一可训练的层)。
在进行了约 400 个 epoch 的训练后,验证准确率仍然在 33%-38% 之间波动,这绝对令人惊讶。它继续暗示相同特征向量上的 SVM 分类器能够学习神经网络无法学习的特征。
这种现象有什么合适的解释吗?