我已经在图像上训练了一个卷积神经网络来检测情绪。现在我需要使用相同的网络从图像中提取特征并使用它们来训练 LSTM。问题是:顶层的尺寸是:[None, 4, 4, 512]
或[None, 4, 4, 1024]
。因此,从该层中提取特征将为每个图像生成一个4 x 4 x 512 = 8192
或维向量。4 x 4 x 1024 = 16384
显然,这不是我想要的。
因此,我想知道在这种情况下该怎么做以及如何提取大小合理的特征。我应该将全局平均池应用于激活还是什么?
任何帮助深表感谢!