我读了一篇关于字幕视频的文章,我想在我自己的项目中使用解决方案 4(使用 CNN 提取特征,将序列传递给单独的 RNN)。
但对我来说,在这种方法中我们使用 Inception 模型而没有任何重新训练或类似的东西,这似乎真的很奇怪。每个项目都有不同的要求,即使您使用预训练模型而不是自己的模型,您也应该进行一些培训。
我想知道如何做到这一点?例如,我创建了一个项目,其中我使用具有 CNN 层的网络,然后是 LSTM 和 Dense 层。在每个时期,整个网络的所有层都有前馈和反向传播。但是如果你有 CNN 网络来提取特征和 LSTM 网络以序列作为输入。如果没有定义的输出,如何训练 CNN 网络?这个网络应该只提取特征,但网络不知道什么特征。那么问题来了:如何训练 CNN 提取相关特征,然后将这些特征传递给 LSTM?