ConvLSTMs 可以输出图像吗?

人工智能 深度学习 Python
2021-11-15 07:44:43

我正在处理一个图像到图像的回归任务,这需要我开发一个深度学习模型,该模型接收一系列 5 个图像并返回另一个图像。5 个图像的序列和输出图像在概念上和时间上相关。事实上,序列中的 5 个图像每一个都对应于模拟中的时间步长,而我试图预测的输出最终对应于该序列的第 6 个时间步长。

目前,我一直在训练一个简单的回归型 CNN 模型,该模型接收存储在列表中的 5 个图像序列,并输出与模拟中的下一个时间步相对应的图像。这确实适用于一个小而相当简单的数据集(13000 张图像),但在更多样化和更大的数据集(102000 张图像)上效果更差。

出于这个原因,我现在一直在研究一下,以便找到更好的方法来执行这项任务,我发现了 ConvLSTMs 的想法。但是,我已经看到这些应用于特征预测和描述该图像的句子的输出。我想知道的是ConvLSTMs是否也可以输出图像,但更重要的是它们是否可以应用于我的案例。如果不是,还有哪些其他类型的深度学习网络可以适合这项任务?

提前致谢!

1个回答

如果你只需要 5 帧来预测下一帧,那么我推荐一个U-Net 架构,它基本上是一个 CNN 编码器/解码器网络,其中解码器使用编码器中产生的中间特征以及它自己的特征生成输出图像。此外,除了对输出图像使用传统的 L2 损失之外,您还可以随时添加额外的 GAN 损失以使图像看起来更逼真。

如果使用更长的帧历史可以提供帮助,那么我建议您查看“循环环境模拟器”并将其与上述想法结合起来。

希望能帮助到你!