我正在处理一个图像到图像的回归任务,这需要我开发一个深度学习模型,该模型接收一系列 5 个图像并返回另一个图像。5 个图像的序列和输出图像在概念上和时间上相关。事实上,序列中的 5 个图像每一个都对应于模拟中的时间步长,而我试图预测的输出最终对应于该序列的第 6 个时间步长。
目前,我一直在训练一个简单的回归型 CNN 模型,该模型接收存储在列表中的 5 个图像序列,并输出与模拟中的下一个时间步相对应的图像。这确实适用于一个小而相当简单的数据集(13000 张图像),但在更多样化和更大的数据集(102000 张图像)上效果更差。
出于这个原因,我现在一直在研究一下,以便找到更好的方法来执行这项任务,我发现了 ConvLSTMs 的想法。但是,我已经看到这些应用于特征预测和描述该图像的句子的输出。我想知道的是ConvLSTMs是否也可以输出图像,但更重要的是它们是否可以应用于我的案例。如果不是,还有哪些其他类型的深度学习网络可以适合这项任务?
提前致谢!