RCNN 预测图像序列(视频帧)?

数据挖掘 美国有线电视新闻网 生成模型 循环神经网络
2022-03-02 13:39:03

在接下来的工作中,作者应用卷积递归神经网络 (RNN) 来预测由 2D 图像序列表示的微观结构的时空演化。特别是,他们应用某种3D-CNN 和 LSTM架构来预测晶体生长:

晶体生长演化

在上图中,我们可以从一个测试用例中看到 RNN 预测 (P) 与地面实况 (G),其中 RNN 基于 10 个输入帧输出 50 帧。

现在,这对我来说是新事物:RCNN 怎么可能生成图像作为输出?根据我(有限的)知识,能够在输出中生成新图像的唯一结构是生成对抗网络,如 GAN 和卷积编码器-解码器 NN(如 VAE),但显然作者通过单独堆叠 3D-Convs 和 RNN 来实现这些结果单位。

你见过这样的架构吗?

1个回答

作者在他们的补充信息中提供了这张图片: 在此处输入图像描述

在那里,你可以看到他们的解释。卷积层将图像编码为一些潜在空间表示。RNN 在这个潜在空间中运行,根据之前的观察生成一个新的潜在空间表示。对于任何潜在空间表示,解码器都可以将其转换为图像。

因此,RCNN 使用与您提到的模型类型(GAN、卷积编码器-解码器)基本相同的过程;有一个解码器将表示从潜在空间带到图像空间。