使用 Keras 将空间输入与标签相结合作为 CNN 的输入

数据挖掘 美国有线电视新闻网
2021-09-24 03:53:19

我也在Stack Overflow上问过这个问题。但是,目前还没有答案,我认为这是一个更适合放置它的平台。

我正在尝试实现类似于此 Google Deepmind 论文的网络设置他们的网络设置如下:

在此处输入图像描述

M θ是一个卷积网络,所以我想知道它们如何将输入帧与视点连接起来?据我所知,CNN 考虑到了空间信息,对吧?那么将帧与视点连接起来作为 CNN 的输入是否有意义?

提前致谢!

编辑

我正在考虑它,他们可能已经在卷积层后面的密集层上连接了视点。可能是这样吗?

1个回答

这里的观点(v一世) 和对应的帧 (F一世) 未连接。 v一世 只是一个索引 F一世. 正如他们在第 3.1 节中提到的,v一世 是时间戳和 F一世是实际的帧(图像)。卷积网络θ 应用于 F一世, 不是 v一世.

卷积网络后 θ, 不同帧的输出 r一世 加在一起(注意图中的“+”,以及等式 r=r1+...+r 在第 3.2 节中。