我也在Stack Overflow上问过这个问题。但是,目前还没有答案,我认为这是一个更适合放置它的平台。
我正在尝试实现类似于此 Google Deepmind 论文的网络设置。他们的网络设置如下:
M θ是一个卷积网络,所以我想知道它们如何将输入帧与视点连接起来?据我所知,CNN 考虑到了空间信息,对吧?那么将帧与视点连接起来作为 CNN 的输入是否有意义?
提前致谢!
编辑
我正在考虑它,他们可能已经在卷积层后面的密集层上连接了视点。可能是这样吗?
我也在Stack Overflow上问过这个问题。但是,目前还没有答案,我认为这是一个更适合放置它的平台。
我正在尝试实现类似于此 Google Deepmind 论文的网络设置。他们的网络设置如下:
M θ是一个卷积网络,所以我想知道它们如何将输入帧与视点连接起来?据我所知,CNN 考虑到了空间信息,对吧?那么将帧与视点连接起来作为 CNN 的输入是否有意义?
提前致谢!
编辑
我正在考虑它,他们可能已经在卷积层后面的密集层上连接了视点。可能是这样吗?
这里的观点() 和对应的帧 () 未连接。 只是一个索引 . 正如他们在第 3.1 节中提到的, 是时间戳和 是实际的帧(图像)。卷积网络 应用于 , 不是 .
卷积网络后 , 不同帧的输出 加在一起(注意图中的“+”,以及等式 在第 3.2 节中。