从车内人员的角度来看,如何将给定的图像(视频)序列分类为移动或静止?
下面是 12 个动画图像序列的示例。
- 从车内人的角度出发。
- 从车内人的角度保持静止。
我试图实现的方法:
一个简单的 CNN(带有 2d 卷积),这 12 张图像(灰度)堆叠在通道维度中(如 Deepmind 的 DQN)。CNN 的输入是
(batch_size, 200, 200, 12).具有 3d 卷积的 CNN。CNN 的输入是
(batch_size, 12, 200, 200, 1).CNN+LSTM(时间分布的二维卷积)。神经网络的输入是
(batch_size, 12, 200, 200, 1)。后期融合方法,即从序列中提取相隔一定时间步长的 2 帧,并将它们分别传递到 2 个 CNN(具有相同权重)中,并将它们连接到一个密集层中,如本文所述。这也类似于没有 LSTM 部分的 CNN+LSTM。该网络的输入是
(batch_size, 2, 200, 200, 1)-> 2 个图像是序列中的第一帧和最后一帧
我尝试的所有方法都未能实现我的目标。我尝试调整各种超参数,例如学习率、CNN 层中的过滤器数量等,但没有任何效果。
所有方法的 abatch_size为 8(由于内存限制)并且所有图像都是灰度的。我在最后一层使用 ReLU 进行激活和 softmax。没有使用池化层。
关于我的方法为什么失败的任何帮助或任何指向相关工作的指针

