我将训练一个深度学习模型来对视频中的手势进行分类。由于该人将占据视频的几乎整个宽度/高度,并且我将对他或她正在做的手势进行分类,因此我不需要识别该人并在执行该动作的人周围创建一个边界框. 我只需要将视频序列分类到它们的类别标签。
我将在包含单个视频的数据集上进行训练,其中每个完整的视频剪辑都是特定的手势(所以它是像 UCF-101 这样的数据集,视频剪辑对应于类标签)。但是当我部署网络时,我希望神经网络在实时视频上运行。与实时视频的播放方式一样,它应该识别手势何时发生并指示它识别了该手势。
所以我想知道-如何在整个视频剪辑都是动作的孤立视频序列上训练神经网络(如上所述),但在实时视频上运行神经网络?例如,我可以使用 3D CNN 吗?或者我必须使用带有 LSTM 网络的 2D CNN 来代替它来处理实时视频吗?我担心的是,由于 3D CNN 会在许多帧上执行过滤器,所以在每一帧上运行 CNN 不会让它变得非常慢吗?但是,如果我使用带有 LSTM 的 2D CNN,那会更快吗?或者两者都可以正常工作?
提前谢谢你的帮助。