人工智能 - 连续动作/手势识别应如何与孤立动作识别不同地执行 - 吾爱随笔录

我将训练一个深度学习模型来对视频中的手势进行分类。由于该人将占据视频的几乎整个宽度/高度，并且我将对他或她正在做的手势进行分类，因此我不需要识别该人并在执行该动作的人周围创建一个边界框. 我只需要将视频序列分类到它们的类别标签。

我将在包含单个视频的数据集上进行训练，其中每个完整的视频剪辑都是特定的手势（所以它是像 UCF-101 这样的数据集，视频剪辑对应于类标签）。但是当我部署网络时，我希望神经网络在实时视频上运行。与实时视频的播放方式一样，它应该识别手势何时发生并指示它识别了该手势。

所以我想知道-如何在整个视频剪辑都是动作的孤立视频序列上训练神经网络（如上所述），但在实时视频上运行神经网络？例如，我可以使用 3D CNN 吗？或者我必须使用带有 LSTM 网络的 2D CNN 来代替它来处理实时视频吗？我担心的是，由于 3D CNN 会在许多帧上执行过滤器，所以在每一帧上运行 CNN 不会让它变得非常慢吗？但是，如果我使用带有 LSTM 的 2D CNN，那会更快吗？或者两者都可以正常工作？

提前谢谢你的帮助。