对于一个项目,我的目标是自动检测桌上足球(又名“桌上足球”)比赛中的目标。为此,我现在使用 Python 中的 openCV 库在每一帧中跟踪球。
为了确定一个球是否已经射入球门并且应该算作一个点,我想在包含目标和非目标的视频上训练一个神经网络。当很多帧都没有找到球时,我希望算法将视频通过神经网络来确定它是否因为球队得分而消失。
我一直在对视频分类技术进行一些研究,但目前无法真正确定哪种技术最适合对视频进行分类。
目前我正在考虑首先在视频中的单帧上训练一个 CNN,然后通过网络提供视频的卷积特征(分类层和全连接层弹出),之后卷积特征是对每个视频按顺序通过 LSTM 分类网络。
这是解决此类问题的最佳方法,还是有更好的技术可用?