我需要解决一个视频分类问题。在寻找解决方案时,我只找到了将这个问题转化为一系列更简单的图像分类任务的解决方案。然而,这种方法有一个缺点:我们忽略了帧之间的时间关系。
那么,如何通过考虑帧之间的时间关系来使用 CNN 执行视频分类呢?
我需要解决一个视频分类问题。在寻找解决方案时,我只找到了将这个问题转化为一系列更简单的图像分类任务的解决方案。然而,这种方法有一个缺点:我们忽略了帧之间的时间关系。
那么,如何通过考虑帧之间的时间关系来使用 CNN 执行视频分类呢?
查看时空 CNN,它们将基于图像的 2D CNN 扩展到 3D 以处理时间。这些通常用于检测或分类视频中的动作。人们已经使用它们来识别各种运动中的特定动作,例如踢足球、投掷棒球或运球。它们已被用于识别视频中的火灾、烟雾、深度伪造和暴力。以下是一些帮助入门的文章。
源代码: