最适合使用固定摄像头进行视频分类的模型

人工智能 卷积神经网络 视频分类
2021-11-17 04:56:26

考虑一个记录给定区域的固定摄像机。在这个领域可能会发生三件事:

  • 无动作
  • 执行动作 A 的人
  • 执行动作 B 的人

我想训练一个模型来检测动作 B 何时发生。即使是单帧,人类观察者通常也可以识别动作 B,但使用短视频(在低 FPS 下几秒钟)会更容易。

什么是最适合这项任务的模型?我阅读了这篇论文,其中执行了不同类型的融合,以便将不同的帧提供给 CNN。有更好的选择吗?

1个回答

看来您需要一个时空模型来学习人体检测和动作。关于该主题的有趣论文,我建议您查看Vicky Kalogeiton 网站

她的博士论文 2017,V. Kalogeiton,在视频中定位空间和时间对象和动作,

基本上涵盖了她关于该主题的 3 篇论文:

Kalogeiton博士介绍总结。

引入一个端到端的多任务目标,共同学习对象-动作关系。动作对象检测器利用视频的时间连续性。

尽管类内变化是关键,表现为空间定位精度、外观多样性、图像质量、纵横比分布、物体大小和相机取景。
动作类是指一个原子类,例如跳跃、步行、跑步、攀爬等。

检测器构建anchor cuboids命名Tubelets并定义为具有相关分数的边界框序列。动作检测跨越一段时间(检测到的第一个和最后一个视频帧),并发生在每个帧的特定位置。帧内动作检测可能不明确。另一方面,序列比单帧包含更多信息(跨类相似性)来推断动作。

大多数以前的工作使用每帧对象检测,然后利用对象的运动来改进它们的空间定位或改进它们的分类。

贡献

  • 用于训练和测试目标检测器的静止帧和视频帧之间的差异(更多详细信息请参见第 3 章):
    • 空间定位精度,
    • 外观多样化,
    • 画面质量,
    • 方面分布,
    • 相机取景
  • 使用端到端的两流网络架构联合检测不受控制的视频中的对象-动作实例(更多详细信息请参见第 4 章)
  • 提出了ACtion Tubelet 检测器(ACT-detector),它将帧序列作为输入并输出Tubelets,即具有相关分数的边界框序列(更多细节请参见第 5 章)。