考虑一个记录给定区域的固定摄像机。在这个领域可能会发生三件事:
- 无动作
- 执行动作 A 的人
- 执行动作 B 的人
我想训练一个模型来检测动作 B 何时发生。即使是单帧,人类观察者通常也可以识别动作 B,但使用短视频(在低 FPS 下几秒钟)会更容易。
什么是最适合这项任务的模型?我阅读了这篇论文,其中执行了不同类型的融合,以便将不同的帧提供给 CNN。有更好的选择吗?
考虑一个记录给定区域的固定摄像机。在这个领域可能会发生三件事:
我想训练一个模型来检测动作 B 何时发生。即使是单帧,人类观察者通常也可以识别动作 B,但使用短视频(在低 FPS 下几秒钟)会更容易。
什么是最适合这项任务的模型?我阅读了这篇论文,其中执行了不同类型的融合,以便将不同的帧提供给 CNN。有更好的选择吗?
看来您需要一个时空模型来学习人体检测和动作。关于该主题的有趣论文,我建议您查看Vicky Kalogeiton 网站。
她的博士论文 2017,V. Kalogeiton,在视频中定位空间和时间对象和动作,
基本上涵盖了她关于该主题的 3 篇论文:
引入一个端到端的多任务目标,共同学习对象-动作关系。动作对象检测器利用视频的时间连续性。
尽管类内变化是关键,表现为空间定位精度、外观多样性、图像质量、纵横比分布、物体大小和相机取景。
动作类是指一个原子类,例如跳跃、步行、跑步、攀爬等。
检测器构建anchor cuboids
命名Tubelets并定义为具有相关分数的边界框序列。动作检测跨越一段时间(检测到的第一个和最后一个视频帧),并发生在每个帧的特定位置。帧内动作检测可能不明确。另一方面,序列比单帧包含更多信息(跨类相似性)来推断动作。
大多数以前的工作使用每帧对象检测,然后利用对象的运动来改进它们的空间定位或改进它们的分类。
贡献