人工智能卷积神经网络视频分类

2021-11-17 04:56:26

考虑一个记录给定区域的固定摄像机。在这个领域可能会发生三件事：

我想训练一个模型来检测动作 B 何时发生。即使是单帧，人类观察者通常也可以识别动作 B，但使用短视频（在低 FPS 下几秒钟）会更容易。

什么是最适合这项任务的模型？我阅读了这篇论文，其中执行了不同类型的融合，以便将不同的帧提供给 CNN。有更好的选择吗？

1个回答

看来您需要一个时空模型来学习人体检测和动作。关于该主题的有趣论文，我建议您查看Vicky Kalogeiton 网站。

基本上涵盖了她关于该主题的 3 篇论文：

Kalogeiton博士介绍总结。

引入一个端到端的多任务目标，共同学习对象-动作关系。动作对象检测器利用视频的时间连续性。

尽管类内变化是关键，表现为空间定位精度、外观多样性、图像质量、纵横比分布、物体大小和相机取景。
动作类是指一个原子类，例如跳跃、步行、跑步、攀爬等。

检测器构建anchor cuboids命名Tubelets并定义为具有相关分数的边界框序列。动作检测跨越一段时间（检测到的第一个和最后一个视频帧），并发生在每个帧的特定位置。帧内动作检测可能不明确。另一方面，序列比单帧包含更多信息（跨类相似性）来推断动作。

大多数以前的工作使用每帧对象检测，然后利用对象的运动来改进它们的空间定位或改进它们的分类。

贡献

用于训练和测试目标检测器的静止帧和视频帧之间的差异（更多详细信息请参见第 3 章）：
- 空间定位精度，
- 外观多样化，
- 画面质量，
- 方面分布，
- 相机取景
使用端到端的两流网络架构联合检测不受控制的视频中的对象-动作实例（更多详细信息请参见第 4 章）
提出了ACtion Tubelet 检测器（ACT-detector），它将帧序列作为输入并输出Tubelets，即具有相关分数的边界框序列（更多细节请参见第 5 章）。

其它你可能感兴趣的问题