我对图像处理和人工智能很陌生。但我拥有创建可用于对象检测和识别的网络的专业知识。大多数时候,我使用的是 ANN 或朴素贝叶斯。
现在,我想开发一种动作识别方法,比如通过应用 ANN 来识别一个人是在慢跑、跑步还是步行。但是,我真的不知道如何对帧序列进行分类。
在静态图像中,分割和特征提取很容易。但是关于动态图像,我不确定这种方法。
提前致谢!
我对图像处理和人工智能很陌生。但我拥有创建可用于对象检测和识别的网络的专业知识。大多数时候,我使用的是 ANN 或朴素贝叶斯。
现在,我想开发一种动作识别方法,比如通过应用 ANN 来识别一个人是在慢跑、跑步还是步行。但是,我真的不知道如何对帧序列进行分类。
在静态图像中,分割和特征提取很容易。但是关于动态图像,我不确定这种方法。
提前致谢!
根据问题的复杂性,您可以使用完整的 LSTM 方法(如 dant 建议的那样),或者您可以尝试使用预处理来应对挑战并坚持使用您已经建立的 CNN 架构。
如果你想使用预处理,你基本上计算帧之间的增量图像,并在你的 CNN 中像“正常”帧一样使用它们。Deepmind 的 DQN 成功地使用了这种方法来理解玩 ATARI 游戏时的运动。这些图像相当简单,运动量有限,特别是与现实生活中的视频相比,所以这种简单的方法可能不足以解决您的问题,但我认为值得一试。
LSTM提供了一种处理顺序数据的简单方法(假设所有视频序列具有相同的帧数和分辨率)。