有人将如何使用深度学习对手语手势进行分类?例如,假设我有许多不同手势的视频文件。对于任何给定的手势,我可能有很多视频,每个视频都由许多帧组成。在尝试对图像中的 MNIST 数字进行分类时,输入的维度相对简单:高度、宽度和 RGB 通道。如何解释手势(随着时间的推移多帧)?时间会是第四维度吗?神经网络的架构应该是什么样子才不会过拟合?我应该使用一些东西而不是卷积神经网络吗?
编辑:
我知道可能有一些聪明的方法可以为手语预测器手动编码,但我更感兴趣的是如何构建神经网络并利用数据的时间分量(视频转换的价值所在)随着时间的推移帧)。对手势进行分类是对我要解决的实际问题的简化,因此我正在寻找一种可推广到其他类型问题的方法,在这些问题中可能需要查看视频的许多帧来预测目标多变的。