应用 ConvNets 对运动/视频数据进行分类

数据挖掘 深度学习 图像分类 卷积神经网络
2022-02-14 09:58:50

有人将如何使用深度学习对手语手势进行分类?例如,假设我有许多不同手势的视频文件。对于任何给定的手势,我可能有很多视频,每个视频都由许多帧组成。在尝试对图像中的 MNIST 数字进行分类时,输入的维度相对简单:高度、宽度和 RGB 通道。如何解释手势(随着时间的推移多帧)?时间会是第四维度吗?神经网络的架构应该是什么样子才不会过拟合?我应该使用一些东西而不是卷积神经网络吗?

编辑:

我知道可能有一些聪明的方法可以为手语预测器手动编码,但我更感兴趣的是如何构建神经网络并利用数据的时间分量(视频转换的价值所在)随着时间的推移帧)。对手势进行分类是对我要解决的实际问题的简化,因此我正在寻找一种可推广到其他类型问题的方法,在这些问题中可能需要查看视频的许多帧来预测目标多变的。

1个回答

符号是“词”的视觉等价物,就像词可以分解成更小的部分一样,符号也可以分解成更小的有意义/有用的单元。例如,在美国手语( ASL)中,符号被分解为诸如手形方向运动身体位置等参数。每个参数可以采用一组有限的值,例如手形可以是闭合的拳头、张开的手、竖起的索引等。我希望神经网络需要学习这些参数及其值,同时学习忽略干扰和无意义的配置。也许最初的培训包括学习区分符号和非符号。正如有不同的口语一样,也有不同的手语。此外,存在不同的手语方言,如Black ASL,您的系统需要考虑这些方言。