为什么动作识别算法在 ucf101 数据集上的表现优于 HMDB51 数据集?

人工智能 神经网络 深度学习 分类 计算机视觉 动作识别
2021-11-11 09:06:44

如果我们看一下 UCF101 数据集的最新准确率,它约为 93%,而对于 HMDB51 数据集,它约为 66%。我查看了两个数据集,都包含相似长度的视频。我想知道是否有人可以直观地了解为什么 HMDB51 数据集更难。

1个回答

确实,乍一看,我们可以预期 101 个类别之间的分类会比 51 个类别之间的分类更难。然而,当涉及到动作识别应用程序时,许多方面都会发挥作用。

例如,HMDB51 包含几个关于不同面部动作的类别,如微笑、大笑、咀嚼……以及其他几个类别,如吃、喝。此类类别不存在于数据集 UCF101 的类别列表中,显然是最难处理的类别之一。它还声称有一些质量差的具有挑战性的视频。

很难提前预测数据集的分类难度。我们可以想象,当 state-of-the-art 达到超过 90% 的准确率时,是时候构建一个数据集,使这些方法无法寻找更强大的解决方案。我不太了解这些数据集,但在最难分类的数据集中,视频在视点、相机运动、照明变化、图像质量等方面很可能存在更大的可变性。

此外,请在此页面上查看 UCF101 数据集公布的结果。我不知道你从哪里找到你的准确度值,因为官网公布的准确率低于 43.9%。一些出版物不使用完整的数据集,只使用其中的一部分来展示他们设计的方法的性能。

最后,HMDB51数据集的官网报道如下:“UCF小组也一直在收集动作数据集,主要来自YouTube。UCF Sports有9种运动类型,共有182个剪辑,UCF YouTube包含11个动作类,而 UCF50 包含 50 个动作类。我们将在论文中表明,来自 YouTube 的视频可能会受到低级特征的严重偏见,这意味着低级特征(即颜色和要点)比中级恐惧更具辨别力(即运动和形状)。” 这也可以解释为什么可以取得更好的结果......