我正在做一个项目,任务是对鸟类的视频进行分类并预测物种。我尝试使用最初设计用于深度动作识别并针对我的数据集进行调整的机器学习模型。
数据集
该数据集由 9 个不同的类组成,大约有 3000 个带有标签的视频:
- 比约克特拉斯特 (Fieldfare)
- 科尔特拉斯特(黑鸟)
- Nötväcka (五子雀)
- Pilfink(树麻雀)
- 穆斯(鼠标)
- Blåmes(蓝雀)
- 罗德哈克(罗宾)
- 卡特(猫)
- 获取对象(无对象)
这是一个示例数据集的视频,其中包含我的深度学习模型应该能够预测的不同类:
方法
目前,我已将此代码库用于时间段网络来训练我的模型,我自己的数据集的结果准确度约为 87%(仅使用 RGB,不使用光流)。虽然取决于天气条件和照明,但准确度可能会有很大差异。
我使用以下技术将数据集扩展到大约 30 000 个视频:
- 将 RGB 噪声添加到训练数据集中已有的视频中。
- 向训练数据集中的视频添加随机扭曲和扭曲。
问题
我有几个关于做视频分类来预测鸟类的问题:
- 与使用时间段网络相比,是否有更好的视频分类技术?
- 是否应该执行任何预处理步骤来提高准确性?
- 如何训练模型更好地泛化以降低对照明和天气的敏感度?
- 如何训练模型对未知物种进行分类?
- 除了上面提到的之外,还有其他方法可以扩展数据集吗?
简而言之:鸟类视频分类的最佳深度学习模型是什么?
2018 年 4 月 17 日更新:我发现模型的准确度显着降低,因为物体挡住了与要识别的鸟类类别颜色相似的相机。这通常会导致模型错误地标记视频并设置高置信度。
![https://www.youtube.com/watch?v=4iNpw7J5q9I]](https://i.stack.imgur.com/ExQEP.jpg)