ESC-50 二进制分类器的音频数据

数据挖掘 机器学习 音频识别
2022-02-26 08:11:41

我正在使用 ESC-50 数据集构建二进制声音分类器。我选了一门“狗吠”为阳性,其余 49 门课程为阴性。由于数据集不平衡,我遇到了很多培训问题。我尝试构建模型,但无法获得大于 0.3 的 f1 分数。

我正在使用 mfcc 和 fft 作为功能。我曾尝试使用 LR 和 SVM 进行训练,但没有取得多大成功。不能使用深度学习模型,因为它是一个实时系统并且不会有太多延迟。

我该如何解决这个问题?

1个回答

在 ESC-50 数据集的github 页面上,有一个尝试过的分类器列表以及相关论文的链接。最好的都是使用某种深度学习,主要是 CNN,目前最好的分数是 85.5%。基准随机森林(可在此处获得笔记本)达到44.3%,而 SVM(可在此处获得)达到 39.6%。

我建议你看看上面链接的方法,看看你是否可以改进它们。但是,为了获得更高的准确性,您可能需要某种深度神经网络。