音频分类数据平衡

数据挖掘 分类 阶级失衡 音频识别
2022-03-04 01:39:24

我正在尝试制作“汽车声音检测器”我有来自https://urbansounddataset.weebly.com/urbansound.html网站的数据。其中有 1000 个标记的声音,用于 10 个不同的类别(汽车声音、狗吠、钻头等)。因此,使用二元分类器我想检测给定的声音样本是汽车 -> 标签 1 还是来自该数据集的任何其他声音 -> 标签 0。

所以数据是高度不平衡的。1000 个 1 标记的汽车声音与 9000 个 0 标记的其他声音。

为了制作更平衡的集合,例如在测试和训练集中,我可以使用过采样创建 %50 / %50 拆分(不确定这是一个好主意)。但在现实生活场景中(麦克风聆听环境的声音),汽车声音的比例不会是 50%。也许对于每 100 种声音,麦克风选择的只有百分之一是汽车声音。

那么,为测试和训练集准备和拆分数据的更好/更现实的方法是什么?

1个回答

我想你可能混淆了训练集、验证集和实际输入的概念。训练集帮助你建立模型;验证测试让您验证模型的性能。(有时人们也会使用现实生活中的测试来确保模型不会过拟合)一旦你创建了一个模型,你的模型就会像一个黑盒子一样接受你的输入(即,可以是单个样本)并给你一个分类结果。因此,如果您只有 1% 的输入数据是汽车声音,这并不重要;如果模型构建得当,它将能够为您提供良好的预测。