数据挖掘 - 音频分类数据平衡 - 吾爱随笔录

我正在尝试制作“汽车声音检测器”我有来自https://urbansounddataset.weebly.com/urbansound.html网站的数据。其中有 1000 个标记的声音，用于 10 个不同的类别（汽车声音、狗吠、钻头等）。因此，使用二元分类器我想检测给定的声音样本是汽车 -> 标签 1 还是来自该数据集的任何其他声音 -> 标签 0。

所以数据是高度不平衡的。1000 个 1 标记的汽车声音与 9000 个 0 标记的其他声音。

为了制作更平衡的集合，例如在测试和训练集中，我可以使用过采样创建 %50 / %50 拆分（不确定这是一个好主意）。但在现实生活场景中（麦克风聆听环境的声音），汽车声音的比例不会是 50%。也许对于每 100 种声音，麦克风选择的只有百分之一是汽车声音。