我正在尝试制作“汽车声音检测器”我有来自https://urbansounddataset.weebly.com/urbansound.html网站的数据。其中有 1000 个标记的声音,用于 10 个不同的类别(汽车声音、狗吠、钻头等)。因此,使用二元分类器我想检测给定的声音样本是汽车 -> 标签 1 还是来自该数据集的任何其他声音 -> 标签 0。
所以数据是高度不平衡的。1000 个 1 标记的汽车声音与 9000 个 0 标记的其他声音。
为了制作更平衡的集合,例如在测试和训练集中,我可以使用过采样创建 %50 / %50 拆分(不确定这是一个好主意)。但在现实生活场景中(麦克风聆听环境的声音),汽车声音的比例不会是 50%。也许对于每 100 种声音,麦克风选择的只有百分之一是汽车声音。
那么,为测试和训练集准备和拆分数据的更好/更现实的方法是什么?