在训练期间验证罕见事件检测模型的最佳方法是什么?

数据挖掘 深度学习 异常检测 阶级失衡 音频识别
2022-02-21 16:51:51

在为稀有事件检测(例如家庭设备音频流中的警报声)训练深度模型时,最好使用平衡验证集(50% 警报,50% 正常)来确定提前停止等,还是验证集代表现实?如果使用不平衡的、真实的验证集,它可能必须很大才能仅包含几个积极的事件示例,所以我想知道通常如何处理它。

在给定的警报声检测示例中,误报显然代价高昂,但我认为误报仍然具有相同的成本,因为该事件在现实中非常罕见,即使非常低的误报率仍然可能对应于低精度。此外,对我来说,异常检测在此示例中似乎不太适用,因为问题的开放集性质,其中音频流的“正常状态”没有明确定义(即可能有许多不可预见的噪音/声音除了警报)。

如果有人对这方面有见识,我将不胜感激!

1个回答

这是一个经验性问题,可以通过保留数据集来回答。创建不同的场景,看看模型在哪个场景中表现更好。