在为稀有事件检测(例如家庭设备音频流中的警报声)训练深度模型时,最好使用平衡验证集(50% 警报,50% 正常)来确定提前停止等,还是验证集代表现实?如果使用不平衡的、真实的验证集,它可能必须很大才能仅包含几个积极的事件示例,所以我想知道通常如何处理它。
在给定的警报声检测示例中,误报显然代价高昂,但我认为误报仍然具有相同的成本,因为该事件在现实中非常罕见,即使非常低的误报率仍然可能对应于低精度。此外,对我来说,异常检测在此示例中似乎不太适用,因为问题的开放集性质,其中音频流的“正常状态”没有明确定义(即可能有许多不可预见的噪音/声音除了警报)。
如果有人对这方面有见识,我将不胜感激!