数据挖掘 - 在训练期间验证罕见事件检测模型的最佳方法是什么？ - 吾爱随笔录

在为稀有事件检测（例如家庭设备音频流中的警报声）训练深度模型时，最好使用平衡验证集（50% 警报，50% 正常）来确定提前停止等，还是验证集代表现实？如果使用不平衡的、真实的验证集，它可能必须很大才能仅包含几个积极的事件示例，所以我想知道通常如何处理它。

在给定的警报声检测示例中，误报显然代价高昂，但我认为误报仍然具有相同的成本，因为该事件在现实中非常罕见，即使非常低的误报率仍然可能对应于低精度。此外，对我来说，异常检测在此示例中似乎不太适用，因为问题的开放集性质，其中音频流的“正常状态”没有明确定义（即可能有许多不可预见的噪音/声音除了警报）。

如果有人对这方面有见识，我将不胜感激！