我有一个二进制声音分类器。我有一个从音频中提取的特征集,大小为 48。我有一个模型(多层神经网络),在测试和验证集上的准确率约为 90%。(没有标准化或标准化)
我看到特征值大多在 [-10, +10] 左右。但是有些特征的平均值为 4000。看到特征中不成比例的值,我认为一些特征缩放可能会改善情况。所以使用 scikit-learn 工具我尝试了以下方法:
- Simply removing the means from features
- Normalizer
- Min max scaler
- Robust Scaler
以上所有这些最终都将我的准确率降低到 ~ %50!(%100 召回率,%50 精度)
那么这怎么可能呢?规范化我的数据的正确方法是什么?