目前,我正在尝试使用数据集 UrbanSound8K 来尝试一些音频分类。我已经陷入了预处理步骤。
由于音频的长度不同,比如 4 秒或 0.3 秒,我发现即使在使用 mel-spectrogram/MFCC 进行特征提取之后,也无法直接传递到像 PCA 这样的白化算法中。
所以我的问题是在这种情况下我能做什么。我想知道较短序列末尾的零填充。但它似乎不起作用,也不会产生好的结果。
我看到有些人使用 MFCC 并沿时间轴总结 MFCC,例如均值、方差、峰度、偏度……我认为这在这种情况下会起作用,但我只是想知道是否还有其他方法可以这样做。