如何处理不同持续时间的音频数据?

信息处理 声音的 机器学习 mfcc 深度学习
2022-02-06 18:33:03

我是信号预处理的新手,我读到了 mel_spectrograms,MFCC's。现在我想应用它并使用 CNN 模型,但是我用于练习的数据具有不同持续时间的音频,现在正因为如此,mel_spectrograms 将具有不同的形状。为了将它们用作输入,该模型要求输入具有固定的形状。那么,我应该怎么做才能使它们具有特定的形状?

1个回答

在这种情况下,通常会进行标准化。例如,在您的训练和测试数据中,您需要相同的形状,因此您应该尝试类似,

mean = np.mean(X_train_features, axis=0)
std = np.std(X_train_features, axis=0)
X_train_features = (X_train_features - mean)/std

这里X_train_features可以是频谱图或 mfcc 特征的数据框。

您可以将同样的事情应用于测试功能。要记住的一件事是训练和测试形状的列数应该相同。

您还可以查看一些与音频处理相关的 Kaggle 内核。