我是信号预处理的新手,我读到了 mel_spectrograms,MFCC's。现在我想应用它并使用 CNN 模型,但是我用于练习的数据具有不同持续时间的音频,现在正因为如此,mel_spectrograms 将具有不同的形状。为了将它们用作输入,该模型要求输入具有固定的形状。那么,我应该怎么做才能使它们具有特定的形状?
如何处理不同持续时间的音频数据?
信息处理
声音的
机器学习
mfcc
深度学习
2022-02-06 18:33:03
1个回答
在这种情况下,通常会进行标准化。例如,在您的训练和测试数据中,您需要相同的形状,因此您应该尝试类似,
mean = np.mean(X_train_features, axis=0)
std = np.std(X_train_features, axis=0)
X_train_features = (X_train_features - mean)/std
这里X_train_features
可以是频谱图或 mfcc 特征的数据框。
您可以将同样的事情应用于测试功能。要记住的一件事是训练和测试形状的列数应该相同。
您还可以查看一些与音频处理相关的 Kaggle 内核。
其它你可能感兴趣的问题