我对如何为 ML 分类模型处理音频文件中的数据感到有些困惑。我有几个 .wav 文件,其中包含狗吠和猫“喵喵叫”。管道如下:
- 加载数据
- 将数据转换为所需窗口的 FFT
- 应用 MFCC 过滤
- 使用 DCT 进行反向变换
- 为窗口创建“频谱图”
- 训练模型?
我不明白的是:
如果我有不同大小的 .wav 文件,比如说 1 秒和 0.8 秒,我将得到不同数量的窗口,如果窗口大小为 0.1 秒,那么第一个文件将有 10 个窗口,第二个文件将有 8 个窗口,那么我怎样才能始终如一地将这些信息提供给学习算法。
该算法是否从整个 .wav 文件或逐个窗口学习?
如果算法从每个窗口学习,每个窗口会有不同的预测值吗?
谢谢你。