我正在尝试在 Tensorflow 中实现(作为一个玩具项目)语音识别的某些方面。我想用作训练和测试数据的音频文件具有不同的采样率(16、20、44 和 44.1 kHz)。
以下列表并不详尽,仅列出了我能想到的几个选项。
- 我可以使用 重新采样整个信号(这是非常非周期性的)
scipy.signal.resample,可能在用零填充以达到信号长度为 2 的幂之后,然后斩波等量。 - 我可以尝试将信号切割成短的、不重叠的窗口,
scipy.signal.resample在将它们重新粘合在一起并应用链的其余部分之前,我会使用这些窗口进行修改。 - 我可以将信号分割成重叠的窗口,
scipy.signal.resample然后以加权方式将它们粘在一起。 - 我可以使用获得的频谱图张量
tf.contrib.signal.stft并尝试对其进行拉伸,例如使用有理函数插值(反映声道的管模型) - 我可以假设该模型将学会从采样率中抽象出来,甚至可能通过在我感兴趣的实际模型之前添加卷积层来帮助它(或阻碍它?)。
我应该在模型的哪一步标准化采样率,我应该怎么做?