数据挖掘 - 在 Tensorflow 中处理不同采样率的音频数据 - 吾爱随笔录

我正在尝试在 Tensorflow 中实现（作为一个玩具项目）语音识别的某些方面。我想用作训练和测试数据的音频文件具有不同的采样率（16、20、44 和 44.1 kHz）。

以下列表并不详尽，仅列出了我能想到的几个选项。

我可以使用重新采样整个信号（这是非常非周期性的）scipy.signal.resample，可能在用零填充以达到信号长度为 2 的幂之后，然后斩波等量。
我可以尝试将信号切割成短的、不重叠的窗口，scipy.signal.resample在将它们重新粘合在一起并应用链的其余部分之前，我会使用这些窗口进行修改。
我可以将信号分割成重叠的窗口，scipy.signal.resample然后以加权方式将它们粘在一起。
我可以使用获得的频谱图张量tf.contrib.signal.stft并尝试对其进行拉伸，例如使用有理函数插值（反映声道的管模型）
我可以假设该模型将学会从采样率中抽象出来，甚至可能通过在我感兴趣的实际模型之前添加卷积层来帮助它（或阻碍它？）。

我应该在模型的哪一步标准化采样率，我应该怎么做？

waveform = tf.squeeze( tf.contrib.ffmpeg.decode_audio( tf.read_file(tf.placeholder(tf.string, name="filename")), file_format=tf.placeholder(tf.string, name="format"), samples_per_second=p["sample_rate"], channel_count=1)) log_mag_spectrogram = tf.log(tf.abs(tf.contrib.signal.stft( waveform, win_length, hop_length, n_fft, pad_end=False) + 1e-8))