我有一个音频文件数据集,它们的长度相差几毫秒。有些比 1s 短一点,有些比 1s 长一点。它们都具有相同的采样率,即 20kHz,不同的是采样的数量。
有谁知道自动将它们转换为 20kHz 采样率的 1s 音频文件的方法?
编辑:我需要将音频转换为具有相同长度,以便我可以将它们输入到标准的全连接神经网络中。
我认为,如果音频长于 1 秒,则在开头和结尾剪切音频将是最好的解决方案。比如音频长1.1s,那我想把音频开头和结尾各剪5ms,转换成1s音频?如果数据更短,以某种方式在数据末尾添加一些“沉默”?
先感谢您!