我正在尝试使用此 repo 中完成的工作(神经网络): https ://github.com/jtkim-kaist/VAD
它是这样说的:
注意:要将本工具包应用于其他语音数据,应以 16kHz 采样频率对语音数据进行采样。
我有 48khz 的语音数据。我在一些地方读到降低采样率是一个复杂的过程,你不能只删除每个第 n 个数据点,你必须过滤东西......
如果我只打算使用我链接的存储库提供的神经网络工具包中的数据,这是否必要?如果是这样,是否有改变采样率的行业标准方法?
我意识到这可能取决于正在使用的功能。然而,使用的功能是这样的:
MRCG(多分辨率耳蜗)以多个光谱时间分辨率连接耳蜗特征
这是一个红润复杂的功能!假设我们只是在使用 Melspectogram(除非您愿意从 MRCG 的角度回答这个问题)。
神经网络可能会使用我们不会想到的 Melspectogram 的特征。这让我认为使用下采样语音数据训练神经网络是不明智的,除非我们打算在之后永远使用下采样到 16khz 的 48khz 数据进行预测......
你怎么看?我可以使用我的 48khz 数据 - 没有过滤的下采样 - 期望该模型将用于预测真实的 16khz 数据吗?
然后为了未来的读者,另一种方式怎么样?假设我有一个 8khz 的文件,我可以在不过滤的情况下将采样率提高到 16khz 吗?