在将 .au 转换为 .wav 以进行流派分类时,我应该注意哪些参数

信息处理 声音的 分类 音乐
2022-02-21 10:39:59

我正在学习开发音乐流派分类模型。我有一个数据集,其中文件为“.au”格式,我需要将其转换为“.wav”。我使用 SoX ( Sound eXchange ) 来转换它。用一个简单的:

sox input.au 输入.wav

文件转换顺利。这样做会丢失哪些参数,这会影响我的模型的准确性?

3个回答

从原始“音乐”的角度来看,与基本脉冲编码调制 (PCM)相比,.au 和 .wav 文件格式都可能引入一种有损压缩形式部分原因是有些人偏离标准标准,包括 mu-law 压缩版本,AU 和 WAV 格式存在一些不一致。

由于 .au 是有损压缩的,重要的是在转换为 .wav 时不会丢失更多信息。从您与@Olli Niemitalo 的讨论来看,这些信息似乎保留了下来。但是,我有点担心文件大小相同(.au 文件)(我倾向于认为 .au 应该更小,具有基本设置):

Au 文件格式 [...] 最初 [它] 是无标题的,只是 8 位 µ-law 编码数据,采样率为 8000 Hz。其他供应商的硬件通常使用高达 8192 Hz 的采样率,通常是视频时钟信号的整数倍。较新的文件有一个由六个无符号 32 位字、一个可选信息块和数据(大端格式)组成的标题。

因此,您可以检查头信息以确定 .au 是如何压缩的,这里有哪些频道等。只要这些信息保留在 .wav 文件中,影响流派分类的机会就很小。

例如,在相同采样频率下的 µ-law 编码将由 SoX 表示为Precision: 14-bit, Bit Rate: 176k, Sample Encoding: 8-bit u-law现在 .au 文件和 .wav 文件都有相同的编码,所以假设 SoX 没有做任何明显愚蠢的事情,音频数据将是相同的。如果 .au 文件在注释字段中有元数据,它将丢失,因为它没有被 SoX 复制到 .wav 文件中。

由于我无法发表评论,因此在此处发布“答案”。

接受的答案在一个重要点上是不正确的。Au 可以与无损(线性 PCM)或有损压缩一起应用。无损模式仅允许 LPCM。有损模式允许使用多种编解码器,包括 μ-law、A-law 和 ADPCM。

Au 是一种古老的音频容器和文件格式,因此我不建议在 99% 的情况下使用它,但我想澄清一下它确实具有无损压缩功能。

下面引用的来源。

  1. au文件信息

“音频头文件,.au”(1992 年 11 月 10 日)。太阳微系统。2020 年 2 月 16 日从https://pubs.opengroup.org/external/auformat.html检索

  1. “线性 PCM 捕获和编码音频,没有有损压缩。”

线性脉冲编码调制音频 (LPCM)。(2017 年 2 月 28 日)。国会图书馆。数字格式的可持续性:国会图书馆馆藏规划。2020 年 2 月 16 日从https://www.loc.gov/preservation/digital/formats/fdd/fdd000011.shtml检索