我正在学习开发音乐流派分类模型。我有一个数据集,其中文件为“.au”格式,我需要将其转换为“.wav”。我使用 SoX ( Sound eXchange ) 来转换它。用一个简单的:
sox input.au 输入.wav
文件转换顺利。这样做会丢失哪些参数,这会影响我的模型的准确性?
我正在学习开发音乐流派分类模型。我有一个数据集,其中文件为“.au”格式,我需要将其转换为“.wav”。我使用 SoX ( Sound eXchange ) 来转换它。用一个简单的:
sox input.au 输入.wav
文件转换顺利。这样做会丢失哪些参数,这会影响我的模型的准确性?
从原始“音乐”的角度来看,与基本脉冲编码调制 (PCM)相比,.au 和 .wav 文件格式都可能引入一种有损压缩形式。部分原因是有些人偏离标准标准,包括 mu-law 压缩版本,AU 和 WAV 格式存在一些不一致。
由于 .au 是有损压缩的,重要的是在转换为 .wav 时不会丢失更多信息。从您与@Olli Niemitalo 的讨论来看,这些信息似乎保留了下来。但是,我有点担心文件大小相同(.au 文件)(我倾向于认为 .au 应该更小,具有基本设置):
Au 文件格式 [...] 最初 [它] 是无标题的,只是 8 位 µ-law 编码数据,采样率为 8000 Hz。其他供应商的硬件通常使用高达 8192 Hz 的采样率,通常是视频时钟信号的整数倍。较新的文件有一个由六个无符号 32 位字、一个可选信息块和数据(大端格式)组成的标题。
因此,您可以检查头信息以确定 .au 是如何压缩的,这里有哪些频道等。只要这些信息保留在 .wav 文件中,影响流派分类的机会就很小。
例如,在相同采样频率下的 µ-law 编码将由 SoX 表示为Precision: 14-bit, Bit Rate: 176k, Sample Encoding: 8-bit u-law
。现在 .au 文件和 .wav 文件都有相同的编码,所以假设 SoX 没有做任何明显愚蠢的事情,音频数据将是相同的。如果 .au 文件在注释字段中有元数据,它将丢失,因为它没有被 SoX 复制到 .wav 文件中。
由于我无法发表评论,因此在此处发布“答案”。
接受的答案在一个重要点上是不正确的。Au 可以与无损(线性 PCM)或有损压缩一起应用。无损模式仅允许 LPCM。有损模式允许使用多种编解码器,包括 μ-law、A-law 和 ADPCM。
Au 是一种古老的音频容器和文件格式,因此我不建议在 99% 的情况下使用它,但我想澄清一下它确实具有无损压缩功能。
下面引用的来源。
“音频头文件,.au”(1992 年 11 月 10 日)。太阳微系统。2020 年 2 月 16 日从https://pubs.opengroup.org/external/auformat.html检索
线性脉冲编码调制音频 (LPCM)。(2017 年 2 月 28 日)。国会图书馆。数字格式的可持续性:国会图书馆馆藏规划。2020 年 2 月 16 日从https://www.loc.gov/preservation/digital/formats/fdd/fdd000011.shtml检索