我正在尝试使用神经网络从音频文件中实现口语标识符。我需要为每个音频文件生成一个特征向量。
从我读到的从 .wav 音频文件中提取的最佳功能(出于我的目的)是 MFCC。
有谁知道做这种事情的 Python 代码?
看看这两个 python 库,它们很容易从 WAV 文件中提供许多音频功能,包括 MFCC。
祝你好运!