为什么短时傅里叶变换用于预处理音频样本?

人工智能 数据预处理 语音识别 傅里叶变换
2021-10-24 20:46:18

有人告诉我这是我应该如何预处理音频样本,但是这种方法实际上给了我什么信息?有哪些替代品,为什么我不应该使用它们?

1个回答

傅里叶变换用于变换音频数据以获取更多信息(特征)。

例如,原始音频数据通常由一维数组 表示x[n],它有一个长度n(样本数)。x[i]是第i个采样点的幅度值。

使用傅里叶变换,您的音频数据将表示为二维数组。现在,x[i]不是单个幅度值,而是组成第 i 帧原始值的频率列表(一帧由几个样本组成)。

见下图(来自维基百科),红色图是变换前n个样本的原始值,蓝色图是一帧的变换值。

在此处输入图像描述