有没有什么方法可以在不使用傅立叶变换的情况下进行语音识别?

信息处理 信号分析 傅里叶变换 语音处理 语音识别
2022-02-15 17:19:40

我正在尝试研究语音识别以及为什么每个人都在讨论该主题时使用傅里叶变换。我知道我们会获得与发出的每个声音的频率相关的信息,这在此过程中非常重要,但是我想知道是否可以使用声波的幅度来识别音素以及与口语相关的信息.

1个回答

所有识别任务(甚至不必是语音识别)都是将非常高维的信号(您的语音记录的维度是音频样本的数量!)缩减为低维信号。

因此,通常建议通过简单的操作将输入信号转换为更容易降低维数的表示。对于语音,频域就是这样一种表示——在物理上,只有非常有限的一组离散频率足以构成语音。

因此,在该过程的早期进行频域变换(通常在语音识别中)很有意义:在变换之后,只有很少的系数包含信息,需要进一步评估。

因此,由于语音模型基于说话的物理特性,这是一个时频物理问题,因此很可能主动尝试远离频域的算法性能不佳。

然而,如今,许多分类问题都是使用深度神经网络解决的。这些基本上只是一个非线性函数网络,每个函数都有一个常数因子和偏移量。训练这样一个神经网络做一些有用的事情只是找到正确的因素和偏移量。有启发式方法可以让我们大规模地自动执行此操作。

这样的网络当然可以直接在离散的时域语音信号上进行训练,并且在进行充分训练后可能具有良好的识别率。

请注意,训练这样的神经网络本身并不是一项简单的任务;它通常是一个有意或固有的随机过程,可能会或可能不会导致正常工作的分类器。建立一个好的神经网络分类器而不是仅仅“做一些接近我想要的事情”的事情有很多经验和运气。

然而,信号的预处理方式会影响大小和成本,以及花费在训练上的努力,以及学习不会产生有效结果的机会。可以这样想:想象一下,与在线路的每一端都有一部可以进行一些错误纠正和声音增强的好手机相比,您必须通过电话连接不良来听别人说话来学习一门语言。

这里一个典型的预处理步骤是某种频域变换。仅仅因为这样的结果比时间表示更简洁地描述了语音内容,它还将使神经网络训练找到信号的重要和不重要部分的工作更容易。

所以,总结一下:

是的,您可以避免极其简单的傅立叶变换(或许多其他频域表示之一,其中许多都基于傅立叶变换),它可能会使您的生活变得比必要的困难得多。