如何进行语音分析?

数据挖掘 机器学习
2022-02-12 15:55:45

我想分析语音样本以寻找语音语言病理学。我能找到的大部分资源都是关于语音识别的,这是一个完全不同的问题。

  1. 我将永远知道给定样本上所说的文本是什么。
  2. 我可以假设音频样本总是质量很好,没有背景噪音。

我想构建一个神经网络(或者可能是一些不同的模型)来检测某些异常,但我有几个问题。

  1. 我应该如何将输入传递给网络?输入将有两部分:语音和正在说出的文本(+标签)。我应该以某种方式划分这些部分还是将它们连接为一个样本?
  2. 我可以阅读哪些内容来更好地理解在 ML 环境中使用音频/语音?
1个回答

我认为你在这个问题上扔人工智能太快了。(正如您已经指出的,保持神经网络的替代方案开放:也许因子分析或主成分分析更合适,或者支持向量机)

首先,您必须在问题域中做更多的工作,以发现不同的病理可能导致不同的模型。

我的建议是从一种病理学开始。使用领域知识来确定某些样本中是否存在(以及在何种程度上)病理,以及如何在有限数量的参数中从音频样本中观察到病理。

对于某些病症,语音识别会有所帮助。您可以计算说出的文本和识别的文本的差异。计数(可能是这些计数中的模式)可能是模型的输入(不需要你已经提到的神经网络)。

其他一些病症需要在音频样本中进行音频频谱或时间观察(不自然的音高、不自然的停顿)。

举个例子:口吃。

我会查看音频样本和频谱中的模式差异。例如,口吃与常规语音的频谱图可能如下所示:在此处输入图像描述

因此,通常您希望检测/测量某些频率区域中的相对功率作为口吃的衡量标准,并使用此类数据学习您的模型。

另一种可能也可行的方法是通过语音识别运行口吃样本(和自然样本),以查看是否可以以可数/可测量的方式观察到差异。