使用手机上的音频进行情绪音调检测

信息处理 演讲
2022-02-21 10:42:54

应该使用哪些音频功能来检测音频中的音调?是否有任何开源框架或实现可以移植到手机上来处理音频?或者,是否可以从手机中收集音频特征,然后在服务器上进行处理以检测音调?

2个回答

我不知道你的问题有多大……这是否只处理已经检测到的单词?

正如@JimClay 提到的,这是一个非常非常困难的问题。对于这样的问题,不能简单地说“选择最高的“x””,因为这些特征对我们来说并不明显。(尽管它们对于我们大脑中不可观察的状态可能是显而易见的,不幸的是,我们无法通过内省来访问其信号处理范例)。

因此,在诸如此类的问题中,我会首先收集大量“愤怒”音调样本,以及大量“快乐”音调样本进行对比。您现在有两个选择:

1)我会“蛮力”它并开始寻找特征以在特征空间中友好地分离它们。老实说,如果不查看真实数据,很难说从哪里开始。非常粗略地说,我想愤怒的音调有更多的低频信息,而高音的快乐音调。然后,这有助于将数据的 DFT 作为 DFT_length 维度空间中的 1 个特征。当然,并不是所有的“低调”的声音都是生气的,也不是所有的高调的声音都是快乐的,所以你需要另一个特征向量来区分,以免你无意中创建了一个男女检测器......

2)我会使用不同的方法并简单地标记我的数据向量,(这里,每个数据向量是检测到的单词的时域片段,所有这些都被重新采样,以便它们具有相同的预定长度)。然后我会从一个简单的线性感知器开始尝试创建一个超平面来最好地将这两个类分开。(您可以向分类器添加一个额外的维度,通过将超平面提升一维来使线性不可分离的集群可分离)。一旦经过充分训练,您就可以使用该权重向量作为分类器并将所有数据向量投影到它以确定它属于哪个类。请记住,您需要大量的训练数据才能使其正常工作,因为在许多情况下,情绪可以通过单词和短语表现出来。这就是为什么我问你你的问题有多严重。(单词?短语?句子?等)。

在 IEEE 上有很多关于这个主题的论文。

是一篇关于该主题的论文,可供下载。您可以查看论文参考书目中的论文。