信息处理 - 语音和音乐在频域上的根本区别是什么？ - 吾爱随笔录

信息处理语音处理语音识别演讲

2022-02-15 09:51:25

语音和音乐在频域上的根本区别是什么？

我可以主要考虑时域中可以将语音与音乐信号区分开来的特征，例如短暂的静音 [ Wolfe2002Speech ]。

也许基频可以用来区分语音和音乐？如果是，那么语音和音乐 $F_0$

2个回答

一种方法是查看 80 Hz 以下的能量。除非你有 James Earl Jones 的录音，否则几乎不会有任何用于演讲的音乐，任何带有贝斯和/或鼓的音乐都会有很多。

请注意，音乐录制存在巨大差异，语音也存在很大差异。为大多数所有录音创建一个能够可靠地区分两者的算法是相当复杂的。查看“平均频谱”并不是那么有用，因为任何单个实例都可以（并且确实）看起来与“平均频谱”完全不同。这实际上是机器学习的一个很好的候选者，尽管也存在许多确定性算法。

（仅使用平均幅度谱）：

其它你可能感兴趣的问题