语音和音乐在频域上的根本区别是什么?
我可以主要考虑时域中可以将语音与音乐信号区分开来的特征,例如短暂的静音 [ Wolfe2002Speech ]。
也许基频可以用来区分语音和音乐?如果是,那么语音和音乐
语音和音乐在频域上的根本区别是什么?
我可以主要考虑时域中可以将语音与音乐信号区分开来的特征,例如短暂的静音 [ Wolfe2002Speech ]。
也许基频可以用来区分语音和音乐?如果是,那么语音和音乐
一种方法是查看 80 Hz 以下的能量。除非你有 James Earl Jones 的录音,否则几乎不会有任何用于演讲的音乐,任何带有贝斯和/或鼓的音乐都会有很多。
请注意,音乐录制存在巨大差异,语音也存在很大差异。为大多数所有录音创建一个能够可靠地区分两者的算法是相当复杂的。查看“平均频谱”并不是那么有用,因为任何单个实例都可以(并且确实)看起来与“平均频谱”完全不同。这实际上是机器学习的一个很好的候选者,尽管也存在许多确定性算法。
(仅使用平均幅度谱):
音乐通常涵盖所有范围,尤其是更现代的音乐。语音主要在中频
在几乎所有的音乐中都有一个支配键。这种音调及其泛音的频率将非常普遍,足以引起峰值。