识别歌曲中的数学函数

信息处理 算法 傅里叶变换 声音的 频谱
2022-01-10 08:31:06

我是 DSP 的新手,刚刚发现了这个 StackExchange,如果这不是发布这个问题的正确位置,我深表歉意。

有没有用更数学的术语描述流派的资源?例如,如果我对这首歌的这一部分的信号进行了 FFT(如果链接没有从那里开始,则为 2:09),我有什么方法能够检测到这部分的粗略排序的声音?像这样的声音是否遵循一些我可以比较的数学函数? http://www.youtube.com/watch?v=SFu2DfPDGeU&feature=player_detailpage#t=130s(链接立即开始播放声音)

是使用监督学习技术的唯一方法,还是有不同的方法(最好不需要监督)?

谢谢你的任何建议。

1个回答

我认为您正在寻找的区别更像是经验与理论(而不是监督与无监督),但我可能错了。换句话说,理想的情况是对各种流派有一个理论上的定义,而不是一堆不透明的数据,可以用来对歌曲进行分类[没有任何真正的理解]。

但是,对于一般的流派分类,您可能至少会被示例训练所困,即使只是为了首先创建流派的定义。关于你的例子,考虑一下人们 [在 YouTube 上] 争论给定曲目是否真的是 dubstep 的频率(例如,任何更dubby和更少wobbly的曲目,即使该类型开始时没有任何真正的 wobble)。人们通过示例随着时间的推移定义流派,因此可以合理地预期复制该行为的算法也需要一些示例。人们描述流派的方式几乎就像一个特征向量无论如何——他们会问一系列关于这首歌的问题(例如,它更不稳定还是更摇摆不定?它有很多低音吗?它有多长?节奏是多少?有声乐吗?等等)。

当然,您也许可以选择一个功能列表,这些功能也可以直观地了解该流派。像“动态范围”这样的特征是人们也可以通过耳朵检测到的,但是像“时域零交叉”这样的特征不会很直观——即使它很适合分类。以下论文有很多您可能会感兴趣的功能:

George Tzanetakis、Perry R. Cook:音频信号的音乐流派分类。IEEE Transactions on Speech and Audio Processing 10(5): 293-302 (2002)链接

对于测量粗糙度,心理声学粗糙度将是一个很好的起点,但可能不足以区分 dubstep 引线和电引线,例如。对于更细粒度的区别,需要研究的一件事是音色识别以下论文对技术进行了不错的调查:

TH Park,“迈向自动乐器音色识别”,博士。论文,普林斯顿大学,新泽西州,2004 年。链接

还有一个与音色、调音、频谱和音阶 中的感知粗糙度相关的模型,用于为任意音色构建自定义音阶。这个想法是非常接近的谐波产生被认为是不和谐的拍频。转述附录 F 和 E

什么时候F是在频率上有部分的频谱f1,f2,...,fn,内在不和谐[假设单位幅度]是

DF=1/2 i=1n j=1n d(|fifj|min(fi,fj))

在哪里

d(x)=e3.5xe5.75x

Plomp-Levelt 曲线的模型。

它用于测量给定和弦相对于音色的悦耳程度(通过最小化不和谐)。我不知道心理声学种类的粗糙度或内在的不和谐对于您的目的是否会非常有成效,但它们可能与其他指标结合使用。

在数学上对音色进行分类可能比流派更幸运。例如,弦具有偶次和奇次谐波,但单簧管只有奇次谐波(参见锯齿波方波)。Dubstep wobble 往往使用 LFO 驱动的滤波器(低通和/或共振峰滤波器)来完成,因此像Spectral Flux(参见上面的 [Tzanetakis])这样的功能可能是一个很好的起点。但是,我怀疑是否有人研究过摆动的数学分类;)