频谱图中的兴趣点

信息处理 fft 计算机视觉 频谱图 傅立叶
2022-01-27 01:35:31

我们有几个音轨,它们都是同一音轨在一种失真下的不同版本:音轨的速度增加了一个常数因子 K(因此频率乘以 K,时间步长除以 K),K相对较小(0.8< K < 1.2)。

我想知道从这些音轨中获得好的频谱图的最佳方法。在定义“好”的含义之前,让我先说明一下我的最终目标:我想根据最大振幅(即振幅 > 某个阈值)检索点,就像 Shazam 一样。还要定义一个好的阈值,但我正在考虑采用信号的平均局部 RMS 及其标准偏差,并使阈值 = 平均值(局部 RMS)+(常数因子)*std(局部RMS)。然后我想将计算机视觉算法应用于生成的图像以测量相似度。

然后将一个好的频谱图定义为:

  1. 频率以对数间隔兴趣点

  2. 对于一个轨道是沿另一轨道兴趣点的频率轴的平移。

你知道哪种类型的频谱图最好吗?(我正在考虑使用对数间隔的傅立叶变换或恒定的 Q 傅立叶变换)我的阈值会起作用还是有更好的阈值?对整个设计的任何评论将不胜感激。

0个回答
没有发现任何回复~