我一直在寻找比 STFT 更好的变换,具有高重叠。Transform 应该更适合人类的听觉系统。
我了解到,我可以使用至少 3 种方法,例如 MFCC、CQT 和 CWT。忽略 MFCC 并考虑 CQT 和 CWT,我有一些论文和论文,但不能真正说出哪个更好。我红色的一些论文说CWT只是CQT的特例,CQT更好。其他人说CQT是CWT的特例。(像这里的这个问题:CQT 和 WT 之间的区别)一些论文说 CQT 是不可逆的,因为有些样本永远不会被分析
所以我现在很困惑,CQT和CWT有什么区别?如果我需要时间和频谱分析,哪个更好?如果我正在为语音和音乐分析寻求良好的转换,那么哪种转换最适合我?
还有一个愚蠢的问题:这些变换是否需要重叠才能获得更好的结果?