我正在寻找实现一种时域音高修改算法,例如 PSOLA(音高同步重叠和相加)或 WSOLA(波形相似重叠和相加)。
目前我正在使用 PSOLA,但在我看来,WSOLA 对复杂波形的复音信号更稳健,而 PSOLA 更适用于人声等单音信号。我觉得使用 WSOLA 可以更好地适应未来,尽管我现在只对单声道信号感兴趣。
我想知道使用 WSOLA 与 PSOLA 相比是否有任何缺点。
似乎这两种技术都以类似的方式工作,都可以识别波形中的重复,尽管 WSOLA 不一定锁定到基本。基本锁定是否使 PSOLA 更适合人声?
更准确地说,我正在尝试找出 WSOLA 与 PSOLA 在以下任务中的优缺点:
- 音高校正
- 时间校正
- 共振峰校正