感谢您的参考!您忘记提及您在鼓增强方面的工作,这可能对 Summer_More_More_Tea 的应用程序也很感兴趣。好吧,这一切都取决于你想用它做什么。你有一个特定的“最终应用程序”吗?
我完全同意皮切内特的上述说法。不过,为了完整起见,我应该说,您提到的人声增强功能也已用于 Matti Ryynänen 在卡拉 OK 音轨生成方面的一些作品中,以增强效果。
要回答您的问题:
鉴于有效性,哪个是首选(或任何其他解决方案:)?
正如 pichenettes 所说,似乎两者都不适合您的需要:由于人声的谐波结构(以及更普遍的任何“有趣”声音 - 即正弦曲线之外的任何东西...... )。
如果第二个,让两个通道A和B,计算背景时会使用(BA)还是(AB)?与合并两个通道一样,算术意味着足够准确吗?
同样,您提到的第二种方法不会这样做,因为您只能删除中心的信号,而不是检索它。换句话说,即使人声在“中心”,也没有简单的数学来获得只有人声的信号。
或者我可以将每个通道下采样两倍并将下采样的信号作为单声道结果交错?
呃......如上所述,平均通道以获得单通道信号是有意义的,并且不会破坏信号的频谱特性(假设立体声信号没有退化)。因此,您获得了一个单声道信号,其中基本上具有与以前相同的音乐内容。
正确地对每个通道进行下采样意味着您首先应用低通滤波器(在您的情况下,截止频率为 sampling_rate/4),然后您可以安全地每 2 个样本进行采样。然而,关于交错这样下采样的通道并没有太多可说的:在大多数情况下,这会破坏信号的频谱特性。你可能不希望那样。
实际上,低通滤波的操作随后每 2 个样本设置为 0,并在傅里叶域中保持这些 0 的引线,以“镜像”保留在高频分量上的低频分量。记住关于采样理论的信号处理课程:乘以一系列脉冲(或狄拉克)会导致与傅里叶域中的另一个狄拉克序列进行卷积,即在这种情况下,信号的频谱是重复的(周期化的)沿频率轴,周期等于采样率。
通常,在下采样时,您会删除 0(因为您假设新的采样率)。但是在这里,保留它们会导致非常烦人的额外高频分量。交织这些信号并不能纠正这一点。
好吧,总而言之,简短的回答是:不要那样做。:-)
最后,我可能还建议您使用我为 LVAICA 2012 会议开发的 GUI:它有一个git repo。我仍在调试和改进它,欢迎评论:D
希望有帮助!