我一直在玩弄非负矩阵分解 (NMF)、独立分量分析 (ICA) 和独立向量分析 (IVA) 来分离语音混合。我正在尝试使用来自两个全向麦克风的录音来分离两个源。当我以瞬时方式综合生成混合物时,所有算法都提供了出色的分离效果。当我使用来自网络的房间脉冲响应数据生成卷积混合时,性能仍然很好。然而,当输入混合是真实世界的录音时,所有算法都会惨遭失败,比如在房间里大声朗读的男性和女性。
我可以在网上找到的所有示例,例如这个示例,也使用了合成卷积。这篇论文似乎提出了相同的建议,当它说
在受控的实验室实验中,BSSD 算法的表现非常好。然而,在现实世界中,他们陷入困境。如果我们将研究更多地集中在获得具有较少混响和噪声的信号所必需的实际声学工程上,那么我们当前的算法将会蓬勃发展。
我想知道是否发现了任何新算法来处理这种现实世界的混合物并提供令人满意的结果。