主成分分析 (PCA) 能否解决鸡尾酒会问题?

信息处理 声音的 音频处理 逆问题 主成分分析 源分离
2021-12-23 20:17:05

我正在研究鸡尾酒会问题,并试图弄清楚诸如主成分分析之类的东西是否足以将鸡尾酒会中的所有各种声音分离为其组成声源。

如果还不够,为什么?应该结合使用哪些其他技术,以便为每个鸡尾酒会顾客的声音提供不同的信号?已经提出了诸如各种波束形成方法的空间滤波。但在研究 PCA 时,似乎应该(可能)足以将鸡尾酒会的总信号“拆分”成参加派对的每个人声的单独信号。波束成形和类似方法似乎是过滤器,用于随后仅关注其中一个声音并将其余声音过滤掉。

任何有 PCA 经验的人都可以在这里权衡 PCA 是否可以解决这个问题,或者它是否需要额外的处理?

2个回答

鸡尾酒会问题是一个盲源分离(BSS) 问题。
给定信号的线性混合:

y[n]=Ax[n]

我们试图估计信号随时间变化时 ,模型会变得更加复杂:x[n]
A

y[n]=A[n]x[n]

我们有 3 种主要方法来解决这个问题:

  1. 概率方法
    将信号视为分布点的集合,并找到线性坐标变换以保证某些属性。PCA 方法试图去除相关性(第二时刻信息),而 ICA 试图去除更高时刻的相关性(基本上是统计独立性)。
  2. 时间信号处理方法
    如果有 2 个信号,其中一个是参考信号,我们可以使用自适应去相关滤波器。基本上,我们是在从信号中删除任何时间相关性之后。
  3. 空间信号处理方法
    我们可以利用房间中麦克风的已知位置来创建自适应波束成形。这个想法是数据的延迟自适应求和可以改变阵列的空间曲线并匹配某个方向。

当然,近年来,我们可以利用深度学习方法找到有关该主题的工作。它们的主要优势是能够整合额外的信息(比如使用信号的属性,无论是某种语言,在场景中整合视觉数据,如图像和视频[谁在什么时候动嘴唇?])。

这是一个广泛的主题,主要思想是根据您的具体情况定制解决方案。
现代鲁棒 ICA 和 IVA(独立向量分析)可能非常有效。
我会先尝试它们,除非你有匹配自适应滤波器的情况(可以证明在某些条件下匹配波束形成解决方案)。

语音源分离(SSS) 或音频源分离(ASS) 可以看作是源分离的特殊版本。我提到了这些表达方式,人们可以在这些表达方式下找到其他作品。对“鸡尾酒会问题”的一种接受是在复杂环境中聆听/恢复一种感兴趣的特定声音(单源与全部),而您的目标似乎更加雄心勃勃:混合所有源(另一个常用术语)。2015 年的论文重新审视鸡尾酒会问题:多说话者语音的早期处理和选择评论语音相关和感知问题。

它们识别的可能性在很大程度上取决于观测的质量和数量,以及观测信号的形成模型。如果模型是线性和瞬时的,这已经很复杂了。单通道源分离是一个感兴趣的特定主题。在非线性环境中,当源的数量大于观测值时,当发生卷积效应或回声时,当噪声难以处理时,如果没有额外的先验和辅助信息/模型,盲源分离技术不太可能成功。

在这种情况下,人类经常使用他们的双耳功能。因此,使用来自类似传感器的空间信息很有用,但这可能还不够。事实上,视听语音源分离是一个完整的领域,因为:

仅使用音频模态在嘈杂和混响环境中在多个麦克风处测量的语音信号的分离具有局限性,因为通常没有足够的信息来完全区分不同的声源。人类通过利用对背景噪声不敏感并且可以提供有关音频场景的上下文信息的视觉模态来缓解这个问题。

结合音频和视觉传感器是增加源多样性的一个例子:源可以避免在记录域中重叠的越多,分离的机会就越高。PCA 在这方面非常有限,因为它与相关性和正交性的联系过于紧密。它是线性的、非参数的,并且不能(容易)包含先验知识。它可以估计去相关的组件,最多旋转一次。换句话说,假设我们两个正在交谈。PCA 可以检测到以下两个来源:1)您的声音减去我的声音 2)您的声音添加到我的声音中,而不是您所期望的。然而,作为一种白化或压缩方法,PCA 可以用作其他方法的预处理,如独立分量分析 (ICA),例如 A. Hyvarinen、J. arhunen、E. Oja、独立成分分析,2001。

额外的语音特征,如时频域中的稀疏性(参见鸡尾酒会问题的稀疏表示,2006 年),更明智(更少盲)的源分离(参见从盲到引导音频源分离:模型和辅助信息如何改善声音的分离)可以提供帮助。

最后,链接Deep Learning Machine Solves the Cocktail Party Problem可能会为机器学习和人工智能的使用提供一些指导。