训练集和测试集中使用的麦克风的变化会影响语音识别模型的准确性吗?

人工智能 深度学习 语音识别
2021-10-22 10:35:26

如果我使用从 N 个不同麦克风收集的数据训练语音识别模型,但将其部署在看不见的(测试)麦克风上 - 它会影响模型的准确性吗?

虽然我知道理论上可能会出现准确性损失,但有人对这个问题有任何实际经验吗?

2个回答

是的,它可以。但是,带有音频的训练和测试数据之间的其他差异可能会产生更大的影响:

  • 说话者的身份(包括性别、年龄、体格、当地口音等的影响)

  • 录音环境的声学(包括靠近麦克风、空间大小、硬表面的存在、背景噪音)

如果这些中的任何一个可能与您的训练数据不同,那么在训练和早期模型选择期间预测您的广义准确性将变得更加困难。

一种可能性是确保您的交叉验证集(您绝对应该拥有)也将数据从训练到测试中有所不同的事物分开。因此,您不是随机训练/ cv 拆分,而是按泛化关键的数据进行拆分。这有时称为分层训练/测试拆分。

如果您唯一关心的是麦克风的变化,请按麦克风类型拆分您的 train/cv 集。您将在模型选择过程的早期获得更好的评估,培训的泛化程度如何,并且可以将您的搜索重点放在尽管存在这种预期差异的情况下表现良好的模型。

由不同麦克风引起的信号记录中最常见的差异对识别准确性的影响即使不是零影响也很小,特别是如果我们谈论的是用另一个相同型号和制造商的麦克风改变一个麦克风:

  • 带宽差异:语音处于非常常见的(中央)带宽中,预计这些差异不会产生影响,即使对于低质量的麦克风也是如此。
  • 麦克风失真:与以前一样,它们不会产生影响,因为它们比扬声器的变化要小。

但是,如果我们谈论与非常不同类型的麦克风一起使用的通用识别系统,那么有一些麦克风问题可能会导致您的系统完全失败:

  • 麦克风灵敏度:小的灵敏度差异不会产生影响,因为它们的解决方法与扬声器音量/语调差异相同。但是,如果麦克风不够灵敏,则 S/N 可能会低于最低要求,特别是当扬声器增加与麦克风的距离时。
  • 缺乏波束形成:如果您的系统准备使用麦克风阵列来过滤噪声和/或二次源,则使用普通电话会降低准确性。
  • 采样率和/或采样位的变化:如果麦克风及其 A/D 的采样速度或大小(即蓝牙麦克风、电话线等)较低,则精度可能会失败。

例如,对于 IOT 应用程序,该列表的前两个是更具挑战性的应用程序。