如果我使用从 N 个不同麦克风收集的数据训练语音识别模型,但将其部署在看不见的(测试)麦克风上 - 它会影响模型的准确性吗?
虽然我知道理论上可能会出现准确性损失,但有人对这个问题有任何实际经验吗?
如果我使用从 N 个不同麦克风收集的数据训练语音识别模型,但将其部署在看不见的(测试)麦克风上 - 它会影响模型的准确性吗?
虽然我知道理论上可能会出现准确性损失,但有人对这个问题有任何实际经验吗?
是的,它可以。但是,带有音频的训练和测试数据之间的其他差异可能会产生更大的影响:
说话者的身份(包括性别、年龄、体格、当地口音等的影响)
录音环境的声学(包括靠近麦克风、空间大小、硬表面的存在、背景噪音)
如果这些中的任何一个可能与您的训练数据不同,那么在训练和早期模型选择期间预测您的广义准确性将变得更加困难。
一种可能性是确保您的交叉验证集(您绝对应该拥有)也将数据从训练到测试中有所不同的事物分开。因此,您不是随机训练/ cv 拆分,而是按泛化关键的数据进行拆分。这有时称为分层训练/测试拆分。
如果您唯一关心的是麦克风的变化,请按麦克风类型拆分您的 train/cv 集。您将在模型选择过程的早期获得更好的评估,培训的泛化程度如何,并且可以将您的搜索重点放在尽管存在这种预期差异的情况下表现良好的模型。
由不同麦克风引起的信号记录中最常见的差异对识别准确性的影响即使不是零影响也很小,特别是如果我们谈论的是用另一个相同型号和制造商的麦克风改变一个麦克风:
但是,如果我们谈论与非常不同类型的麦克风一起使用的通用识别系统,那么有一些麦克风问题可能会导致您的系统完全失败:
例如,对于 IOT 应用程序,该列表的前两个是更具挑战性的应用程序。