如何在不访问真实标签的情况下评估语音到文本数据的质量?

数据挖掘 nlp 文本挖掘 变压器 语音转文本
2022-02-11 22:49:03

我正在处理一个转录呼叫中心数据的数据集,其中客户在与座席交互时被记录下来。然后由外部转录系统自动转录。我想自动评估这些转录的质量。

可悲的是,质量似乎是灾难性的。在某些情况下,它只不过是胡言乱语,通常是由于机器无法处理不同的方言。我们无法访问原始录音(数据隐私),因此无法获取或创建真正的标签。该系统无法更换,因为我们致力于它。

再次问这个问题:有没有办法使用 NLP 方法自动评估转录质量?我们希望量化和比较转录质量,以过滤出最佳样本,以便在下游任务中对客户输入进行语义推断。我正在考虑诸如连贯性测量之类的东西,以找到在语法或语义上最有意义的句子。可悲的是,BLEU、WER 或 Rouge 之类的东西在这种情况下不起作用。

对于任何指向正确方向的事情,我将不胜感激。最重要的是,我们没有标签,它需要可扩展。

非常感谢!

2个回答

至少有一种方法:

  1. 为所说的语言创建/获取语法模型(对于 NLP 中使用的各种语言,有几个这样的模型)
  2. 测试成绩单的语法/句法是否正确。
  3. 这项评估至少会排除胡言乱语和大多数与所用语言的有效句子不对应的成绩单

我最近使用一堆方言研究语音到文本的 ASR 系统,目前的技术水平表明处理方言的最佳方法是使用 XLSR 的方法,微调你的模型以识别方言,而你在 N 种语言上对其进行预训练。要做到这一点并构建这样一个系统,实际上您可以使用 Transformer 来评估您的 WER 和 PER,甚至无需了解数据的外观,甚至无需首先理解语言。因为如果我们不是母语人士,方言通常不是一种容易理解的方式。

就是说,我只是想帮助您如何使用方言处理好您的模型,您可以查看它对我有很大帮助:https ://arxiv.org/abs/2006.11477 ,您也可以查看此https: //arxiv.org/abs/2006.13979