ASR 的输出与验证的基本事实相比如何?

数据挖掘 nlp 相似 语音转文本
2022-02-17 14:52:55

我很好奇它是如何完成的,因为我有兴趣做类似的事情。我有一些手动转录的数据,其中包含多个扬声器的标签。我想比较开箱即用的 ASR(Google、AWS Transcribe)能够区分扬声器(或者简单地说,识别和转录多个扬声器的音频)。我想将它与我拥有的地面实况数据进行比较,并提出一个比较指标。

我可以使用 Levenshtein Distance 或 Ratcliff-Obershelp 相似度之类的东西作为衡量标准。但我正在尝试了解是否有更标准的方法来做到这一点?

1个回答

我正在寻找的答案是Word Error Rate这是比较 ASR 转录与基本事实的最标准方法。它的粒度比我想象的要小,基本上是单词级别而不是字符级别的 Levenshtein 距离。

python 中的jiwer还有一些其他指标,并且易于使用。