数据挖掘 - ASR 的输出与验证的基本事实相比如何？ - 吾爱随笔录

我很好奇它是如何完成的，因为我有兴趣做类似的事情。我有一些手动转录的数据，其中包含多个扬声器的标签。我想比较开箱即用的 ASR（Google、AWS Transcribe）能够区分扬声器（或者简单地说，识别和转录多个扬声器的音频）。我想将它与我拥有的地面实况数据进行比较，并提出一个比较指标。

我可以使用 Levenshtein Distance 或 Ratcliff-Obershelp 相似度之类的东西作为衡量标准。但我正在尝试了解是否有更标准的方法来做到这一点？