数据挖掘 - 如何在不访问真实标签的情况下评估语音到文本数据的质量？ - 吾爱随笔录

我正在处理一个转录呼叫中心数据的数据集，其中客户在与座席交互时被记录下来。然后由外部转录系统自动转录。我想自动评估这些转录的质量。

可悲的是，质量似乎是灾难性的。在某些情况下，它只不过是胡言乱语，通常是由于机器无法处理不同的方言。我们无法访问原始录音（数据隐私），因此无法获取或创建真正的标签。该系统无法更换，因为我们致力于它。

再次问这个问题：有没有办法使用 NLP 方法自动评估转录质量？我们希望量化和比较转录质量，以过滤出最佳样本，以便在下游任务中对客户输入进行语义推断。我正在考虑诸如连贯性测量之类的东西，以找到在语法或语义上最有意义的句子。可悲的是，BLEU、WER 或 Rouge 之类的东西在这种情况下不起作用。

对于任何指向正确方向的事情，我将不胜感激。最重要的是，我们没有标签，它需要可扩展。

非常感谢！