我正在处理一个转录呼叫中心数据的数据集,其中客户在与座席交互时被记录下来。然后由外部转录系统自动转录。我想自动评估这些转录的质量。
可悲的是,质量似乎是灾难性的。在某些情况下,它只不过是胡言乱语,通常是由于机器无法处理不同的方言。我们无法访问原始录音(数据隐私),因此无法获取或创建真正的标签。该系统无法更换,因为我们致力于它。
再次问这个问题:有没有办法使用 NLP 方法自动评估转录质量?我们希望量化和比较转录质量,以过滤出最佳样本,以便在下游任务中对客户输入进行语义推断。我正在考虑诸如连贯性测量之类的东西,以找到在语法或语义上最有意义的句子。可悲的是,BLEU、WER 或 Rouge 之类的东西在这种情况下不起作用。
对于任何指向正确方向的事情,我将不胜感激。最重要的是,我们没有标签,它需要可扩展。
非常感谢!