低数据集上的 ASR

数据挖掘 机器学习 深度学习 预处理 语音转文本
2021-09-23 05:55:14

我正在做 ASR(自动语音识别)作为低调数据集的硕士论文。语音和文本数据被标记。大约有 4000 个短语和大约 5 个小时的演讲。

我没有语音或信号处理方面的背景。预处理任务有多大?有人可以告诉我如何开始(MOOC ..)。是否有可能在 5 个月内完成这个项目?

1个回答

将有各种方法来解决这个问题。

为了开发自定义解决方案,最新研究利用递归神经网络等深度学习来执行语音识别。是围绕这种方法最知名的论文之一。

我建议你看看 DeepSpeech。使用 PyTorch 或 Tensorflow 开始。这是一个 PyTorch示例,这是一个 TensorFlow示例

如果您不知道任何一个框架,请使用 PyTorch。它更多地用于研究,因此将在学术领域找到更多示例/指导。我还认为 Tensorflow 的学习曲线更陡峭,部分原因是它们改变了很多东西(v1.0 vs v2.0)

如果您可以使用现有的解决方案,那么我建议您使用 Amazon Transcribe 或 Google Speech to Text 之类的解决方案,但根据经验,这些“现成”服务是为过度概括而量身定制的,并且对于特定问题域并不是很准确。让我知道我是否可以提供进一步帮助