我正在做 ASR(自动语音识别)作为低调数据集的硕士论文。语音和文本数据被标记。大约有 4000 个短语和大约 5 个小时的演讲。
我没有语音或信号处理方面的背景。预处理任务有多大?有人可以告诉我如何开始(MOOC ..)。是否有可能在 5 个月内完成这个项目?
我正在做 ASR(自动语音识别)作为低调数据集的硕士论文。语音和文本数据被标记。大约有 4000 个短语和大约 5 个小时的演讲。
我没有语音或信号处理方面的背景。预处理任务有多大?有人可以告诉我如何开始(MOOC ..)。是否有可能在 5 个月内完成这个项目?
将有各种方法来解决这个问题。
为了开发自定义解决方案,最新研究利用递归神经网络等深度学习来执行语音识别。这是围绕这种方法最知名的论文之一。
我建议你看看 DeepSpeech。使用 PyTorch 或 Tensorflow 开始。这是一个 PyTorch示例,这是一个 TensorFlow示例。
如果您不知道任何一个框架,请使用 PyTorch。它更多地用于研究,因此将在学术领域找到更多示例/指导。我还认为 Tensorflow 的学习曲线更陡峭,部分原因是它们改变了很多东西(v1.0 vs v2.0)
如果您可以使用现有的解决方案,那么我建议您使用 Amazon Transcribe 或 Google Speech to Text 之类的解决方案,但根据经验,这些“现成”服务是为过度概括而量身定制的,并且对于特定问题域并不是很准确。让我知道我是否可以提供进一步帮助