数据挖掘 - 低数据集上的 ASR - 吾爱随笔录

数据挖掘机器学习深度学习预处理语音转文本

2021-09-23 05:55:14

我正在做 ASR（自动语音识别）作为低调数据集的硕士论文。语音和文本数据被标记。大约有 4000 个短语和大约 5 个小时的演讲。

我没有语音或信号处理方面的背景。预处理任务有多大？有人可以告诉我如何开始（MOOC ..）。是否有可能在 5 个月内完成这个项目？

1个回答

将有各种方法来解决这个问题。

为了开发自定义解决方案，最新研究利用递归神经网络等深度学习来执行语音识别。这是围绕这种方法最知名的论文之一。

我建议你看看 DeepSpeech。使用 PyTorch 或 Tensorflow 开始。这是一个 PyTorch示例，这是一个 TensorFlow示例。

如果您不知道任何一个框架，请使用 PyTorch。它更多地用于研究，因此将在学术领域找到更多示例/指导。我还认为 Tensorflow 的学习曲线更陡峭，部分原因是它们改变了很多东西（v1.0 vs v2.0）

如果您可以使用现有的解决方案，那么我建议您使用 Amazon Transcribe 或 Google Speech to Text 之类的解决方案，但根据经验，这些“现成”服务是为过度概括而量身定制的，并且对于特定问题域并不是很准确。让我知道我是否可以提供进一步帮助

其它你可能感兴趣的问题