我需要开发一个进行语音识别的应用程序。因为我需要能够不断提高识别能力,所以我想用真实的录音来训练引擎,并将识别出的文本与预期的文本进行匹配。
要生成预期文本,我需要听录音,理解说话者所说的内容并手动编写“预期文本”。出于隐私原因,为了保护讲话者的身份,我会提供原始音频文件的失真版本供聆听,同时使用原始音频文件进行真实识别以改进系统。
从信号处理的角度来看,这个任务的一个好的流程是什么?
我需要开发一个进行语音识别的应用程序。因为我需要能够不断提高识别能力,所以我想用真实的录音来训练引擎,并将识别出的文本与预期的文本进行匹配。
要生成预期文本,我需要听录音,理解说话者所说的内容并手动编写“预期文本”。出于隐私原因,为了保护讲话者的身份,我会提供原始音频文件的失真版本供聆听,同时使用原始音频文件进行真实识别以改进系统。
从信号处理的角度来看,这个任务的一个好的流程是什么?
出于隐私原因,为了保护讲话者的身份,我会提供原始音频文件的失真版本供聆听,同时使用原始音频文件进行真实识别以改进系统。
这行不通。
关键是你的语音识别算法的全部工作是弄清楚你的音频信号中哪些“分量”是重要的,它们的含义是什么,并忽略与文本内容无关的东西,即说话者的身份.
通过想要一种去除信号的主要方面但保留原始语音内容的算法,您首先需要有一种算法能够区分内容方面的重要成分和不重要的成分。这将是您的语音识别算法的主要部分,这正是您最初想要构建的。
一般来说,这听起来像是你想做一些其他公司在一个小团队和很少经验的情况下花费数百万美元的事情。恐怕这不是一个真正有前途的方法。