我想在 tensorflow 上训练语音到文本模型。
代码位于: https ://github.com/bikramjitroy/speech-to-text/blob/master/TrainingUnitTest-CTCTrain.py
存储库中还存在一个示例“audio.wav”和“label.txt”文件。 https://github.com/bikramjitroy/speech-to-text
我正在加载一个wav
文件。每帧获得 20 个 mfcc 功能。将输入传递给一层 RNN(256 个隐藏单元),然后添加一个全连接层,然后使用ctc_loss
.
即使使用一个训练示例执行 500 步,准确度也不会增加:
Error = 70.932137 # 期望它应该接近于零
Accuracy = 0.62068963 # 预计这将变为零
我也尝试过双向 rnn,但这是不同的。
我在代码中做错了什么?