我正在尝试为英语语音开发一个错误发音检测模型。我使用 TIMIT 数据集,这是音素标记的音频数据集。
音素是任何感知上不同的声音单位。因此,我的数据集看起来像一个音频文件和对应于该音频的音素字符串。前任:
SX141.wav -> pl eh zh tcl t ax-h pcl p axr tcl t ih s pcl p ey dx ih n ax v aa dx ix z ix kcl kw aa dx ix kcl k ah m pcl p tcl t ih sh ix n
所以,问题是过拟合。我的模型非常擅长训练,但在测试方面很差。所以正因为如此,我想尝试综合增加我的数据集。也许改变音频的速度或添加一些背景噪音等。
是否有任何现成的解决方案可以将音频数据集加倍?或者,如何改变速度并在音频文件上添加一些噪音?会有帮助吗?