我正在构建一个 LSTM 来识别这个人是悲伤、快乐、愤怒还是中立。这是通过将他的声音波作为字节序列输入网络来完成的(每个字节是 0 到 255)。
问题是,我的数据集不够大,有没有有效的方法可以增加我的数据集?我正在训练 1.5 秒的短片,我有 800 个,这还不够。
我目前的augumentation是:
- 添加音量变化
- 添加一些白噪声,这使情况变得更糟:(
反转序列似乎不适用,毕竟,我的网络在完全训练后将预测非反转语音。
我正在构建一个 LSTM 来识别这个人是悲伤、快乐、愤怒还是中立。这是通过将他的声音波作为字节序列输入网络来完成的(每个字节是 0 到 255)。
问题是,我的数据集不够大,有没有有效的方法可以增加我的数据集?我正在训练 1.5 秒的短片,我有 800 个,这还不够。
我目前的augumentation是:
反转序列似乎不适用,毕竟,我的网络在完全训练后将预测非反转语音。
你的问题是从他的声音中识别一个人是悲伤、快乐、愤怒还是中性,这是情绪分类问题。对于语音,我们使用像 10-20 毫秒这样的短持续时间的帧,并从 MFCC 或其他频域特征中提取特征。我们提取短持续时间的帧,因为语音随时间推移是非平稳的,并且频域特征使特征具有移位不变性。
我建议你阅读一些关于情绪分类的最新研究论文,以获得情绪分类的最新研究。
语音中的情绪是通过音调和幅度随时间的变化来捕捉的。因此,跨时间捕获语音中的短时能量和瞬时音调频率是情感分类的基本特征。
通过增加音量和白噪声的变化来修改语音根本无济于事。
您需要使用以下步骤构建一个包含 4 个类别的情绪分类系统:悲伤、快乐、愤怒或中性: