我有一个多类分类的问题,我正在使用一个简单的 2-Layer Bi-directional LSTM 和keras。
简单形式的模型:
Bidirectional LSTM (64)
Bidirectional LSTM (64)
Dense (128)
Activation Sigmoid
Dense (14)
Activation Softmax
我有一个原始的、倾斜的数据集,所以我自己做所有的预处理来平衡它。
- 首先,我复制了原始数据并生成了 3*OriginalData 以生成更多未表示的某些类的示例。
- 然后我进行了分类,下面描述了训练和验证集的损失和准确率历史
准确度在 25 个 epoch 之后建立起来,但是 loss 有很大的变化,所以我决定复制更多的数据,所以我生成了 10*OriginalData,并再次进行了分类。
现在我的损失和准确性表现得更糟了。
我的问题是问题出在我的模型上,还是出在数据的复制上。一个模型是否有可能在数据较少的情况下工作得很好,但当它有这么多时就不太好?或者,也许我通过提供过度复制的数据导致它过度拟合?
注意:通过复制数据,我不是指复制,而是因为我使用音频数据,所以我使用不同的音调变化。

