数据挖掘 - 倾斜数据集的训练 - 吾爱随笔录

我有一个多类分类的问题，我正在使用一个简单的 2-Layer Bi-directional LSTM 和keras。

简单形式的模型：

Bidirectional LSTM (64)
Bidirectional LSTM (64)
Dense (128)
Activation Sigmoid
Dense (14)
Activation Softmax

我有一个原始的、倾斜的数据集，所以我自己做所有的预处理来平衡它。

准确度在 25 个 epoch 之后建立起来，但是 loss 有很大的变化，所以我决定复制更多的数据，所以我生成了 10*OriginalData，并再次进行了分类。

现在我的损失和准确性表现得更糟了。

我的问题是问题出在我的模型上，还是出在数据的复制上。一个模型是否有可能在数据较少的情况下工作得很好，但当它有这么多时就不太好？或者，也许我通过提供过度复制的数据导致它过度拟合？

注意：通过复制数据，我不是指复制，而是因为我使用音频数据，所以我使用不同的音调变化。