倾斜数据集的训练

数据挖掘 喀拉斯 lstm 过拟合
2022-03-11 19:36:18

我有一个多类分类的问题,我正在使用一个简单的 2-Layer Bi-directional LSTM 和keras

简单形式的模型:

Bidirectional LSTM (64)
Bidirectional LSTM (64)
Dense (128)
Activation Sigmoid
Dense (14)
Activation Softmax

我有一个原始的、倾斜的数据集,所以我自己做所有的预处理来平衡它。

  • 首先,我复制了原始数据并生成了 3*OriginalData 以生成更多未表示的某些类的示例。
  • 然后我进行了分类,下面描述了训练和验证集的损失和准确率历史

使用小数据集

准确度在 25 个 epoch 之后建立起来,但是 loss 有很大的变化,所以我决定复制更多的数据,所以我生成了 10*OriginalData,并再次进行了分类。

现在我的损失和准确性表现得更糟了。

使用大数据集

的问题是问题出在我的模型上,还是出在数据的复制上。一个模型是否有可能在数据较少的情况下工作得很好,但当它有这么多时就不太好?或者,也许我通过提供过度复制的数据导致它过度拟合?

注意:通过复制数据,我不是指复制,而是因为我使用音频数据,所以我使用不同的音调变化。

1个回答

它可能是您的模型或您的数据。您需要执行更改模型的实验(同时保持数据不变)以隔离因果关系。

是的 - 模型会随着更多数据而变得更糟。主要原因之一是模型的学习能力通常有限。简单模型只能成功地建模简单的关系。再一次 - 如果您拟合一个更复杂的模型,您将开始了解可能导致这种观察的机制。