我正在尝试通过使用转换器的编码器部分然后使用其输出馈入 LSTM 网络来制作二进制文本分类模型。但是,我无法在训练集 (92%) 和验证集 (72%) 上都达到良好的准确度。我的方法正确吗?请告诉我设计模型和提高准确性的更好方法。
使用 Transformers 进行文本分类过拟合
数据挖掘
分类
nlp
变压器
文本分类
2022-03-11 05:11:02
1个回答
您的模型过度拟合。您应该尝试人们用来防止过度拟合的标准方法:
- 较大的 dropout(高达 0.5),在低资源设置中 word dropout(即,随机屏蔽输入标记)有时也有帮助(0.1-0.3 可能是合理的值)。
- 如果您有许多输入类,标签平滑会有所帮助。
- 您可以尝试较小的模型尺寸。
如果您使用预训练的 Transformer(例如 BERT),您当然无法更改模型维度。在这种情况下,您可以尝试为微调 BERT 设置一个比用于训练实际分类器的学习率小得多的学习率。
其它你可能感兴趣的问题