训练转换器文本分类器以预测/处理看不见的标签的最佳实践

数据挖掘 火炬 变压器 文本分类
2022-02-13 10:02:31

我微调了 RoBERTa 序列分类器,以仅使用带标签的段落(并跳过没有给出标签的段落)对某些文档的段落进行分类。该模型也仅在标记段落上进行了验证和测试。如果交叉验证损失在 5 个时期内没有改善,我将使用早期停止标准来停止训练。

Training accuracy: 0.97
Validation accuracy: 1.00

现在,在对整个文档(标记和未标记)段落进行推理期间,我的模型正在预测每个段落的标签,这当然是预期的行为。

None如果模型的置信度得分低于 0.8(或其他),我希望用某种阈值(即预测为)来处理错误分类。不幸的是,该模型以相当高的置信度分数(~0.99)预测了一些未标记的段落,这使得使用任何阈值都是不可能的。

不幸的是,我的数据集仅包含 200 个数据点(我几乎一无所知,但获取更多数据对我的任务来说真的很难)。

现在我的问题:

  1. 你认为我的模型过拟合吗?(不过,验证和测试的准确性似乎还不错)
  2. 知道在推理时模型将看到以前看不见和未标记的文本,是否有最佳实践在有限的标签集上训练模型?
  3. 我可以尝试用未标记的段落给它们一个other标签来训练一个模型。但这似乎是不好的做法?
  4. 还有其他建议吗?
0个回答
没有发现任何回复~