我正在使用预先训练的语言模型进行二进制分类。我通过对下游任务的数据进行训练来微调模型。结果几乎是 98% F-measure。
但是,当我从训练数据中删除一个特定的相似句子并将其添加到我的测试数据中时,分类器无法预测该句子的类别。比如情感分析任务
“我更喜欢这部电影,特别是演技很棒”
我从训练中删除了所有包含“更具体”的句子,令人惊讶的是,在测试集中它们都被错误分类,因此精度大幅下降。
关于如何进一步微调/改进我的模型以更好地处理训练中看不见的文本以避免我上面描述的问题的任何想法?(当然没有在包含“更具体”这个词的句子上输入模型)
注意:无论使用何种语言模型(BERT、RoBERTa 等),我都观察到了相同的性能。