Bert:端到端微调整个预训练模型与使用上下文标记向量

数据挖掘 词嵌入 伯特
2022-03-10 00:25:38

在 BERT 的官方github 页面中,它提到:

在某些情况下,不是对整个预训练模型进行端到端微调,而是获得预训练的上下文嵌入,这是从预训练的隐藏层生成的每个输入标记的固定上下文表示。 - 训练模型。这也应该可以缓解大多数内存不足的问题。

我想知道在哪些情况下,仅使用标记向量会更有益(除了内存不足问题)?

2个回答

它是这样的:在微调的情况下,您可能希望使用巨大的批量大小,这可能会导致内存不足 (OOM) 问题。在这种情况下,您可能会发现 BERT 的嵌入比对 BERT 本身进行微调有用。也许您可以考虑使用 BERT embeddings 来训练 CNN 或 RNN 分类器,这种情况下您可以尝试使用小批量(可以低至 1)获得 BERT 的 embeddings,然后使用这些 embeddings 进一步训练你的 CNN 或 RNN 分类器。

有研究探索了与直接使用向量表示相比,微调更好的不同情况。也许最相关的研究是调整或不调整?2019 年 ACL 会议上发布的《使预训练的表示适应不同的任务》。

他们的结果总结在表 1 中,因为 BERT 告诉我们,通常通过微调(火表情符号🔥)比直接使用表示(冰表情符号❄️)获得更好的结果:

在此处输入图像描述