数据挖掘 - Bert：端到端微调整个预训练模型与使用上下文标记向量 - 吾爱随笔录

Bert：端到端微调整个预训练模型与使用上下文标记向量

数据挖掘词嵌入伯特

2022-03-10 00:25:38

在 BERT 的官方github 页面中，它提到：

在某些情况下，不是对整个预训练模型进行端到端微调，而是获得预训练的上下文嵌入，这是从预训练的隐藏层生成的每个输入标记的固定上下文表示。 - 训练模型。这也应该可以缓解大多数内存不足的问题。

我想知道在哪些情况下，仅使用标记向量会更有益（除了内存不足问题）？

2个回答

它是这样的：在微调的情况下，您可能希望使用巨大的批量大小，这可能会导致内存不足 (OOM) 问题。在这种情况下，您可能会发现 BERT 的嵌入比对 BERT 本身进行微调有用。也许您可以考虑使用 BERT embeddings 来训练 CNN 或 RNN 分类器，这种情况下您可以尝试使用小批量（可以低至 1）获得 BERT 的 embeddings，然后使用这些 embeddings 进一步训练你的 CNN 或 RNN 分类器。

有研究探索了与直接使用向量表示相比，微调更好的不同情况。也许最相关的研究是调整或不调整？2019 年 ACL 会议上发布的《使预训练的表示适应不同的任务》。

他们的结果总结在表 1 中，因为 BERT 告诉我们，通常通过微调（火表情符号🔥）比直接使用表示（冰表情符号❄️）获得更好的结果：

其它你可能感兴趣的问题

上一篇有状态损失函数和在线回归下一篇如何可视化自然语言处理项目的数据？