我正试图围绕下一句预测在 RoBERTa 中的工作方式。根据他们的论文,在第 4.2 节中,我了解到在原始 BERT 中,他们使用了一对可能包含多个句子的文本段,任务是预测第二段是否是第一个段的直接后继。RoBERTa 的作者继续检查另外 3 种类型的预测——第一种与 BERT 基本相同,只是使用两个句段插入的两个句子,你仍然预测第二个句子是否是第一个句子的直接后继。但我无法理解其他 2 的目标是什么。我将在下面引用他们的解释:
• FULL-SENTENCES:每个输入都包含从一个或多个文档中连续采样的完整句子,因此总长度最多为 512 个标记。输入可能跨越文档边界。当我们到达一个文档的末尾时,我们开始从下一个文档中采样句子,并在文档之间添加一个额外的分隔符。我们去除了 NSP 损失。
• DOC-SENTENCES:输入的构造类似于FULL-SENTENCES,除了它们不能跨越文档边界。在文档末尾附近采样的输入可能少于 512 个标记,因此我们在这些情况下动态增加批量大小以实现与 FULL-SENTENCES 相似的总标记数量。我们去除了 NSP 损失。
因此,根据我在这两种训练策略中的理解,他们已经从相邻文档中采样了连续的句子,或者至少是连续的句子,我看不出他们试图预测什么——不可能是它们是否是连续的文本块,因为在我看来,他们的所有训练示例似乎都已经连续采样,因此使这样的任务变得多余。如果有人对这个问题有所了解,那将有很大的帮助,在此先感谢!