首先让我们了解为什么格式是这样的。
BERT 使用格式进行了预训练[CLS] sen A [SEP] sen B [SEP]
。Next Sentence Prediction 任务有必要:确定 sen B 是否是与 A 没有链接的随机句子。
中间[SEP]
是帮助模型理解哪个token属于哪个句子。
在微调时,如果您使用与预训练格式不同的格式,您可能会混淆模型:他从未见过 2 个句子格式为[CLS] Sen A Sen B [SEP]
. 该模型不知道有 2 个句子,并将其视为一个句子。
如果你对足够多的数据进行微调,BERT 可以学习新格式。如果您需要更改输入格式,这会很有帮助。
但在你的情况下,你不需要这样做。为了改变格式而改变格式只会混淆你的模型,他将不得不学习更多的东西,并且会出现预训练和微调之间的不一致。
第二个中的 s1 会比第一个中的 s1 集成更多来自 s2 的信息吗?
不会。插入或不插入SEP
令牌不会改变两个句子的令牌之间的信息交换量。在这两种情况下,模型都将根据 2 个句子计算注意力。每个句子都可以看到另一个句子的标记,不管SEP
.
通过删除令牌,您唯一要做的SEP
就是混淆您的模型。
两种方法之间的令牌嵌入会发生很大变化吗?
我们不知道。它肯定会改变,但有多少?我们无法回答。我的猜测是令牌表示不会有太大变化(因为令牌是相同的),但CLS
表示会发生很大变化(而不是表示 2 个句子之间的链接,它将表示其他内容)。